NZZ,24.12.22
Der Roboter schreibt nicht, er schwafelt
Neun Missverständnisse um die KI
Künstlich intelligente (KI) Systeme schreiben teils exzellente Prosa. Von sich reden macht gegenwärtig der Textgenerator GPT-3 («generative pretrained transformator 3»). Seine Performance ist oberflächlich beeindruckend, was genügt, dass er in einem Klima aufgeblähter Erwartung unkritisch als Hype-Maschine zelebriert wird, im Sinne von «Der Computer holt uns ein..». Aber der Roboter bleibt ein «Schwafler» («bloviator»), um hier den Begriff des amerikanischen KI-Forschers Gary Marcus zu verwenden. Umso wichtiger erscheint es, ein paar Missverständnisse hervorzuheben.
***
Erstens: Was man beim GPT-3 «Schreiben» nennt, ist ein statistischer Prozess. Der Textgenerator setzt eine unvollständige Wörterfolge – ein «Prompt» - mit einem neuen Wort fort. Er findet dieses Wort aufgrund eines Trainings. Er durchsucht eine Textmenge und lernt, welche Wörter häufig im Zusammenhang mit einem Wort vorkommen. Wenn er also in vielen Texten in der Nähe von «Saxophon» oft «Jazz» und «spielen» und selten «Fahrstuhl» findet, dann lautet der Output auf das Prompt «Er ergriff das Saxophon, um…» wahrscheinlich «Jazz spielen». Erstaunlich ist, wie ein auf einer hinreichend grossen Datenmenge vortrainierter Algorithmus eine Wörterfolge «sinnvoll» extrapolieren kann.
Was nicht bedeutet, dass er - zweitens - den Sinn der Wörter kennt. Der Textgenerator ist, wie gesagt, eine statistische Maschine, keine semantische. Er lernt, Daten zu klassifizieren, indem er Datenwolken voneinander unterscheidet, etwa Katzendaten von Hundedaten. Er lernt dadurch eine Art von Generalisieren. Und er kann dann das Unterscheiden auch auf neue Daten anwenden, ohne sie zu «begreifen». KI-Systeme erwecken neuerdings sogar einen «kreativen» Ein-druck. Der Trick ist unscheinbar, aber entscheidend. Man baut einen Zufallsfaktor ein. Der Textgenerator schreibt nicht immer das wahrscheinlichste Wort hin, sondern wählt das nächste Wort zufällig aus einer Wahrscheinlichkeitsverteilung aus. Auf diese Weise kommt es vor, dass der generierte Text eine ungewohnte Wendung nimmt. Also in unserem Beispiel etwa: «Er ergriff das Saxophon, um … den Fahrstuhl anzuhalten».
***
«I’m not afraid of throwing grammar around me», soll die Filmschauspielerin Mae West gesagt haben. Das könnte auch GPT-3 von sich behaupten. Obwohl sein Output grammatikalisch korrekt ist und sogar sinnvoll erscheint, kann man drittens nicht davon ausgehen, dass GPT-3 einen Text wirklich im Sinne der Eingabe «weiterschreibt». Das lässt sich gut anhand von Tests über-prüfen. Betrachten wir ein Beispiel von Gary Marcus. Er gibt dem Roboter ein: «Ich bin Anwalt und muss heute vor Gericht erscheinen. Ich merke, dass meine Hose völlig verdreckt ist. Hinge-gen ist meine Badehose sauber und erst noch chic. Ich entschliesse mich..», und GPT-3 fährt fort: «.. die Badehose vor Gericht zu tragen». Der Textgenerator scheint «anzunehmen», dass die Badehose eine zu erwägende Alternative für eine Anzugshose ist. Er «weiss» nicht, dass kein Anwalt vor Gericht in der Badehose erscheint. Ihm fehlt das, was die Computerwissenschafter «frame» nennen, der Alltagsrahmen zur Reaktion auf Nuancen, Ambiguitäten und unerwartete Eventualitäten, kurz: der Commonsense.
In der KI-Forschung haben solche Prüfungen eine 70-jährige Tradition, seit dem berühmten Turing-Test. Speziell beim GPT-3 muss eine Jury beurteilen, ob ein Textoutput eindeutig von einer Person oder einem Computer stammt. Ausweis für das hypothetische «intelligente» Schreibvermögen des Computers ist also, dass er Jurymitglieder täuschen kann; dass es uns nicht gelingt, seinen Output als eindeutig künstlich oder menschlich zu identifizieren. Aus einem solchen negativen Test folgt freilich nichts über entsprechende kognitive Vermögen des Computers. Ein viertes Missverständnis.
***
Weiss der Textgenerator, worüber er spricht? Nein. Der Grund ist simpel: Die Maschine kennt die Welt nur aus Textmaterial. Hier stossen wir auf ein fünftes Missverständnis, auf das tiefste. Wir lernen das Wort «Saxofon» kennen, indem wir mit dem Musikinstrument Bekanntschaft machen. Und gewöhnlich gebrauchen wir es nicht, um Fahrstühle anzuhalten. Das klingt bestürzend trivial, aber GPT-3 hat keine Ahnung davon. Allgemein gesagt lernen wir Sprache nicht, indem wir einfach Wörter miteinander verbinden, sondern indem wir, Wörter verbindend, uns mit anderen Menschen auf Dinge beziehen. Sprechen ist eine körperliche Tätigkeit und Fähigkeit: Artikulieren. Sprachentwicklung setzt ein durch Austausch von Artikulationen. Wir teilen uns mit und wir teilen dadurch eine Welt, über die wir sprechen können. Der Weltkontakt fehlt den Maschinen. Der amerikanische Philosoph John Haugeland, einer der profundesten Denker über künstliche Intelligenz, verdichtete dies einmal unübertrefflich so: «they don’t give a damn» - dem Computer ist die Welt scheissegal.
***
Das Missverständnis des GPT-3 ist deshalb, sechstens, ein generelles. Der Textgenerator löst Probleme, und er löst sie oft auf überraschend effektive, uns überlegene Weise. Er macht einfach sein Ding, und die Frage, ob er dabei intelligent vorgeht, ist etwa gleich relevant wie die Frage, ob ein U-Boot schwimmen kann, um hier den holländischen Informatiker Edsger Dijkstra zu zitieren. GPT-3 und ein Autor mögen den gleichen Text schreiben, GPT-3 tut dies ohne Intelligenz. Er ist ebenso intelligent wie meine alte Olivetti.
Und damit landen wir natürlich bei der unumgänglichen Frage: Was ist Intelligenz? Wir verlassen uns heute zunehmend auf sogenannte «smarte» Technologie, ohne uns genauer zu überlegen, was denn diese «Smartheit» ausmacht. Schon beim Menschen ist überhaupt nicht klar, ja umstritten, ob eine einzige Metrik existiert, auf der sich ein generelles Intelligenzmerkmal – ein «g-Faktor» - messen lässt. Der Trick, der ein System intelligent macht, sei der, dass es keinen gibt, schrieb ein Pionier der KI - Marvin Minsky - vor fast 40 Jahren. Der Grund: Intelligenz beruhe auf einer Vielfalt von Fähigkeiten, nicht auf einem einzigen Prinzip. Das siebente Missverständnis. Legt sich die KI-Forschung in ihrer Big-Data-Trunkenheit womöglich auf eine Sicht fest, die entscheidende Aspekte menschlichen Sprachverstehens – etwa psycholinguistische, neurologische, verhaltensbiologische, evolutionäre - generell ausblendet, vielleicht sogar in eine Sackgasse führt?
***
Ich kann die Frage nicht beantworten. Aber eine Asymmetrie zwischen Mensch und Computer ist schon jetzt unübersehbar: Die sogenannte Benutzerfreundlichkeit des Computers bedeutet ja, dass wir uns eher den Maschinen anpassen, als dass die Maschinen sich uns anpassen. Wir treten ins Zeitalter der automatisierten industriellen Textproduktion ein. Ein Prompt mit der Aufforderung «Schreib etwas Stoff daraus» genügt, und «etwas Stoff» wird publiziert. Was an die Bemerkung von Roland Barthes erinnert, das Gegenteil von gut schreiben sei heute nicht schlecht schreiben, sondern einfach nur schreiben.
Ist das ein Grund zur Befürchtung, dass der Computer den menschlichen Schreiber grossflächig ersetzt? Im Gegenteil! Die wirkliche Herausforderung der «intelligenten» Maschinen liegt darin, dass wir unsere Intelligenz einsetzen, um solche Missverständnisse zu vermeiden, wie ich sie hier aufliste. Wir verwechseln leicht die Leistungsfähigkeit der KI-Systeme mit deren kognitiven Vermögen: Weil der Computer gute Prosa schreibt, hat er das Vermögen eines guten Schriftstellers. Ein achtes Missverständnis.
***
Es weist auf das neunte: Der Textgenerator ist ein superbes Werkzeug, das unseren Verstand verhext. Wir sind verschossen in die Idee, GPT-3 würde mit uns in eine Konversation auf gleicher kognitiver Höhe treten. Wer aber glaubt, der KI-Schnickschnack schreibe oder rede mit uns, verhält sich wie der Wellensittich, der sein Spiegelbild anzirpt und mit ihm balzt.
Keine Kommentare:
Kommentar veröffentlichen