Freitag, 8. Januar 2021

Die Tücken der Analogie zwischen künstlichem und natürlichem Gehirn







Der Natur abgeschaut

Vor Galilei - von Aristoteles über Paracelsus bis Leonardo da Vinci - wurde Technik als Nachahmung der Natur aufgefasst, als Fortführung der Natur mit künstlichen Mitteln. Der Hammer verstärkt die Schlagkraft der Faust. Die Schaufel die Hebelwirkung der Arme. Teleskop und Mikroskop erweitern die Linse des Auges. Aber die Nachahmung kann auch zu Misserfolgen führen. Flugmaschinen sind den Vögeln abgeschaut, verfrühte Bionik. Leonardo war der Meinung, dass dem Menschen nur die lebendige Kraft des Vogels (die „anima”) fehlt, um fliegen zu können. Und das war der grosse Irrtum. Man könnte vom Fehlschluss der natürlichen Analogie sprechen. Da Vincis künstliche Vögel funktionierten deshalb nicht, weil sie - zu natürlich sind. Sie brauchen nicht „anima” des Tiers, sondern Können – „techne“ - des Menschen. Erst wenn die Tech¬nik sich losgelöst hat vom natürlichen Vorbild, hebt sie ab vom Boden. 


Heute lässt sich die Künstliche-Intelligenz-Forschung (im Folgenden mit „KI“ abgekürzt) - ganz ähnlich - vom Vorbild des Gehirns inspirieren, in der Erwartung, aus ihm die Bauanleitung zu einem neuromorphen Computer herauszulesen. Denn was, wenn nicht das natürliche Gehirn könnte ein geeigneteres Vorbild für das künstliche sein. Und würde man die „anima“ des Gehirns kennen, liesse sie sich dann nicht in Schaltkreise integrieren? Dies zumindest ist die plausible Idee. Aber sie hat ihre Tücken, wie schon die „anima“ der Vögel bei Leonardo. 


Deep Learning

Ein Hotspot der KI ist das sogenannte „Deep Learning“, also lernfähige Maschinen. Sie sind auch ökonomisch von einigem Interesse, deshalb unterhalten heute Internetgiganten wie Facebook, Google, Apple oder Microsoft ihre eigenen Forschungslabors. Man verzeichnet bemerkenswerte neue Einsichten, die erlauben, Maschinen zu lehren, etwa selbständig visuelle Muster aus einer Masse von Daten zu erkennen. Vor kurzem gelang es einem Google-Forscherteam um Andrew Y. Ng, ein lernfähiges neuronales Netz aus 16000 Computerprozessoren zu basteln. Um es zu testen, liess man es auf 10 Millionen Stills von Youtube-Videos los. Das heisst, es durchforstete zunächst Pixelmaterial während dreier Tage nach wiedererkennbaren Mustern. Und was war das auffälligste Muster: Katzen! Das Netz lernte zuerst, helle von dunkeln Pixeln zu unterscheiden; dann Pixel zu Linien zu verbinden. Über eine Stufenfolge von immer allgemeineren Merkmalen hochsteigend, brachte es sich selbständig die Katzenerkennung bei. Nach der Lernphase liess man das System auf Testdaten los, aus denen er mit einiger Verlässlichkeit Katzen aussortierte. Kann man also sagen, man habe ein primitives Hirn konstruiert, das Katzen zu erkennen vermag?

Neuronale Netzwerke sind keine Gehirne

Vorsicht mit Naturanalogien ist geboten. Man weiss nur rudimentär, wie das Gehirn beim Lernen funktioniert. Das heben vor allem Wissenschafter hervor, die sich in der Grenzzone zwischen Neurophysiologie und Künstlicher Intelligenz aufhalten. Die erfolgreichsten Mechanismen erweisen sich als sehr gehirn-unähnlich. Ein künstliches neuronales System ist im Wesentlichen ein dichtes Netz von Verarbeitungseinheiten, die Informationen mit einer bestimmten Wahrscheinlichkeit („gewichtet“) weiterleiten. Man kann ein solches System lehren, sich selber zu korrigieren. Das geschieht etwa dadurch, dass man ihm einen Input eingibt und beobachtet, ob ein gewünschtes Resultat als Output erzielt wird. Ist das nicht der Fall, geht man vom gewünschten Resultat aus und sendet es rückwärts durch das System, und einer von mehreren möglichen Lerneffekten liegt darin, dass die Gewichte bei den Verarbeitungseinheiten entsprechend geändert werden. Diese Art von Lernen – „Backpropagation“ genannt  -  kennt man aber beim Hirn nicht, sie ist, wie es in einem Lehrbuch heisst „biologisch nicht immer plausibel, aber exorbitant zielgerichtet“. Der Erfolg künstlicher Hirne beruht also - wie der Erfolg des künstlichen Vogelflugs – gerade darauf, dass man sich vom natürlichen Vorbild entfernt. 


Die Tücke biologischer Analogien

Das heisst nicht, dass man auf biologische Metaphern verzichten soll, sondern nur, sich ihrer heuristischen Begrenztheit bewusst zu sein. Michael I. Jordan von der University of California, Berkeley, eine Koryphäe auf dem Gebiet des Maschinenlernens, weist ausdrücklich auf das Risiko hin, Nichtwissen über Gehirnvorgänge dadurch zu kaschieren, dass man einfach biologische Metaphern auf künstliche Systeme übertrage. So sprechen die Designer neuronaler Netzwerke gerne von „Neuronen“ und „Synapsen“ auf ihren Chips, als ob es schon ausgemacht wäre, dass es sich bei  Silikonschaltkreisen um künstliche Gehirne handelte. „Das Problem,“ so Jordan, „liegt darin, dass unsere Forschung nicht an das Verständnis der Algorithmen gekoppelt ist, die im Gehirn ablaufen (..) Was wir haben, ist ein Stück Architektur von neuronalen Netzen, in das wir die Hoffnung setzen, irgendwann würde es sich als brauchbar für das Verständnis des Lernens erweisen. Es gibt aber keinen klaren Grund dafür, dass diese Hoffnung bestätigt würde. Sie beruht meiner Meinung nach auf einem Glauben: Wenn man das Hirn simuliert, versteht man auch, was das Hirn tut.“ 


Cargo-Kult-Wissenschaft

Zu meinen, etwas zu verstehen und im Griff zu haben, wenn man es imitiert oder simuliert, hat in der Ethnologie einen Namen: Cargo-Kult. Nach dem Zweiten Weltkrieg beobachtete man auf einigen Inseln des Südwestpazifiks ein seltsames Verhalten unter den Indigenen. Die Japaner und nach ihnen die Amerikaner hatten Luftstützpunkte errichtet. Tief beeindruckt von den technischen Wunderwerken und vor allem auch von den Gütern – der Cargo -, die sie brachten, suchten die Eingeborenen nach Abzug der Amerikaner, den Flugverkehr nachzuahmen. Sie bauten Landeplätze aus Stroh, Kontrolltürme aus Bam-bus, setzen sich hölzerne Headsets auf den Kopf und simulierten auf den „Landebahnen“ das Einweisen von Flugzeugen. Sie hatten also ein Verhaltensmuster bei den Fremden beobachtet, von dem sie glaubten, es nur nachahmen zu können, ohne die realen kausalen Zusammenhänge zu kennen. Genau das, was einen Kult ausmacht.

Das Phänomen gibt es auch in der Wissenschaft. Der Physiker Richard Feynman prägte den Begriff der „Cargo Cult Science“ in einer berühmt gewordenen Rede zur Abschlussfeier 1974 am Caltech. Es komme auch in der Forschung nicht selten vor, so Feynman, dass man Zusammenhänge postuliere, ohne die kausalen Hintergründe zu kennen. Feynman ging es vor allem um einen Forschungsimperativ: Don’t fool yourself - betrüge dich nicht selbst! Unterdrücke nicht Daten, die gegen deine Hypothese sprechen! Erwäge auch andere Erklärungsmöglichkeiten! Meine nicht, eine Korrelation sei auch schon eine Kausalität! 

Das Turing-Paradigma des Geistes

Die renommierte Kognitionswissenschafterin Margaret Boden sagte kürzlich in einem Interview über den Stand der Hirnforschung: „Das Meiste bei den bildgebenden Techniken ist nicht von wissenschaftlichem Wert. Man schaut nach Korrelationen zwischen Verhalten und Gehirnaktivitäten, aber lässt sich selten von theoretischen Fragen leiten.  Vielleicht wird sich das alles in hundert Jahren in eine neurowissenschaftliche Theorie fügen. Zur Zeit aber betrachte ich die Forschung eher als Naturgeschichte und nicht als Naturwissenschaft; in dem Sinne, in dem Darwin mit dem „Ursprung der Arten“ die Naturgeschichte in eine theoretische Biologie verwandelte.“ 

Mit diesem prätheoretischen Zustand der KI kontrastiert eine stets leistungsfähigere Technologie, die uns in die Lage setzt, gehirn-analoge Prozesse zu simulieren. Was natürlich die Erwartung – viele würden sagen: die Illusion – weckt, auf diese Weise das Gehirn auch zu verstehen. Nach meiner Meinung wirkt hier das ambivalente Erbe Turings fort: Sein Konzept der universellen Turingmaschine macht es möglich, Prozesse, welcher Art auch immer, allein unter dem Aspekt ihrer Berechenbarkeit (oder: Algorithmisierbarkeit) zu betrachten, und weil dieses Konzept sich als enorm geschmeidig herausstellt, verführt es leicht zum Schluss, alles sei „im Prinzip“ berechenbar; oder wenn es nicht berechenbar ist, so liege das daran, dass man die notwendigen Algorithmen noch nicht gefunden habe. Man könnte vom Turing-Paradigma des Geistes sprechen, nicht zuletzt deshalb, weil es einen starken normativen Einfluss in einschlägigen Kreisen ausübt. Das Paradoxe daran ist, dass Turing uns eine technologisch praktikable Idee zur Verfügung stellt, die aber zugleich wie keine andere geeignet ist, ihre Grenzen klar zu sehen. Sie liegen in der Beantwortung der Frage: Gibt es für einen Vorgang, den wir in der Natur (das heisst auch, an uns) beobachten, einen Algorithmus, der ihn simulieren könnte?


Das Rahmen-Problem

Nun hatte bereits die frühere KI ihre Probleme mit dem Algorithmisierungsanspruch. Eines der ersten war das sogenannte „Rahmen-Problem“ („Frame Problem“). Es lässt sich anschaulich am Bau eines alltagstauglichen Roboters exemplifizieren. Darunter wollen wir einen Automaten verstehen, der nicht bloss lokale spezifische Aufgaben wie Rasenmähen, Staubsaugen, Verschweissen von Autobestandteilen oder chirurgisches Eingreifen durch-führt, sondern sich in banalen Situation zu „benehmen“ weiss, also eine Plastizität des Verhaltens entwickelt, wie sie unter uns Menschen als selbstverständlich erscheint. Das Haupthindernis, so stellte sich schon früh heraus, besteht darin, dass man einen solchen Roboter mit einer schier unendlichen Enzyklopädie von Situationen und Skripten ausrüs-ten müsste, wie er sich in dieser oder jener Situation zu verhalten hat. Die trivialsten täglichen Verrichtungen –  mich ankleiden, Milch im Kühlschrank holen, ein Verkehrssignal beachten, mich in einer Menge von Passanten kollisionsfrei bewegen, gewisse Anstandsregeln beachten - müssten letztlich in Datenbanken und Programmen „ausbuchstabiert“ werden: zwar ein ingenieural formulierbares, aber von seiner Praktikabilität her gesehen wohl aussichtsloses Unterfangen. Die Welt ist einfach zu komplex, als dass sie mit einem noch so umfangreichen „Manual“ zu bewältigen wäre. Das Problem liegt im „Rahmen“ von Anhaltspunkten, Relevanzkriterien, unscheinbaren Schlüsselmerkmalen und Hinweisen, an denen wir uns immer schon orientieren, und die kaum je vollständig expli-zite aufgelistet werden können. Diese alltagskompetente Orientierungsfähigkeit ist quasi in uns „sedimeniert“. Natürlich können wir uns dieses Rahmens partiell bewusst werden, etwa dann, wenn wir uns in ungewohnten Situationen befinden oder gegen einen Comment verstossen. Der normale Verlauf unserer sozialen und kulturellen Integriertheit liegt indes gerade darin, dass wir uns diese Regeln nicht ständig in Erinnerung rufen müssen, um unser Verhalten zu steuern –  es sei denn, wir wären sozial gestört.


Das Problem der Unerschöpflichkeit

Der Bau eines alltagstauglichen Roboters hebt also ein zentrales Merkmal unserer Alltagssituationen hervor: ihre Dichtheit. Mit diesem Ausdruck bezeichen die Ethnologen das praktische Verhaltensnetz von fremden Sitten, das man nie durch eine noch so lange Liste „von aussen“ beschreiben kann, sondern nur begreift, wenn man „von innen“ daran teil-nimmt. Der Code kulturellen Verhaltens lässt sich, paradox gesagt, nicht als ausformuliertes Programm codieren. Das Rahmen-Problem ist also ein anderer Ausdruck dafür, dass künstliche Systeme an der Dichtheit konkreter Lebensformen scheitern. Bewusstes Leben ist zu dicht, als das es durch ein künstliches System simuliert werden könnte. Diese Schwierigkeit, die ironischerweise proportional zu den Ansprüchen der KI wächst, nennt Peter Hankins in seinem lesenswerten Buch „The Shadow of Consciousness“ Probleme der Unerschöpflichkeit: Wollten wir all das, was wir tun, explizite beschreiben, gerieten wir buchstäblich vom Hundertsten übers Tausendste ins Hunderttausendste. Unsere Beschreibung wäre eine Beschreibung ad infinitum. Alle möglichen Eventualitäten des Lebens lassen sich nicht auflisten.


Das Scheitern an der Unerschöpflichkeit der Dinge scheint mir eine genuine Problemka-tegorie der KI zu sein. Sie markiert jene neuralgischen Stellen, an denen wir Skripten und Listen ins Spiel bringen müssen, die unbestimmt lang und womöglich sogar undefinierbar sind, weshalb sie sich nicht einer Algorithmisierung zuführen lassen. Der harte Kern dieser Kategorie umfasst die bekannten Fragen der Nicht-Berechenbarkeit bestimmter Funktio-nen, speziell das Halteproblem, die Frage also nach einem generellen Entscheidungskriterium, ob eine bestimmte Turingmschine anhält oder nicht. Darum herum gruppieren sich Fragen, die im Wesentlichen das Erkennen von Bedeutung und Relevanz betreffen. Hiezu gehören das Rahmen-Problem oder das Verstehen der Umgangssprache (und das Übersetzen von Sprachen). Wohin uns Probleme der Unerschöpflichkeit sonst noch führen, sie alle geben Anlass zur Vermutung, dass Intelligenz zu einem wesentlichen Teil auf nicht expliziten Prozessen beruht.

Ein anderes Paradigma?

Man könnte dies als ein Indiz dafür deuten, uns der ganzen Frage anders, im Kontext eines  andern Paradigmas, zu nähern. Dass wir Menschen kein Rahmen-Problem haben, uns unter komplexen Umständen mit unbestimmt vielen Faktoren ganz offensichtlich gut zurecht finden, oft in Sekundenbruchteilen die Bedeutung eines Musters erkennen oder relevante von irrelevanten Merkmale unterscheiden können: solches Knowhow deutet darauf hin, dass die Intelligenz auf einem anderen Mechanismus abläuft als auf den formalen Strukturen künstlicher Systeme. Neuronale Netze sind abstrakte Modelle der neuronalen Biologie, sie befassen sich primär mit deren „logischer Struktur“, tragen aber den neurobiologischen Komplexitäten kaum Rechnung. Und selbst wenn wir die Hirnaktivitäten in einem künstlichen System simulieren könnten, hätten wir dadurch überhaupt noch nicht erklärt, wie Bewusstein ex machina entsteht („emergiert“). Gewiss, insoweit sich im Hirn Vorgänge abspielen, die man in künstlichen Systemen simulieren und „durchrechnen“ kann, erscheint die Redeweise „Das Hirn rechnet“ durchaus als plausibel und sie kann uns – wenn vorsichtig gebraucht – weiterführende Einsichten bescheren. Wenn es aber zu-trifft, dass bestimmte kognitive, oder allgemeiner: mentale Prozesse nicht vollständig durch formale Prozesse bzw. durch Simulationen in künstlichen Systemen „abgedeckt“ werden können, dann wäre die Frage angebracht, ob denn das „komputistische“ Turing-Paradigma nicht zu kurz greift. 


Das Immunsystem als Muster

Wie gehen natürliche Systeme mit dem Problem der Unerschöpflichkeit um? Als Muster bietet sich etwa das Immunsystem an. Zur Abwehr von Fremdkörpern produziert es Anti-körper. Das geschieht in der Regel so, dass es für einen bestimmten Typus von Fremdkör-per quasi den entsprechenden Antikörper „auf Lager“ hat. Aber es gibt immer auch neue Typen von Fremdkörpern. Das Immunsystem verfügt über eine riesige Liste von Anleitungen zur Stoffproduktion (was man in loser Analogie mit den Computerskripten oder mit Google Translate vergleichen könnte). Den einfallenden Scharen von neuartigen Fremdmolekülen begegnet es nicht „wohlüberlegt“, sondern zunächst mit einem indefiniten Repertoire an Reaktionsmöglichkeiten. Vor der Invasion ist noch gar nicht bestimmt, welche und wieviele Antikörper des Immunsystems die Relevanz als „Schlüssel“ zu den „Schlössern“ der Fremdkörper erhalten. Das System „berechnet“ nicht eine Antwort auf ein Problem, es erkennt es einfach und produziert erst einmal darauflos. Man könnte fast sagen, das Immunsystem „warte“, bis die Invasoren erscheinen, um dann entsprechend seine Abwehr-Chemie zu starten und darauf abzustimmen. 


Auch das Gehirn – so scheint es  - ist kein überlegter Designer, der passgenau Muster zum Erkennen des Geschehens in der Umwelt schneidert. Eher ein chaotischer Bastler, der auf die Herausforderung der Umwelt mit einem Haufen von Mustern neuronaler Aktivität reagiert, um schliesslich jenes auszuwählen, das sein Verhalten am besten auf die reale Situation abstimmt. Ein Lernprozess, der jenem des Immunsystems ähnelt, das angesichts neuer Invasoren neue Antikörper fabriziert und erprobt, bis sie dem Angriff standhalten können. Ein zentraler Punkt dabei ist, dass man im Voraus nicht wissen kann, welches Muster sich als „effektives“ durchsetzt. Auf das unbestimmte Angebot an Möglichkeiten, die jede reale Situation bereithält, reagiert das Gehirn mit einem anfänglich ebenso un-bestimmten Angebot an neuronalen Aktivitätsmustern. Und erst mit der Zeit wird sich so etwas wie eine „Repräsentation“ der realen Welt stabilisieren – ein Vorgang, den der Neurologe Gerald Edelman (von Haus aus Immunologe) als „neuronalen Darwinimus“ bezeichnet hat. 


Das Human-Brain-Project eine Cargo-Kult-Wissenschaft?

Man kann es durchaus als Erfolg von Deep Learning verbuchen, wenn heute neuronale Netze rudimentär ein solches Verhalten – durch sogenanntes „unüberwachtes Lernen“ – nachahmen können. Deep Learning ist Big-Data-Science par excellence. Aus gigantischen Datenmassen lassen sich mit immer leistungsfähigeren Algorithmen x-beliebige Zusammenhänge herauslesen. Im Hintergrund lauert der Cargo-Kult. Er besteht, so Yann LeCun, ein anderer führender Forscher im Deep Learning, „darin, jedes Detail unseres Wissens über Neuronen und Synapsen zu kopieren, es dann in das neuronale Netz einer gigantische Simulation in einem Supercomputer einzubauen und zu hoffen, dass künstliche Intelligenz daraus emergiert. Das ist Cargo-Kult-Wissenschaft. Es gibt seriöse Leute, die nahe daran sind, so etwas zu glauben, und sie heimsen dafür riesige Forschungsgelder ein (..) Ich werde jetzt die Gemüter erhitzen, aber im Grunde beruht das Human-Brain-Project auf der Idee, wir sollten Chips (..), welche die Funktionen von Neuronen so passgenau wie möglich reproduzieren, (..) zum Bau eines gigantischen Computers verwenden, der (..) mit irgendeinem Lernalgorithmus künstliche Intelligenz erzeugt. Meiner Meinung nach ist das Quatsch.“ 


Hype und „Big Data Winter“ 

Das Ganze tendiert, ins Irrationale zu kippen, weil gemäss LeCun „dieses Gebiet ein enormes Hype-Potenzial hat“. Ein Merkmal des Hype ist, dass er der wirklichen Entwicklung vorauseilt und Verheissungen in die Welt setzt, die sich womöglich nicht verwirkli-chen lassen. Michael I. Jordan warnt zudem vor einem Rückschlag in einen „Big Data Win-ter“: „Wenn den Leuten und den Unternehmen ohne eingehende Analyse zuviel versprochen wird, ist das Risiko hoch, dass die Blase platzt. Und bald danach, schätzungsweise in einer Zeitspanne von zwei bis fünf Jahren, wird man sagen: ‚Das ganze Big-Data-Ding kam und ging. Es starb. Es war falsch.’ Ich sage das voraus. Genau das geschieht mit Zyklen, in denen zuviel Hype steckt, das heisst, Behauptungen, die nicht auf dem Verständnis der wirklichen Probleme beruhen oder die unterschlagen, dass das Lösen dieser Probleme Jahrzehnte beanspruchen wird. Gewiss, wir machen kontinuierliche Fortschritte, aber keine Sprünge.“ Der Hype aber will Sprünge, Durchbrüche, „Singularitäten“. Und genau das ist das Gefährliche: ein Rückschlag wird nicht nur die Grossmäuler zum Schweigen bringen, sondern auch eine Vielzahl von seriösen Projekten der Datenanalyse beerdigen. 


Keine Kommentare:

Kommentar veröffentlichen

  Der «Verzehr» des Partners Kant und der aufgeklärte Geschlechtsverkehr Kant zeigte philosophisches Interesse nicht nur an Vernunft und Urt...