Eine neue Lernregel erklärt, wie Menschen eine sensomotorische Intelligenz entwickeln und könnte zukünftig Robotern helfen, sich neue Bewegungen anzueignen. Dabei schaukeln sich Reize und motorische Befehle solange korrelativ auf, bis ein koordiniertes Bewegungsmuster entsteht.
„What fires together, wires together“ ist Neurowissenschaftlern als die Regel des kanadischen Psychologen Donald Hebb bekannt. Diese Gesetzmäßigkeit besagt: Je häufiger zwei Neuronen zusammen aktiv sind, desto eher verknüpfen sie sich und bilden komplexe Netzwerke. Damit lässt sich zwar die Bildung unseres Gedächtnisses erklären, aber nicht die Entwicklung von Bewegungen. Um krabbeln, greifen oder gehen zu lernen, brauchen Menschen und auch lernfähige Roboter eine spielerische Neugier, die sie antreibt, sich neue Bewegungen anzueignen. Dass dafür kein übergeordnetes Zentrum nötig ist, wie viele Forscher heute vermuten, zeigen nun Ralf Der vom Max-Planck-Institut für Mathematik in den Naturwissenschaften und Georg Martius vom Institute for Science and Technology in Klosterneuburg. „Wir haben festgestellt, dass zumindest Roboter ihre Motorik auch entwickeln können, ohne dafür eigens auf Neugier, also die Vermehrung von Information in ihrem künstlichen neuronalen Netz, programmiert zu werden“, sagt Martius. Gemeinsam mit Der hat er eine neue sensomotorische Lernregel formuliert, nach der sich Verknüpfungen in künstlichen neuronalen Netzen und möglicherweise auch im Gehirn von Babys bilden könnten, sodass sich Roboter oder kleine Kinder abhängig von der Situation neue Bewegungen aneignen.
Der Lernregel liegt ein Modell zugrunde, das auf einer dynamischen Wechselwirkung dreier Komponenten fußt: Körper, Umwelt und Gehirn, beziehungsweise beim Roboter ein künstliches neuronales Netz. Anfangs gibt es im Gehirn des Roboters keine Strukturen, die Bewegungen steuern. Erst wenn der Körper mit der Umwelt interagiert und seine Gliedmaßen etwa angewinkelt werden, weil sie auf ein Hindernis stoßen, formieren sich die entsprechenden neuronalen Netze – der Roboter lernt sich zu bewegen. Damit der Lernprozess überhaupt beginnt, braucht es in diesem Modell eine Initialzündung von außen, wie Martius erläutert: „Zunächst passiert nämlich gar nichts. Ist das System in Ruhe, bekommen die Neuronen keine Signale.“ Daher lösen die Forscher in ihrem Roboter einen passiven sensorischen Reiz aus, etwa indem sie ihn an einem virtuellen Faden durch die Gegend schlenkern oder ihn einfach zu Boden sinken lassen, wobei sein Rumpf und seine Arme oder Beine gebeugt werden. Ganz ähnlich wie bei Menschen, die etwa nach einem Schlaganfall zunächst durch passive Bewegung, die Kontrolle über Arme oder Beine zurückgewinnen, löst der passive sensorische Reiz im Gehirn des Roboters ein erstes Lernsignal aus. Und selbst wenn dieses auch sehr klein ist, erzeugt das sensomotorische Kontrollzentrum daraus den Befehl für eine kleine, aber leicht modifizierte Bewegung, die einen neuen sensorischen Reiz bewirkt, der wiederum in eine Bewegung umgesetzt wird. So schaukeln sich Reize und motorische Befehle gegenseitig auf, bis ein koordiniertes Bewegungsmuster entsteht.
Ein Bewegungsmuster übt der Roboter dann so lange aus, bis er gestört wird. Beispielsweise kriecht er bis zu einem Hindernis, woraufhin er neue Bewegungsmuster entwickelt. Eines davon wird es ihm irgendwann erlauben, das Hindernis zu überwinden oder zu umgehen. „Unsere Roboter verhalten sich also neugierig, schließlich lernen sie immer wieder neue Bewegungen“, erklärt Martius. „Ihre Neugier ergibt sich allerdings alleine aus der Rückkopplung zwischen sensorischem Reiz und Bewegungsbefehl, wenn ihr Körper mit der Umwelt interagiert.“ In Computersimulationen wandten die Forscher ihre Regel auf einfache neuronale Netzwerke von virtuellen sechsfüßigen oder humanoiden Robotern an, die auf diese Weise etwa lernten, sich fortzubewegen. Und sie eigneten sich sogar Bewegungen an, dank derer sie mit Artgenossen kooperieren konnten. So drehten zwei humanoide Roboter nach einer Weile in koordinierter Weise an einem Rad. Koordiniert ohne äußere Koordination: Zwei virtuelle Roboter lernen, gemeinsam ein Rad zu drehen, ohne die äußere Vorgabe, ihre Bewegungen zu diesem Zweck aufeinander abzustimmen. Alleine die Rückkopplung zwischen Bewegungsbefehlen und sensorischen Reizen, die aus der Interaktion des Roboterkörpers mit der Umwelt, also dem Griff des Rades, entstehen, bringt die beiden Figuren zur gemeinsamen Aktion. © MPI für Mathematik der Naturwissenschaften/ Der und Martius Martius betont, dass sich ihr System jeweils recht schnell an neue Situationen anpasst, die von der Umwelt vorgegeben werden. Das sei wichtig, denn: „Es wäre aussichtslos, alle möglichen Bewegungen und Kombination auszuprobieren. Das sind unzählige und würde viel zu lange dauern.“ Das Modell arbeitet deshalb auch nicht mit dem Zufall. Im Gegenteil: Ein bestimmter sensorischer Reiz wird nur in einen einzigen motorischen Befehl umgesetzt. Der gleiche Reiz zieht also immer die gleiche Bewegung nach sich. So leiten sich die Bewegungen des Roboters direkt von seinen vergangenen Handlungen ab. „Allerdings können schon kleine Veränderungen im Signal der Sensoren große Auswirkungen auf die Entwicklung eines Bewegungsmusters haben“, so Martius.
Auf längere Sicht wollen die Forscher mehrere Bewegungsmuster aus einem großen Repertoire kombinieren, um komplizierte Handlungen zu ermöglichen. Zunächst werden Der und Martius ihre Lernregeln nun an echten Robotern testen. Die ersten Experimente mit einem künstlichen Arm verliefen vielversprechend, entwickelte dieser doch Fähigkeiten seines echten Pendants. https://www.youtube.com/watch?v=iIkcsR1HyN4 Die Versuche bestätigen, dass Roboter und möglicherweise auch das menschliche Gehirn kein übergeordnetes Neugier-Zentrum und keine Zielvorgaben brauchen, um neue Bewegungen zu entwickeln, die sie letztlich auch sinnvoll einsetzen können. Stattdessen bilden sich die dafür nötigen neuronalen Netze offenbar lediglich, weil sich Neuronen, die durch äußere Reize auf gleiche Weise beeinflusst werden, enger verknüpfen. Deshalb haben Der und Martius in Anlehnung an das Hebb'sche Gesetz auch eine neue Merkregel formuliert: „Chaining together what changes together“. Originalpublikation: Novel plasticity rule can explain the development of sensorimotor intelligence Ralf Der et al.; PNAS, doi: 10.1073/pnas.1508400112; 2015