Wörter und ganze Sätze konnten mithilfe des Brain-to-Text-Systems rekonstruiert und per Computer als Text wiedergeben werden. Das Verfahren arbeitet derzeit mit hörbar gesprochener Sprache, die Ergebnisse sind ein erster Schritt hin zur Erkennung gedachter Sprache.
„Schon lange wurde darüber spekuliert, ob die direkte Kommunikation zwischen Mensch und Maschine über Gehirnströme möglich ist“, erklärt Tanja Schultz, die mit ihrem Team am Cognitive Systems Lab des Karlsruher Instituts für Technologie die vorliegende Studie durchgeführt hat. „Wir konnten nun zeigen, dass aus Gehirnströmen einzelne Sprachlaute und kontinuierlich gesprochene komplette Sätze erkannt werden können.“
In Karlsruhe wurden im Rahmen der interdisziplinären Zusammenarbeit Methoden aus der Signalverarbeitung und der automatischen Spracherkennung angewendet. „Diese erlauben neben der Erkennung von Sprache aus Gehirnsignalen eine detaillierte Analyse der am Sprachprozess beteiligten Gehirnregionen und ihrer Interaktionen“, sagen Christian Herff und Dominic Heger, die im Rahmen ihrer Promotion das Brain-to-Text-System entwickelt haben. Die aktuelle Arbeit erkennt die kontinuierlich gesprochene Sprache und transformiert sie erstmals in Text. Dazu werden Informationen aus dem Kortex mit linguistischem Wissen und Algorithmen des maschinellen Lernens kombiniert, um die wahrscheinlichste Wortsequenz zu extrahieren. Derzeit arbeitet Brain-to-Text auf hörbar gesprochener Sprache, die Ergebnisse sind allerdings ein erster Schritt hin zur Erkennung gedachter Sprache. Mittels Elektrokortikographie wird Gehirnaktivität aufgezeichnet (blaue Kreise). Aus den Aktivitätsmustern (blau/gelb) lassen sich die gesprochenen Wörter erkennen. © CSL/KIT
Die Hirnströme wurden im Rahmen der Behandlung von sieben Epilepsie-Patienten, die freiwillig an den Experimenten teilnahmen, in den USA aufgezeichnet. Im Zuge ihrer neurologischen Behandlung wurde ihnen ein Elektrodennetz auf die Großhirnrinde gelegt (Elektrokortikographie (ECoG)). Während die Patienten Beispieltexte laut vorlasen, wurden die räumlich und zeitlich hoch aufgelösten ECoG-Signale aufgezeichnet. Diese wurden später in Karlsruhe analysiert und dienten als Basis für die Entwicklung von Brain-to-Text. Brain-to-Text bietet, neben der reinen Grundlagenforschung und einem besseren Verständnis der hochkomplexen Sprachprozesse im Gehirn, auch einen Ausblick für die sprachliche Kommunikation von Locked-In-Patienten. Originalpublikation: Brain-to-text: decoding spoken phrases from phone representations in the brain Christian Herff et al.; Frontier, doi: 10.3389/fnins.2015.00217; 2015