Einem deutsch-amerikanischen Wissenschaftsteam ist es gelungen, mithilfe künstlicher Intellingenz DNA-Sequenzmuster aufzudecken und Anweisungen der Genregulation zu entschlüsseln.
Ein interdisziplinäres Forschungsteam der Technischen Universität München und der Stanford University hat gezeigt, dass die Anwendung neuronaler Netze, wie sie zur Gesichtserkennung verwendet werden, zusammen mit neuen Techniken zur Modellinterpretation verwendet werden kann, um komplexe Anweisungen zu entschlüsseln, die in der DNA kodiert sind. Die Forscher trainierten ihr neuronales Netzwerk mit hochauflösenden Protein-DNA-Bindungsdaten und konnten mithilfe neu entwickelter Techniken zur Modellinterpretation relevante DNA-Sequenzmuster extrahieren.
Eines der großen ungelösten Probleme in der Biologie ist der zweite Code des Genoms, der regulatorische Code. Denn die Abfolge der DNA-Basen beinhaltet nicht nur die Anweisungen zum Aufbau von Proteinen, sondern auch wann und wo diese Proteine in einem Organismus hergestellt werden.
Der regulatorische Code wird von Proteinen gelesen, die Transkriptionsfaktoren genannt werden und an kurze DNA-Abschnitte binden, die als Motive bezeichnet werden. Wie bestimmte Kombinationen und Anordnungen von Motiven die regulatorische Aktivität beeinflussen, wurde bisher jedoch nicht gelöst.
Ein wichtiger Schlüssel zum Erfolg war es, Transkriptionsfaktor-DNA-Bindungsexperimente und Computermodellierungen mit der höchstmöglichen Auflösung durchzuführen, also auf der Ebene einzelner DNA-Basen. Die hohe Auflösung ermöglichte es dem Team, nicht nur hochpräzise neuronale Netzwerkmodelle zu trainieren, sondern auch die Schlüsselelemente und Muster aus den Modellen zu extrahieren, einschließlich der Bindungsmotive für Transkriptionsfaktoren und der kombinatorischen Regeln, nach denen sie zusammen als Code fungieren.
„Neuronale Netze gelten als schwer durchschaubare Black Box, sie können aber digital befragt werden. Mit einer großen Zahl virtueller Experimente gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt hat,“ sagt Erstautor Dr. Žiga Avsec von der TU München. Zusammen mit Anshul Kundaje, Professor an der Stanford University, schuf er die erste Version des Modells.
Das Team wandte den Ansatz auf die Hauptregulatoren embryonaler Stammzellen der Maus an und bestätigte die Ergebnisse durch CRISPR-Genom-Edition experimentell. Die entdeckten Muster zeigten klare Regeln, die unter anderem auf eine präzise Positionierung entlang der DNA-Doppelhelix hinwiesen und eine bevorzugte Reihenfolge der Transkriptionsfaktoren beinhalten.
„Das war äußerst befriedigend,“ sagt Projektleiterin Julia Zeitlinger, von der University of Kansas, „da die Ergebnisse hervorragend zu den vorhandenen experimentellen Ergebnissen passen, aber auch neue, überraschende Erkenntnisse enthüllen.“
Zum Beispiel fand das Forschungsteam heraus, dass ein gut untersuchter Transkriptionsfaktor namens Nanog bevorzugt an DNA bindet, wenn mehrere seiner Motive periodisch angeordnet sind, so dass sie auf derselben Seite der spiralförmigen DNA-Helix erscheinen.
„Es gibt eine Menge experimenteller Hinweise, dass eine solche Motivperiodizität im Regulierungscode manchmal vorkommt,“ sagt Zeitlinger. „Die genauen Umstände waren jedoch bisher schwer zu erfassen. Es war daher eine Überraschung, dass Nanog ein solches Muster zeigt, insbesondere da wir nicht speziell nach diesem Muster gesucht haben. “
„Dies ist der Hauptvorteil der Verwendung neuronaler Netze für diese Aufgabe. Ein klassisches Rechenmodell basiert auf handgefertigten, starren Regeln, um sicherzustellen, dass es interpretiert werden kann “, sagt Avsec. „Die Biologie ist jedoch äußerst reich und kompliziert. Indem wir darauf verzichten, einzelne Parameter zu interpretieren, können wir viel flexiblere und vielschichtigere Modelle trainieren, die alle biologischen Phänomene erfassen, einschließlich der noch unbekannten.“
Dieses neuronale Netzmodell, Base Pair Network genannt, oder kurz BPNet, ist ein leistungsstarker Bottom-up-Ansatz, der der Gesichtserkennung in Bildern ähnelt. Das neuronale Netzwerk erkennt zuerst Kanten in den Pixeln, dann lernt es, wie Kanten Gesichtselemente wie Auge, Nase oder Mund formen und schließlich, wie Gesichtselemente zusammen ein Gesicht bilden.
Anstatt aus Pixeln zu lernen, lernt BPNet aus der DNA-Sequenz. Es lernt zuerst Motive zu erkennen und dann die kombinatorischen Regeln, nach denen die Elemente zusammen die Bindungsdaten vorhersagen.
Bereistellung der Software zur weiteren Nutzung
Die Arbeitsgruppen von Zeitlinger und Kundaje verwenden BPNet bereits, um Bindungsmotive für andere Zelltypen zuverlässig zu identifizieren, Motive mit biophysikalischen Eigenschaften in Verbindung zu bringen und andere strukturelle Merkmale im Genom zu analysieren. Damit andere Wissenschaftler BPNet verwenden und an ihre eigenen Bedürfnisse anpassen können, haben die Forscher die gesamte Software mit Dokumentation und Tutorials zur Verfügung gestellt.
„Diese Arbeit ist eine technologische Tour de Force,“ sagt Prof. Julien Gagneur von der TU München. „Sie kombiniert Deep-Learning-Modellierung genomweiter Daten in höchster Auflösung mit neuentwickelten erklärbaren KI-Techniken, mit denen interpretiert werden kann, was die Black Box gelernt hat. Die Methodik wird der biologischen Forschung helfen, die vollständige regulatorische Grammatik zu studieren.“
Dieser Text basiert auf einer Pressemitteilung der TU München. Die Originalpublikation findet ihr hier.
Bilquelle: Markus Spiske, unsplash