Eine digitale Infrastruktur für Sequenzdatenbanken, was soll das sein? Quasi eine super effiziente Suchmaschine. Forscher konnten damit bereits über 130.000 neue RNA-Viren identifizieren – eine Verzehnfachung der bekannten Virenspezies.
Die Vielfalt der Viren auf unserem Planeten ist sprichwörtlich unfassbar, denn die Wissenschaft kennt bislang nur einen Bruchteil der existierenden Viren. Welch verheerende Folgen neu auftretende Viruserkrankungen für die Menschheit haben können, zeigt die derzeitige Covid-Pandemie. Daher ist es wichtig, die Diversität der global vorkommenden Viren mit Mitteln der Informatik zu katalogisieren und für die Wissenschaft nutzbar zu machen.
Die digitale Infrastruktur „Serratus“ ermöglicht Forschern, öffentliche Sequenzdatenbanken effektiv nach biologischen Viren zu durchsuchen. Bislang konnten über 130.000 neue RNA-Viren identifiziert werden – von Corona-Viren über Verwandte des Hepatitis-D-Virus bis zu Bakteriophagen. Das internationale Team hinter dem Projekt, an dem auch Forscher des Heidelberger Instituts für Theoretische Studien und des Max-Planck-Instituts für Biologie beteiligt sind, berichtet über die Ergebnisse im Fachjournal Nature.
Öffentliche Sequenzdatenbanken sind zu einem riesigen Speicher für genetische Daten geworden, den Forschende aus aller Welt befüllen. Diese Daten stammen von biologischen Forschungsgruppen, die Sequenzdaten erzeugen – sei es zur Untersuchung des Bodenmikrobioms des Amazonas-Regenwaldes oder zur Erforschung der Ausbreitung von Krankheiten wie dem Corona-Virus.
In der Regel werden bei solchen Studien genetische Sequenzdaten nicht nur von dem Organismus gewonnen, der untersucht werden sollte, sondern auch von anderen Organismen, deren DNA zufällig in der Probe enthalten ist. Solche zufälligen Daten können für andere Forscher besonders interessant sein, da diese Daten nicht im Mittelpunkt der ursprünglichen Studie stehen und daher in der Regel ignoriert werden. Sie sind aber dennoch in den öffentlichen Datenbanken hinterlegt.
Diesen verborgenen Schatz zu heben, bedeutet, dass die Forscher in sehr großen und verteilten Datenmengen suchen müssten. Denn in den frei zugänglichen öffentlichen Datenbanken liegen Sequenzdaten in der Größenordnung von Petabytes (Millionen von Gigabytes). Die Forscher im internationalen Serratus-Projekt haben hierfür eine Cloud-basierte Infrastruktur entwickelt. Serratus ist eine open source Cloud-Computing-Infrastruktur, die den Sequenzabgleich im Petabyte-Maßstab ermöglicht.
„Unsere Infrastruktur ermöglicht eine effiziente Suche im Sequence Read Archive, einem der beliebtesten öffentlichen Sequenzspeicher“, erläutert Pierre Barbera, Co-Autor der Studie. Er erstellte die Software zur Berechnung und Analyse der phylogenetischen Stammbäume aller untersuchten Spezies. Am Projekt beteiligt sind auch Forscher vom Max-Planck-Institut für Biologie in Tübingen. Sie brachten ihre Biocomputing-Software „Diamond“ in das Projekt ein, die wie eine Internet-Suchmaschine funktioniert und in wenigen Stunden Übereinstimmungen von Proteinbausteinen sequenzierter Lebewesen auflistet. Bis vor kurzem war für solche Berechnungen selbst mit Hochleistungsrechnern und dem bisherigen Goldstandard „Blast“ noch ein Zeitraum von Monaten notwendig. Die erweiterte Version „Diamond v2“ wird in Zusammenarbeit mit der Max Planck Computing and Data Facility in Garching entwickelt.
Mit den entwickelten Werkzeugen konnten die Forscher über 130.000 neue RNA-Viren identifizieren, was eine Verzehnfachung der bekannten Virenspezies bedeutet. Darunter befanden sich bisher unbekannte Mitglieder der Coronavirus-Familie, die eng mit dem SARS-CoV-2-Virus verwandt sind. Außerdem fand man Viren, die mit dem Hepatitis-D-Virus verwandt sind sowie neuartige Bakteriophagen, d. h. Viren, die speziell gegen Bakterien gerichtet sind.
Dieser Artikel basiert auf einer Pressemitteilung des Heidelberger Instituts für Theoretische Studien. Die Originalpublikation haben wir euch hier und im Text verlinkt.
Bildquelle: Adi Goldstein, unsplash