„Google für DNA“ – Forscher wollen jetzt mit MetaGraph das Leben durchsuchbar machen
Mit MetaGraph entsteht ein „Google für DNA“: Die Suchmaschine macht erstmals riesige genetische Datenmengen gezielt durchsuchbar.

Mit MetaGraph lassen sich Milliarden DNA-Fragmente per Suchmaske blitzschnell durchforsten – wie bei Google, nur für das Erbgut. © Midjourney
Ein Team der ETH Zürich hat eine Suchmaschine entwickelt, die genetische Daten so leicht zugänglich machen soll wie Google das Internet. Das System trägt den Namen MetaGraph und kann in wenigen Sekunden Muster in Milliarden DNA-Sequenzen finden. Damit entsteht erstmals ein Werkzeug, das die gewaltigen Datenmengen der modernen Biologie nutzbar macht.
Seit Jahren wächst die Zahl der genetischen Daten rasant. Öffentliche Archive enthalten mittlerweile weit mehr Informationen, als Forscher je manuell auswerten könnten. In diesen Datensätzen stecken Hinweise auf Krankheiten, Resistenzen oder evolutionäre Zusammenhänge – doch bisher blieben sie oft unentdeckt. MetaGraph will das ändern. Die Software verknüpft DNA-Fragmente wie Wörter in einem Buch und schafft so einen durchsuchbaren Index des Lebens.
Die Daten werden dabei rund 300-fach komprimiert – ohne Informationsverlust. Das macht Analysen möglich, die zuvor an Speicher- und Rechenkapazitäten scheiterten.
Riesige Datenmenge bislang problematisch
„Die Datenmenge war bislang der größte Hemmschuh dafür, dass wir sie tatsächlich nutzen können“, sagt André Kahles von der ETH Zürich laut Nature. Durch mathematische Strukturen und spezielle Kompressionstechniken gelang es seinem Team, die gewaltigen Sequenzmengen auf ein handhabbares Format zu reduzieren.
„Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen“, erklärt Professor Gunnar Rätsch, Leiter der Biomedical Informatics Group der ETH.
„Google für DNA“ macht genetische Muster weltweit auffindbar
MetaGraph vereint Daten aus sieben großen Archiven, darunter auch das Sequence Read Archive mit mehr als 100 Billionen DNA-Bausteinen. Insgesamt entstanden so fast 19 Millionen Datensätze – aus Viren, Bakterien, Pflanzen, Tieren und Menschen. Forscher können nun gezielt nach bestimmten Sequenzen suchen, ähnlich wie man bei Google Begriffe eintippt. Im Unterschied zu früher müssen dafür keine ganzen Datensätze mehr heruntergeladen werden.
„Es ist eine völlig neue Art, mit dieser Datenfülle zu arbeiten“, so Kahles. Selbst unkommentierte Sequenzen lassen sich durchsuchen, sodass unbekannte genetische Muster auffindbar werden. Der Ansatz eröffnet neue Möglichkeiten, etwa beim Aufspüren von Krankheitsgenen oder der Suche nach bisher unentdeckten Mikroben. Auch seltene Erbkrankheiten oder Mutationen in Tumorzellen könnten künftig schneller erkannt werden.
Analysen, die früher Monate dauerten, schafft MetaGraph in einer Stunde
In einem Test durchsuchten die Forscher mehr als 240.000 Proben menschlicher Darmbakterien nach Genen, die Resistenzen gegen Antibiotika verleihen. Der gesamte Vorgang dauerte nur rund eine Stunde auf einem leistungsstarken Rechner. Zuvor hätte eine solche Analyse Wochen oder Monate beansprucht.
Ähnliche Suchläufe könnten künftig helfen, neue Erreger oder Bakteriophagen zu identifizieren – Viren, die krankmachende Bakterien gezielt vernichten.
„MetaGraph ermöglicht Dinge, die sonst auf keine andere Weise machbar wären“, sagt Rayan Chikhi vom Institut Pasteur in Paris. Auch für den Kampf gegen Infektionen könnte das entscheidend sein: Forscher erkennen Resistenzmuster früher und gezielter, noch bevor sie sich weltweit ausbreiten.
Freier Zugriff auf DNA-Daten soll Forschung transparenter und schneller machen
MetaGraph ist nicht das einzige System seiner Art. Andere Plattformen wie „Logan“ arbeiten ähnlich, aber mit anderen Schwerpunkten. Gemeinsam ist ihnen die Idee, genetische Informationen als frei zugängliche Ressource zu begreifen, heißt es bei Nature.
MetaGraph steht bereits heute als Open-Source-Tool im Netz zur Verfügung. Rund die Hälfte der weltweit verfügbaren Sequenzen ist schon indexiert, der Rest soll bis Jahresende folgen. Artem Babaian von der Universität Toronto erklärt dazu: „Diese Tools zeigen, wie wichtig Open Source ist.“ Nur wenn die zugrunde liegenden Sequenzen frei verfügbar bleiben, könne die Forschung global davon profitieren.
„Google für DNA“ könnte irgendwann auch im Alltag helfen
Kahles hält es langfristig sogar für möglich, dass die DNA-Suchmaschine eines Tages auch von Privatpersonen genutzt wird – etwa um Pflanzen oder Mikroben aus dem eigenen Umfeld zu bestimmen.
Die Forscher sehen in ihrem „Google für DNA“ daher vor allem eines: den Beginn einer neuen Phase der Biowissenschaften, in der Wissen nicht mehr verborgen in Datensilos liegt – sondern für alle zugänglich wird.
Kurz zusammengefasst:
- MetaGraph funktioniert wie ein „Google für DNA“: Es macht Milliarden genetischer Sequenzen aus öffentlichen Datenbanken blitzschnell durchsuchbar und spart damit enorme Rechenzeit und Kosten.
- Die Suchmaschine komprimiert genetische Informationen rund 300-fach, ohne wichtige Details zu verlieren – so können Forscher Muster in Erbkrankheiten, Tumoren oder Resistenzen erstmals gezielt erkennen.
- Weil MetaGraph als Open-Source-Tool frei zugänglich ist, profitieren Forschungseinrichtungen weltweit – ein entscheidender Schritt hin zu transparenterer und schnellerer Biomedizin.
Übrigens: Jetzt lernt auch die KI, Pflanzen zu verstehen – sie liest ihre DNA wie einen Text. Wie das die Züchtung und Artenvielfalt verändern könnte, steht in unserem Artikel.
Bild: © Midjourney