Maschinelles Lernen revolutioniert die DNA-Entwicklung

Eine neue Studie präsentiert "Evo" - ein maschinelles Lernmodell, das in der Lage ist, DNA-, RNA- und Proteinsequenzen vom molekularen bis zum Genommaßstab mit unvergleichlicher Genauigkeit zu dekodieren und zu entwerfen. Die Fähigkeit von Evo, gesamte genomische Sequenzen vorherzusagen, zu generieren und zu konstruieren, könnte die Art und Weise, wie synthetische Biologie betrieben wird, verändern. "Die Fähigkeit, die Auswirkungen von Mutationen über alle Ebenen der Regulation in der Zelle vorherzusagen und DNA-Sequenzen zu entwerfen, um die Zellfunktion zu manipulieren, hätte enorme diagnostische und therapeutische Auswirkungen auf Krankheiten," schreibt Christina Theodoris in einer entsprechenden Perspektive.

Mit einem Vokabular von nur vier Nukleotiden kodiert DNA alle genetischen Informationen, die für das Leben notwendig sind. Variationen in der genomischen Sequenz spiegeln Anpassungen wider, die für spezifische biologische Funktionen ausgewählt wurden. Diese Variationen treiben die Evolution voran, indem sie es Organismen ermöglichen, sich an neue oder sich verändernde Umgebungen anzupassen. Fortschritte in der DNA-Sequenzierungstechnologie haben es ermöglicht, genomische Variationen im gesamten Genommaßstab zu kartieren. Diese Daten, kombiniert mit neuartigen Algorithmen des maschinellen Lernens, könnten die Erstellung eines umfassenden Modells ermöglichen, das DNA-, RNA- und Proteinfunktionen sowie deren Wechselwirkungen versteht.

Während jedoch einige Forscher, inspiriert vom Erfolg großer Sprachmodelle (LLMs), versucht haben, DNA als "Sprache" zu modellieren, indem sie ähnliche Techniken anwenden, konzentrieren sich aktuelle generative Modelle tendenziell eng auf einzelne Moleküle oder DNA-Segmente. Neben den rechnerischen Einschränkungen hat dies den Umfang dieser Modelle eingeschränkt, breitere genomische Interaktionen zu erfassen, die für das Verständnis komplexer biologischer Prozesse erforderlich sind.

Hier präsentieren Eric Nguyen und Kollegen Evo - ein großangelegtes genomisches Grundmodell, ausgestattet mit 7 Milliarden Parametern und darauf ausgelegt, DNA-Sequenzen bis hin zum gesamten Genommaßstab zu generieren. Basierend auf der StripedHyena-Architektur wurde Evo auf einem Datensatz von 2,7 Millionen evolutionär unterschiedlichen mikrobiellen Genomen trainiert. Laut Nguyen et al. übertrifft Evo in beiden, prädiktiven und generativen biologischen Aufgaben, erreicht hohe Genauigkeit in Zero-Shot-Bewertungen zur Vorhersage der Auswirkungen von Mutationen auf bakterielle Proteine und RNA sowie bei der Modellierung der Genregulation.

Evo erfasst auch die komplexe Koevolution zwischen kodierenden und nicht kodierenden Sequenzen und unterstützt die Gestaltung komplexer biologischer Systeme wie CRISPR-Cas-Komplexe und transponierbare Elemente. Auf genomischer Ebene kann Evo Sequenzen von über 1 Megabase Länge generieren, eine Fähigkeit, die frühere Modelle bei weitem übertrifft. "Zukünftige Modelle könnten von verschiedenen menschlichen und anderen eukaryotischen Genomen lernen, indem sie größere Kontextlängen verwenden, um entfernte genomische Interaktionen über größere genomische Maßstäbe hinweg zu erfassen," schreibt Theodoris in der Perspektive.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.