Forscher der Stanford University und des Arc Institute haben Evo entwickelt, eine künstliche Intelligenz, die in der Lage ist, synthetische genomische Sequenzen von Grund auf zu generieren. Dieses Tool, das mit mikrobiellen Genomdaten trainiert wurde, hat potenzielle Anwendungen in der Biotechnologie und synthetischen Biologie.
Künstliche Intelligenz hat die Methoden in verschiedenen Disziplinen revolutioniert, insbesondere in den biomedizinischen Wissenschaften und der Molekularbiologie. In den letzten Jahren sind innovative KI-Tools mit breiten Anwendungen entstanden, darunter die Identifizierung therapeutischer Ziele und die Vorhersage von Proteinstrukturen.
Eine in der Zeitschrift Science veröffentlichte Studie stellte Evo vor, ein neues KI-Tool, das in der Lage ist, vollständige Genome von Grund auf zu generieren. Im Gegensatz zu anderen KI-Systemen nutzt Evo große Sprachmodelle, um ganze bakterielle genomische Sequenzen zu generieren. Die Entwicklung eröffnet neue Möglichkeiten für das Design von Proteinen und synthetischen Genomen mithilfe künstlicher Intelligenz.
Evo ist eine generative KI, die auf großen Sprachmodellen basiert und in der Lage ist, Muster in DNA zu identifizieren und neue Sequenzen zu generieren. Unter der Leitung von Dr. Brian Hie trainierte das Team Evo mit Daten von über 27 Millionen prokaryotischen Genomen, Bakteriophagen und Plasmiden, was es ihm ermöglichte, evolutionäre Muster in der DNA zu identifizieren.
Ein wesentlicher Fortschritt von Evo gegenüber früheren KI-Modellen ist die umfassende Kontextlänge, die es ihm ermöglicht, lange DNA-Sequenzen zu verarbeiten. Während andere KIs kurze DNA-Fragmente analysieren, kann Evo längere Sequenzen analysieren, was seine Fähigkeit verbessert, Verbindungen zwischen Genen und genomischen Sequenzen zu identifizieren.
Nach dem Design von Evo bewertete das Forschungsteam dessen Effektivität bei der Vorhersage der Auswirkungen von Mutationen auf die Funktionalität von Proteinen. Sie führten spezifische Mutationen in die Genome prokaryotischer Zellen ein und verglichen die Vorhersagen von Evo mit Ergebnissen anderer Studien, die die gleichen Mutationen erzeugt hatten. Die Ergebnisse zeigten, dass Evo effektiver bei der Vorhersage der Mutationseffekte war als andere KI-Modelle.
In einer zweiten Phase der Studie bewertete das Team von Dr. Hie das Potenzial von Evo zur Gestaltung optimierter Versionen des Cas9-Proteins, eines entscheidenden Werkzeugs für die genetische Bearbeitung über CRISPR. Die Autoren trainierten das Modell mit über 70.000 bakteriellen Sequenzen, die Cas-Proteine und deren assoziierte RNAs kodieren.
Nach dem Training generierte Evo Millionen von synthetischen Sequenzen, die Cas9-Enzyme kodieren. Dr. Hie und sein Team analysierten diese Sequenzen und wählten die 11 vielversprechendsten Versionen zur Synthese im Labor und zur Bewertung aus. Die Ergebnisse zeigten, dass einige von Evo synthetisierte Cas9-Proteine so effizient waren wie die kommerzielle Version.
Bisher war es eine große Herausforderung für Forscher, effektivere Versionen von Cas9 zu erhalten, da es erforderlich war, Bakterien zu finden, die sich zu leistungsfähigeren Varianten dieses Enzyms entwickelt hatten. 'Wir müssen nicht auf die Evolution warten, um ein neues Cas9 zu schaffen', erklärte Dr. Hie.
Die Generierung synthetischer Genome bleibt eine große Herausforderung in der synthetischen Biologie. Dr. Hie und sein Team fragten sich, ob Evo in der Lage wäre, vollständige synthetische genomische Sequenzen zu generieren. Die KI generierte erfolgreich einen Großteil der genomischen Sequenzen, einschließlich wichtiger Gene für die Zellfunktion, ließ jedoch kritische genomische Regionen aus, die für das Überleben notwendig sind.
Eine weitere Einschränkung von Evo wurde bei der Generierung synthetischer Cas9-Proteinsequenzen festgestellt, bei denen die KI nicht funktionale Sequenzen vorschlug. Solche Fehler sind bei vielen anderen generativen KI-Modellen, die auf großen Sprachmodellen basieren, einschließlich ChatGPT, häufig.
Trotz seiner Einschränkungen stellt Evo einen bedeutenden Fortschritt in der Nutzung generativer KI-Tools dar. Zukünftige Forschungen sollen dieses Tool für das Design von Proteinen und synthetischen Genomen verbessern.