Des chercheurs de l'Université de Stanford et de l'Institut Arc ont développé Evo, une intelligence artificielle capable de générer des séquences génomiques synthétiques à partir de zéro. Cet outil, entraîné sur des données génomiques microbiennes, a des applications potentielles en biotechnologie et en biologie synthétique.
Les modèles d'IA ont transformé les méthodologies dans diverses disciplines, en particulier en sciences biomédicales et en biologie moléculaire. Ces dernières années, des outils d'IA innovants avec de larges applications ont vu le jour, notamment pour l'identification de cibles thérapeutiques et la prédiction de structures protéiques.
Une étude publiée dans la revue Science a présenté Evo, un nouvel outil d'IA capable de générer des génomes complets à partir de zéro. Contrairement à d'autres systèmes d'IA, Evo utilise des modèles de langage de grande taille, lui permettant de générer des séquences génomiques bactériennes entières. Son développement ouvre de nouvelles opportunités pour la conception de protéines et de génomes synthétiques grâce à l'intelligence artificielle.
Evo est une IA générative basée sur des modèles de langage de grande taille, capable d'identifier des motifs dans l'ADN et de générer de nouvelles séquences. Dirigé par le Dr. Brian Hie, l'équipe a formé Evo avec des données provenant de plus de 27 millions de génomes procaryotes, de bactériophages et de plasmides, permettant ainsi d'identifier des motifs évolutifs dans l'ADN.
Un avancement significatif d'Evo par rapport aux modèles d'IA précédents réside dans sa longueur de contexte étendue, qui lui permet de traiter de longues séquences d'ADN. Alors que d'autres IA analysent des fragments d'ADN courts, Evo peut analyser des séquences plus longues, améliorant ainsi sa capacité à identifier les connexions entre les gènes et les séquences génomiques.
Après la conception d'Evo, l'équipe de recherche a évalué son efficacité à prédire l'impact des mutations sur la fonctionnalité des protéines. Ils ont introduit des mutations spécifiques dans les génomes de cellules procaryotes et ont comparé les prédictions d'Evo avec les résultats d'autres études ayant généré les mêmes mutations. Les résultats ont montré qu'Evo est plus efficace pour prédire les effets des mutations que d'autres modèles d'IA.
Dans une seconde phase de l'étude, l'équipe du Dr. Hie a évalué le potentiel d'Evo pour concevoir des versions optimisées de la protéine Cas9, un outil crucial pour l'édition génétique via CRISPR. Les auteurs ont formé le modèle avec plus de 70 000 séquences bactériennes codant pour des protéines Cas et leurs ARN associés.
Après l'entraînement, Evo a généré des millions de séquences synthétiques codant des enzymes Cas9. Le Dr. Hie et son équipe ont analysé ces séquences, sélectionnant les 11 versions les plus prometteuses pour une synthèse en laboratoire et une évaluation. Les résultats ont montré que certaines protéines Cas9 synthétisées par Evo étaient aussi efficaces que la version commerciale.
Historiquement, obtenir des versions plus efficaces de Cas9 représentait un défi majeur pour les chercheurs, nécessitant la découverte de bactéries ayant évolué pour posséder des variantes enzymatiques plus puissantes. 'Nous n'avons pas à attendre l'évolution pour créer une nouvelle Cas9', a expliqué le Dr. Hie.
La génération de génomes synthétiques reste un défi majeur en biologie synthétique. Le Dr. Hie et son équipe se sont demandé si Evo pouvait générer des séquences génomiques synthétiques complètes. L'IA a réussi à générer une grande partie des séquences génomiques, y compris des gènes essentiels pour la fonction cellulaire, mais a omis des régions génomiques critiques nécessaires à la survie.
Une autre limitation d'Evo a été notée dans la génération de séquences de protéines Cas9 synthétiques, où l'IA a proposé des séquences non fonctionnelles. De telles erreurs sont courantes dans de nombreux autres modèles d'IA génératives basés sur des cadres de langage de grande taille, y compris ChatGPT.
Malgré ses limitations, Evo représente un avancement significatif dans l'utilisation d'outils d'IA génératives. Les recherches futures viseront à améliorer cet outil pour la conception de protéines et de génomes synthétiques.