L'apprentissage automatique révolutionne l'ingénierie de l'ADN

Une nouvelle étude présente "Evo" - un modèle d'apprentissage automatique capable de décoder et de concevoir des séquences d'ADN, d'ARN et de protéines, à l'échelle moléculaire et génomique, avec une précision sans précédent. La capacité d'Evo à prédire, générer et concevoir des séquences génomiques entières pourrait changer la façon dont la biologie synthétique est pratiquée. "La capacité à prédire les effets des mutations à travers tous les niveaux de régulation dans la cellule et à concevoir des séquences d'ADN pour manipuler la fonction cellulaire aurait d'énormes implications diagnostiques et thérapeutiques pour les maladies," écrit Christina Theodoris dans une perspective connexe.

Avec un vocabulaire de seulement quatre nucléotides, l'ADN encode toutes les informations génétiques essentielles à la vie. Les variations dans la séquence génomique reflètent des adaptations sélectionnées pour des fonctions biologiques spécifiques. Ces variations entraînent l'évolution en permettant aux organismes de s'adapter à de nouveaux environnements ou à des environnements changeants. Les avancées dans les technologies de séquençage de l'ADN ont permis de cartographier les variations génomiques à l'échelle du génome entier. Ces données, combinées à de nouveaux algorithmes d'apprentissage automatique, pourraient permettre la création d'un modèle complet capable de comprendre les fonctions de l'ADN, de l'ARN et des protéines ainsi que leurs interactions.

Cependant, bien que certains chercheurs, inspirés par le succès des modèles de langage de grande taille (LLMs), aient tenté de modéliser l'ADN comme une "langue" en appliquant des techniques similaires, les modèles génératifs actuels tendent à se concentrer étroitement sur des molécules individuelles ou des segments d'ADN. En plus des limitations computationnelles, cela a contraint la portée de ces modèles à capturer des interactions génomiques plus larges nécessaires à la compréhension des processus biologiques complexes.

Dans cette étude, Eric Nguyen et ses collègues présentent Evo - un modèle de fondation génomique à grande échelle, équipé de 7 milliards de paramètres et conçu pour générer des séquences d'ADN à l'échelle du génome entier. Basé sur l'architecture StripedHyena, Evo a été formé sur un ensemble de données de 2,7 millions de génomes microbiaux évolutivement divers. Selon Nguyen et al., Evo excelle dans les tâches biologiques prédictives et génératives, atteignant une haute précision dans les évaluations zéro-shot pour prédire les impacts des mutations sur les protéines bactériennes et l'ARN, ainsi que dans la modélisation de la régulation génique.

Evo comprend également l'intrication coévolutive entre les séquences codantes et non codantes, soutenant la conception de systèmes biologiques complexes comme les complexes CRISPR-Cas et les éléments transposables. À l'échelle génomique, Evo peut générer des séquences de plus d'un mégabase de longueur, une capacité qui dépasse de loin celle des modèles précédents. "Les futurs modèles pourraient apprendre de génomes humains divers et d'autres eucaryotes, en utilisant des longueurs de contexte plus grandes pour capturer des interactions génomiques distantes sur de plus grandes échelles génomiques," écrit Theodoris dans la perspective.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.