Un nuevo estudio presenta "Evo" - un modelo de aprendizaje automático capaz de decodificar y diseñar secuencias de ADN, ARN y proteínas, desde la escala molecular hasta la escala del genoma, con una precisión sin precedentes. La capacidad de Evo para predecir, generar y diseñar secuencias genómicas enteras podría cambiar la forma en que se realiza la biología sintética. "La capacidad de predecir los efectos de las mutaciones en todos los niveles de regulación en la célula y de diseñar secuencias de ADN para manipular la función celular tendría enormes implicaciones diagnósticas y terapéuticas para enfermedades," escribe Christina Theodoris en una perspectiva relacionada.
Con un vocabulario de solo cuatro nucleótidos, el ADN codifica toda la información genética esencial para la vida. Las variaciones en la secuencia genómica reflejan adaptaciones seleccionadas para funciones biológicas específicas. Estas variaciones impulsan la evolución al permitir que los organismos se adapten a nuevos o cambiantes entornos. Los avances en las tecnologías de secuenciación de ADN han permitido mapear variaciones genómicas a escala de todo el genoma. Estos datos, combinados con nuevos algoritmos de aprendizaje automático, podrían permitir la creación de un modelo integral que pueda entender las funciones del ADN, ARN y proteínas y sus interacciones.
Sin embargo, mientras que algunos investigadores, inspirados por el éxito de los modelos de lenguaje de gran tamaño (LLMs), han intentado modelar el ADN como un "idioma" aplicando técnicas similares, los modelos generativos actuales tienden a centrarse estrechamente en moléculas individuales o segmentos de ADN. Junto con las limitaciones computacionales, esto ha restringido el alcance de estos modelos para capturar interacciones genómicas más amplias necesarias para comprender procesos biológicos complejos.
Aquí, Eric Nguyen y colegas presentan Evo - un modelo de base genómica a gran escala, equipado con 7 mil millones de parámetros y diseñado para generar secuencias de ADN de hasta la escala del genoma completo. Basado en la arquitectura StripedHyena, Evo fue entrenado en un conjunto de datos de 2.7 millones de genomas microbianos evolutivamente diversos. Según Nguyen et al., Evo sobresale en tareas biológicas predictivas y generativas, logrando alta precisión en evaluaciones de cero disparos para predecir los impactos de mutaciones en proteínas y ARN bacterianos, así como en la modelización de la regulación génica.
Evo también comprende la intrincada coevolución entre secuencias codificantes y no codificantes, apoyando el diseño de sistemas biológicos complejos como complejos CRISPR-Cas y elementos transponibles. A escala genómica, Evo puede generar secuencias de más de 1 megabase de longitud, una capacidad que supera con creces la de modelos anteriores. "Los modelos futuros podrían aprender de diversos genomas humanos y de otros eucariotas, utilizando longitudes de contexto más grandes para capturar interacciones genómicas distantes en escalas genómicas más grandes," escribe Theodoris en la perspectiva.