En un avance revolucionario en la intersección de la inteligencia artificial y la biología molecular, un equipo liderado por Thomas Hayes ha desarrollado una nueva proteína fluorescente utilizando el modelo de lenguaje generativo multimodal ESM3. Esta innovación simula procesos evolutivos que abarcan 500 millones de años, ofreciendo profundas perspectivas sobre los sistemas biológicos y las aplicaciones potenciales de las proteínas recién diseñadas en medicina, bioingeniería y ciencia ambiental.
ESM3 se aparta de los modelos tradicionales al razonar sobre las secuencias, estructuras y funciones de las proteínas, permitiendo una exploración detallada de las características proteicas a través de tokens discretos elaborados. Este enfoque permite a los científicos crear funcionalidades proteicas personalizadas, lo que podría revolucionar la biología sintética y los biopharmaceuticals.
El entrenamiento del modelo abarcó un conjunto de datos impresionante de 771 mil millones de tokens únicos, derivados de 3,15 mil millones de secuencias de proteínas distintas. Esta extensa base permite a ESM3 generar secuencias proteicas sin precedentes, desafiando los entendimientos actuales de la evolución de las proteínas.
Con una arquitectura escalable que cuenta con 98 mil millones de parámetros, ESM3 discernió relaciones biológicas intrincadas, simulando millones de años de adaptación evolutiva para generar proteínas con propiedades únicas. La nueva proteína fluorescente sintetizada exhibe un brillo notable, sugiriendo ventajas en aplicaciones basadas en fluorescencia como la imagenología y el diagnóstico.
En un movimiento significativo hacia la accesibilidad, ESM3 lanzará una fase beta pública a través de una API, permitiendo a investigadores de todo el mundo utilizar sus capacidades avanzadas de modelado. Esta democratización fomenta la investigación colaborativa, permitiendo a los científicos diseñar proteínas con herramientas fáciles de usar.
La API EvolutionaryScale Forge ofrece un nivel gratuito dedicado al acceso académico, promoviendo la innovación en la ingeniería de proteínas. El código y los pesos del modelo abierto sirven como recursos invaluables para biólogos computacionales, asegurando una investigación continua robusta.
A medida que entramos en una nueva era de biología sintética, las contribuciones de ESM3 ejemplifican cómo la IA puede transformar las metodologías de investigación tradicionales, impactando sectores desde la atención médica hasta las ciencias ambientales. Se anima a la comunidad científica a aprovechar esta tecnología para abordar desafíos del mundo real, con el potencial de descubrimientos ilimitados en bioquímica.
La creación de una nueva proteína fluorescente a través de ESM3 significa un cambio en la utilización de la IA para manipular las complejidades de la biología de las proteínas. Esta investigación encarna la convergencia de la tecnología y la bioquímica, anunciando el comienzo de la biología impulsada por IA y sus prometedores desarrollos futuros.