Машинное обучение революционизирует проектирование ДНК

Новое исследование представляет "Evo" - модель машинного обучения, способную декодировать и проектировать последовательности ДНК, РНК и белков от молекулярного до геномного масштаба с беспрецедентной точностью. Способность Evo предсказывать, генерировать и разрабатывать целые геномные последовательности может изменить подход к синтетической биологии. "Способность предсказывать эффекты мутаций на всех уровнях регуляции в клетке и проектировать последовательности ДНК для манипуляции функцией клетки будет иметь огромные диагностические и терапевтические последствия для заболеваний," пишет Кристина Теодорис в соответствующей перспективе.

Словарный запас из всего четырех нуклеотидов позволяет ДНК кодировать всю генетическую информацию, необходимую для жизни. Вариации в геномной последовательности отражают адаптации, отобранные для конкретных биологических функций. Эти вариации приводят к эволюции, позволяя организмам адаптироваться к новым или изменяющимся условиям. Достижения в технологиях секвенирования ДНК позволили картировать геномные вариации на уровне всего генома. Эти данные, в сочетании с новыми алгоритмами машинного обучения, могут позволить создать комплексную модель, которая будет понимать функции ДНК, РНК и белков, а также их взаимодействия.

Тем не менее, хотя некоторые исследователи, вдохновленные успехом больших языковых моделей (LLMs), пытались смоделировать ДНК как "язык", применяя аналогичные техники, современные генеративные модели, как правило, сосредоточены на отдельных молекулах или сегментах ДНК. В дополнение к вычислительным ограничениям, это ограничивало охват этих моделей в захвате более широких геномных взаимодействий, необходимых для понимания сложных биологических процессов.

Здесь Эрик Нгуен и коллеги представляют Evo - крупномасштабную геномную модель, оснащенную 7 миллиардами параметров и предназначенную для генерации последовательностей ДНК до масштаба целого генома. Построенная на архитектуре StripedHyena, Evo была обучена на наборе данных из 2,7 миллиона эволюционно разнообразных микробных геномов. Согласно Нгуену и др., Evo превосходит как в предсказательных, так и в генеративных биологических задачах, достигая высокой точности в нулевых оценках для предсказания воздействия мутаций на бактериальные белки и РНК, а также в моделировании регуляции генов.

Evo также понимает сложную коэволюцию между кодирующими и некодирующими последовательностями, поддерживая проектирование сложных биологических систем, таких как комплексы CRISPR-Cas и транспозируемые элементы. На геномном уровне Evo может генерировать последовательности длиной более 1 мегабазы, что значительно превосходит возможности предыдущих моделей. "Будущие модели могут учиться на различных человеческих и других эукариотических геномах, используя более длинные контексты для захвата удаленных геномных взаимодействий на больших геномных масштабах," пишет Теодорис в перспективе.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.