Новаторское исследование Университета Хайнань, опубликованное в журнале Tropical Plants, демонстрирует интеграцию искусственного интеллекта (ИИ) в геномику растений. Исследователи используют большие языковые модели (LLM) для декодирования сложной генетической информации. Этот подход обещает достижения в сельском хозяйстве, сохранении биоразнообразия и продовольственной безопасности.
Геномика растений уже давно сталкивается с проблемой огромных и сложных генетических данных. Традиционные методы с трудом справляются с большими наборами данных и геномными вариациями. LLM предлагают новый способ анализа геномов растений, используя параллели между генетическими последовательностями и человеческим языком.
Исследование сосредоточено на адаптации LLM для понимания уникальных характеристик геномов растений. В отличие от человеческих языков с грамматическими правилами, геномы растений работают по биологическим правилам, регулирующим экспрессию генов. Исследователи обучают LLM на обширных наборах геномных данных растений, чтобы распознавать закономерности и прогнозировать функции генов.
Процесс обучения включает предварительное обучение и тонкую настройку. Предварительное обучение включает в себя обработку LLM неаннотированных геномных данных растений для выявления сходств. Тонкая настройка использует аннотированные наборы данных для уточнения прогностических возможностей модели для биологических функций.
В исследовании успешно применены различные архитектуры LLM, адаптированные для геномики растений. К ним относятся модели только с кодировщиком, такие как DNABERT, модели только с декодировщиком, такие как DNAGPT, и модели кодировщик-декодировщик, такие как ENBED. Каждая модель превосходно справляется с геномными данными, от идентификации энхансеров и промоторов до прогнозирования моделей экспрессии генов.
Растительно-специфические модели, такие как AgroNT и FloraBERT, продемонстрировали улучшенную производительность в аннотировании геномов растений. Сосредоточившись на лингвистических характеристиках последовательностей ДНК, эти модели раскрывают сложности регуляции генов. Это позволяет применять геномную информацию в практических сельскохозяйственных контекстах.
В исследовании признаются пробелы в существующих архитектурах LLM. Современные модели в основном обучаются на наборах данных животных или микробов, в которых отсутствуют полные геномные аннотации для видов растений. Авторы выступают за LLM, ориентированные на растения, включающие разнообразные геномные наборы данных, особенно от менее изученных видов, таких как тропические растения.
ИИ и LLM в геномике растений могут ускорить стратегии улучшения сельскохозяйственных культур. Это может привести к лучшей адаптации видов растений к изменяющимся условиям окружающей среды. В конечном счете, это усиливает усилия по сохранению биоразнообразия, что имеет решающее значение для глобальной продовольственной безопасности.
Это исследование подчеркивает преобразующий потенциал ИИ в геномике растений. Объединяя вычислительную лингвистику и генетический анализ, исследователи могут революционизировать наше понимание биологии растений. Это обещает повысить продуктивность сельского хозяйства и способствовать устойчивым методам.
Будущие усилия будут направлены на совершенствование архитектур LLM и расширение наборов данных для обучения. Это включает в себя более широкий спектр видов растений и изучение реальных сельскохозяйственных применений. Это ключевое исследование закладывает основу для новой эры в геномных исследованиях растений, в которой ИИ играет центральную роль.