海南大學發表在Tropical Plants上的一項突破性研究展示了人工智能(AI)在植物基因組學中的應用。研究人員正在使用大型語言模型(LLM)來解碼複雜的遺傳信息。這種方法有望促進農業、生物多樣性保護和糧食安全。
長期以來,植物基因組學一直受到龐大而複雜的遺傳數據的挑戰。傳統方法難以處理大型數據集和基因組變異。LLM通過利用遺傳序列和人類語言之間的相似性,為分析植物基因組提供了一種新方法。
該研究的重點是調整LLM以理解植物基因組的獨特特徵。與具有語法規則的人類語言不同,植物基因組在控制基因表達的生物學規則下運行。研究人員在廣泛的植物基因組數據集上訓練LLM,以識別模式並預測基因功能。
訓練過程包括預訓練和微調。預訓練涉及LLM處理未註釋的植物基因組數據以識別相似之處。微調使用註釋的數據集來完善模型對生物學功能的預測能力。
該研究成功地應用了為植物基因組學量身定制的不同LLM架構。這些包括僅編碼器模型(如DNABERT)、僅解碼器模型(如DNAGPT)和編碼器-解碼器模型(如ENBED)。每種模型都擅長處理基因組數據,從識別增強子和啟動子到預測基因表達模式。
植物特定模型(如AgroNT和FloraBERT)在註釋植物基因組方面表現出增強的性能。通過關注DNA序列的語言特徵,這些模型揭示了基因調控的複雜性。這使得基因組信息能夠在實際農業環境中應用。
該研究承認現有LLM架構的差距。目前的模型主要在動物或微生物數據集上進行訓練,缺乏植物物種的全面基因組註釋。作者提倡以植物為中心的LLM,納入多樣化的基因組數據集,特別是來自熱帶植物等研究較少的物種。
人工智能和LLM在植物基因組學中可以加速作物改良策略。這可以使植物物種更好地適應不斷變化的環境條件。最終,這增強了生物多樣性保護工作,這對全球糧食安全至關重要。
這項研究突出了人工智能在植物基因組學中的變革潛力。通過橋接計算語言學和遺傳分析,研究人員可以徹底改變我們對植物生物學的理解。這有望提高農業生產力並促進可持續實踐。
未來的努力將完善LLM架構並擴展訓練數據集。這包括更廣泛的植物物種,並調查實際農業應用。這項關鍵研究為植物基因組研究的新時代奠定了基礎,人工智能將在其中發揮核心作用。