Một nghiên cứu đột phá từ Đại học Hải Nam, được công bố trên Tropical Plants, giới thiệu sự tích hợp của trí tuệ nhân tạo (AI) trong bộ gen thực vật. Các nhà nghiên cứu đang sử dụng các mô hình ngôn ngữ lớn (LLM) để giải mã thông tin di truyền phức tạp. Cách tiếp cận này hứa hẹn những tiến bộ trong nông nghiệp, bảo tồn đa dạng sinh học và an ninh lương thực.
Bộ gen thực vật từ lâu đã bị thách thức bởi dữ liệu di truyền rộng lớn và phức tạp. Các phương pháp truyền thống gặp khó khăn với các tập dữ liệu lớn và các biến thể bộ gen. LLM cung cấp một cách mới để phân tích bộ gen thực vật bằng cách tận dụng sự tương đồng giữa các chuỗi di truyền và ngôn ngữ của con người.
Nghiên cứu tập trung vào việc điều chỉnh LLM để hiểu các đặc điểm độc đáo của bộ gen thực vật. Không giống như ngôn ngữ của con người với các quy tắc ngữ pháp, bộ gen thực vật hoạt động theo các quy tắc sinh học chi phối sự biểu hiện gen. Các nhà nghiên cứu đào tạo LLM trên các tập dữ liệu bộ gen thực vật rộng lớn để nhận ra các mẫu và dự đoán chức năng gen.
Quá trình đào tạo bao gồm đào tạo trước và tinh chỉnh. Đào tạo trước liên quan đến việc LLM xử lý dữ liệu bộ gen thực vật chưa được chú thích để xác định các điểm tương đồng. Tinh chỉnh sử dụng các tập dữ liệu được chú thích để tinh chỉnh khả năng dự đoán của mô hình cho các chức năng sinh học.
Nghiên cứu đã áp dụng thành công các kiến trúc LLM khác nhau được điều chỉnh cho bộ gen thực vật. Chúng bao gồm các mô hình chỉ có bộ mã hóa như DNABERT, các mô hình chỉ có bộ giải mã như DNAGPT và các mô hình bộ mã hóa-bộ giải mã như ENBED. Mỗi mô hình đều vượt trội trong việc xử lý dữ liệu bộ gen, từ xác định bộ tăng cường và bộ khởi động đến dự đoán các kiểu biểu hiện gen.
Các mô hình dành riêng cho thực vật như AgroNT và FloraBERT đã chứng minh hiệu suất nâng cao trong việc chú thích bộ gen thực vật. Bằng cách tập trung vào các đặc điểm ngôn ngữ của chuỗi DNA, các mô hình này làm sáng tỏ sự phức tạp của quy định gen. Điều này cho phép ứng dụng thông tin bộ gen trong bối cảnh nông nghiệp thực tế.
Nghiên cứu thừa nhận những khoảng trống trong kiến trúc LLM hiện có. Các mô hình hiện tại chủ yếu được đào tạo trên các tập dữ liệu động vật hoặc vi sinh vật, thiếu các chú thích bộ gen toàn diện cho các loài thực vật. Các tác giả ủng hộ LLM tập trung vào thực vật, kết hợp các tập dữ liệu bộ gen đa dạng, đặc biệt là từ các loài ít được nghiên cứu như thực vật nhiệt đới.
AI và LLM trong bộ gen thực vật có thể đẩy nhanh các chiến lược cải thiện cây trồng. Điều này có thể dẫn đến sự thích ứng tốt hơn của các loài thực vật với điều kiện môi trường thay đổi. Cuối cùng, điều này tăng cường các nỗ lực bảo tồn đa dạng sinh học, rất quan trọng đối với an ninh lương thực toàn cầu.
Nghiên cứu này làm nổi bật tiềm năng chuyển đổi của AI trong bộ gen thực vật. Bằng cách kết nối ngôn ngữ học tính toán và phân tích di truyền, các nhà nghiên cứu có thể cách mạng hóa sự hiểu biết của chúng ta về sinh học thực vật. Điều này hứa hẹn sẽ tăng cường năng suất nông nghiệp và thúc đẩy các hoạt động bền vững.
Những nỗ lực trong tương lai sẽ tinh chỉnh kiến trúc LLM và mở rộng tập dữ liệu đào tạo. Điều này bao gồm một loạt các loài thực vật rộng lớn hơn và điều tra các ứng dụng nông nghiệp trong thế giới thực. Nghiên cứu then chốt này đặt nền móng cho một kỷ nguyên mới trong nghiên cứu bộ gen thực vật, với AI đóng vai trò trung tâm.