MỤC LỤC BÀI VIẾT
Học máy trong chọn tạo giống cây trồng
Nông nghiệp trong kỷ nguyên số
Trong kỷ nguyên của dữ liệu lớn và những tiến bộ công nghệ không ngừng, ngành nông nghiệp đang chứng kiến một cuộc chuyển đổi mạnh mẽ, đặc biệt là trong lĩnh vực chọn tạo giống cây trồng. Trí tuệ nhân tạo (AI), với côt lõi là học máy (ML), đang mở ra những chân trời mới, hứa hẹn tạo ra những giống cây trồng ưu việt, có năng suất cao hơn và thích ứng tốt hơn với sự thay đổi của môi trường. Theo định nghĩa của Arthur Samuel (1959), học máy (ML) là “một lĩnh vực nghiên cứu cho phép máy tính học hỏi mà không cần được lập trình một cách rõ ràng”. Khác với thống kê truyền thống dựa trên các giả định, ML có khả năng tự động suy diễn các “khả năng” từ dữ liệu mà không cần sự can thiệp quá nhiều của con người. Với sự bùng nổ của công nghệ số, chọn tạo giống cây trồng đã bước vào thế hệ “genome, germplasm, genes, genomic breeding và gene editing (5G)”, nơi mà kiến thức sinh học và dữ liệu đa omics được tích hợp để đẩy nhanh quá trình cải thiện đặc tính. ML mang đến tiềm năng to lớn cho chọn tạo giống 5G, với nhiều ứng dụng trong khám phá gen dựa trên omics, dự đoán kiểu hình từ kiểu gen (G2P), chọn lọc hệ gene (GS) và nghiên cứu kiểu hình thực vật. Tuy nhiên, vẫn còn một khoảng cách đáng kể giữa nghiên cứu cơ bản và thực tiễn chọn tạo giống cây trồng. Một trong những thách thức lớn nhất là việc xử lý các bộ dữ liệu omics, genome, kiểu hình và môi trường ngày càng trở nên đa chiều. Để giải quyết vấn đề này, các thuật toán ML tiên tiến đang được kỳ vọng sẽ đóng vai trò then chốt.
Khám phá gene nông nghiệp quan trọng nhờ phân tích đa omics ở quy mô lớn
Việc khám phá các gene có lợi cho nông nghiệp là tiền đề để khai thác các biến dị tự nhiên cho chọn lọc dựa trên marker (MAS) hoặc tạo ra các đột biến nhân tạo thông qua chỉnh sửa genome. Các nghiên cứu liên kết toàn genome (GWAS) đối với các đặc tính nông nghiệp phổ biến đang gặp phải những hạn chế nhất định, đặc biệt là trong việc phân tích các đặc tính phức tạp, đa gen. Phân tích đa omics tập trung vào một bộ sưu tập tham khảo trong các điều kiện không gian và thời gian khác nhau có thể nâng cao đáng kể độ phân giải trong việc xác định các gene và đột biến gây bệnh khi các phân tử sinh học tế bào (RNA transcripts, proteins, metabolites) được coi là các đặc điểm phân tử. Hơn nữa, nghiên cứu kiểu hình với dữ liệu chủ yếu được tạo ra từ các thiết bị hình ảnh hiệu suất cao sử dụng công nghệ thị giác máy tính đã trở thành một thành phần quan trọng khác trong đa omics. Vì các đặc điểm kiểu hình có thể phản ánh các hoạt động sinh lý nhất định bên trong tế bào thực vật, loại đặc điểm này có thể được coi là các đặc điểm hình ảnh.
Trực Quan Hóa Dữ Liệu Đa Chiều và Xác Định Các Biến Dị Nguyên Nhân
Học đa tạp (Manifold learning) sử dụng các thuật toán DR phi tuyến tính để trực quan hóa các bộ dữ liệu có tính đa chiều cực cao, giúp duy trì các thuộc tính hình học của dữ liệu đa chiều ngay cả khi được ánh xạ xuống không gian chiều thấp. Kỹ thuật này đặc biệt hữu ích cho việc trực quan hóa dữ liệu giải trình tự RNA đơn bào (scRNA-seq). Về cơ bản, khám phá gene là xác định các biến dị genome có lợi cho một đặc tính nhất định. Do đó, ánh xạ tinh vi (fine-mapping) các biến dị gây bệnh, bao gồm: SNPs, InDels, PAVs và SVs là rất quan trọng cho chọn tạo giống được thiết kế chính xác. Việc này đặc biệt đúng đối với việc cải thiện các đặc tính định tính được quyết định bởi một gene đơn có ảnh hưởng lớn. Tuy nhiên, việc ánh xạ các biến dị điều hòa liên quan đến SVs và PAVs khó khăn hơn nhiều và đòi hỏi trình tự genome chất lượng cao. Các phương pháp ML được kỳ vọng sẽ giải quyết việc phân tích tích hợp dữ liệu panomics.
Từ Kiến Thức Sinh Học Đến Chọn Tạo Giống Phân Tử Định Hướng
Chuyển đổi kiến thức từ nghiên cứu thực vật thành ứng dụng chọn tạo giống vẫn là một thách thức. ML có tiềm năng lớn trong việc tích hợp kiến thức và dữ liệu để giải quyết vấn đề này. Ví dụ, trong việc tạo ra giống ngô phù hợp cho thu hoạch cơ giới, cần xem xét nhiều đặc tính cùng lúc. Các thuật toán ML như Target-oriented prioritization (TOP) có thể học hỏi các mối quan hệ hiệp đồng hoặc cạnh tranh giữa các đặc tính để đưa ra quyết định thống nhất trong việc chọn lọc các ứng cử viên ưu tú. Thêm vào đó, Genotyping by targeted sequencing (GBTS) được sử dụng rộng rãi để xác định các vùng chứa SNP. Tuy nhiên, chi phí vẫn còn tương đối cao. Ensemble learning (EL) có thể được tận dụng để chọn lọc các marker hiệu quả, và các nền tảng như KASP có thể được sử dụng cho việc giải trình tự quy mô lớn với chi phí thấp hơn. Ngoài panel marker, panel đường dẫn (pathway panel) có thể chứa các biến dị liên quan đến các gene hình thành mạng lưới điều hòa hoặc nằm trong một con đường sinh tổng hợp metabolite. Học nhân quả (causal learning) là một lĩnh vực mới nổi có thể giúp suy luận mối quan hệ nhân quả giữa các gene, từ đó hỗ trợ thiết kế panel đặc tính. Cuối cùng, chọn lọc genome (GS) sử dụng các mô hình thống kê hoặc ML để suy luận các mối tương quan giữa kiểu gen và kiểu hình. Trong đó, các kỹ thuật như low-coverage genome-wide sequencing (lcGWS) có thể là một giải pháp thay thế hứa hẹn. Tuy nhiên, cần lưu ý đến sự cân bằng giữa chi phí và độ chính xác. Việc tích hợp dữ liệu đa omics với học sâu (Deep Learning) có thể cải thiện độ chính xác dự đoán, nhưng cần thực hiện kỹ thuật đặc trưng để giảm chiều dữ liệu.
Kết Luận
Học máy đang cách mạng hóa lĩnh vực chọn tạo giống cây trồng bằng cách cung cấp các công cụ mạnh mẽ để phân tích dữ liệu phức tạp, khám phá gene, dự đoán kiểu hình và thiết kế các giống cây trồng ưu việt. Mặc dù vẫn còn những thách thức, sự phát triển của các thuật toán ML tiên tiến và việc xây dựng một hệ sinh thái AI toàn diện hứa hẹn sẽ đưa ngành chọn tạo giống cây trồng bước vào một kỷ nguyên mới, nơi mà việc tạo ra các giống cây trồng thông minh và dễ dàng hơn bao giờ hết.
Tài liệu tham khảo: https://academic.oup.com/gpb/article/22/4/qzae051/7703285
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.