Dự đoán giá trị kiểu hình (GEBV) là một trong những ưu tiên hàng đầu trong chọn tạo giống di truyền (GS). Dự đoán giá trị kiểu hình giúp chúng ta dự đoán được năng suất, chất lượng của cây trồng, con giống từ đó có thể nâng cao giá trị kinh tế cho người trồng trọt chăn nuôi. Với khả năng hiện tại của học máy chúng ta có thể dự đoán nhanh hơn và chính xác hơn thông qua các mẫu giải trình tự gen thế hệ mới (NGS) thay vì dựa vào thí nghiệm thực địa tốn kém và mất thời gian.
Tuy tận dụng dữ liệu đa hình nucleotide đơn (SNP) trên toàn bộ hệ gen để dự đoán giá trị giống ước tính, nhưng với số lượng SNP rất lớn khiến cho quá trình tính toán khó khăn, dễ bị quá khớp, vậy nên các thuật toán học máy như Random Forest (RF), XGBoost, Deep Learning (MLP, CNN) đang được khai thác để tối ưu hóa độ chính xác của GS. Đặc biệt, phương pháp chọn lọc đặc trưng (Feature Selection) giúp giảm số lượng SNP nhưng vẫn giữ hiệu suất dự đoán cao, từ đó khắc phục vấn đề quá khớp khi số lượng SNP lớn hơn số mẫu. Ngoài ra, các mô hình GBLUP kết hợp với học máy cũng đang được phát triển để cải thiện độ chính xác của dự đoán kiểu hình. Đối với các đặc trưng có hệ số di truyền cao, các thuật toán học máy hoạt động vô cùng nhanh, hiệu quả độ chính xác cao. Tuy nhiên với các đặc trưng có hệ số di truyền thấp, chúng ta cần một số thuật toán tốt hơn để có thể cải thiện kết quả dự đoán.
Vậy nên áp dụng học máy để dự đoán giá trị kiểu hình trong chọn tạo giống di truyền đang dần trở thành xu thế. Phát triển các thuật toán này là góp phần giúp các nhà nông phát triển sản phẩm của mình.
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.