Cross-validation (CV) là một kỹ thuật mạnh mẽ để đánh giá khả năng dự đoán của một mô hình học máy. Bài viết này sẽ thảo luận về ứng dụng của kỹ thuật cross-validation trong việc xây dựng mô hình chọn lọc di truyền dựa trên bộ gen (genomic selection – GS).
Cross-validation là gì?
Cross-validation một kỹ thuật thống kê được sử dụng để đánh giá hiệu suất của một mô hình bằng cách chia dữ liệu thành các tập con để huấn luyện và kiểm tra. Khi thực hiện cross-validation, dữ liệu được chia ngẫu nhiên thành nhiều tập con bằng nhau, sau đó lặp đi lặp lại việc tạo và kiểm tra các mô hình dự đoán sao cho mỗi tập con được giữ lại và được sử dụng để kiểm tra mô hình một lần trong khi các tập con còn lại được sử dụng để huấn luyện mô hình. Quá trình này được gọi là “k-fold cross-validation”, với k là số lần lặp.
Ví dụ, trong 5-fold cross-validation, tập huấn luyện hoàn chỉnh được chia thành 5 tập con ngẫu nhiên, quá trình huấn luyện và kiểm tra mô hình được lặp lại 5 lần. Trong mỗi lần lặp, một tập con được sử dụng để kiểm tra một mô hình dự đoán được huấn luyện trên 4 tập con còn lại. Khi hoàn thành, các kiểu hình đã biết cho các mẫu có thể được so sánh với các dự đoán để đánh giá mô hình. Độ chính xác của mô hình là kết quả trung bình của các lần lặp.
Vai trò của cross-validation trong lựa chọn mô hình GS
Cross-validation đóng một vai trò quan trọng trong việc lựa chọn mô hình GS tối ưu bằng cách đánh giá và so sánh hiệu suất của các mô hình khác nhau. Dưới đây là một số ứng dụng cụ thể:
- Lựa chọn độ phức tạp của mô hình: Cross-validation giúp xác định mức độ phức tạp phù hợp cho mô hình GS. Quá trình này liên quan đến việc đánh giá khả năng dự đoán trên các mô hình có độ phức tạp khác nhau (ví dụ: số lượng marker được sử dụng, cấu trúc tương tác giữa các marker) và lựa chọn mô hình đạt được sự cân bằng tốt nhất giữa độ chính xác và khả năng khái quát hóa.
- Tinh chỉnh siêu tham số: Hầu hết các mô hình GS chứa các siêu tham số cần được điều chỉnh để tối ưu hóa khả năng dự đoán. Cross-validation được sử dụng để xác định các giá trị tối ưu cho các siêu tham số này bằng cách so sánh hiệu suất của mô hình trên một loạt các giá trị khác nhau.
- So sánh các mô hình khác nhau: Cross-validation cho phép so sánh trực tiếp hiệu suất của các mô hình GS khác nhau dựa trên độ chính xác dự đoán trung bình của chúng trên nhiều lần lặp lại cross-validation. Ví dụ, phương pháp này có thể được sử dụng để so sánh hiệu suất của các mô hình “bảng chữ cái Bayes” (ví dụ: BayesA, BayesB, BayesC) với các mô hình sử dụng ma trận quan hệ di truyền (GRM) (ví dụ: GBLUP).
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.