Phương pháp REML là gì?

Phương pháp REML (Restricted Maximum Likelihood – Ước lượng khả năng tối đa bị hạn chế) là một kỹ thuật thống kê được sử dụng rộng rãi trong chọn giống động vật và thực vật để ước tính các thành phần phương sai trong các mô hình hỗn hợp. REML được ưu tiên hơn so với phương pháp ước lượng khả năng tối đa (Maximum Likelihood – ML) truyền thống vì nó tạo ra các ước lượng chính xác hơn và ít bị ảnh hưởng bởi sai lệch chọn lọc.

MỤC LỤC BÀI VIẾT

Nguyên lý hoạt động

REML hoạt động bằng cách tối đa hóa hàm khả năng bị hạn chế (restricted likelihood function). Hàm này khác với hàm khả năng trong ML ở chỗ nó loại bỏ ảnh hưởng của các hiệu ứng cố định khỏi ước lượng. Bằng cách này, REML tập trung vào ước lượng các thành phần phương sai của các hiệu ứng ngẫu nhiên, dẫn đến ước lượng chính xác hơn.

REML thường được thực hiện theo một quy trình lặp, bao gồm hai bước chính:

Tính toán ma trận hệ số (coefficient matrix) và vector bên phải (right-hand side vector) của phương trình mô hình hỗn hợp (mixed model equations – MME). Ma trận này được xây dựng dựa trên mô hình thống kê, dữ liệu kiểu hình và thông tin phả hệ.
Ước lượng các thành phần phương sai dựa trên nghiệm của MME. Các thành phần phương sai được cập nhật sau mỗi vòng lặp cho đến khi đạt được sự hội tụ.

Ưu điểm của REML

REML có một số ưu điểm so với các phương pháp ước lượng thành phần phương sai khác:

Ước lượng chính xác hơn: REML tạo ra các ước lượng thành phần phương sai chính xác hơn, đặc biệt là trong các tập dữ liệu không cân bằng hoặc khi có sai lệch chọn lọc.
Ít bị ảnh hưởng bởi sai lệch chọn lọc: REML ít bị ảnh hưởng bởi sai lệch chọn lọc hơn ML, vì nó loại bỏ ảnh hưởng của các hiệu ứng cố định khỏi ước lượng.
Luôn đảm bảo các ước lượng phương sai dương: REML đảm bảo rằng các ước lượng phương sai luôn dương, phù hợp với bản chất của phương sai là một đại lượng bình phương.

Hạn chế của REML

Mặc dù REML là một phương pháp mạnh mẽ, nó cũng có một số hạn chế:

Tốn kém về mặt tính toán: REML có thể tốn kém về mặt tính toán, đặc biệt là đối với các mô hình phức tạp hoặc tập dữ liệu lớn.
Khó lập trình: Việc lập trình cho REML có thể phức tạp, đặc biệt là đối với các mô hình không chuẩn.

Các thuật toán REML

Có nhiều thuật toán khác nhau được sử dụng để thực hiện REML. Hai thuật toán phổ biến là AI-REML (Average Information REML) và EM-REML (Expectation-Maximization REML).

AI-REML: Thuật toán này thường hội tụ nhanh hơn EM-REML nhưng đôi khi không hội tụ.
EM-REML: Thuật toán này đáng tin cậy hơn AI-REML đối với hầu hết các mô hình nhưng có thể mất hàng trăm vòng lặp để hội tụ.

REML trong các phần mềm di truyền

REML được triển khai trong nhiều phần mềm di truyền khác nhau, bao gồm:

ASReml: Một phần mềm thương mại mạnh mẽ và linh hoạt cho phân tích mô hình hỗn hợp.
HIBLUP: Một phần mềm đánh giá di truyền dựa trên hệ gen, cũng hỗ trợ các mô hình PBLUP.
BLUPF90: Một bộ chương trình mã nguồn mở cho phân tích mô hình hỗn hợp.

Kết luận

Phương pháp REML là một công cụ quan trọng trong phân tích di truyền định lượng. Nó cho phép ước lượng chính xác các thành phần phương sai, từ đó hỗ trợ việc đánh giá giá trị nhân giống và đưa ra quyết định chọn lọc hiệu quả. Mặc dù có một số hạn chế, REML vẫn là phương pháp được ưa chuộng trong nhiều ứng dụng chọn giống.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: Quy trình ứng dụng BLUP để dự đoán giá trị giống

ĐỌC THÊM: Phân phối Chuẩn Đa Biến (Multivariate Normal Distribution) trong Chọn Tạo Giống