LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.
Ý tưởng đằng sau của GWAS là đánh giá từng SNP một xem có sự khác biệt lớn về tần số alen giữa nhóm bệnh (case) và nhóm chứng (control). Nếu sự khác biệt có ý nghĩa thống kê thì alen được cho rằng có tương quan với bệnh (hoặc kiểu hình).
Các phân tích GWAS thường áp dụng nhiều mô hình thống kê khác nhau và các mô hình này khá là khó hiểu. Ở đây, chúng ta cùng tìm hiểu kiểu phân tích cơ bản nhất, Allelic Test, để có được một hình dung ban đầu và cụ thể về GWAS.
Trong Allelic Test, đơn vị để so sánh là các alen thay vì là cá thể. Một kiểu gen aa, aA, AA được chia thành các cặp alen a và a, a và A, A và A. Mối tương quan của kiểu hình với những alen riêng lẻ này sẽ được kiểm chứng với câu hỏi: Liệu có một alen đơn lẻ nào tương quan với kiểu hình không?
Bây giờ chúng ta sẽ thực hiện GWAS từng bước.
Giả sử chúng ta có nhóm bệnh (case) 50 cá thể và nhóm chứng (control) 50 cá thể với giả định rằng các alen A và a có phân bố đều trong quần thể (phân bố 50:50). Nếu không có mối tương quan giữa các alen và kiểu hình bệnh, chúng ta mong đợi có được bảng phân bố các alen như sau:
alen a | alen A | |
Case (aff) | 50 [Ea,aff] | 50 [Ea,aff] |
Control (unaff) | 50 [Ea,unaff] | 50 [Ea,unaff] |
Khi chúng ta xác định kiểu gen (genotyping), chúng ta có thể thu được bảng phân bố số lượng cho các alen này khác so với mong đợi. Bảng phân bố có thể như sau
alen a | alen A | |
Case (aff) | 25 [Oa,aff] | 75 [Oa,aff] |
Control (unaff) | 75 [Oa,unaff] | 25 [Oa,unaff] |
Với dữ liệu giả định bên trên, chúng ta có thể thấy số liệu quan sát được và số liệu lý thuyết có sự khác biệt lớn. Để xác định xem hai phân bố này có khác biệt có ý nghĩa không, chúng ta tiến hành kiểm thử chi-squared.
n = 4 (có tổng cộng 4 khả năng kết hợp giữa a và A), áp dụng công thức tính ta có Χ2 = 50.
Tiếp theo, tính giá trị P-value của Χ2với bậc tự do 1 (bảng ngẫu nhiên 2 x 2) ta thu được P-value < 0.0001, điều này có nghĩa là xác suất của việc thu được các tần số này một cách ngẫu nhiên là rất thấp (<0.01%), và do đó sự tương quan giữa alen và bệnh là rất cao.
Chi-squared independence test
Trong đó:
Χ2 = là thống kê kiểm thử tiệm cận không cân bằng tới phân bố Χ2
Oi = một tần số quan sát
Ei = một tần số mong đợi theo lý thuyết
n = số khả năng có thể của các alen (trong trường hợp này n=4)
Nguồn tham khảo: http://bioinf.wehi.edu.au/bioinfosummer2010/materials/
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.