Giới thiệu về GATK (Genome Analysis Toolkit) – công cụ tìm kiếm SNPs trong giải trình tự gene thế hệ mới (NGS)

GATK là gì?

Theo đúng tên gọi của nó, GATK là tập hợp các công cụ phân tích bộ genome.

GATK sẽ cho phép bạn xác định tìm SNPs, InDels, xác định các đột biến hiếm gặp, cũng như những đột biến nào là đặc trưng cho một nhóm bệnh nhân. GATK áp dụng cho tất cả các loại bộ dữ liệu và các vấn đề khi phân tích bộ gene. Nó có chức năng tìm kiếm cũng như để xác nhận. Nó có thể áp dụng với mọi dữ liệu từ các phương pháp giải trình tự gene khác nhau. Mặc dù ban đầu, nó được bắt nguồn và phát triển từ việc phân tích hệ genome của người, GATK đã và đang phát triển để xử lý trên genome của mọi hệ sinh vật, với bất kỳ số lượng bội nhiễm sắc thể (đơn bội, đa bội, v.v…)

Sử dụng GATK như thế nào?

GATK được thiết kế để chạy trên hệ điều hành Linux và các hệ tương thích với POSIX (bao gồm cả Mac OS X). GATK không thiết lập trên hệ điều hành Android và iOS. Bạn có thể chạy nó trên Microsoft Windows kèm với Cygwin (một môi trường như Linux với giao diện câu lệnh (command-line interface) của Windows).

Bạn cần phải cài đặt Java để chạy GATK, cũng như một số công cụ cần R để tạo biểu đồ với định dạng file pdf. 

Tất cả các câu lệnh trong GATK đều có cấu trúc đơn giản chung (bạn có thể tham khảo kỹ trong phần hướng dẫn sử dụng trên trang web GATK). Ví dụ, bạn cần đếm số lượng các reads trong BAM file, bạn gõ câu lệnh như sau:

java -jar GenomeAnalysisTK.jar -T CountReads -R your_reference.fasta -I reads.bam.

3 tham số bạn sẽ hay dùng là -T: gọi công cụ bạn muốn chạy (vì GATK là tập hợp các công cụ); -R là file fasta trình tự tham chiếu; -I: dữ liệu đầu vào phù hợp với mỗi công cụ. Với mỗi công cụ khác nhau, GATK sẽ cung cấp thêm các tham số khác đặc biệt cho công cụ đó. Bạn cần phải tham khảo kỹ các tham số khi đọc phần hướng dẫn. 

Lời kết

GATK đưa ra các các kết quả có độ chính xác nên là một lựa chọn tốt nhất khi phân tích hệ genome.

 Tài liệu tham khảo: https://www.broadinstitute.org/gatk/

 

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Tổng hợp: Các tài nguyên tin sinh học sử dụng trong nghiên cứu SNP
ĐỌC THÊM:  Pipeline phân tích 16S/ITS metagenomics phổ biến

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *