Với sự phát triển nhanh chóng của kỹ thuật giải trình tự, chi phí giải trình tự gen giảm rất nhanh trong những năm tử 2008 đến 2012. Chi phí để giải mã 1Mb và Genome giảm tương ứng là 100,000 và 10,000 lần (Kris Wetterstrand, DNA Sequencing Costs, http://www.genome.gov/sequencingcosts/ ). Trước đây, chỉ các transcriptome của các loài được quan tâm và hữu ích cho nghiên cứu khoa học mới được giải mã. Tuy nhiên, sự ra đời của kỹ thuật giải trình tự thông lượng cao (hay còn gọi là kỹ thuật giải trình tự gen thế hệ mới – NGS) tạo ra nhiều thuận lợi cho việc nghiên cứu ở quy mô vừa và nhỏ, và theo đó số lượng các loài được giải mã transcriptome ngày càng tăng, ví dụ như hạt đậu gà Chickpea¹, sán dẹp Planaria², hoa Camelina sativa³, tỏi Allium sativum⁴, …

Hệ gen của loài vi tảo bắt đầu được giải mã ví dụ như vi tảo đỏ đơn bào Cyanidioschyzon merolae 10D⁵, vi tảo Coccomyxa subellipsoidea⁶, vi tảo Dunaliella tertiolecta⁷, vi tảo Nannochloropis gaditana⁸. Việc nghiên cứu các sinh vật không phải là mô hình (non-model organism) có thể giúp chúng ta hiểu rõ thêm về cơ chế nền tảng của sự đa dạng loài.

Các dự án giải trình tự genome thường trải qua các giai đoạn: giải trình tự, lắp ráp trình tự, chú giải hệ gen.

Lắp ghép trình tự hệ gen (Assembly)

Lắp ráp trình tự hệ gen là quá trình sắp xếp một số lượng lớn các đoạn trình tự DNA ngắn (còn gọi là read) để tạo ra các bản sao của các nhiễm sắc thể. Trong các dự án giải trình tự, tất cả các DNA từ một nguồn (thường là một cá thể) được cắt nhỏ thành hàng triệu các mẩu nhỏ. Các mẩu DNA nhỏ này được “đọc” một cách tự động bằng các thiết bị giải trình tự, gọi là read. Độ dài của các đoạn read này biến thiên từ vài chục base cho đến 1000 base tùy vào thiết bị giải trình tự thế hệ 1 hay thế hệ 2. Sau đó các chương trình máy tính với các thuật toán lắp ráp tương ứng sẽ gióng hàng các đoạn read để tìm các vùng trùng nhau của các đoạn read. Các read có vùng trùng nhau sẽ được gộp lại thành các đoạn dài hơn. Quá trình được lặp lại cho đến khi không còn các read có vùng trùng nhau. Các đoạn trình tự gộp từ các read được gọi là các contig.

genome-assembly Lắp ráp hệ gene, read -> contig -> scaffold

Các contig được nối kết với nhau dựa vào các thông tin trong quá trình giải trình tự để tạo thành các scaffold và những scaffold này được xác định vị trí cụ thể trên các nhiễm sắc thể. Từ đó hình thành lên bản đồ hệ gen ở dạng sơ khai.

Ban đầu, các trung tâm giải trình tự gen quy mô lớn tự phát triển các công cụ phần mềm để lắp ráp trình tự của họ. Tuy nhiên, với sự phát triển không ngừng của công nghệ giải trình tự, các công cụ phần mềm lắp ráp trình tự genome cũng được phát triển nhanh chóng. Danh sách khoảng 40 công cụ phần mềm như vậy có thể tìm thấy ở đây http://en.wikipedia.org/wiki/Sequence_assembly, đa số các phần mềm đều dùng chung giấy phép mã nguồn mở và miễn phí.

Chú giải hệ gen (Genome annotation)

Chú giải hệ gen là quá trình “gắn” các thông tin sinh học vào các chuỗi trình tự⁹. Quá trình chú giải hệ gen bao gồm ba bước chính sau:

Xác định các vùng không mã hóa thông tin di truyền của genome
Xác định các thành phần trên genome, hay còn gọi là quá trình dự đoán gen bao gồm
“Gắn” thông tin sinh học vào các thành phần này.

Mức cơ bản của việc chú giải là sử dụng BLAST để tìm sự tương đồng, sau đó chú giải hệ gen dựa trên các thông tin tương đồng đó¹⁰. Tuy nhiên, ngày càng nhiều thông tin được thêm vào các công cụ chú giải. Các thông tin bổ sung này cho phép các trình chú giải phân tách sự không nhất quán giữa các gen có cùng chú giải. Một số cơ sở dữ liệu sử dụng thông tin ngữ cảnh, các trọng số tương đồng, dữ liệu thực nghiệm và sự tích hợp thông tin từ các nguồn khác để chủ giải hệ gen thông qua phương pháp tiếp cận hệ thống con (subsystem approach). Một số CSDL khác như Ensembl (http://asia.ensembl.org/index.html) dựa vào cả các nguồn dữ liệu được kiểm chứng cùng với một loạt công cụ phần mềm khác nhau để thực hiện quá trình chú giải genome.

Chú giải cấu trúc bao gồm việc xác định các thành phần của hệ gen như là

ORFs và vị trí của chúng
Cấu trúc gen
Các vùng mã hóa
Vị trí của các motif điều khiển gen

Chú giải chức năng bao gồm việc gắn thông tin sinh học vào các thành phẩn của hệ gen như là

Chức năng sinh hóa
Chức năng sinh học
Các phản ứng và sự điều hòa liên quan
Biểu hiện

Các bước này có thể liên quan tới cả hai thí nghiệm sinh học và các phân tích trên máy tính. Các phương pháp chú giải hệ gen dựa trên hệ gen và hệ protein tận dụng các thông tin có được từ việc biểu hiện protein từ khối phổ để cải thiện việc chú giải hệ gen¹¹. Có khá nhiều công cụ phần mềm đã được phát triển để trợ giúp các nhà khoa học xem và chia sẻ các chú giải genome.

Tài liệu tham khảo

1. Garg, R., Patel, R.K., Tyagi, A.K. & Jain, M. De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification. DNA Res 18, 53-63 (2011).

ĐỌC THÊM: PLINK: công cụ phân tích GWAS

2. Adamidi, C. et al. De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics. Genome Res 21, 1193-200 (2011).

3. Liang, C., Liu, X., Yiu, S.M. & Lim, B.L. De novo assembly and characterization of Camelina sativa transcriptome by paired-end sequencing. BMC Genomics 14, 146 (2013).

4. Sun, X., Zhou, S., Meng, F. & Liu, S. De novo assembly and characterization of the garlic (Allium sativum) bud transcriptome by Illumina sequencing. Plant Cell Rep 31, 1823-8 (2012).

5. Matsuzaki, M. et al. Genome sequence of the ultrasmall unicellular red alga Cyanidioschyzon merolae 10D. Nature 428, 653-7 (2004).

6. Blanc, G. et al. The genome of the polar eukaryotic microalga Coccomyxa subellipsoidea reveals traits of cold adaptation. Genome Biol 13, R39 (2012).

7. Rismani-Yazdi, H., Haznedaroglu, B.Z., Bibby, K. & Peccia, J. Transcriptome sequencing and annotation of the microalgae Dunaliella tertiolecta: pathway description and gene discovery for production of next-generation biofuels. BMC Genomics 12, 148 (2011).

8. Radakovits, R. et al. Draft genome sequence and genetic transformation of the oleaginous alga Nannochloropis gaditana. Nat Commun 3, 686 (2012).

9. Stein, L. Genome annotation: from sequence to biology. Nat Rev Genet 2, 493-503 (2001).

10. Pevsner, J. Bioinformatics and Functional Genomics (ed. 2) (Wiley-Blackwell, 2009).

11. Gupta, N. et al. Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation. Genome Res 17, 1362-77 (2007).

Lược dịch từ Wiki: Genome Project.

TS. Nguyễn Cường, Trưởng phòng Tin Sinh học, Viện CNSH

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: Mối quan hệ ruột gan: Vai trò của giải trình tự amplicon 16S rRNA toàn chiều dài trên hệ sinh vật đường ruột trong cuộc chiến với ung thư gan