Các bước cơ bản để tiến hành lắp ráp và chú giải hệ gene

Hiện nay, với những tiến bộ trong công nghệ giải trình tự, quá trình lắp ráp và chú giải trình tự hệ gene của hầu hết các sinh vật, bao gồm cả hệ gene của sinh vật nhân thực ngày càng trở nên dễ dàng. Tuy nhiên, để thu được một hệ gene lắp ráp chất lượng cao và thông tin chú giải chính xác vẫn là một thách thức lớn đối với các nhà phân tích. Công việc này cần có thời gian và nguồn lực tính toán đáng kể để có thể đi đến thành công.

Do vậy, việc xây dựng một quy trình phân tích là rất cần thiết để có thể ước lượng được tài nguyên đầu vào cũng như là đảm bảo được kết quả đầu ra của quá trình lắp ráp, chú giải. Dưới đây là các bước để có thể thực hiện một quy trình lắp ráp và chú giải (Đối với hệ gene của sinh vật nhân thực):

Bước 1: Khảo sát các đặc tính của hệ gene:

– Kích thước bộ gene: Cần ước tính kích thước hệ gene trước khi đặt dữ liệu trình tự, vì kích thước hệ gene sẽ ảnh hưởng lớn đến lượng dữ liệu cần thiết.

– Sự lặp lại: Sự phân bố của các đoạn lặp lại ảnh hưởng rất lớn đến kết quả lắp ráp hệ gene. Các đoạn đọc cần đủ dài để bao gồm cả các trình tự duy nhất nằm cạnh các đoạn lặp lại.

– Tính dị hợp tử: Hệ gene dị hợp tử cao có thể dẫn đến các bản lắp ráp bị phân mảnh nhiều hơn.

– Mức độ bội thể: Có khả năng làm tăng số lượng alen hiện diện, có khả năng dẫn đến bản lắp ráp bị phân mảnh hơn.

– %GC: Hàm lượng GC cực thấp hoặc cực cao trong một vùng gen được biết là gây ra vấn đề cho việc giải trình tự Illumina.

Bước 2: Chiết xuất DNA chất lượng cao

– Độ tinh khiết hóa học: DNA chiết xuất thường chứa các chất gây ô nhiễm có nguồn gốc từ nguyên liệu ban đầu hoặc từ quy trình chiết xuất DNA. Cần sử dụng một quy trình chiết xuất DNA phù hợp có tính đến loại chất gây ô nhiễm dự kiến có trong mẫu.

– Tính toàn vẹn cấu trúc của DNA: DNA có thể trở nên dễ gãy trong quá trình chiết xuất DNA hoặc sử dụng dung dịch đệm lưu trữ có pH không phù hợp. Do vậy nên xử lý để thu được tỷ lệ DNA toàn vẹn nhất có thể.

Bước 3: Chọn công nghệ giải trình tự phù hợp

– Giải trình tự thế hệ đầu tiên (FGS): Công nghệ này bắt đầu với phương pháp giải trình tự Sanger, nhưng đã được thay thế bằng các nền tảng giải trình tự thông lượng cao (HTS) do chi phí thấp hơn.

– Giải trình tự thế hệ thứ hai (SGS) và giải trình tự thế hệ thứ ba (TGS): SGS đã thống trị thị trường nhờ khả năng tạo ra khối lượng dữ liệu khổng lồ với giá rẻ. Tuy nhiên, một số gen và vùng quan trọng thường không được lắp ráp chính xác do sự hiện diện của các yếu tố lặp lại trong trình tự. TGS dựa trên các đoạn đọc dài là một giải pháp đầy hứa hẹn.

Bước 4: Ước tính tài nguyên tính toán cần thiết

– Ước tính thời gian và yêu cầu bộ nhớ cho lắp ráp hệ gene.

– Ước tính khả năng tính toán khi chú giải.

Bước 5: Lắp ráp hệ gene (Bao gồm kiểm soát chất lượng, lắp ráp và xác thực lắp ráp)

– Kiểm soát chất lượng: Đánh giá chất lượng dữ liệu trình tự là rất quan trọng vì nó có thể ảnh hưởng đến các bước tiếp theo.

– Lắp ráp: Lựa chọn các thuật toán phù hợp cho chiến lược lắp ráp (de Bruijn, OLC, …).

Bước 6: Xác định và chú giải các yếu tố chuyển vị

Bước 7: Chú giải hệ gene

– Chú giải cấu trúc: Xác định vị trí và cấu trúc của các gene mã hóa protein trong hệ gene.

– Chú giải chức năng: Gán thông tin liên quan đến sinh học cho các polypeptide được dự đoán và các đặc điểm mà. chúng có nguồn gốc (ví dụ: gene, mRNA).

Bước 8: Sử dụng các định dạng đầu ra phù hợp và lưu trữ dữ liệu

– Định dạng dữ liệu đầu ra thường là GFF.

– Lưu trữ dữ liệu: Có thể lưu trữ tại các cơ sở dữ liệu lớn như: NCBI.

Bước 9: Đảm bảo các phương pháp của bạn có thể lặp lại và tái tạo được về mặt tính toán.

Bước 10: Tiến hành lắp ráp và chú giải lại để nắm vững quy trình.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: ITGDB – Cơ Sở Dữ Liệu 16S rRNA Tích Hợp Đột Phá

ĐỌC THÊM: Ứng dụng quy trình phân tích pangenome trong xác định các gene chức năng ở lúa