Một contig là một đoạn trình tự liên tục có được từ việc lắp ráp các đoạn read có vùng trùng lặp với nhau, các đoạn read này được tạo ra khi sử dụng phương pháp giải trình tự từ dưới lên (bottom-up). Với phương pháp giài trình tự từ dưới lên, các phân tử DNA được chia cắt thành các mẩu nhỏ (bottom), đọc trình tự các đoạn nhỏ này, lắp ráp chúng lại thành các contigs và cuối cùng là cả hệ gen (up). Ngày nay, các thiết bị đọc trình tự mới chỉ đọc được các đoạn read ngắn khoảng từ 100 đến 1000 base, cho nên các genome được chia nhỏ thành các mẩu nhỏ trước khi đọc trình tự. Các DNA sau khi được nhân bản nhiều lần sẽ được cắt ngẫu nhiên thành các mẩu đủ nhỏ để giải trình tự. Các đoạn nhỏ này được lắp ráp thành các contig, những contig này cuối cùng được nối kết với nhau bằng cách giải trình tự các đoạn trống giữa chúng để tạo thành một hệ gen hoàn chỉnh. Khả năng để lắp ráp thành công các đoạn read thành các contig phụ thuộc vào mức độ trùng lặp giữa các read. Bởi vì việc chia cắt phân tử DNA thành các mẩu nhỏ là ngẫu nhiên và được thực hiện trên hàng loạt bản sao của phân tử DNA. Sau khi giải trình tự xong, các đoạn read có trùng lặp được lắp ráp thành các contig bằng các chương trình máy tính.
Các chương trình máy tính sử dụng thuật toán tham lam (Greedy Algorithm) để thực hiện việc lắp ráp. Cho trước một tập các đoạn read, mục đích là tìm các siêu chuỗi trình tự chung ngắn nhất của chúng. Các bước cơ bản như sau:
- Tính ma trận giá trị gióng cột từng đôi một cho toàn bộ các cặp read
- Chọn cặp read có đoạn trùng nhau dài nhất (giá trị gióng cột lớn nhất)
- Ghép cặp read lại thành một
- Lặp lại bước 2 và 3 cho đến khi chỉ còn một read, hay còn gọi là contig
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.