Các vấn đề thường gặp khi lắp ráp hệ gen

Sequencing error: Có thể xảy ra trong giai đoạn giải trình tự. Một số máy giải trình tự có thể thêm vào hoặc lamf mất đi một vài base (tỷ lệ thực tế 1% đến 5%) dẫn đến trình tự có sai sót.

sequencing error

Sequencing error

Ligation error: Xảy ra trong quá trình xây dựng thư viện mate-pair. Khi 2 đầu của 2 chuỗi khác nhau trên 2 nhiễm sắc thể khác nhau hợp thành một mate-pair. Tỷ lệ lỗi từ 1% đến 10%. Kích thước insert size càng cao thì lỗi xảy ra càng lớn.

ligation error

Lỗi giải trình tự có thể được phát hiện và sửa chứa khi có nhiều hơn 1 đoạn read ở cùng một vị trí, một vùng nhất định trên chuỗi DNA. Nếu ta có độ coverage là 5X, trong trường hợp một đoạn read mắc lỗi, còn 4 đoạn read còn lại không mắc lỗi thì ta có thể phát hiện và sửa được lỗi của đoạn read đó. Tuy nhiên, có nhiều vùng trong hệ gen có đoạn mã gần giống nhau chỉ khác nhau 1 hoặc 1 vài base. Trong trường hợp này, phần mềm assembly nên xác định được đây không phải là lỗi, nếu nó xác định là lỗi và sửa lỗi này thì sẽ dẫn đến việc tạo ra lỗi trong quá trình assembly. 

sua loi sequencing

Sửa lỗi sequencing error dựa vào độ coverage

trinhtu lap

Không phải lỗi trong giải trình tự, 2 đoạn mã lặp ở hai vị trí khác nhau.

Việc lắp ráp xảy ra trong các vùng lặp trong chuỗi DNA là một trong những vẫn đề phức tạp và khó nhất trong quá trình assembly. Các đoạn lặp có thể được chia thành các loại sau:

Tandem repeat:

Trường hợp 1 khối nhỏ gồm vài base có thể lên tới vài trăm base bị lặp đi lặp lại nhiều lần được gọi là tandem repeat. Trong một vài trường hợp, có thể có một vài sự thay đổi giữa các khối lặp lại như bị mất hoặc thêm một, một vài base. Việc sửa lỗi gây ra bởi các đoạn lặp này đối với các đoạn read các kích thước ngắn là một trong những vấn đề rất khó.

tandem

Một ví dụ của ‘Tandem repeat’.

Large repeat regions

Trong một vài trường hợp,chuỗi lặp lại có thể lên tới vài nghìn cặp base, và xảy ra rất nhiều lần trong nhiều vùng khác nhau trong hệ gen. Và có thể có 1 vài khác biệt nhỏ giữa các đoạn lặp này. Do đó, các phần mềm assembly nên có khả năng xác định được các vùng này và giải quyết sự nhầm lẫn có thể xảy ra.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Best practice trong lấy mẫu metagenomics
ĐỌC THÊM:  Giải trình tự thế hệ mới phải bị loại bỏ (phần 2) - sự rắc rối giữa các thế hệ

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *