Sự tái bắt cặp những read không sắp xếp được dựa vào điểm chất lượng.

Tóm tăt

Nguyên nhân: Dựa vào công nghệ giải trình tự thế hệ mới, một loạt những ứng dụng trong sinh học đã được phát triển, trong đó sự bắt cặp trình tự (alignment) là bước đầu khi thu được các read giải trình tự. Những năm gần đây, nhiều công cụ phần mềm đã được phát triển để bắt cặp (align) các đoạn read ngắn với trình tự genome tham chiếu một các chính xác và hiệu quả. Tuy nhiên vẫn có rất nhiều reads không thể sắp xếp (map) trên trình tự genome tham chiếu

do do vượt quá số lượng lỗi bắt cặp (mismatch) có thể chấp nhận được. Ngoài ra, bên cạnh những read không sắp xếp được, những read với chất lượng thấp cũng được loại bỏ khi phân tích downstream, ví dụ như tìm đột biến (variance calling). Nếu chúng ta. Nếu chúng ta có thể sử dụng những ưu điểm của những đoạn đáng tin cậy trong các read, chúng ta không những nâng cao được tỉ lệ bắt cặp mà còn có thể có thêm nhiều thông tin cung cấp cho phân tích downstream.

Kết quả: Bài báo này cung cấp một phương pháp gọi là RAUR (re-align the Unmapped Reads) để tái bắt cặp những read không thể sắp xếp được bằng các công cụ bắt cặp. Đầu tiên, phần mềm sử dụng những lợi thế từ điểm chất lượng từng base ( được cung cấp bởi máy giải trình tự) để tính toán tìm ra những đoạn đáng tin và có giá trị thông tin trong các read bằng các kiểm soát các các lỗi bắt cặp có thể xảy ra trong quá trình bắt cặp. Sau đó, kết hợp với những tool bắt cặp, RAUR tái bắt cặp các đoạn của read. Chúng tôi chạy RAUR với cả dữ liệu giải và dữ liệu thật với độ dài read khác nhau. Kết quả cho thấy rất nhiều read không thể bắt cặp bởi những công cụ bắt cặp phổ biến (Bowtie2 hay BWA) có thể tái bắt cặp chính xác bằng RAUR. Thâm chí khi so sánh BWA-MEM và kiểu cục bộ (local) của Bowtie2 thực hiện bắt cặp cục bộ (local) cho các read dài để nâng cao tỉ lệ bắt cặp, RAUR cũng cho thấy những ưu điểm trong tỉ lệ bắt cặp và độ chính xác trong một số trường hợp. Do đó, chiến lược cắt được sử dụng trong RAUR có ích trong việc nâng cao tỉ lệ bắt cặp của các công cụ bắt cặp cho giải trình tự genome thế hệ mới.

Tài nguyên: Tât cả các mã có sẵn tại địa chỉ http://netlab.csu.edu.cn/bioinformatics/RAUR.html. 

Nguồn: http://www.biomedcentral.com/1471-2105/16/S5/S8

 

Trả lời

Email của bạn sẽ không được hiển thị công khai.