Skewer: a fast and accurate adapter trimmer for next-generation sequencing paired-end reads.
Jiang H1, Lei R, Ding SW, Zhu S
Bối cảnh: Cắt adapter là bước đầu tiên và rất quan trọng trong xử lý dữ liệu giải trình tự thế hệ mới với độ dài trình tự đọc (reads) thường dài hơn so với độ dài của đoạn cắt đích DNA/RNA (fragments). Cắt adapter sử dụng đầu tiên trong giải trình tự các đoạn sRNA (small RNA) cũng như giải trình tự hệ gen DNA và giải trình tự hệ phiên mã RNA/cDNA sau này, với nhược điểm rất lớn vẫn nằm ở độ dài fragments ngắn hơn so với độ dài của reads.Với việc áp dụng các phương pháp giải trình tự mới sử dụng các đoạn mate-pair (LMP protocol), các đoạn adapter thường sẽ được đặt vào giữa của tất cả các fragments, do đó cắt adapter cần xử lý được điều này.
Kết quả: Để tăng hiệu suất cho bước cắt adapter, các nhà khoa học đưa ra một thuật toán mới “bit-masked k-difference matching algorithm“, trong đó thời gian thực hiện O(kn) trong không gian O(m), với k là số điểm sai khác lớn nhất, n là độ dài read và m à độ dài adapter. Thuật toán này có thể liệt kê toàn bộ tất cả ứng viên dựa trên một ngưỡng mà người dùng thiết lập. Để tăng độ chính xác của thuật toán, các nhà khoa học thiết kế một bảng thống kê số liệu rất trực quan và dễ hiểu để đánh giá các ứng viên, cùng với đó là tạo ra bảng thống kê cho toàn bộ các pair-end/mate-pair nhằm khai thác dữ liệu khi cần thiết. Toàn bộ các tính năng trên đưa vào phần mềm Skewer (https://sourceforge.net/projects/skewer). Thiết kế thí nghiệm trên dữ liệu giả lập cũng như dữ liệu thật của sRNA, paired-end RNA và LMP chỉ ra Skewer thực hiện tốt hơn hẳn so với các công cụ có tính năng tương ứng. Hơn thế, Skewer cũng nhanh hơn với 2 lần so với dữ liệu single-end, nhanh hơn 12 lần so với dữ liệu pair-end và nhanh hơn 49% với dữ liệu LMP.
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.