SAT-Assembler: Bộ công cụ phân tích mở rộng và xác định chính xác mục tiêu cho dữ liệu máy giải trình tự thế hệ mới

Lắp ráp trình tự gen, nhằm ráp lại các đoạn trình tự ngắn hơn lại, là một trong những bước quan trọng trong việc phân tích dữ liệu của máy giải trình tự thế hệ mới. Thiếu bộ gen tham khảo có chất lượng, phân tích De novo sẽ là cách thông thường được sử dụng đối với dữ liệu RNA-Seq của những sinh vật không điển hình và dữ liệu metagenomic.

Tuy nhiên, có khá nhiều các đoạn trình tự không đồng nhất, nguyên nhân bởi sự sắp xếp hỗn độn hoặc sự đa dạng, phong phú của các loài sinh vật, sự giống nhau giữa isoforms và các gen đồng đẳng, và dữ liệu có kích thước lớn, tất cả đã đặt ra thách thức cho việc phân tích De Novo assembly. Kết quả là, các công cụ assembly đang được sử dụng hướng tới cho ra các contigs mà bị phân mảnh, thiếu chặt chẽ hoặc các contigs được phát sinh bởi các mô khác nhau. Trong bài nghiên cứu này, chúng tôi phát triển một bộ công cụ xác định mục tiêu của các gen cần lắp ráp có tên gọi là SAT-Assembler, tập trung vào việc khôi phục lại các gen có  họ riêng biệt. Nó đề cập đến những thách thức trên bằng cách tiến hành tìm kiếm các họ gen- cụ thể tương đồng, xây dựng sự tương đồng biểu đồ chồng lên nhau, và xây dựng đồ thị cây một cách cẩn thận. Nó có thể được áp dụng cho cả RNA-Seq và dữ liệu metagenomic. Kết quả thực nghiệm trên một tập hợp dữ liệu Arabidopsis RNA-Seq và hai bộ dữ liệu metagenomic cho thấy SAT-Assembler đã sử dụng bộ nhớ nhỏ hơn, so sánh hoặc bảo hiểm gen tốt hơn và tỷ lệ thấp hơn (các contigs phát sinh bởi các mô khác nhau) để lắp ráp một bộ gen từ một hoặc nhiều con đường so với công cụ lắp ráp khác. Hơn nữa, thiết kế dành cho họ gen cụ thể và công cụ tìm kiếm tương đồng nhanh chóng cho phép SAT-Assembler là tương thích một cách tự nhiên với nền tảng điện toán song song. Mã nguồn của SAT-Assembler có sẵn tại https://sourceforge.net/projects/sat-assembler/. Các bộ dữ liệu và các thiết lập thử nghiệm có thể được tìm thấy trong các tài liệu bổ sung.

*Nguồn

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Những công cụ phân tích gen hữu hiệu
ĐỌC THÊM:  Hệ vi sinh vật đường ruột và bệnh tiểu đường

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *