So sánh hai công cụ phân tích dữ liệu metagenomic: MR-RAST và QIIME

Trong những năm gần đây, thiết bị giải trình tự thế hệ mới (NGS) cùng với sự phát triển của phương pháp metagenomic đã cách mạng hóa lĩnh vực nghiên cứu hệ sinh thái vi sinh vật. Lượng dữ liệu metagenomic được tạo ra ngày càng lớn kéo theo sự ra đời của những công cụ tin sinh học cho phép xử lý dữ liệu loại này, tiêu biểu là MG-RAST (MetaGenome Rapid Annotation using Subsystem Technology) và QIIME (Quantitative Insights Into Microbial Ecology).

 MG-RAST là một công cụ online trong khi QIIME là phần mềm mã nguồn mở. Cả hai công cụ đều hoàn toàn miễn phí và đã được sử dụng thành công trong việc phân tích một lượng lớn dữ liệu metagenomic 16S rRNA. Tuy nhiên, việc nhận dạng 16S rRNA được hai công cụ thực hiện bằng hai cách thức khác nhau. MG-RAST sử dụng thuật toàn BLAT (Blast – Like – Alignment Tool) để tìm kiếm 16S rRNA trên một cơ sở dữ liệu rRNA thu nhỏ từ cơ sở dữ liệu của SILVA nhờ đó làm tăng tỷ lệ xác định các trình tự rRNA tương đồng và giảm thời gian tính toán. Trong khi đó, QIIME phát hiện trình tự 16S rRNA bằng cách xếp các chuỗi trình tự vào các OTU (operational taxonomic units). QIIME có vài thuật toán để thực hiện công việc này và người dùng có thể lựa chọn thuật toán phù hợp với dữ liệu và nhu cầu sử dịng. QIIME tích hợp trực tiếp BIOM (Biological Observation Matrix) trong các tùy chọn của nó. Điều này rất hữu ích khi thực hiện hàng loạt các phép phân tích đa dạng sinh học và giúp tăng tốc toàn bộ quá trình xử lý.

D’Argenio V et al (2014) đã tiến hành so sánh khả năng phân tích dữ liệu của hai công cụ này bằng cách sử dụng chúng để tìm ra các đoạn trình tự được phân chia (assign) vào các mức độ phân loài khác nhau trên cây phát sinh loài và so sánh độ đa dạng của các chủng vi sinh vật mà hai công cụ này tìm được (http://www.ncbi.nlm.nih.gov/pubmed/24719854). Dữ liệu được dùng để thực hiện thí nghiệm là bộ trình tự 16S rRNA thu được từ các mẫu niêm mạc hồi tràng trong ruột non của 4 người trong đó có 2 bệnh nhân bị bệnh viêm ruột và 2 người khỏe mạnh. Dữ liệu được tiền xử lý để điểm chất lượng (Phred score) trung bình các chuỗi trình tự là 25, giới hạn độ dài chuỗi nằm trong khoảng 200 – 1000 nucleotide.

Kết quả cho thấy, QIIME xử lý dữ liệu nhanh hơn MG-RAST rất nhiều. Để hoàn thành các bước phân tích với bộ dữ liệu 16S rRNA có 48.545 chuỗi trình tự thô được chuẩn bị như mô tả trên, MG-RAST cần tới 10 ngày trong khi QIIME chỉ mất chưa tới 2 tiếng. Sự khác biệt lớn đó có xem xét thông qua các khía cạnh sau:

  • Thời gian phân tích bằng MG-RAST phụ thuộc vào thời gian chạy của máy chủ và giới hạn upload dữ liệu của nó. Người dùng phải xác nhận dữ liệu của mình là dạng “private” (chỉ hiển thị cho người tải dữ liệu lên) hay “public” (dữ liệu được chia sẻ với tất cả người dùng MG-RAST). MG-RAST cung cấp một hàng ưu tiên, 5 tùy chọn khác nhau tương ứng với thời gian phân tích khác nhau. Thời gian để hoàn thành công phụ thuộc vào lượng công việc của tất cả người dùng trên máy chủ trong hàng đợi và độ ưu tiên của dữ liệu. Trong nghiên cứu của mình, D’Argenio lựa chọn “mức độ ưu tiên thấp nhất” (dữ liệu dạng “private”).
  • QIIME là bộ công cụ mã nguồn mở và người sử dụng có thể cài đặt trên máy tính cá nhân và chạy chương trình bằng các dòng lệnh (command line). Tuy nhiên, việc cài đặt đòi hỏi kiến thức tin học cơ bản, do đó một số chức năng đi kèm phải được cài đặt riêng mới có thể sử dụng được QIIME một cách hoàn chỉnh. Thời gian cần thiết để hoàn thành phân tích phụ thuộc vào nhiều yếu tố, chủ yếu là lượng dữ liệu, cáctùy chọn và kỹ năng tin sinh học của người dùng.

Nghiên cứu của D’Argenio V cũng cho thấy khả năng phân loại dữ liệu của QIIME tốt hơn của MG-RAST. QIIME phát hiện ra được nhiều loài hơn MG-RAST, số lượng chuỗi trình tự không phân chia được vào gốc (No Hit) và số trình tự chia được vào gốc nhưng không phân được vào các loài (Unclassified) của QIIME cũng ít hơn so với MG-RAST. Việc phát hiện ra nhiều loài hơn có ý nghĩa đặc biệt quan trọng trong việc phân tích đa dạng sinh học đối với dữ liệu metagenomic.

Ưu điểm của MG-RAST là nó dễ dùng hơn QIIME vì giao diện đồ họa của MG-RAST thân thiện với người dùng hơn nhiều so với các dòng lệnh của QIIME. Do đó, MG-RAST rất hữu ích với những người lần đầu sử dụng để làm quen với việc phân tích dữ liệu metagenomic. Tuy nhiên, phiên bản nâng cấp của QIIME dự kiến sẽ được công bố trong năm tới, trong đó có khá nhiều chức năng mới, đặc biệt là có giao diện đồ họa, điều sẽ giúp những người ít kỹ năng tin học dàng phân tích dữ liệu của họ.

Lược dịch : TungNguyen

{fcomment}

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Giới thiệu về GATK (Genome Analysis Toolkit) - công cụ tìm kiếm SNPs trong giải trình tự gene thế hệ mới (NGS)
ĐỌC THÊM:  Khái niệm BioData Mining

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *