MỤC LỤC BÀI VIẾT
ITGDB – Cơ Sở Dữ Liệu 16S rRNA Tích Hợp Đột Phá
Thế giới vi sinh vật luôn đóng vai trò cực kỳ quan trọng và tồn tại trong nhiều môi trường khác nhau. Do đó, hiểu được thành phần prokaryotic (vi khuẩn và cổ khuẩn) tồn tại trong một môi trường là chìa khóa để hé mở những bí ẩn về sức khỏe, bệnh tật và các hệ sinh thái phức tạp. Trong những năm gần đây, phân tích trình tự RNA ribosome 16S (rRNA) đã trở thành “công cụ vàng” để các nhà sinh học giải mã cấu trúc cộng đồng vi sinh vật này.
Khởi đầu đầy hứa hẹn và công nghệ giải trình tự thế hệ mới (NGS)
Trình tự 16S rRNA là một phần của bộ gene vi khuẩn và cổ khuẩn, bao gồm chín vùng siêu biến (V1-V9) với độ dài khoảng 1500-1600 nucleotides. Những vùng này chứa thông tin phân loại phong phú và đã được nghiên cứu chi tiết để cải thiện hiệu suất phân loại đối với các mẫu môi trường. Sau đó, sự ra đời của công nghệ giải trình tự thế hệ mới (NGS) làm cho việc giải trình tự 16S rRNA đã trở nên khả thi, giúp đánh giá thành phần vi khuẩn hoặc cổ khuẩn trong các mẫu môi trường khác nhau. Tuy nhiên, NGS tạo ra các đoạn đọc ngắn, thường chỉ bao phủ một hoặc hai vùng siêu biến của 16S rRNA như: V4 hoặc V3-V4. Việc chỉ sử dụng một vài vùng siêu biến này đã giới hạn kết quả phân loại trình tự 16S rRNA của vi khuẩn đến cấp độ loài trong các nghiên cứu định danh. Đây là nhược điểm của NGS.
Nhu cầu mới khi thế hệ thứ 3 (TGS) ra đời
Tin vui là công nghệ giải trình tự thế hệ thứ ba (TGS) như: Pacific BioScience (PacBio) và Nanopore đã xuất hiện. Những công nghệ này cung cấp phương pháp giải trình tự đọc dài, giúp các nhà nghiên cứu có thể phân tích toàn bộ chiều dài 16S rRNA, nâng cao hiệu quả phân loại đến cấp độ loài vì các đoạn đọc dài bao gồm tất cả các vùng V1-V9, cung cấp thông tin phân loại toàn diện hơn. Dù TGS mang lại tiềm năng to lớn, vẫn còn thiếu các công cụ và cơ sở dữ liệu 16S toàn diện và tiện lợi để phân tích dữ liệu. Để phát huy tối đa lợi thế của phân tích trình tự 16S toàn bộ chiều dài, các công cụ và cơ sở dữ liệu phân tích 16S rRNA cần phải được chuẩn bị tốt.
Các cơ sở dữ liệu 16S rRNA hiện có
RDP, SILVA và Greengenes là ba cơ sở dữ liệu 16S rRNA được sử dụng rộng rãi nhất và nhiều công cụ phân loại 16S đã dùng chúng làm tài liệu tham khảo cho các nhiệm vụ định danh. Tuy nhiên, chúng có những hạn chế đáng kể như sau:
- Thông tin phân loại không đầy đủ hoặc trùng lặp: Một số thông tin phân loại chỉ tồn tại ở một cơ sở dữ liệu duy nhất. Điều này có nghĩa là một bộ phận thông tin được xây dựng dựa trên một cơ sở dữ liệu tham chiếu cụ thể sẽ không thể xác định được các phân loại vi khuẩn từ các cơ sở dữ liệu khác.
- Độ phân giải đến cấp độ loài thấp: Greengenes và SILVA chứa một số lượng đáng kể các phân loại không có độ phân giải đến cấp độ loài. Cụ thể, chỉ 16% trình tự trong SILVA và 10% trong Greengenes có định danh loài chính xác. Greengenes cũng không được cập nhật sau tháng 8 năm 2013, khiến nó có ít loài vi khuẩn hơn so với 2 cơ sở dữ liệu còn lại.
- Tên loài không rõ ràng: Ngay cả những trình tự có thông tin phân loại đến cấp độ loài cũng thường không có tên loài chính xác (ví dụ như là “metagenome”, “candidate_division”, “bacterium”, “sp.”, “unidentified”, …). Các trình tự có thành phần nucleotide bất thường hoặc được gắn nhãn phân loại có độ phân giải thấp sẽ làm giảm đáng kể hiệu suất của bộ phân loại.
16S-ITGDB – Cơ Sở Dữ Liệu Tích Hợp Thông Minh
Để khắc phục những hạn chế này, một nhóm nghiên cứu đã phát triển 16S rRNA integrated database (16S-ITGDB). ITGDB được xây dựng thông qua hai phương pháp tích hợp: Dựa trên trình tự và dựa trên phân loại. Quá trình Xây dựng ITGDB trải qua các bước bao gồm:
- Trước tiên, các nhà nghiên cứu tiến hành chỉnh sửa thủ công ba cơ sở dữ liệu RDP (phiên bản 18), SILVA (phiên bản 138), và Greengenes (phiên bản 13.8) bằng cách loại bỏ các trình tự không có tên loài chính xác. Ví dụ, các trình tự có tên loài như “Acidocella_sp.” (chỉ có tên chi với viết tắt “sp.”) hoặc các mô tả mơ hồ như “bacterium”, “metagenome”, “candidate_division”, “human_gut” và “unidentified” đều bị loại bỏ để đảm bảo mỗi trình tự đều có độ phân giải phân loại đến cấp độ loài. Sau khi chỉnh sửa, số lượng trình tự còn lại trong RDP, SILVA và Greengenes lần lượt là 21.295, 436.681 và 203.452. RDP, dù có số lượng trình tự nhỏ nhất, lại có tỷ lệ trình tự với tên loài chính xác cao nhất (94,86%). SILVA có số lượng trình tự lớn nhất, nhưng hầu hết chúng không có độ phân giải phân loại đến cấp độ loài.
- Sau quá trình chỉnh sửa, việc tích hợp dựa trên trình tự (Sequence-Based Integration) và dựa trên phân loại (Taxonomy-Based Integration). Sau các bước tích hợp, số lượng trình tự cuối cùng trong ITGDB dựa trên trình tự và ITGDB dựa trên phân loại lần lượt là 486.640 và 110.780.
Kiểm định cơ sở dữ liệu 16S-ITGDB
Để đánh giá hiệu suất của ITGDB, các nhà nghiên cứu đã thực hiện hai loại thí nghiệm: So sánh cơ sở dữ liệu và đánh giá hiệu suất của ITGDB với các công cụ phân loại khác nhau.
1. Các Cơ Sở Dữ Liệu Tham Chiếu Được Sử Dụng Để So Sánh: Ngoài RDP, SILVA và Greengenes, ITGDB còn được so sánh với các bộ dữ liệu 16S được chỉnh sửa thủ công khác như 16S-UDb, Genomic-based 16S rRNA database (GRD) và Genome taxonomy database (GTDB).
2. Bộ Dữ Liệu Xác Thực:
- Mock community: Được tạo ra bằng cách tích hợp các dữ liệu công khai như Mockrobiota, PacBio HMP và PacBio Zymo. Tổng cộng, bộ dữ liệu này chứa 98.284 đọc với tên phân loại đến cấp độ loài (94 loài).
- Union (Liên hợp): Chứa tất cả các trình tự có tên loài chính xác có sẵn trong bất kỳ cơ sở dữ liệu nguồn nào (RDP, SILVA, Greengenes).
- Exclusion (Loại trừ): Chứa các trình tự mà tên loài của chúng chỉ có sẵn trong một trong các cơ sở dữ liệu.
- Intersection (Giao): Chứa các trình tự mà tên loài của chúng có mặt trong cả ba cơ sở dữ liệu.
3. Các công cụ phân loại được sử dụng bao gồm: QIIME2 (phân loại Bayesian của RDP), SINTAX, SPINGO, và Mothur (phân loại Bayesian của RDP) đã được chọn để đánh giá hiệu suất của ITGDB. SINTAX được sử dụng làm tiêu chuẩn cho việc gán thông tin phân loại trong phân tích so sánh cơ sở dữ liệu vì nó cung cấp kết quả gán toàn diện hơn.
4. Thước Đo Xác Thực: Các thước đo được sử dụng bao gồm độ chính xác (Accuracy), độ chuẩn xác (Precision), độ thu hồi (Recall), và điểm F1 (F1-score) cho mỗi cấp độ phân loại (họ, chi, loài). Để giải quyết vấn đề quy ước đặt tên khác nhau giữa các cơ sở dữ liệu, các tệp quy chuẩn định danh của NCBI đã được áp dụng.
Các kết quả cho thấy ITGDB dựa trên phân loại có độ chính xác cao nhất ở cấp độ họ, chi và loài trong tất cả các bộ dữ liệu xác thực.Nó cũng cho thấy hiệu suất tốt nhất về độ chính xác, độ thu hồi và điểm F1 trên tất cả các bộ dữ liệu xác thực.
Lời Kết
Việc phát triển 16S-ITGDB, đặc biệt là phiên bản tích hợp dựa trên phân loại, đại diện cho một bước tiến quan trọng trong việc phân loại trình tự 16S rRNA của prokaryote. Bằng cách cẩn thận chỉnh sửa và tích hợp các dữ liệu hiện có, ITGDB không chỉ cung cấp một cơ sở dữ liệu toàn diện hơn mà còn nâng cao đáng kể độ phân giải phân loại đến cấp độ loài. Điều này mở ra những cánh cửa mới cho các nghiên cứu metagenomics, cho phép chúng ta khám phá và hiểu sâu hơn về thế giới vi sinh vật phức tạp xung quanh chúng ta.
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.