Mặc dù các công cụ phân tích Tin sinh học được công bố rất đa dạng và theo bản quyền nghiên cứu miễn phí (Academic Free License), nhưng các công cụ được nhiều nhóm khác nhau phát triển trên các ngôn ngữ lập trình khác nhau như Java, Python, R, C++, …, hệ quản trị cơ sở dữ liệu khác nhau (MySQL, MogoDB, …), hệ điều hành khác nhau (Ubuntu, Debian, MacOS, …). Hơn nữa, việc quản lý phiên bản ngôn ngữ lập trình, thư viện phụ thuộc, phiên bản hệ điều hành luôn làm nhức đầu các nhà nghiên cứu.

Thấu hiểu điều đó, dựa trên Galaxy, chúng tôi đã triển khai hệ thống phân tích Tin sinh học toàn diện (CBAS)

CBAS – Giải pháp Phân tích Tin sinh học toàn diện

	CBAS được phát triển dựa trên dự án Galaxy với các nguyên lý thiết kế: ● Tính dễ sử dụng (Accessibility): Người dùng không cần kiến thức hay kỹ năng lập trình mà vẫn có thể tải dữ liệu lên và xuống, chạy các công cụ phần mềm và workflow phức tạp, và vẽ biểu đồ. ● Khả năng tái lập (Reproducibility): Hệ thống được thiết để có khả năng lưu trữ thông tin giúp cho người sử dụng có thể tái lập lại các bước phân tích một cách dễ dàng. ● Tính minh bạch (Transparency) o Người dùng có thể chia sẻ hoặc công bố các phân tích của mình bao gồm dữ liệu, workflow, bảng biểu, hình vẽ, … o Người dùng cũng có thể xuất bản các phương pháp phân tích để sử dụng cho các công bố của mình
	CBAS được thiết kế để có thể hoạt động linh hoạt trên các nền tảng khác nhau, như là: – Máy chủ độc lập (stand-alone server) – Hệ thống máy chủ hiệu năng cao (Grid/Cluster computing Servers) – Điện toán đám mây CloudComputing với các nhà cung cấp phổ biến Amazon Web Service, Microsoft Azure, Google Cloud
	CBAS chấp nhận đa dạng dữ liệu như FASTA, FASTQ, VCF, BAM, SAM, BED, … và dữ liệu được quản lý theo dự án hoặc riêng lẻ từng mẫu.
	Các công cụ CBAS được tích hợp sẵn hàng trăm công cụ, phần mềm và cơ sở dữ liệu sẵn sàng cho việc phân tích. Các công cụ, phần mềm được phân chia theo chức năng như sau: 1. Quản lý dữ liệu 2. Xử lý dữ liệu giải trình tự 3. Genomics: Lắp ráp hệ gen (assembly) 4. Genomics: Chú giải hệ gen (Annotation) 5. Genomics: Ánh xạ (Mapping) 6. Genomics: Gọi đột biến (Variant Calling) 7. ChIP-seq 8. RNA-seq 9. Multiple Alignments 10. Phenotype Association 11. Evolution 12. Các phân tích hệ gen khác 13. Metagenomics/Metabarcoding 14. Các toolkits hữu dụng khác Chi tiết xem ở Bảng 1

Bảng 1 Bảng chi tiết công cụ và chức năng

Nhóm chức năng	Mô tả
Quản lý dữ liệu	– Cho phép người dùng tải dữ liệu lên từ máy tính cá nhân hoặc lấy dữ liệu từ các cơ sở dữ liệu online như NCBI, SRA, …. – Dữ liệu được tổ chức theo từng mẫu hoặc theo nhóm, theo dự án
Xử lý dữ liệu giải trình tự	– Loại dữ liệu: Fasta/FastQ; SAM/BAM; BED; VCF/BCF; .. – Dữ liệu từ Illumina, IonTorrent, PacBio, Oxford Nanopore, … – Đánh giá chất lượng dữ liệu FastQ – Sàng lọc dữ liệu – Chuyển đổi dữ liệu – Chuyển đổi phiên bản dữ liệu (hg19 <-> GRch38)
Lắp ráp hệ gen (assembly)	Có hơn 15 công cụ lắp ráp hệ gen đáp ứng hầu như tất cả các loại công nghệ đọc trình tự và ứng dụng tương ứng. – Theo công nghệ o Illumina Sequencers: o Long reads (PacBio, Oxford Nanopore) o Single cell sequencing: – Theo ứng dụng: o Genome assembly o Transcriptome assembly o Metagenome assembly o Single cell genome assembly – Đánh giá chất lượng lắp ráp
Genomics: Annotation (Annotation)	Có gần 40 công cụ, phần mềm đáp ứng hầu hết các chức năng chú giải hệ gen như là – Chú giải toàn bộ hệ gen prokaryote – Phân tích MLST – Phân tích antimicrobial và virulence genes – Phân tích Transposable Element – Dự đoán strain types và drug resistance markers của Vi khuẩn lao – Tìm rho-independent transcription terminators trong các hệ gen vi khuẩn – Dự đoán gene/hệ gen – Chú giải theo KEGG, GO, … – Và các công cụ tiện ích khác
Genomics: Mapping	Hơn 10 khác nhau giúp cho việc mapping trở nên dễ dàng. Các ứng dụng gồm – Mapping RNA-seq data – Mapping DNA data – Mapping DNA data với trình tự ngắn (<100bp) – Mapping DNA data với long reads – Blast – Và các tiện ích khác
Genomics: Variant Calling	– Gọi variant SNP, InDel, CNV – Gọi germline/somatic và LOH variants từ các cặp mẫu tumor-normal – Gọi variant có Low Frequency – Chú giải ảnh hưởng của các variants
ChIP-seq
RNA-seq	– Lắp ráp de novo RNA-seq data – Align dữ liệu RNA-seq với Reference – Gọi variant SNP, InDel, CNV, … – Differential expression analysis – Và các công cụ, tiện ích khác
Multiple Alignments	– Các công cụ dóng hàng (alignment) cho hai hay nhiều trình tự như ClustalW, MSABOOT, MAFT, Nucmer, …
Phenotype Association	– Các công cụ hỗ trợ phân tích nghiên cứu case-control như GWAS, linkage disequilibrium and tag SNPs, …
Evolution	– Các công cụ xây dựng cây phân loài mạnh mẽ
Các phân tích hệ gen khác	– Regional Variation – STR-FM: Microsatellite Analysis – Chromosome Conformation – Virology
Metabarcoding/Metagenomics	Toàn bộ các công cụ, pipeline mạnh nhất phục vụ cho việc phân tích Metabarcoding/Metagenomics đều được tích hợp. Các công cụ như là QIIME2, MOTHUR, Kraken, VALET, khmer, dada2, …
Các toolkits hữu dụng	Hệ thống cũng được tích hợp các công cụ xử lý dữ liệu, phân tích, thống kê, trực quan hoá bằng cách vẽ nhiều dạng biểu đồ khác nhau. Các bộ công cụ như là: Picard, deepTools, EMBOSS, NCBI BLAST+, HyPhy, RSeQC, MiModD, Du Novo, Seqtk, Transposon Insertion Sequencing, IWTomics, pRESTO, PlantTribes, Motif, Single-cell, Statistics, Graph/Display Data

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: Metagenomics: Chọn V1V2 hay V3V4?

ĐỌC THÊM: Phân Tích Metagenomics Trong Đất Trồng Lúa: Một Cái Nhìn Chi Tiết