Mặc dù các công cụ phân tích Tin sinh học được công bố rất đa dạng và theo bản quyền nghiên cứu miễn phí (Academic Free License), nhưng các công cụ được nhiều nhóm khác nhau phát triển trên các ngôn ngữ lập trình khác nhau như Java, Python, R, C++, …, hệ quản trị cơ sở dữ liệu khác nhau (MySQL, MogoDB, …), hệ điều hành khác nhau (Ubuntu, Debian, MacOS, …). Hơn nữa, việc quản lý phiên bản ngôn ngữ lập trình, thư viện phụ thuộc, phiên bản hệ điều hành luôn làm nhức đầu các nhà nghiên cứu.
Thấu hiểu điều đó, dựa trên Galaxy, chúng tôi đã triển khai hệ thống phân tích Tin sinh học toàn diện (CBAS)
CBAS – Giải pháp Phân tích Tin sinh học toàn diện
CBAS được phát triển dựa trên dự án Galaxy với các nguyên lý thiết kế:
● Tính dễ sử dụng (Accessibility): Người dùng không cần kiến thức hay kỹ năng lập trình mà vẫn có thể tải dữ liệu lên và xuống, chạy các công cụ phần mềm và workflow phức tạp, và vẽ biểu đồ. ● Khả năng tái lập (Reproducibility): Hệ thống được thiết để có khả năng lưu trữ thông tin giúp cho người sử dụng có thể tái lập lại các bước phân tích một cách dễ dàng. ● Tính minh bạch (Transparency) o Người dùng có thể chia sẻ hoặc công bố các phân tích của mình bao gồm dữ liệu, workflow, bảng biểu, hình vẽ, … o Người dùng cũng có thể xuất bản các phương pháp phân tích để sử dụng cho các công bố của mình
|
|
CBAS được thiết kế để có thể hoạt động linh hoạt trên các nền tảng khác nhau, như là:
– Máy chủ độc lập (stand-alone server) – Hệ thống máy chủ hiệu năng cao (Grid/Cluster computing Servers) – Điện toán đám mây CloudComputing với các nhà cung cấp phổ biến Amazon Web Service, Microsoft Azure, Google Cloud |
|
CBAS chấp nhận đa dạng dữ liệu như FASTA, FASTQ, VCF, BAM, SAM, BED, … và dữ liệu được quản lý theo dự án hoặc riêng lẻ từng mẫu. | |
Các công cụ CBAS được tích hợp sẵn hàng trăm công cụ, phần mềm và cơ sở dữ liệu sẵn sàng cho việc phân tích. Các công cụ, phần mềm được phân chia theo chức năng như sau:
1. Quản lý dữ liệu 2. Xử lý dữ liệu giải trình tự 3. Genomics: Lắp ráp hệ gen (assembly) 4. Genomics: Chú giải hệ gen (Annotation) 5. Genomics: Ánh xạ (Mapping) 6. Genomics: Gọi đột biến (Variant Calling) 7. ChIP-seq 8. RNA-seq 9. Multiple Alignments 10. Phenotype Association 11. Evolution 12. Các phân tích hệ gen khác 13. Metagenomics/Metabarcoding 14. Các toolkits hữu dụng khác Chi tiết xem ở Bảng 1 |
Bảng 1 Bảng chi tiết công cụ và chức năng
Nhóm chức năng | Mô tả |
Quản lý dữ liệu | – Cho phép người dùng tải dữ liệu lên từ máy tính cá nhân hoặc lấy dữ liệu từ các cơ sở dữ liệu online như NCBI, SRA, ….
– Dữ liệu được tổ chức theo từng mẫu hoặc theo nhóm, theo dự án |
Xử lý dữ liệu giải trình tự | – Loại dữ liệu: Fasta/FastQ; SAM/BAM; BED; VCF/BCF; ..
– Dữ liệu từ Illumina, IonTorrent, PacBio, Oxford Nanopore, … – Đánh giá chất lượng dữ liệu FastQ – Sàng lọc dữ liệu – Chuyển đổi dữ liệu – Chuyển đổi phiên bản dữ liệu (hg19 <-> GRch38) |
Lắp ráp hệ gen (assembly) | Có hơn 15 công cụ lắp ráp hệ gen đáp ứng hầu như tất cả các loại công nghệ đọc trình tự và ứng dụng tương ứng.
– Theo công nghệ o Illumina Sequencers: o Long reads (PacBio, Oxford Nanopore) o Single cell sequencing: – Theo ứng dụng: o Genome assembly o Transcriptome assembly o Metagenome assembly o Single cell genome assembly – Đánh giá chất lượng lắp ráp |
Genomics: Annotation (Annotation) | Có gần 40 công cụ, phần mềm đáp ứng hầu hết các chức năng chú giải hệ gen như là
– Chú giải toàn bộ hệ gen prokaryote – Phân tích MLST – Phân tích antimicrobial và virulence genes – Phân tích Transposable Element – Dự đoán strain types và drug resistance markers của Vi khuẩn lao – Tìm rho-independent transcription terminators trong các hệ gen vi khuẩn – Dự đoán gene/hệ gen – Chú giải theo KEGG, GO, … – Và các công cụ tiện ích khác |
Genomics: Mapping | Hơn 10 khác nhau giúp cho việc mapping trở nên dễ dàng. Các ứng dụng gồm
– Mapping RNA-seq data – Mapping DNA data – Mapping DNA data với trình tự ngắn (<100bp) – Mapping DNA data với long reads – Blast – Và các tiện ích khác |
Genomics: Variant Calling | – Gọi variant SNP, InDel, CNV
– Gọi germline/somatic và LOH variants từ các cặp mẫu tumor-normal – Gọi variant có Low Frequency – Chú giải ảnh hưởng của các variants |
ChIP-seq | |
RNA-seq | – Lắp ráp de novo RNA-seq data
– Align dữ liệu RNA-seq với Reference – Gọi variant SNP, InDel, CNV, … – Differential expression analysis – Và các công cụ, tiện ích khác |
Multiple Alignments | – Các công cụ dóng hàng (alignment) cho hai hay nhiều trình tự như ClustalW, MSABOOT, MAFT, Nucmer, … |
Phenotype Association | – Các công cụ hỗ trợ phân tích nghiên cứu case-control như GWAS, linkage disequilibrium and tag SNPs, … |
Evolution | – Các công cụ xây dựng cây phân loài mạnh mẽ |
Các phân tích hệ gen khác | – Regional Variation
– STR-FM: Microsatellite Analysis – Chromosome Conformation – Virology |
Metabarcoding/Metagenomics | Toàn bộ các công cụ, pipeline mạnh nhất phục vụ cho việc phân tích Metabarcoding/Metagenomics đều được tích hợp. Các công cụ như là QIIME2, MOTHUR, Kraken, VALET, khmer, dada2, … |
Các toolkits hữu dụng | Hệ thống cũng được tích hợp các công cụ xử lý dữ liệu, phân tích, thống kê, trực quan hoá bằng cách vẽ nhiều dạng biểu đồ khác nhau. Các bộ công cụ như là: Picard, deepTools, EMBOSS, NCBI BLAST+, HyPhy, RSeQC, MiModD, Du Novo, Seqtk, Transposon Insertion Sequencing, IWTomics, pRESTO, PlantTribes, Motif, Single-cell, Statistics, Graph/Display Data |
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.