MP3 – công cụ dự đoán protein gây bệnh từ dữ liệu genomic và metagenomic

MP3: A Software Tool for the Prediction of Pathogenic Proteins in Genomic and Metagenomic Data.

Author: Gupta A, Kapil R, Dhakan DB, Sharma VK

Xác định các protein có hại từ các bộ trình tự de novo rất hữu ích cho việc dự đoán và tìm hiểu cơ chế gây bệnh của protein đó. Tìm ra các protein này cũng có thể có giá trị cho việc so sánh hệ gene của cá thể mang bệnh với cá thể khỏe mạnh và ước tính tỷ lệ loài gây bệnh. Tuy nhiên, thách thức chung của cả hai nhiệm vụ trên là việc tìm ra các protein có hại từ một lượng lớn protein chưa được chú giải trong dữ liệu metagenomic.

 

Những công cụ hiện có cho độ chính xác không cao và không thể thực hiện được với các tập dữ liệu lớn. Vì vậy, chúng tôi đã phát triển công cụ MP3 và hệ thống web server cho phép dự đoán protein gây bệnh trong cả dữ liệu genomic và metagenomic. MP3 được xây dựng bằng cách sử dụng kết hợp máy vector hỗ trợ (SVM – Support Vector Machine) và mô hình Markov ẩn (HMM – Hidden Markov Model) do đó công cụ này có khả năng dự đoán nhanh và chính xác các protein gây bệnh. Hiệu suất của MP3 đã được kiểm chứng trên các bộ dữ liệu genomic và metagenomic thực của vi khuẩn. Hiện nay, MP3 là chương trình duy nhất chuyên dự đoán nhanh và chính xác các protein có hại từ các chuỗi trình tự ngắn (100 – 150 bp) trong dữ liệu metagenomic. Đồng thời, công cụ cũng hoạt động rất tốt với các hệ protein hoàn chỉnh.

Công cụ có sẵn tại http://metagenomics.iiserb.ac.in/mp3/index.php.

Link bài báo trên cơ sở dữ liệu PubMed: http://www.ncbi.nlm.nih.gov/pubmed/24736651

{fcomment}

Trả lời

Email của bạn sẽ không được hiển thị công khai.