Ứng dụng các phương pháp học máy dựa vào pan-genome dùng để phân tích các hoạt động kháng kháng sinh của chủng Escherichia coli

Ứng dụng các phương pháp học máy dựa vào pan-genome dùng để phân tích các hoạt động kháng kháng sinh của chủng Escherichia coli

Hiện nay, các chủng vi khuẩn kháng kháng sinh gây bệnh đang là một vấn đề lớn trên thế giới. Các mầm bệnh do chúng gây ra làm suy giảm khả năng của con người trong kiểm soát mầm bệnh và chữa bệnh. Con người cũng đã sản xuất ra nhiều loại thuốc nhằm loại bỏ các chủng vi khuẩn này. Tuy nhiên, tốc độ đột biến nhanh chóng trong hệ gene của các chủng này đã khiến các loại thuốc ngày càng trở nên vô dụng, điều này gây ảnh hưởng trực tiếp đến số lượng thuốc kháng sinh mới có tác dụng với nhóm vi khuẩn này. Vì vậy, các nhà khoa học đã tiếp cận một hướng mới trong việc phân tích các hoạt động kháng kháng sinh của vi khuẩn gây bệnh là nghiên cứu pan-genome.

Pan-genome là thuật ngữ miêu tả các đặc điểm chung của tất cả các chủng vi khuẩn quan tâm, được ứng dụng cho phân tích sâu về mức độ đa dạng cấp chủng. Đã có nhiều nghiên cứu sử dụng pan-genome để xác định các thành phần gene góp phần tạo nên kiểu hình của các sinh vật sống. Điều này rất hữu ích cho việc dự đoán các gene kháng kháng sinh có ảnh hưởng đến kiểu hình gây bệnh của vi khuẩn cụ thể. Sau đó, dựa vào thông tin về kiểu gene và kiểu hình để xây dựng một mô hình học máy giúp dự đoán các hoạt động kháng kháng sinh cụ thể ở E.coli.

Bằng việc phân tích các đặc điểm hệ gene trong pan-genome và xây dựng mô hình dự đoán các hoạt động kháng kháng sinh sẽ giúp phát hiện ra các nhóm genes định nghĩa sự kháng và không kháng của E.coli đối với từng loại thuốc cụ thể. Một thuật toán di truyền (GA) được tích hợp để lựa chọn các phân nhóm genes mang lại sự biểu hiện cao, đánh dấu khả năng dự đoán các chủng kháng kháng sinh từ pan-genome và mở ra tiềm năng khai thác cơ sở dữ liệu gene dùng thuật toán học máy để hiểu thâm về cơ chế kháng kháng sinh của vi khuẩn.

Hsuan-Lin HerYu-Wei Wu đã xây dựng một quy trình ứng dụng học máy dựa vào phân tích pan-genome với 59 chủng E.coli kèm thông tin về kháng kháng sinh từ PATRIC. Sau đó, tiến hành dự đoán genes và phân nhóm thành các nhóm core và accessory. Đồng thời, các gene kháng kháng sinh cũng được xác định bằng RGI. Sau khi thu thập các kết quả cần thiết, các mô hình học máy như: SVM, NB, Adaboost và RF được sử dụng cho dự đoán sự có mặt của các nhóm genes cụ thể trong 59 mẫu. Để tăng độ chính xác thì một thuật toán di truyền để tìm ra tập hợp tốt nhất của các accessory genes với chú giải của CARD. Sau đó, kết quả dự đoán được kiểm tra lại bằng BLASTP.

Sau khi tiến hành quy trình phân tích và thu được nhiều kết quả. Nhóm nghiên cứu đã cho thấy một nhóm rất nhỏ accessory genes với thông tin chú giải hoạt động kháng kháng sinh đạt được kết quả dự đoán tốt nhất. Một trong nhiều nguyên nhân có thể là do bộ dữ liệu E.coli kèm theo chú giải kháng kháng sinh được sử dụng trong nghiên cứu chưa đủ để xây dựng một pan-genome hoàn chỉnh đối với loài vi khuẩn này. Tuy nhiên, đây cũng là nghiên cứu đầu tiên để ứng dụng pan-genome như một công cụ cho dự đoán hoạt động kháng kháng sinh cho E.coli hay cho nhiều loài vi khuẩn khác sắp tới.

Tài liệu tham khảo: https://pmc.ncbi.nlm.nih.gov/articles/PMC6022653/

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Tầm quan trọng của gen CYP2D6 trong chuyển hóa thuốc
ĐỌC THÊM:  Shotgun metagenomics: hiểu rõ về hệ vi sinh vật

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *