Efficient feature selection and classification of protein sequence data in bioinformatics.
Iqbal MJ, Faye I, Samir BB, Md Said A.
Tin sinh học là một lĩnh vực nghiên cứu mới trong khoảng 30 năm trở lại đây. Mục đích của tin sinh học là lưu trữ, quản lý dữ liệu sinh học và phân tích, phát triển các công cụ tính toán. Kích thước dữ liệu của các dự án liên quan đến trình tự protein đang gia tăng theo cấp số nhân. Đó là khó khăn của các phương pháp thực nghiệm. Để loại bỏ khoảng cách giữa các trình tự protein mới phát hiện và protein đã biết chức năng, rất nhiều kỹ thuật tính toán liên quan đến các thuật toán phân loại và phân nhóm đã được đề xuất trong quá khứ. Phân loại các protein vào các siêu họ có sẵn là cần thiết trong việc dự đoán cấu trúc và chức năng của các protein mới phát hiện.
Tuy nhiên, các kết quả phân loại có sẵn không đạt yêu cầu do các đặc điểm của protein được lưu trữ qua nhiều phương pháp mã hóa khác nhau. Trong báo cáo này, phương pháp chọn lọc dựa trên số liệu thống kê được đề xuất để giảm kích thước dữ liệu khi tính toán. Phương pháp phân loại protein được đề xuất cho thấy sự cải thiện đáng kể các thông số: độ chính xác, độ nhạy, độ đặc hiệu, F – measure…
Link: http://www.ncbi.nlm.nih.gov/pubmed/25045727
{fcomment}
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.