Khai phá dữ liệu (KPDL) là một lĩnh vực khá mới mẻ bắt đầu nổi lên từ những năm 80. Nó được phát triển nhằm đáp ứng nhu cầu khám phá các tri thức tiềm ẩn trong các cơ sở dữ liệu (CSDL) lớn như trong các hệ thống máy tính thu thập thông tin từ vệ tinh, các hệ thống siêu thị bán lẻ (retailer), các dây chuyền cung cấp sản phẩm (supply chain) hoặc các hệ thống đa phương tiện, … mà các kỹ thuật trích xuất dữ liệu truyền thống (như SQL) không thể khai thác được. KPDL thường được dung để phân tích mối tương quan giữa các mẫu dữ liệu có mặt trong CSDL. Các kỹ thuật chính của KPDL gồm khai phá các luật kết hợp, phân lớp và phân cụm dữ liệu. Khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực như Quản lý quan hệ khách hàng, phát hiện lỗi, phân tích thị trường, các hệ thống hỗ trợ khách hàng, hệ thống hỗ trợ bệnh nhân hoặc khám bệnh qua mạng, tư vấn y dược, và trong sinh học (Two Crows Corporation, 1999).
Trong những năm gần đây, việc thu thập dữ liệu sinh học được tăng lên rất nhanh chóng nhằm đáp ứng sự phát triển của các kỹ thuật và công nghệ mới. Các kỹ thuật tiên tiến đã hỗ trợ việc thực hiện và quản lý các thí nghiệm hoặc các chương trình nghiên cứu. Một ví dụ điển hình là Human Genome Project, được phát triển từ năm 1990 bởi Bộ Năng lượng và Viện Chăm sóc sức khỏe Mỹ (U.S NIH). Dự án này được hoàn thành vào năm 2003. Một ví dụ điển hình khác về tốc độ tăng trưởng theo lỹ thừa của dữ liệu sinh học là Ngân hàng Gen (GenBank) của U.S NIH.
Hình 1. Tốc độ tăng trưởng của Ngân hàng Gen (1982-2002)
Tốc độ tăng trưởng dữ liệu của các hệ thống phụ thuộc vào nhu cầu sử dụng máy tính của các tổ chức, việc duy trì và phân tích các dữ liệu này.
KPDL được áp dụng vào trong CSDL sinh học lớn nhằm khai phá các tri thức cực kỳ hữu ích tiềm ẩn bên trong đó, và thường được gọi với thuật ngữ BioData Mining. Các phương pháp thông dụng của KPDL được sử dụng trong BioData Mining gồm phân lớp, hồi quy, luật kết hợp, phân tích tần suất, và phân cụm.
BioData Mining được xem là một lĩnh vực mới và hứa hẹn nhiều cơ hội cho các nhà nghiên cứu Tin-Sinh học.
{fcomment}
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.