K-mer: Công cụ mạnh mẽ trong phân tích dữ liệu sinh học

Giới thiệu về k-mer

Trong kỷ nguyên mới với sự phát triển mạnh mẽ của sinh học phân tử và tin sinh học, việc phân tích dữ liệu lớn đòi hỏi các thuật toán hiệu quả để trích xuất thông tin có ý nghĩa. Trong đó, k-mer nổi lên như một công cụ không thể thiếu, đặc biệt là khi làm việc với các phân tích dữ liệu lớn. K-mer mang lại nhiều lợi thế về tốc độ tính toán và hiệu quả bộ nhớ, đồng thời mang laij tiềm năng cho phân tích chức năng sinh học vốn có. Do đó, k-mer đóng vai trò quan trọng trong phân tích dữ liệu hệ gen và protein; trong phát hiện bệnh, phát triển vắc xin, điều trị bệnh ở nhiều đối tượng khác nhau. K-mer là các đoạn con liền kề có độ dài k lấy từ một chuỗi dài hơn. Ví dụ, chuỗi DNA “ACGTACGT” có thể được chia thành các k-mer có độ dài 3 như sau: ACG, CGT, GTA, TAC, ACG, CGT. Việc chọn độ dài k có thể thay đổi đáng kể tùy thuộc vào tập dữ liệu và ứng dụng.

Sự quan trọng của k-mer

K-mer là một phương pháp mới cho phép xử lý dữ liệu di truyền lớn và phức tạp với độ phức tạp thời gian hợp lý, mang lại hiệu quả tính toán cao. Đồng thời, đây cũng là phương pháp làm giảm thiểu yêu cầu bộ nhớ, giúp tiết kiệm được dung lượng lưu trữ trong quá trình phân tích. Ngoài ra, k-mer có đóng vai trò là dấu ấn sinh học lâm sàng có giá trị để phát hiện mầm bệnh, kháng kháng sinh và bệnh ở người hay nhận dạng mẫu trong phân tích trình tự với các thông tin giá trị trong định danh chi, loài.

Các ứng dụng của k-mer

K-mer có nhiều ứng dụng trong phân tích hệ gene và protein, bao gồm:

•

Đếm số lượng k-mer: Đếm số lần xuất hiện của tất cả các k-mer riêng biệt trong các trình tự sinh học là một bước quan trọng trong nhiều ứng dụng tin sinh học như lắp ráp bộ gen, căn chỉnh chuỗi và ước tính kích thước bộ gen.

•

Phân tích tần số và sự phân bố k-mer: Một tập dữ liệu giải trình tự có thể được đặc trưng bằng cách sử dụng phân bố k-mer, được gọi là phổ hoặc biểu đồ k-mer. Tần số của các k-mer cụ thể có thể tiết lộ các khía cạnh khác nhau của cấu trúc bộ gen và độ phức tạp của một mẫu sinh học.

•

Căn chỉnh trình tự và lắp ráp bộ gen: Các thuật toán căn chỉnh dựa trên k-mer đã được sử dụng để phát hiện và loại bỏ các trình tự nhiễm bằng cách so sánh các k-mer quan sát được với cơ sở dữ liệu tham chiếu về các trình tự có khả năng nhiễm trong hệ gene hay dữ liệu giải trình tự. Lắp ráp bộ gen là quá trình tái tạo trình tự DNA ban đầu của một sinh vật từ các kết quả giải trình tự.

•

So sánh bộ gen: Các phương pháp dựa trên k-mer cho phép phân tích so sánh sự xuất hiện và phân bố k-mer trên các bộ gen, tạo điều kiện xác định các vùng được bảo tồn, vùng mã hóa gen, vùng điều hòa và sắp xếp lại bộ gen để hiểu rõ hơn về các mối quan hệ tiến hóa.

•

Chỉnh sửa bộ gen: K-mer đã được sử dụng như một chiến lược để cải thiện hiệu suất và độ chính xác của công nghệ CRISPR-Cas9.

Kết luận

K-mer đã cách mạng hóa các lĩnh vực nghiên cứu DNA, RNA, protein và phân tích dữ liệu sinh học. Các phương pháp dựa trên k-mer cung cấp tính linh hoạt, khả năng mở rộng và hiệu quả, làm cho chúng trở thành công cụ hợp lý để trích xuất thông tin sinh học từ vật liệu di truyền. Với kích thước và độ phức tạp ngày càng tăng của dữ liệu hệ gen và protein, các thuật toán dựa trên k-mer có tiềm năng đáng kể để nâng cao sự hiểu biết của chúng ta về sinh học và đẩy nhanh quá trình chuyển đổi di truyền thành ứng dụng có ý nghĩa.

Tài liệu tham khảo: https://www.sciencedirect.com/science/article/pii/S2001037024001703

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: AlphaFold: Bước Đột Phá trong Dự Đoán Cấu Trúc Protein

ĐỌC THÊM: BLUP là gì?