dbSNP: Nền tảng trong nghiên cứu biến thể suốt 25 năm qua

dbSNP: Nền tảng trong nghiên cứu biến thể suốt 25 năm qua

Giới thiệu về dbSNP

Trong kỷ nguyên mà bộ gene người đã được giải mã hoàn chỉnh, việc hiểu rõ những biến đổi di truyền nhỏ trở nên quan trọng hơn bao giờ hết. Chính trong bối cảnh đó, cơ sở dữ liệu dbSNP đã ra đời và nhanh chóng trở thành một nền tảng không thể thiếu trong lĩnh vực sinh học, di truyền và y học. Được khởi động vào năm 1998 bởi National Center for Biotechnology Information (NCBI), dbSNP ban đầu tập trung vào việc lập danh mục các biến thể đa hình nucleotide đơn (SNPs). Sau hơn hai thập kỷ phát triển, dbSNP đã mở rộng phạm vi để bao gồm nhiều loại biến thể di truyền khác nhau, đóng vai trò then chốt trong các nghiên cứu liên kết toàn bộ hệ gene (GWAS), di truyền học quần thể, dược lý di truyền và ung thư.

Lịch sử hình thành và phát triển

Ý tưởng về một cơ sở dữ liệu toàn diện về các biến thể di truyền đã nảy sinh từ sự phát triển vượt bậc của công nghệ giải trình tự hệ gene vào cuối những năm 1990. SNPs (Single-Nucleotide Polymorphism) là loại biến thể di truyền phổ biến nhất, được xem là chìa khóa để nghiên cứu sự đa dạng di truyền, mối liên hệ với bệnh tật và các quá trình tiến hóa ở người. Năm 1998, NCBI hợp tác với National Human Genome Research Institute (NHGRI) đã khởi động dự án dbSNP và cơ sở dữ liệu này chính thức được công bố vào năm 1999.
Trong suốt 25 năm hoạt động, dbSNP đã chứng kiến sự tăng trưởng vượt bậc về quy mô và tầm ảnh hưởng cả về số lượng lẫn chất lượng. Ban đầu chỉ tập trung vào SNPs, dbSNP hiện nay còn lưu trữ các loại biến thể khác như SNVs, indel, microsatellite và các biến thể cấu trúc nhỏ,… Tính đến bản cập nhật gần đây nhất, dbSNP chứa hơn 4 tỷ SNPs đã được nộp và 1.1 tỷ SNPs tham chiếu. Sự tăng trưởng này phản ánh vai trò của dbSNP như một nguồn tài nguyên toàn diện, tích hợp dữ liệu từ các dự án phân tích hệ gene quy mô lớn và hỗ trợ nhiều ứng dụng nghiên cứu đa dạng.
Một số cột mốc quan trọng trong lịch sử phát triển của dbSNP bao gồm việc đạt mốc 1 triệu SNPs tham chiếu vào năm 2000, thiết kế lại vào năm 2017 và kỷ niệm 25 năm thành lập vào năm 2024. Sự hoàn thành của Dự án Bộ gen Người vào năm 2003 và các dự án khác như: HapMap (2004), 1000 Genomes (2009), ExAC (2015), gnomAD (2017) và TOPMed (2020) đã có những đóng góp quan trọng vào việc mở rộng danh mục các biến thể di truyền người trong dbSNP.
dbSNP không chỉ đơn thuần là một kho lưu trữ các biến thể di truyền mà còn là một nền tảng tích hợp dữ liệu từ nhiều nguồn khác nhau bao gồm: Các phòng thí nghiệm riêng lẻ, các dự án giải trình tự hệ gene quy mô lớn và cả các dữ liệu cá nhân. Để đảm bảo tính nhất quán và chính xác, dbSNP chủ yếu hỗ trợ định dạng VCF (Variant Call Format) làm tiêu chuẩn cho việc nộp dữ liệu biến thể. Hơn nữa, dbSNP đã lập danh mục cả các biến thể phổ biến và hiếm gặp. Hiện tại, hơn 90% các SNPs đại diện cho các biến thể hiếm gặp (tần số allele nhỏ hơn 0.01). Trong khi các biến thể phổ biến cung cấp nền tảng cho việc nghiên cứu sự đa dạng di truyền và các quá trình tiến hóa, các biến thể hiếm gặp lại rất cần thiết để hiểu rõ sự khác biệt cá nhân về tính nhạy cảm với bệnh tật, phản ứng với thuốc và các đặc điểm khác.

Xử lý và chú giải biến thể

Các SNPs được ánh xạ tới hệ gene tham chiếu và được nhóm thành các cụm dựa trên các allele giống hệt nhau ở các vị trí lân cận. Mỗi biến thể duy nhất được gán một mã định danh SNP tham chiếu, đảm bảo việc nhận dạng nhất quán trên các bộ dữ liệu khác nhau. Việc sử dụng mã định danh giúp theo dõi và phân tích cùng một biến thể một cách nhất quán, ngay cả khi các phiên bản hệ gene thay đổi.
Sau khi phân cụm và gán mã định danh, biến thể sẽ được ánh xạ tới các đặc điểm transcript và protein (RefSeq) tương ứng. Điều này cho phép dbSNP liên kết biến thể từ trình tự genome đến trình tự mRNA và protein, cung cấp thông tin về các chức năng của chúng. Các thuật ngữ của Sequence Ontology (SO) sau đó được gán cho mỗi SNP tham chiếu để mô tả cách biến thể có thể ảnh hưởng đến quá trình phiên mã hoặc dịch mã.
Tùy thuộc vào vị trí của biến thể trong gene, nó có thể được phân loại thành nhiều loại chức năng như biến thể đồng nghĩa (synonymous), sai nghĩa (missense), dịch khung (frameshift) hoặc vị trí nối (splice site). Cách phân loại này cung cấp cái nhìn sâu sắc về việc biến thể có thể ảnh hưởng đến chức năng gene, bao gồm cả những thay đổi trong biểu hiện protein có thể ảnh hưởng đến các đặc điểm kiểu hình như trao đổi chất hoặc tín hiệu tế bào,… Để tăng cường độ chính xác trong việc biểu diễn biến thể, dbSNP đã áp dụng mô hình SPDI (Sequence Position Deletion Insertion). Mô hình này định nghĩa các biến thể bằng bốn thành phần: trình tự tham chiếu, vị trí chính xác, trình tự xóa và trình tự chèn.

Ứng dụng rộng rãi trong nghiên cứu và lâm sàng

dbSNP đóng một vai trò quan trọng trong việc thúc đẩy nghiên cứu trong nhiều lĩnh vực như phân tích liên kết toàn bộ genome (GWAS), dược lý di truyền và ung thư. Nó cho phép xác định nguy cơ của biến thể, là chìa khóa để hiểu cơ chế bệnh tật. Trong di truyền học tiến hóa, dbSNP cung cấp dữ liệu về tổ tiên, sự di cư và chọn lọc tự nhiên của loài người. Cơ sở dữ liệu này còn được sử dụng trong các thiết bị chẩn đoán lâm sàng, tuân theo hướng dẫn của FDA, để phát hiện các tình trạng di truyền và hỗ trợ quyết định y tế. Ngoài ra, dbSNP cũng được sử dụng cho mục đích pháp y.

Truy cập và tích hợp dữ liệu dbSNP

Người dùng có thể truy cập dữ liệu từ trang web dbSNP (https://www.ncbi.nlm.nih.gov/snp) để tìm SNPs trong các hệ gene cụ thể và lọc kết quả theo chức năng, ý nghĩa lâm sàng, tần số allele,… Đồng thời, dbSNP cũng cung cấp nhiều công cụ để truy cập và phân tích bộ dữ liệu đa dạng của mình. Ngoài ra, dbSNP còn cung cấp dữ liệu biến thể để tải xuống ở định dạng JSON và VCF để có thể tích hợp nhiều công cụ khác cho quá trình phân tích sâu hơn.
Kỷ niệm 25 năm đổi mới, dbSNP tiếp tục là một công cụ không thể thiếu cho nghiên cứu biến thể di truyền trên toàn thế giới. Trong tương lai, dbSNP đang chuẩn bị tích hợp các tiện ích mới nhằm nâng cao hiệu quả sử dụng cho các nhà nghiên cứu. Để đáp ứng nhu cầu ngày càng tăng của cộng đồng khoa học, dbSNP đang chuyển cơ sở hạ tầng của mình sang các nền tảng dựa trên đám mây. Hơn nữa, dbSNP đang khám phá việc sử dụng trí tuệ nhân tạo (AI) để cách mạng hóa các chức năng tìm kiếm và tự động hóa các quy trình quan trọng như phân tích dữ liệu, kiểm soát chất lượng  và chú giải biến thể. 

Kết luận

Với những tiến bộ không ngừng, dbSNP tiếp tục là một nền tảng vững chắc, mang lại những đóng góp to lớn, định hình những khám phá quan trọng trong di truyền học người, và tương lai của nó hứa hẹn sẽ còn nhiều thành tựu hơn nữa.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Các gene gây ra rối loạn di truyền được xác định thế nào?
ĐỌC THÊM:  Di truyền trong nghiên cứu ung thư: Vùng DNA không mã hóa đã được giải mã

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *