MỤC LỤC BÀI VIẾT
COSMIC: Cơ sở dữ liệu về các biến thể soma và dữ liệu lâm sàng về ung thư
Trong bối cảnh phức tạp của nghiên cứu ung thư, việc giải mã những thay đổi di truyền đóng vai trò then chốt trong việc hiểu rõ nguyên nhân, sự phát triển và tìm ra phương pháp điều trị hiệu quả. Giữa sự đa dạng của các dự án và cơ sở dữ liệu, COSMIC nổi lên như một cơ sở dữ liệu toàn diện được các nhà khoa học và bác sĩ trên toàn thế giới tin cậy.
COSMIC là gì?
COSMIC (https://cancer.sanger.ac.uk/cosmic) là viết tắt của Catalogue of Somatic Mutations in Cancer. Đây là một cơ sở tri thức được các chuyên gia tuyển chọn, cung cấp dữ liệu toàn diện về các biến thể soma (somatic variants) trong ung thư. Đồng thời, COSMIC tập trung vào những thay đổi di truyền xảy ra sau khi thụ thai và chỉ có trong tế bào ung thư, không di truyền cho thế hệ sau. Điểm mạnh của COSMIC không chỉ nằm ở lượng dữ liệu khổng lồ mà còn ở bộ công cụ toàn diện hỗ trợ người dùng diễn giải dữ liệu di truyền, đánh giá tác động của các thay đổi soma đối với bệnh tật. Hàng ngàn nhà nghiên cứu và bác sĩ lâm sàng truy cập và sử dụng COSMIC hàng ngày để nhanh chóng tiếp cận thông tin từ một nguồn dữ liệu khổng lồ được tuyển chọn từ hơn 29.000 ấn phẩm khoa học và các nghiên cứu lớn đã được công bố.
Hành trình phát triển của COSMIC
COSMIC bắt nguồn từ năm 2004 như một danh mục các đột biến soma ở bốn gen ung thư và đã mở rộng phạm vi để bao phủ toàn bộ hệ gen người với tất cả các loại ung thư. Trong hai thập kỷ qua, COSMIC đã không ngừng thu thập, tinh sạch và tổ chức dữ liệu di truyền cùng với các thông tin liên quan từ nhiều bài báo khoa học và nghiên cứu ung thư lớn. Dữ liệu này sau đó được chuẩn hóa, tích hợp và cung cấp cho cộng đồng nghiên cứu thông qua các bộ dữ liệu có cấu trúc tốt, trang web và công cụ khám phá dữ liệu thân thiện với người dùng. Đặc biệt, trong vòng 4 năm trở lại đây, COSMIC đã mở rộng đáng kể tiện ích của mình bằng cách bổ sung các nguồn tài nguyên mới quan trọng như: Mutational Signatures, Cancer Mutation Census và Actionability.
Những danh mục then chốt của COSMIC
COSMIC không chỉ là một kho lưu trữ dữ liệu đơn thuần mà còn là một cơ sở thông tin tích hợp, bao gồm bảy danh mục chính:
- Danh mục chính về đột biến soma: Đây là danh mục trung tâm của COSMIC, chứa đựng thông tin chi tiết về hàng triệu đột biến soma đã được xác định trong các mẫu ung thư. Kể từ phiên bản 86 (năm 2018), danh mục này đã không ngừng phát triển, với việc bổ sung dữ liệu từ 27147 mẫu ung thư. Phiên bản 98 (tháng 5 năm 2023) đã tổng hợp 23.854.105 biến thể genomic (COSV), trong đó có 5.078.567 đột biến mã hóa.
- Thống kê Gen Ung thư (Cancer Gene Census – CGC): Đây là một danh mục các gene bị ảnh hưởng do các đột biến soma và/hoặc đột biến dòng mầm gây bệnh hiếm gặp, góp phần vào sự phát triển của ung thư. CGC được xây dựng dựa trên sự tuyển chọn thủ công các dữ liệu đột biến đã được công bố và các bằng chứng thực nghiệm chứng minh vai trò của gene trong ung thư. Trong phiên bản 98, CGC bao gồm 738 gene, được chia thành hai cấp độ (Tier 1: 579 gene; Tier 2: 159 gene) dựa trên mức độ bằng chứng liên quan đến ung thư.
- Thống kê Đột biến Ung thư (Cancer Mutation Census – CMC): CMC tích hợp thông tin sinh học, sinh hóa và quần thể từ nhiều nguồn khác nhau, cho phép người dùng khám phá và hiểu rõ những đột biến nào có thể phát triển các loại ung thư khác nhau. Mục tiêu của CMC là cải thiện ứng dụng của y học chính xác và giúp phân biệt giữa các đột biến gây bệnh (driver mutations) và các đột biến đồng hành (passenger mutations).
- COSMIC 3-D: Danh mục này tích hợp các đột biến ung thư với dữ liệu cấu trúc protein trên toàn bộ bộ gene người, hiển thị hơn 3000 cấu trúc protein đã được xác định bằng thực nghiệm với hình ảnh tương tác 3D trực quan. Điều này giúp người dùng hiểu rõ tác động của các đột biến soma trong bối cảnh cấu trúc 3D của protein.
- Mutational Signatures: Danh mục này xác định các mô hình đột biến soma liên quan đến các quá trình gây đột biến cụ thể. Chúng có thể cung cấp thông tin về nguồn gốc gây tổn thương DNA (ví dụ: tiếp xúc với tia UV, hút thuốc) hoặc chỉ ra sự bất hoạt của các con đường sửa chữa DNA. COSMIC hiện đang xem xét bốn loại chữ ký đột biến khác nhau, dẫn đến một tập hợp 155 chữ ký đột biến riêng lẻ.
- Khả năng Ứng dụng Lâm sàng (Actionability): Nguồn tài nguyên này tập trung vào các thử nghiệm lâm sàng hoặc nghiên cứu trường hợp trong lĩnh vực ung thư can thiệp, nơi bệnh nhân được lựa chọn dựa trên sự hiện diện của một biến thể hoặc có ý định tương quan hiệu quả điều trị với sự hiện diện của một biến thể. Tính đến phiên bản thứ 10, dữ liệu lâm sàng bao gồm 988 biến thể có khả năng ứng dụng, bao gồm 156 đột biến điểm ở 445 gene.
- Danh mục các đột biến gây kháng thuốc: COSMIC chú thích các đột biến được xác định là gây ra sự kháng thuốc, đặc biệt là các đột biến thu được sau khi điều trị. Phiên bản 98 cung cấp thông tin được tuyển chọn từ 2945 mẫu bệnh nhân, mô tả 476 đột biến ở 39 gen chịu trách nhiệm cho sự kháng thuốc đối với 60 loại thuốc ở 111 loại ung thư.
Ứng dụng và tác động to lớn
COSMIC đóng một vai trò không thể thiếu trong nghiên cứu ung thư toàn cầu, giúp cộng đồng nghiên cứu thực hiện công việc tốt hơn và nhanh hơn bằng cách cung cấp kiến thức di truyền có liên quan về mặt sinh học và lâm sàng trên tất cả các loại ung thư. Bằng cách cung cấp các bộ dữ liệu và phần mềm tin sinh học dễ tiếp cận, COSMIC còn hướng đến việc thu hẹp khoảng cách giữa nghiên cứu học thuật và các ứng dụng lâm sàng cụ thể cho bệnh nhân.
Thách thức và định hướng tương lai
Mặc dù là một nguồn thông tin vô giá, COSMIC cũng đối mặt với những thách thức như sự thiếu đa dạng trong các bộ dữ liệu di truyền và sự thiếu vắng các tiêu chuẩn được chấp nhận rộng rãi cho việc báo cáo, xử lý và chia sẻ dữ liệu di truyền. Nhận thức được điều này, đội ngũ COSMIC cam kết hợp tác với các nhà khoa học và bác sĩ lâm sàng để vượt qua những trở ngại này, từ đó thúc đẩy sự phát triển liên tục của các cơ sở dữ liệu như COSMIC vì sự tiến bộ của nghiên cứu điều trị ung thư và chăm sóc bệnh nhân.
Tài liệu tham khảo: https://academic.oup.com/nar/article/52/D1/D1210/7335750
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.