Bạn có bao giờ tự hỏi làm thế nào mà một bộ não phức tạp hay một khối u ung thư được hình thành từ hàng tỷ tế bào, mỗi tế bào mang một vai trò và câu chuyện riêng? Câu trả lời nằm ở việc giải mã biểu hiện gen của từng tế bào. RNA-seq đơn bào (scRNA-seq) đã cách mạng hóa nghiên cứu sinh học, cho phép các nhà khoa học khám phá bí mật của từng tế bào với độ chi tiết chưa từng có. Trong bài blog này, chúng ta sẽ cùng tìm hiểu hành trình phân tích dữ liệu scRNA-seq, từ dữ liệu thô đến những hiểu biết sinh học sâu sắc, đồng thời làm nổi bật các công cụ quan trọng được sử dụng ở mỗi bước.
Dù bạn là nhà nghiên cứu, sinh viên y sinh, hay chỉ tò mò về khoa học tiên tiến, hãy cùng khám phá quy trình từng bước của phân tích scRNA-seq và những công cụ không thể thiếu!
MỤC LỤC BÀI VIẾT
Bước 1: Chuẩn Bị Dữ Liệu Thô – Nền Tảng Của scRNA-seq
Mọi phân tích scRNA-seq đều bắt đầu từ dữ liệu thô, thường ở định dạng FASTQ, chứa hàng triệu đoạn trình tự RNA ngắn từ hàng ngàn tế bào.
Các Nhiệm Vụ Chính:
- Giải mã (Demultiplexing): Khi nhiều mẫu hoặc thí nghiệm được giải trình tự trong một lần chạy, giải mã giúp tách dữ liệu của từng mẫu.
Công cụ: bcl2fastq (Illumina) là phần mềm phổ biến, thường được tích hợp với các nền tảng giải trình tự. - Kiểm soát Chất lượng (QC): Đảm bảo dữ liệu chất lượng cao là yếu tố then chốt. Bước này đánh giá số lượng đọc, độ dài đọc và chất lượng trình tự để loại bỏ các đọc kém.
Công cụ: FastQC tạo báo cáo chi tiết về chất lượng, trong khi MultiQC tổng hợp kết quả QC từ nhiều mẫu để có cái nhìn tổng quan.
Bước 2: Liên Kết và Định Lượng – Ghép Mảnh Vào Bản Đồ Gen
Sau khi dữ liệu thô được làm sạch, bước tiếp theo là xác định các đoạn đọc RNA thuộc về gen nào và tế bào nào.
Các Nhiệm Vụ Chính:
- Liên kết (Alignment): Các đoạn đọc RNA được so khớp với bộ gen tham chiếu (ví dụ: bộ gen người hoặc chuột) để xác định nguồn gốc gen.
Công cụ: Với dữ liệu 10x Genomics, CellRanger là chuẩn mực, xử lý liên kết, lọc mã vạch (barcode) và xác định tế bào. Các lựa chọn thay thế bao gồm STAR cho liên kết tổng quát hoặc Kallisto cho liên kết giả nhanh hơn. - Định lượng (Quantification): Đếm số lượng đoạn đọc liên kết với mỗi gen trong mỗi tế bào, tạo ra ma trận biểu hiện gen.
Công cụ: CellRanger tích hợp định lượng, nhưng các công cụ độc lập như Kallisto (với chế độ bustools cho scRNA-seq) hoặc Salmon (chế độ alevin-fry) cũng được sử dụng rộng rãi.
Bước 3: Tiền Xử Lý Dữ Liệu scRNA-seq – Loại Bỏ Nhiễu
Dữ liệu scRNA-seq thường rất nhiễu và thưa (nhiều giá trị 0 do hiệu quả thu nhận RNA thấp). Tiền xử lý kỹ lưỡng là cần thiết để đảm bảo kết quả chính xác.
Các Nhiệm Vụ Chính:
- Lọc Tế Bào:
- Loại bỏ tế bào chất lượng thấp dựa trên số lượng đọc/gen hoặc tỷ lệ gen ty thể.
- Xóa tế bào kép (doublets), tức là các trường hợp hai hoặc nhiều tế bào bị nhầm là một.
Công cụ: Seurat (R) và Scanpy (Python) cung cấp các hàm lọc mạnh mẽ. Các công cụ chuyên biệt phát hiện doublet bao gồm DoubletFinder (R) và Scrublet (Python).
- Chuẩn hóa (Normalization): Điều chỉnh dữ liệu để loại bỏ các biến thiên kỹ thuật không mong muốn.
Công cụ: Các phương pháp phổ biến như LogNormalize hoặc SCTransform trong Seurat, và chuẩn hóa CPM/TPM trong Seurat hoặc Scanpy. - Chọn Lọc Gen Biến Động Cao (HVG): Tập trung vào các gen có biến động biểu hiện đáng kể để nắm bắt tín hiệu sinh học.
Công cụ: Hàm FindVariableFeatures trong Seurat hoặc highly_variable_genes trong Scanpy. - Giảm Chiều (Dimensionality Reduction): Chuyển dữ liệu thành biểu diễn 2D hoặc 3D để dễ hình dung.
Công cụ: PCA, UMAP và t-SNE, đều được tích hợp trong Seurat và Scanpy.
Bước 4: Phân Cụm và Gán Nhãn – Xác Định Danh Tính Tế Bào
Đây là cốt lõi của phân tích scRNA-seq, nơi các tế bào được nhóm lại và vai trò sinh học của chúng được xác định.
Các Nhiệm Vụ Chính:
- Phân cụm (Clustering): Nhóm các tế bào có hồ sơ biểu hiện gen tương tự.
Công cụ: Phân cụm dựa trên đồ thị trong Seurat (FindNeighbors, FindClusters) hoặc các thuật toán như K-means, Louvain, hoặc Leiden trong Scanpy. - Xác định Gen Dấu Ấn (Marker Gene Identification): Tìm các gen đặc trưng cho từng cụm.
Công cụ: Hàm FindAllMarkers hoặc FindMarkers trong Seurat, và rank_genes_groups trong Scanpy. - Gán Nhãn Loại Tế Bào (Cell Type Annotation): Gán danh tính sinh học cho các cụm dựa trên gen dấu ấn hoặc cơ sở dữ liệu.
Công cụ: Thường thực hiện thủ công dựa trên kiến thức sinh học, nhưng các công cụ tự động như SingleR, CellAssign, hoặc Azimuth (tích hợp trong Seurat v5) hỗ trợ hiệu quả.
Bước 5: Phân Tích Sâu – Khám Phá Những Hiểu Biết Đặc Biệt
Sau khi xác định loại tế bào, các nhà nghiên cứu có thể đào sâu vào các câu hỏi sinh học cụ thể.
Các Nhiệm Vụ Chính:
- Phân tích Biểu Hiện Gen Khác Biệt (DGE): So sánh biểu hiện gen giữa các nhóm tế bào để tìm sự khác biệt quan trọng.
Công cụ: Các hàm DGE tích hợp trong Seurat và Scanpy. - Phân tích Quỹ Đạo/Phân tích Thời Gian Giả (Trajectory Inference/Pseudotime): Ước tính lộ trình phát triển hoặc biệt hóa của tế bào.
Công cụ: Monocle, Slingshot, Velocyto, hoặc scVelo (Python). - Phân tích Tương Tác Tế Bào-Tế Bào: Dự đoán các tương tác giữa các loại tế bào.
Công cụ: CellChat, NicheNet và CellPhoneDB. - Tích Hợp Dữ Liệu Đa Kiểu (Multi-omics Integration): Kết hợp scRNA-seq với dữ liệu đơn bào khác (như ATAC-seq hoặc proteomics).
Công cụ: Seurat (FindTransferAnchors, IntegrateData), Liger, hoặc MOFA+.
Bước 6: Trực Quan Hóa và Diễn Giải – Kể Chuyện Bằng Dữ Liệu
Trực quan hóa hiệu quả giúp biến dữ liệu phức tạp thành kết quả dễ hiểu và hấp dẫn.
Các Nhiệm Vụ Chính:
- Các Loại Biểu Đồ: Bao gồm biểu đồ phân tán UMAP/t-SNE, heatmap, violin plot, feature plot và dot plot.
Công cụ: Seurat và Scanpy cung cấp các hàm trực quan hóa mạnh mẽ. Các thư viện đồ họa chung như ggplot2 (R) và matplotlib/seaborn (Python) tăng tính linh hoạt.
Kết Luận: Tương Lai Của scRNA-seq
Quy trình phân tích scRNA-seq kết hợp sinh học phân tử, công nghệ giải trình tự và tin sinh học để hé lộ sự đa dạng của tế bào. Với những tiến bộ như RNA-seq không gian (spatial transcriptomics) và tích hợp đa kiểu, tiềm năng của scRNA-seq ngày càng mở rộng, mang lại cái nhìn sâu sắc hơn về sự sống ở cấp độ tế bào.
Bài viết này đã hướng dẫn bạn qua hành trình phân tích scRNA-seq, làm nổi bật các công cụ thiết yếu ở mỗi giai đoạn. Dù bạn đang tìm hiểu cơ sở tế bào của bệnh tật hay khám phá sinh học cơ bản, scRNA-seq là cánh cửa dẫn đến những phát hiện đột phá trong lĩnh vực đầy tiềm năng này.
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.