Ý nghĩa các con số thống kê khi lập bản đồ genome

Bản đồ genome được lập từ các scaffolds và contigs. Contigs là các đoạn trình tự liên tục thu được từ các đoạn reads (đoạn trình tự nhỏ) gối nhau. Scaffolds là tập các contigs được sắp xếp theo trật tự và được nối kết với nhau.

contig and scaffold

(Hình minh họa từ http://genome.jgi-psf.org)

Cách tính và Ý nghĩa của N50 của Scaffold và Contig

Con số thống kê được dùng nhiều nhất để mô tả chất lượng của một bản đồ genome là N50 của Scaffold và Contig. Số N50 của Scaffold càng lớn thì chất lượng của bản đồ genome càng tốt.

Cách tính N50 của contig như sau: 

  • Bước 1: Sắp xếp các contig theo độ dài, từ dài nhất đến ngắn nhất.
  • Bước 2: Cộng dồn độ dài của contig từ contig dài nhất cho đến khi tổng độ dài cộng dồn bằng 50% tổng độ dài của toàn bộ contig.

Tính N50 của Scaffold cũng tương tự. Lưu ý một điều quan trọng rằng việc lắp ghép các contigs và reads không liên quan với nhau để tạo ra các Scaffold sẽ gây ra lỗi với số N50 có thể rất lớn. Cũng cần phải lưu ý rằng khi tính N50 thì phải loại ra các scaffold và contig chỉ có 1 reads (hay còn gọi là singletons) bởi bì chúng thường có độ dài ngắn, nhỏ hơn 800bp. Do đó, cách tính N50 có thể biến đổi tùy theo từng dự án.

Tỉ lệ phần trăm trống (percent gaps)

Một thông số thống kê quan trọng của bản đồ genome là tỉ lệ phần trăm trống (percent Gaps). Khoảng trống nằm giữa các contigs và scaffolds mà chưa được giải mã thường được biểu diễn bằng một loạt ký tự ‘N’. Do đó, hai số N50 của Scaffold của hai bản đồ gene có thể bằng nhau nhưng có thể percent gaps khác nhau.

Ước lượng độ dài các khoảng trống gap thường được thực hiện dựa trên kích thước của thư viện chèn vào (library insert size) và độ dài của read, khi hai thông số này tính được thì số lượng ký tự ‘N’ trong các khoảng trống gaps thường (nhưng ko phải luôn luôn) biểu diễn khá chính xác một cách ước lượng kích thước của gap, đôi khi, tất cả các gaps được biểu diễn bởi chuỗi 50 ký tự N mà không quan tâm tới kích thước thực sự của chúng.

Độ phủ (percent coverage)

Độ phủ được sử dụng theo hai nghĩa: độ phủ genome và độ phủ gene.

Độ phủ genome là số phần trăm của genome đích mà có trong bản đồ genome đang lập dựa trên kích thước genome đích; Kích thước của genome đích được ước lượng theo các kỹ thuật cytological. Độ phủ genome chiếm khoảng 90%-95% là tốt vì các genome thường chứa một số vùng lặp đi lặp lại, các vùng lặp này rất khó để giải trình tự. Do đó nếu độ phủ nhỏ hơn 100% một chút sẽ không có vấn đề gì cả.

Độ phủ gene là tỉ lệ phần trăm của gene có trong genome dích mà có chứa trong bản đồ genome đang lập. 

(Tham khảo từ A beginer’s guide to eukaryotic genome annotation | Nature Review)

Trả lời

Email của bạn sẽ không được hiển thị công khai.