Dữ liệu về các chuỗi DNA được giải mã bởi các trung tâm công nghệ sinh học khác nhau trên thế giới. Và một trong những khó khăn đầu tiên của các nhà quản lý thông tin gặp phải là dữ liệu từ các trung tâm khác nhau có thể được lưu trữ dưới các định dạng khác nhau. Hơn thế nữa, dữ liệu tại các trung tâm thông tin khác nhau như NCBI, EBI, DDBJ cũng được lưu theo các định dạng khác nhau. Để giải quyết bài toán liên quan đến sự khác biệt về định dạng dữ liệu, chúng ta cần định ra các định dạng dữ liệu chuẩn nhằm mục đích lưu trữ và chia sẻ dữ liệu.
Fasta và Fastq là những định dạng dữ liệu chuẩn, đơn giản và quan trọng. Đây là các định dạng kiểu văn bản để lưu trữ thông tin về các chuỗi DNA.
FASTA
Định dạng FASTA được dùng để mô tả thông tin về một chuỗi DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung
- Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí tự xuống dòng. Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự DNA (protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã, loại dữ liệu…
- Trình tự nucleotit hoặc axit amin.Tất cả các kí tự không thuộc về phần tiêu đề sẽ là dữ liệu mô tả các nucleotit của chuỗi DNA. Phần thông tin này có thể chứa các dấu cách.
VD:
>gi|142864|gb|M10040.1|BACDNAE B.subtilis dnaE gene encoding DNA primase, complete cds
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGC
AGATATCGTTGAAGTCATAGGTGATTATGTTCAATTAAAGAAGCAAGGCCGAAACTACTTTGGACTCTGT
CCTTTTCATGGAGAAAGCACACCTTCGTTTTCCGTATCGCCCGACAAACAGATTTTTCATTGCTTTGGCT
GCGGAGCGGGCGGCAATGTTTTCTCTTTTTTAAGGCAGATGGAAGGCTATTCTTTTGCCGAGTCGGTTTC
TCACCTTGCTGACAAATACCAAATTGATTTTCCAGATGATATAACAGTCCATTCCGGAGCCCGGCCAGAG
- Phần tiêu đề chứa các thông tin cơ bản về chuỗi như là số hiệu gi của chuỗi (142864), GB (M10040), tên chuỗi (BACDNAE), tên sinh vật lấy mẫu (B.subtilis)
- Phần thông tin chứa trình tự DNA :GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAA………..
FASTQ
Định dạng dữ liệu FASTQ được dùng để mô tả thông tin về đoạn trình tự DNA và chất lượng khi đọc trình tự của đoạn DNA đó dưới dạng mã ascii (nói nôm la: FastQ = FastA + Quality). Mỗi trình tự DNA sẽ được lưu trong file fastq với 4 dòng, trong đó:
- Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về dãy DNA này (giống với FASTA)
- Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
- Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để định danh chuỗi
- Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc trình tự. Chất lượng của trình tự được mã hóa dưới dạng mã ascii. Tham khảo cách đọc điểm chất lượng ở đây: http://en.wikipedia.org/wiki/FASTQ_format
VD:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50
TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT
+
hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^YỞ Ví dụ trên:
- Dòng 1 chứa các thông tin cơ bản về chuỗi như tên chuỗi , độ dài của chuỗi
- Dòng 2 chứa thông tin về các nucleotit của chuôi
- Dòng 3 chứa kí tự “+”
- Dòng 4 chứa giá trị quality của chuỗi đã được mã hóa dưới dạng ascii.
Hiện nay, các ngôn ngữ lập trình như Python với Biopython, Perl với Bioperl, Java với Biojava, … đều có các gói thư viện hỗ trợ đọc file FastA, FastQ rất tốt cùng với các công cụ phân tích mạnh mẽ như sequence alignment, blast, phylogeny analysis, …
{jcomments on}
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.