Giải trình tự phác thảo bộ gene (Draft genome sequence) của Mycobacterium neoaurum dòng DSM 44074T

Mycobacterium neoaurum là một loài vi khuẩn ngoài môi trường và sinh trưởng nhanh thuộc chi Mycobacterium. Có một số ghi chép về chúng là nguyên nhân gây bệnh khi nhiễm vào máu, da, phổi ở những bệnh nhân bị suy giảm hệ thống miễn dịch. Để hoàn thiện bộ gene của mẫu tách từ môi trường ở Nga, Phelippeau và các đồng nghiệp đã giải trình tự toàn bộ bộ gene của Mycobacterium neoaurum DSM 44074T, dòng được coi là một đại diện có giá trị cho loài.

Bộ DNA được tách từ M. neoaurum DSM 44074T được nuôi trong môi trường MGIT ở 37oC với không khí được làm giàu CO2 đến 5%. Sau đó nó được giải trình tự bằng hai công nghệ giải trình tự thông lượng cao thế hệ mới: Roche 454 và MiSeq Illumina. Một thư viện pair-end 5kb được tạo và đưa lên đĩa PTP, sau đó dùng máy Roche-GS FLX Titanium với bộ giải trình tự XLR70 tạo ra 157,956 đoạn đọc trình tự (reads). Công nghệ Illumina sử dụng 2 thư viện mate-pair Nextera để giải trình tự trên máy MiSeq ở 2×250 bp. Các đoạn cắt đích DNA (fragments) có kích thước từ 1-10kb, và công đoạn giải trình tự cuối cùng cho ra 145,157 đoạn reads. Các đoạn reads từ các công nghê đọc khác nhau sẽ được lắp ráp riêng rẽ. Các reads từ Roche 454 được ráp thành các contigs và scaffolds bằng Newbler phiên bản 2.8. Các đoạn reads của Illumina được cắt (trim) bằng Trimmomatic và sau đó được lắp ráp bằng phần mềm Spades, sau đo thêm vào những đoạn contigs của Roche 454. Những contigs thu được được ghép lại bằng phần mềm SSPACE và OPERA và sau đó lại được ghép lại một lần nữa bằng GapFiller bản 1.10 để giảm số lượng. Một vài tinh chỉnh tay sử dụng phần mềm CLC Genomics bản 7 và một vài đoạn mã Python tự viết để tăng chất lượng của bộ gene. Cuối cùng bộ gene phác thảo của M. neoaurum bao gồm 10 scaffolds ghép từ 45 contigs với 5,504,703bp và có kích thước 5,536,033bp bao gồm cả các những chỗ hổng. Tỉ lệ GC là 66.24%.

Những gene không mã hóa và có nhiều tính chất hỗn tạp được dự đoán bằng RNAmmer, ARAGORN, Rfam, PFAM và Infernal. Những đoạn trình tự DNA mã hóa (CDSs) được dự đoán bằng Prodigal, và chú giải chức nằng bằng BLAST+ và HMMER3 với cơ sở dữ liệu UniProtKB. Bộ gene cho thấy nó mã hóa ít nhất 72 RNA đã được dự đoán, bao gồm 5 rRNA, 49 tRNA, 1 tmRNA và 17 RNA hỗn tạp. Số lượng gene xác định được là 5,274 với độ mã hóa 5,112,765bp (bao phủ 92.35%), trong đó có 239 (4.53%) gene mã hóa protein giả định (putative) (*) và 822 (15.59%) gene mã hóa protein giả thuyết (hypothetical) (**). Thêm vào đó, có 5,220 gene khớp với ít nhất 1 trình tự trong cơ sở dữ liệu Cluster of Orthologous (COG) với các tham số mặc định của BLASTp.

Mã số truy cập trình tự nucleotide: trình tự gene của M. neoaurum DSM 44074T được đăng ký trên EMBL với mã số truy cập là LK021337 đến LK021346. Mã số whole-genome shotgun master là CCDR010000001 đến CCDR010000045.

Ghi chú:

(**)Protein giả thuyết (hypothetical): được dự đoán bằng những những công cụ xác định gene trong quá trình phân tích bộ gene, nhưng không có bằng chứng thí nghiệm thực tế nào xác định. Khi dùng những công cụ tinh sinh học để xác định những gene mới, chúng sẽ tìm những ORF (Open Reading Frame – vùng đọc không chứa mã codon kết thúc) trong bộ gene mà không có sự tương đồng protein với cơ sở dữ liệu.

(*)Protein giả định (putative): tương tự như Protein giả thuyết (hypothetical) nhưng chúng có chứa đoạn trình tự tương tự như những protein đã biết. Thông thường, sự giống nhau chỉ ở chỗ chúng giữ những phần thừa của amino acid và không có một vùng nào giống rõ ràng với những protein đã chú giải.

Full article: http://genomea.asm.org/content/2/4/e00699-14.long

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *