Nguyên nhân:
Việc cho ra phiên bản mới nhất của dòng máy giải trình tự thế hệ mới (NGS), HiSeq X by Illumina đã làm giải giá việc giải trình tự cho người xuống chỉ còn 4000 $.Chúng ta đang chạm đến một dấu mốc quan trọng trong lịch sử , được biết như thời kỳ genome 1000 $, thời kỳ mà việc giải trình tự cho từng cá thể không còn đắt đỏ, mở ra một cánh
cửa dẫn tới việc tạo ra dược phẩm hiệu quả cho từng đối tượng. Thế hệ quan trọng của dữ liệu genomic bao gồm các genome lắp ráp được kỳ vọng trong những năm tơi. Điều quan trọng cần thiết đảm bảo cho các genome nén hoạt động tốt đồng thời cho từng loài khác nhau (từ vi khuẩn đến con người) điều đó sẽ khiến việc lan truyền, phân tán và phân tích của chúng trở nên dễ dàng. Trong tương lai, hầu hết những genome mới sẽ được nén cho từng cá thể cùng loài từ những tham chiếu sẵn có trên cơ sử dữ liệu. Do đó rất hiển nhiên khi đề xuất các lược đồ nén giả định và khai thác nhưng tham chiếu có sẵn như vậy.
Kết quả:
Chúng tôi đề xuất iDoComp, một thuật toán nén các genome lắp ráp thành định dạng fasta, chúng được nén cho từng genomes của mỗi cá thể bằng việc sử dụng genome tham chiếu cả ở dạng nén và không nén. Trong phạm vi nén hiệu quả, iDoComp hoạt động tốt hơn những thuật toán trước đó trong hầu hết các trường hợp nghiên cứu. Ví dụ chúng tôi nhận thấy kết quả nén thu được lên đến 60% trong một vài trường hợp, bao gồm dữ liệu H.sapiens, khi so sánh vơi phương thức nén tốt nhất trong số nhưng thuật toán được đề xuất.
http://bioinformatics.oxfordjournals.org/content/31/5/626.abstract
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.