Các vi sinh vật là rất cần thiết cho các hoạt động của sinh quyển (Falkowski et. al., 2008). Tuy nhiên, mức độ hiểu biết các chủ đề chính như mức độ đa dạng và phân bố, tương tác sinh thái, lịch sử tiến hóa và trao đổi chất cộng đồng vẫn còn nghèo nàn. Các công cụ xử lý phân tử thế hệ đầu tiên (First Generation molecular tools – FGMT – như PCR, Sanger Sequencing, fingerprinting; Fuhrman and Hagstrom, 2008) giúp cho con người hiểu biết rõ ràng hơn. Trong vòng 20 năm qua, FGMT giúp trích xuất trực tiếp DNA và RNA từ môi trường và phân tích đặc trưng phân loài, cũng như xác định các mối liên hệ chức năng và sinh thái. Các nghiên cứu đã chỉ ra sự đa dạng cực lớn ở cấp độ phân loài (Pace, 1997) và trao đổi chất (Venter et. al., 2004). Tuy nhiên, các kỹ thuật FGTM chỉ mới nắm bắt được các vi sinh vật phong phú nhất, mà để lại phần lớn các loài hiếm (Pedros-Alio, 2006). Hơn thế nữa, FGMT cung cấp nhận thức về cấu trúc các cộng đồng vi sinh vật theo không gian và thời gian, cho thấy sự hiện hữu của sự phân loại toàn cầu và địa phương (Hughes Martiny et al., 2006). FGMT đã được sử dụng trong một số hữu hạn các nghiên cứu khám phá tính di truyền trong quần thể vi sinh vật (Logares, 2011), ví dụ, quy mô quần thể lớn hiệu quả (Snoke et al., 2006) và mức độ quan trọng của đa dạng di truyền trong loài (Logares et al., 2009). FGMT cũng có những đóng góp quan trọng trong lĩnh vực nghiên cứu mối liên hệ giữa xác định phân loài và chức năng trao đổi chất. Tuy nhiên, mặc dù các kỹ thuật như Fluorescence In Situ Hybridization (FISH) và các biết thể của nó đã cung cấp những tri thức và những tiến bộ, nhưng sự hiểu biết về mối liên hệ giữa chức năng vi sinh vật và xác định phân loài vẫn còn nghèo nàn.
Trong vòng 5 năm trở lại đây, các kỹ thuật giải trình tự thông lượng cao (High Throughput Sequencing – HTS) đã cách mạng hóa lĩnh vực nghiên cứu hệ sinh thái vi sinh vật học, thúc đẩy rất nhiều lĩnh vực nghiên cứu mới. Điểm khác biệt quan trọng giữa HTS và kỹ thuật giải trình tự Sanger truyền thống là thông lượng. Trong khi một Sanger điển hình sinh ra 10^2 trình tự (với độ dài khoảng 600-900 bp) thì HTS (ví dụ như 454 và Illumina) có thể sinh ra 10^6~10^9 trình tự (với độ dài 100~700bp) cho mỗi lần chạy (Glenn, 2011; Scholz et al., 2011). Thông lượng lớn như vậy đạt được là do giải trình tự song song khối lượng lớn, được thực hiển riêng biệt trên các nền tảng có sẵn (Glenn, 2011). Một nhược điểm phải đánh đổi của việc tăng thông lượng là độ dài trình tự bị giảm, mặc dù các phiên bản HTS mới có thể cung cấp các đoạn trình tự dài hơn.
Lượng dữ liệu lớn được tạo bởi HTS đòi hỏi các máy tính có cấu hình rất cao để xử lý. Ví dụ, Illumina HiSeq2500 chạy một lần có thể sinh ra tới 600 Gigabases (Gb = 1000 triệu bases) dữ liệu trình tự (Scholz et al., 2011) và sẽ chiếm khoảng 0.6 Terabytes (TB) không gian lưu trữ (Glenn, 2011). Để xử lý dữ liệu với khối lượng lớn thế này thì sẽ cần hệ thống tính toán lưới hoặc điện toán đám mây (ví dụ như Amazon Elastic Compute Cloud), và chi phí tính toán có thể vượt quá chi phí giải trình tự. Tuy nhiên, các phân tích trình tự nói chung với dữ liệu HTS đã được xử lý sơ bộ có thể được thực hiện trên các máy tính để bàn hoặc các máy chủ nhỏ. Ngày nay, cấu hình tối thiểu để xử lý cơ bản nên gồm Chip lõi tứ đa nhiệm, 16GB RAM, và Ổ cứng 2 TB. Một khi khối lượng dữ liệu HTS được xử lý, thì các máy tính để bàn thông thường hoặc các máy tính xách tay cũng có thể thực hiện các phân tích thống kê (ví dụ, các phân tích thống kê sử dụng R software; R-Development-Core-Team, 2008). Trong hầu hết các trường hợp, máy tính để bàn hoặc máy chủ cho Tin sinh học cài Linux hoặc Mac OSX, khi mà cả hai hệ điều hành này đều dựa trên nền Unix và có thể quản lý các ứng dụng tính toán lớn một cách đồng thời. Đối với các phân tích thống kê chung chung thì Windows, Linux hay Mac OS đều được.
Kỹ thuật để quản lý và xử lý khối lượng dữ liệu lớn cũng là một vấn đề quan trọng, và để khai phá thông tin sinh học cần nhiều cấp trình độ tin học khác nhau. Hiện tại, hầu hết các phân tích được thực hiện với các phần mềm mã nguồn mở hoặc tự viết với ngôn ngữ Perl, Python, Java, C và C++. Để sử dụng hoặc tự viết, người dùng phải có trình độ tin học ở mức khá (ví dụ: viết kịch bản cơ bản và sử dụng dòng lệnh). Các lựa chọn khác sử dụng giao diện đồ họa thân thiện với người dùng cũng có hoặc đang được phát triển bởi các công ty như CLCbio hoặc Biomatters Ltd., nhưng các phần mềm này có thể có giá cao, và chúng thường ko phải là phần mềm mã mở. Tuy nhiên, có một số phần mềm phân tích trực tuyến miễn phí (như Galaxy Portal, www.usegalaxy.org). Một số phòng nghiên cứu tuyển các kỹ sư tin học để giúp họ phân tích. Đó dường như là lựa chọn tốt nhất cho dù chi phí có thể tăng cao đối với một số nhóm nghiên cứu.
Cuộc cách mạng hiện tại trong sinh thái học vi sinh vật, cung như các lĩnh vực khác trong sinh học, có tính chất đặc trưng bởi sự đồng vận giữa giải trình tự DNA/RNA thông lượng cao, máy tính cấu hình cao và khoa học thông tin (phần mềm). Các lĩnh vực này trở lên gắn kết chặt chẽ và phụ thuộc lẫn nhau, và sự cải tiến của lĩnh vực này yêu cầu sự cải tiến trong các lĩnh vực còn lại.
Lược dịch
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.