Sử dụng Galaxy để thực hiện phân tích dữ liệu trên quy mô lớn

Using Galaxy to Perform Large-Scale Interactive Data Analyses

Author: Jennifer Hillman-Jackson, Dave Clements, Daniel Blankenberg, James Taylor, Anton Nekrutenko, and the Galaxy Team

Tóm tắt: Những tiến bộ trong công nghệ nghiên cứu y sinh đã cung cấp một nguồn lớn dữ liệu genomic thông lượng cao cho việc phân tích thực nghiệm. Việc tạo ra và thu thập dữ liệu cũng trở nên dễ dàng hơn, vì vậy quyết định then chốt các nhà nghiên cứu cần phải lựa chọn là phân tích những dữ liệu này ở đâu và bằng cách nào. Các bộ dữ liệu thường có kích thước lớn, hơn nữa việc cài đặt và sử dụng các công cụ phân tích cũng gặp những khó khăn vượt ngoài phạm vi mục tiêu của nghiên cứu chính.

 

Các tác giả của bài báo tin rằng Galaxy (galaxyproject.org) là một giải pháp hiệu quả nhằm đơn giản hóa việc thu thập và xử lý dữ liệu trên một ứng dụng web trực quan, cho phép truy cập và sử dụng những công cụ tin học cơ bản trước đây chỉ có thể được sử dụng trên môi trường Unix bởi những chuyên gia toán tin. Bài báo sẽ trình bày một chuỗi các quy trình có liên quan đến nghiên cứu y sinh để thấy được phương pháp Galaxy kết hợp các yếu tố như 1) retrieve dữ liệu từ các nguồn đã hoặc chưa được công bố rộng rãi, ví dụ, UCSC’s Eukaryote and Microbial Genome Browsers (genome.ucsc.edu), 2) các công cụ tích hợp sẵn có thể được tùy chỉnh (các gói chức năng của Unix, các bộ chuẩn hóa hoặc chuyển đổi định dạng, quy trình hoạt động theo đoạn) và các công cụ phân tích ngoài, ví dụ, Bowtie/Tuxedo Suite (bowtie-bio.sourceforge.net), Lastz (www.bx.psu.edu/~rsharris/lastz/), SAMTools (samtools.sourceforge.net), FASTX-toolkit (hannonlab.cshl.edu/fastx_toolkit), MACS (liulab.dfci.harvard.edu/MACS), và đưa ra các kết quả được định dạng để hiển thị bằng công cụ tin học như Galaxy Track Browser (GTB, galaxyproject.org/wiki/Learn/Visualization), UCSC Genome Browser (genome.ucsc.edu), Ensembl (www.ensembl.org), và GeneTrack (genetrack.bx.psu.edu).

Galaxy đã nhanh chóng trở thành lựa chọn phổ biến để tích hợp các phân tích cũng như hợp tác nghiên cứu dữ liệu giải trình tự thế hệ mới, ở đây người dụng có thể thực hiện, ghi chép và chia sẻ những phân tích phức tạp chỉ trên một giao diện duy nhất bằng nhiều cách.

Full articlehttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC3418382/

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *