Giới thiệu Biopython – Ngôn ngữ của Tin Sinh học

1 Biopython là gì?

Dự án Biopython là 1 tổ chức quốc tế của những lập trình viên sử dụng công cụ Python (http://www.python.org) trong lĩnh vực sinh học phân tử. Python là một ngôn ngữ lập trình hướng đối tượng, thông dịch, và linh hoạt nên đã trở nên phổ biến trong tính toán (computing) khoa học. Python dễ học, có cú pháp rõ ràng và có thể dễ dàng mở rộng với các module được viết bằng C, C++, hay FORTRAN.

Website Biopython (biopython.org) có các tài nguyên online về các module, script, và web link cho các lập trình viên Python để sử dụng trong tin sinh học và nghiên cứu. Về cơ bản, mục tiêu của Biopython là làm cho việc sử dụng Python trong tin sinh học trở nên dễ dàng nhất có thể bằng cách tạo ra các module và lớp có thể tái sử dụng và có chất lượng cao. Biopython có các bộ chuyển đổi giữa các định dạng file dùng trong tin sinh học (BLAST, Clustalw, FASTA, Genbank,…), có kết nối với các service trực tuyến (NCBI, Expasy,…), giao diện với các phần mềm phổ biến cũng như hiếm dùng (Clustal, DSSP, MSMS,…), a standard sequence class, various clustering modules, a KD tree data structure,.v.v. và tài liệu.

Về mặt cơ bản, chúng ta sẽ muốn lập trình bằng Python và làm nó trở nên dễ dàng nhất có thể để sử dụng Python trong tin sinh học bằng cách tạo ra các module và script có thể tái sử dụng và có chất lượng cao.

2 Tôi có gì trong một gói Biopython?

Phiên bản Biopython chính có rất nhiều chức năng, bao gồm:

– Khả năng chuyển đổi các file trong tin sinh học thành cấu trúc dữ liệu sử dụng trong Python, hỗ trợ các định dạng sau đây:

+ Đầu ra của Blast – cả bản Blast độc lập lẫn bản web

+ Clustalw

+ FASTA

+ GenBank

+ PubMed và Medline

+ ExPASy file, chẳng hạn như Enzyme và Prosite

+ SCOP, bao gồm file ‘dom’ và ‘lin’

+ UniGene

+ SwissProt

– Những file thuộc định dạng được hỗ trợ có thể được lặp lại trong các bản ghi, hoặc sẽ được đánh chỉ số và được truy cập qua một giao diện Tra cứu (Dictionary)

– Mã để xử lý với những trạm xử lý tin sinh học online phổ biến như:

+ NCBI – Blast, Entrez và PubMed services

+ ExPASy – các giá trị Swiss-Prot và Prosite cũng như tìm kiếm từ Prosite

– Giao diện với các chương trình tin sinh học thông dụng như:

+ Bản Blast độc lập của NCBI

+ Chương trình alignment Clustalw

+ Công cụ dòng lệnh EMBOSS

– Một lớp chuẩn cho việc giải trình tự để xử lý các công việc liên quan đến giải trình tự, đánh id trên trình tự, và các đặc điểm của trình tự

– Các công cụ để thực hiện các thao tác trên trình tự như translation (dịch mã), trancription (phiên mã) và weight calculations (tính kích thước)

– Mã phân loại dữ liệu sử dụng K-Nearest Neighbors, Naives Bayes hay Support Vector Machines.

– Mã để alignment (gióng hàng), gồm 1 cách chuẩn để tạo và xử lý các ma trận thay thế.

– Mã để có thể dễ dàng chia các công việc có thể thực song song thành các luồng xử lý riêng biệt.

– Chương trình có giao diện để làm các thao tác xử lý trình tự cơ bản, dịch mã, BLASTing, v..v..

– Tài liệu mở rộng và hướng dẫn sử dụng các module, bao gồm tài liệu wiki trực tuyến, website và danh sách mail.

– Tích hợp với BioSQL, một cơ sở dữ liệu trình tự cũng đc hỗ trợ bởi dự án BioPerl và BioJava.

Hy vọng những điều này sẽ cho bạn nhiều lý do để tải về và bắt đầu sử dụng Biopython.

Nguồn: Biopython.org

(còn tiếp)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *