Các cơ sở dữ liệu sinh học

Hiện nay, cơ sở dữ liệu về tin sinh học được lưu trữ rất nhiều trên các ngân hàng cơ sở dữ liệu như: DDBJ(Ngân hàng csdl DNA của Nhật), GenBank (ngân hàng csdl sinh học của Mỹ), EMBL (csld dự đoán tương tác protein-protein), miRBASE (ngân hàng csdl về các microRNA), NCBI-UniGene, TRANSFAC, EBI,… , đây là những kho dữ liệu khổng lồ được cập nhật hàng ngày và miễn phí đối với tất cả mọi người trên thế giới.

Trong đó:

  • DDBJ (DNA Data Bank of Japan) ra đời năm 1986 tại Nhật Bản của National Institute of genetics (NIG) – viện nghiên cứu gene quốc gia Nhật Bản, là ngân hàng dữ liệu các chuỗi nucleotide duy nhất tại châu Á. DDBJ được chứng nhận chính thức thu thập các chuỗi nucleotide từ các nhà nghiên cứu và được phép phát hành các số truy cập được quốc tế công nhận cho người sử dụng dữ liệu. DDBJ là cơ sở dữ liệu quốc tế gồm các chuỗi nucleotide có kết hợp và trao đổi dữ liệu hàng ngày với EBI/EMBL, NCBI/genBank và trung tâm quốc gia thông tin công nghệ sinh học (National Center for Biotechnology Information). Các cơ sở dữ liệu đã chia sẻ hầu như thống nhất với nhau và được gọi là INSD – trình tự cơ sở dữ liệu quốc tế Nucleotide. Mục đích chính của DDBJ là cải thiện chất lượng INSD. Khi các dữ liệu được xem dưới dạng là nguồn mở và được chia sẻ trong thế giới rộng lớn, các nhà nghiên cứu tại DDBJ ngày càng nỗ lực để mô tả thông tin về các dữ liệu càng nhiều càng tốt, theo các quy tắc thống nhất của INSD.

  • Genbank (NCBI): là nguồn dữ liệu về cơ sở dữ liệu chuỗi gene học của NIH, là một bộ sưu tập chú thích của tất cả các trình tự DNA được công bố công khai (Nucleic Acids Research, 2011). Có khoảng 126.551.501.141 căn cứ ở 135.440.924 bản ghi của các chuỗi và 191.401.393.188 căn cứ ở 62.715.288 bản ghi của các chuỗi trong việc phân chia WGS vào tháng 4 năm 2011. Các thông tin được phát hành đầy đủ trên phiên bản hiện tại của genbank có sẵn trên trang web của NCBI. Hai tháng phát hành phiên bản mới một lần. genBank là một phần của tổ chức International Nucleotide Sequence Database Collaboration, là tổ chức đồng nghiên cứu của DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), và genBank tại NCBI.

  • EMBL: EMBL Nucleotide Sequence Database (EMBL-Bank) là nguồn cơ sở dữ liệu chính của châu Âu về trình tự Nucleotide. Nguồn dữ liệu chính cho DNA và RNA được công bố bởi các cá nhân là các nhà nghiên cứu, các dự án sắp dãy hệ gene và các ứng dụng phục vụ cho tin sinh học. Cơ sở dữ liệu được tạo ra trong sự hợp tác với genBank và DDBJ. Cơ sở dữ liệu trên ba ngân hàng này được trao đổi hàng ngày nhằm góp phần tăng thêm tổng số dữ liệu về chuỗi trình tự trên thế giới.

  • miRBase: miRBase là một cơ sở dữ liệu về sinh học lưu trữ các chú thích và các chuỗi microRNA công khai. Mỗi một thành phần trong cơ sở dữ liệu miRBase đại diện cho một phần hairpin dự đoán của một phiên mã miRNA (gọi là mir trong cơ sở dữ liệu), kèm theo các thông tin về vị trí và thứ tự của chuỗi miRNA trưởng thành (gọi là miR). Cả hai chuỗi hairpin và chuỗi trưởng thành Tháng 9 năm 2010, lượng thông tin mà cơ sở dữ liệu này chứa lên đến 15.172 microRNA.

Trả lời

Email của bạn sẽ không được hiển thị công khai.