Tổng quan về Tin sinh học | LOBI - a bioinformatic company

Trong bài viết này, LOBI Việt Nam xin được đưa ra cái nhìn tổng quan về tin sinh học như là một một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học.

MỤC LỤC BÀI VIẾT

Tổng quan về tin sinh học trên thế giới

Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học.

Tổng quan về Tin sinh học

Tin sinh học và sinh học tính toán: Những nghiên cứu trong ngành tin sinh học (bioinformatics) thường trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ thống (system biology). Những lĩnh vực nghiên cứu chính của nó bao gồm:

Bắt cặp trình tự (sequence alignment)
Bắt cặp cấu trúc protein (protein structural alignment)
Dự đoán cấu trúc protein (protein structural prediction)
Dự đoán biểu hiện gen (gene expression)
Tương tác protein-protein (protein-protein interaction)
Mô hình hoá quá trình tiến hoá.

Thuật ngữ tin sinh học và sinh học tính toán thường được dùng hoán đổi cho nhau, nhưng nói một cách nghiêm túc thì cái trước là tập con của cái sau. Mối quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu nhận được bằng các kỹ thuật sinh học với lưu lượng và mức độ lớn.

Như vậy, về phương diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng lắp với sinh học tính toán. Bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự ADN chất lượng cao từ những đoạn ngắn ADN được thu nhận từ kỹ thuật xác định ADN và việc dự đoán quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN, microarray hay khối phổ (mass-spectrometry).

Các lĩnh vực nghiên cứu của tin sinh học gồm:

Hệ gen học phân tích trình tự
Tìm kiếm gen
Tìm kiếm các đột biến
Phân loại học phân tử
Bảo tồn đa dạng sinh học
Phân tích chức năng gen hay biểu hiện nhận diện chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu mẫu
Phân tích hình ảnh mức độ cao
Công cụ phần mềm.

Phân tích trình tự của axit nucleic và axit amin trong protein

Vào năm 1977, lần đầu tiên Sanger và cộng sự đã xác định được trình tự ADN của virut jx-174 và từ đó đến nay, trình tự ADN của rất nhiều loài sinh vật đã được phân tích và lưu giữ trong các ngân hàng cơ sở dữ liệu gene. Những trình tự này được phân tích để tìm ra những gen cấu trúc, gen mã hoá cho một phân tử protein nào đó, cũng như tìm ra quy luật của những trình tự tương đồng của các protein.

Việc so sánh các gen cùng một loài hay giữa các loài với nhau có thể cho thấy sự tương đồng về chức năng của các protein hay mối quan hệ phát sinh chủng loài giữa các loài này thể hiện trên cây phát sinh chủng loài (phylogenetic tree). Với sự tăng trưởng khổng lồ của dữ liệu này, việc phân tích trình tự ADN một cách thủ công không thể thực hiện nổi. Và bởi thế, ngày nay các chương trình máy tính được sử dụng để giúp tìm các trình tự tương đồng trong bản đồ gen (genome) của hàng loạt sinh vật dù số lượng nucleotide trong trình tự có đến hàng tỷ. Và cũng từ các chương trình này mà có thể tìm kiếm những trình tự ADN không giống nhau hoàn toàn do các đột biến nucleotide.

Những giải thuật bắt cặp trình tự (sequence aligenment) cũng được áp dụng ngay cả trong quá trình xác định ADN (DNA sequencing) là kỹ thuật xác định trình tự nhỏ (shotgun sequencing). Bởi kỹ thuật xác định trình tự hiện nay không thể tiến hành trên cả một phân tử ADN lớn, nên xác định trình tự nhỏ có kích thước khoảng 600-800 nucleotide là hợp lý. Kỹ thuật này đã được công ty Celera Genomics áp dụng khi xác định gen của vi khuẩn Heamophilus influenza. Sau đó, những đoạn trình tự nhỏ này được sắp xếp thứ tự và nối lại qua việc bắt cặp trình tự của những đầu gối lên nhau (overlap) tạo nên một trình tự genome hoàn chỉnh. Nhờ kỹ thuật xác định chuỗi trình tự nhỏ đã tạo ra chuỗi dữ liệu một cách nhanh chóng nhưng việc sắp xếp các chuỗi trình tự ADN nhỏ là khá phức tạp, cho nên khi phân tích bản đồ gen người (Human genome) các nhà tin sinh học với các siêu máy tính (máy DEC Alpha ra đời năm 2000) phải làm việc hàng tháng mới có thể xếp đúng trình tự những đoạn ADN ngắn lại với nhau.

Hiện nay, kỹ thuật xác định trình tự nhỏ đang được ưu tiên để giải mã genome và giải thuật lắp ráp genome (genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học. Việc tìm kiếm tự động các gen và những trình tự điều khiển bên trong một gen cũng là một khía cạnh khác của tin sinh học. Như ta đã biết, không phải là tất cả nucleotides bên trong một genome đều là gen. Phần lớn các ADN trong genome của các sinh vật bậc cao là các đoạn ADN không phục vụ cho một nhiệm vụ cụ thể nào đó là những đoạn intron. Tin sinh học còn giúp kết nối giữa genomics và protenimics như việc sử dụng trình tự ADN để từ đó nhận dạng protein..

Bản đồ gen và đánh dấu gen

Từ năm 1957, Wallman và Jacob lần đầu tiên sử dụng kỹ thuật giao nạp (tiếp hợp-conjugation) ngẫu nhiên xây dựng được bản đồ gen giao nạp của vi khuẩn Escherichia coli. Với sự phát triển của khoa học công nghệ nay đã có nhiều phương pháp được sử dụng trong nghiên cứu bộ gen, bản đồ di truyền của các loài sinh vật như bản đồ lai phóng xạ, bản đồ lai tại chỗ huỳnh quang, bản đồ tạo dòng định vị (positional cloning)… được xây dựng.

Bản đồ trình tự gen (sequence map) là loại bản đồ có độ chính xác cao được sử dụng rộng rãi hiện nay và có thể xác định chính xác vị trí từng nucleotid trong bộ gen, góp phần xác định nguồn gốc phân loại, sự tiến hoá của các quần thể hoặc các loài sinh vật, đồng thời giúp con người xác định được những gen liên quan đến các tính trạng quý hiếm ở vật nuôi cây trồng, hoặc các gen đột biến, gen bị sai lệch do rối loạn di truyền ở người. Việc giải trình tự bộ gen người (2003), bộ gen cây lúa (2005) đánh dấu một bước tiến vĩ đại trong công nghệ sinh học phân tử. Nghiên cứu bộ gen người giúp các nhà khoa học có cơ sở nghiên cứu về sự tiến hoá của loài người, xác định nguyên nhân một số bệnh di truyền, bệnh truyền nhiễm, từ đó có cơ sở để phát triển các loại thuốc mới, các liệu pháp chữa trị hiệu quả. Tuỳ theo mục đích nghiên cứu mà người ta đã xây dựng và sử dụng các bản đồ gen như:

Bản đồ di truyền liên kết (genetic linkage),
Bản đồ di truyền tế bào (cytogenetic map),
Bản đồ lai phóng xạ (radianation hybrides map),
Bản đồ di truyền giới hạn (restriction map),
Bản đồ trình tự gen (sequence map)…

từ đó đánh dấu các gen và các đặc tính sinh học (biological features) khác trong một chuỗi ADN. Hệ thống phần mềm làm nhiệm vụ đánh dấu gen (genome annotation) đầu tiên đã được thiết kế vào năm 1995 bởi Owen White và đây là nhóm đầu tiên phân tích giải mã bản đồ gen của vi khuẩn Hemophilus influenza. Từ chỗ xây dựng phần mềm này đã tìm ra gen giải mã protein, ARN vận chuyển (transfer RNA) cùng các chức năng khác. Hầu hết các hệ thống genome annotation hiện nay đều hoạt động tương tự nhưng các chương trình nhằm để phân tích bản đồ gen ADN thường xuyên có thay đổi và cải tiến. Chẳng hạn như hệ thống Ensembl là hệ thống genome annotation pipeline cho bản đồ gen người đã được phát triển bởi Ewan Birney tại Viện Sanger (the Sanger Institute) gần Cambridge, Anh.

Dò tìm đột biến

Những nghiên cứu hiện nay về xác định trình tự ADN, kỹ thuật nhân bản gen (polymerase chain reaction-PCR) nhằm tìm ra các đột biến, chủ yếu là các đột biến điểm (point mutation) xẩy ra trên các gen khác nhau trong ung thư. Kỹ thuật PCR là một trong những kỹ thuật được sử dụng để phát hiện nhanh các gen đặc hiệu, gen kháng nguyên của nhiều loại virus gây ung thư. Sử dụng kỹ thuật gen trong chẩn đoán sớm ung thư đã được ứng dụng nhiều tại các bệnh viện ở Mỹ, Anh, Đức, Thái, Nhật , Đài Loan…

Các bệnh ung thư vòm họng, ung thư gan, ung thư dạ dày do virus đã được chẩn đoán nhanh, chẩn đoán sớm bằng kỹ thuật PCR hoặc kỹ thuật lai phân tử đánh dấu huỳnh quang. Theo Saito và cộng sự (1989) ung thư vòm họng phần lớn do virus Eptein-Barr (EBV) gây nên có thể chẩn đoán chính xác trên 90%. Đây là virus thuộc họ Herpes, có ADN kép (dsDNA) bộ gen có khoảng 184kb. Ở đây, tập dữ liệu sơ khởi được tạo ra đòi hỏi các hệ thống tự động đọc từ đó so sánh các trình tự đã biết trên genome người, bao gồm cả những điểm đa hình trên tế bào dòng tính (germline) đã biết, hoặc sử dụng hệ thống để phát hiện điểm đa hình đơn nucleotide (single nucleotide microarray) hoặc khảo sát tính dị biệt so sánh genome cho phép nghiên cứu hàng trăm ngàn vị trí trên bản đồ gen đang dược sử dụng để xác định những đột biến nhiễm sắc thể liên quan tới ung thư. Và, mô hình chuỗi Markov ẩn (Hidden Markov Model), phương pháp phân tích điểm thay đổi đang được phát triển để có thể suy ra số lượng thực cuả những thay đổi từ các dữ liệu hỗn độn (noisy data).

Các phương pháp tiếp cận thông tin đang được phát triển để có thể phát hiện những thương tổn ADN đã trùng hợp xẩy ra trên nhiều dạng ung thư để từ đó tìm ra giải pháp xử lý. Thật đáng kinh ngạc hơn khi gần đây trên tờ Nature (13/9/2001) cho biết các nhà nghiên cứu của đại học California (Beckley) đã phát hiện ra 2 họ protein H60 và Rael có đặc tính kích thích thụ thể NKG 2D1 của tế bào diệt u NK (natural killer), qua đó kích thích tế bào NK tiêu diệt nhiều dòng ung thư, đồng thời sản xuất ra g-interferon vốn đảm đương nhiệm vụ hoạt hoá các tế bào của hệ miễn dịch. Họ cũng đã xác định ra gen mã hoá protein đó và thực nghiệm trên chuột đã loại bỏ được nhiều dòng tế bào ung thư khác. Gen này đang được nghiên cứu sử dụng trong sản xuất vacxin chống một số loại ung thư.

GS Allison tại Đại học California và Viện Y khoa Howard Hughes (Mỹ, 2001) đã tìm ra gen SPAS-1 có tác dụng kích thích tế bào T đặc hiệu của adenocarcinom, từ đó nghiên cứu dùng gen này trong sản xuất vacxin phòng ung thư tuyến tiền liệt. Nhờ dò tìm các đột biến, phát hiện các gen mà các các công ty công nghệ sinh học hàng đầu thế giới như Millenium Pharmaceutical, tập đoàn Roche, Eli Lilly, Bayer AG đã được cấp bằng độc quyền sử dụng hàng trăm gen liên quan đến bệnh lý để phát triển các loại dược phẩm phân tử và sinh học phòng ngừa bệnh tật.

Phân loại học phân tử

Biology-Cells Sự tiến hoá của các loài sinh vật trong tự nhiên là kết quả của quá trình biến đổi cấu trúc di truyền trong một thời gian lịch sử lâu dài ở những điều kiện nhất định. Nghiên cứu sự thay đổi cấu trúc ADN trình tự sắp xếp các nucleotid trong bộ gen hoặc sự thay đổi trình tự các axit amin trong protein của các quần thể, các loài cho thấy sự tiến hoá của chúng. Phân tích dữ liệu gen, bộ gen và xây dựng cây phân loại không chỉ cho thấy chiều hướng tiến hoá của các loài trong sinh giới mà còn chỉ rõ mức độ quan hệ trong loài và sự tiến hoá trong nội bộ loài. Bởi thế, việc xây dựng cây phân loại phân tử có vị trí hết sức quan trọng. Cây phân loại (phylogeny, dendregram) được nghiên cứu có hệ thống và khoa học từ những năm đầu thế kỷ 20. Năm 1909, từ các số liệu phân tích tần số các allen trong locus hemoglobin, Reichert và Brown đã xây dựng cây phân loại đầu tiên của một số loài cá. Hiện nay sự phát triển trong lĩnh vực xác định trình tự gen, trình tự axit amin và sự phổ biến các máy tính tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài dựa trên sự thay đổi trong trình tự ADN. Và tiến hoá học máy tính (computational evolutionary- CE) ra đời trước kỷ nguyên gen học, nghiên cứu, xây dựng các mô hình tính toán quần thể và sự biến thiên của chúng theo thời gian. Tiếp cận vấn đề theo chiều hướng ngược lại với CE, thay vì sử dụng các chương trình máy tính để điều tra quá trình tiến hoá, lĩnh vực giải thuật di truyền (genetic algorithm) tìm cách tối ưu hoá những chương trình này thông qua các nguyên lý tiến hoá (evolutionary principles). Mặt khác cây phân loại còn góp phần giúp các nhà khoa học thực hiện các phép lai có hiệu quả kinh tế cao, chẩn đoán ưu thế lai sớm hoặc tìm kiếm nguồn gốc phát sinh của các loài sinh vật.

ĐỌC THÊM: Lắp ráp Contig (contig assembly)

Bảo tồn đa dạng sinh học

Tin sinh học thường được áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity). Thông tin quan trọng nhất được thu thập chính là tên, các đặc điểm hình thái, sinh lý, sinh hoá, di truyền, sự phân bố, tập tính… được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin một cách tự động. Các chuỗi ADN của các loài có nguy cơ tuyệt chủng có thể được bảo quản. Xác định các trình tự ADN ở các loài động vật, thực vật, vi sinh vật… là căn cứ để từ đó xác định hệ số di truyền của các loài.

Trên cơ sở lý thuyết ma trận (matrix), tính toán xây dựng cây phân loại, tìm ra quan hệ giữa các loài, giữa các thế hệ trong loài. Với sự phát triển của công nghệ phần mềm trong tin sinh học, hiện nay đã có những phần mềm cho phép phân loại các loài sinh vật và xác định cây phân loại. Nhờ đó có thể biết được quan hệ họ hàng cũng như các “hậu duệ” của chúng. Trong một quãng thời gian dài của quá trình phát triển, để chống lại nghèo đói, con người đã tác động quá nhiều các biện pháp kỹ thuật vào cây trồng, vật nuôi nhằm tăng năng suất, bởi thế không tránh được hậu quả bất lợi là làm thay đổi tính di truyền của chúng, đặc biệt là làm mất đi những đặc tính quý giá của tổ tiên hoang dại như phẩm chất, tính chống chịu với các điều kiện khắc nghiệt của môi trường sống, tính chống chịu với các loại sâu bệnh v.v… dẫn đến hiện tượng xói mòn di truyền, sự mất đi tính đa dạng di truyền của những cây được trồng trên diện tích lớn (Albert Sasson, 1993).

Ví dụ như ở Hy Lạp năm 1983 đã bỏ đi 95% các giống lúa mì địa phương, ở Tây Ban Nha từ năm 1970 đến năm 1973 mất đi 70% giống dưa địa phương, ở Pháp, nước có 2000 giống táo nhưng năm 1970 chỉ còn chục giống, ở Mỹ nước xuất khẩu ngô vào loại nhiều nhất thế giới nhưng năm 1970 hơn một nửa diện tích ngô bị bệnh tiêm lửa (Helminthos porium maydis) nòi Texas tàn phá thiệt hại hàng tỷ đô la. Trước đó gần một thế kỷ ở Ailen nạn đói đã giết chết 500.000 người, 2 triệu người phải di cư sang Mỹ do trồng giống khoai tây mẫn cảm với mốc sương (Phytophtora infectans). Giống này vốn có nguồn gốc từ giống khoai tây dại ở Mehico (Solanum demissum) và có khả năng chống chịu rất cao với bệnh đó (Albert Sasson, 1993). Cho nên bảo vệ đa dạng sinh vật chính là bảo vệ cho mình và đó là ý thức, trách nhiệm của mọi người không riêng gì các nhà chuyên môn nông-lâm-ngư nghiệp.

Mặt khác, bảo vệ đa dạng sinh học tốt và có hiệu quả thì không chỉ bảo vệ đa dạng di truyền (genetic diversitry) đối với các vật nuôi cây trồng mà còn phải chú ý đến bảo vệ đa dạng loài, đa dạng riêng biệt (specific diversity) đối với các sinh vật hoang dại. Trong lĩnh vực này tin sinh học sẽ góp phần giải các “hộp đen” để tìm ra mối quan hệ họ hàng thân thiết của chúng, tìm ra những gen quý hiếm của tổ tiên chúng nhằm “phục tráng” các vật nuôi, cây trồng đang hàng ngày nuôi sống chúng ta nhưng lại có nguy cơ bị xói mòn di truyền.

Phân tích biểu hiện gen

molecularmachine Những nghiên cứu của sinh học phân tử (molecular biology) có thể đánh giá mức độ biểu hiện gen (gene expression) thông qua việc xác định ARN thông tin (mARN) được tạo ra từ gen đó thông qua các kỹ thuật như microarray, EST (expressed sequence tag), SAGE (serial analisis of gene expression), MPSS (massively parallel signature sequencing) hay khối phổ (mass-spectrometry). Tất cả những kỹ thuật trên tạo ra những dữ liệu chứa thông tin nhiễu (noise-prone) làm việc tính toán, phân tích trở nên phức tạp. Yêu cầu thực tế đó đã cho ra đời một lĩnh vực mới trong sinh học tính toán là phát triển các công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gen đa lượng. Các nghiên cứu này dùng để xác định các gen liên quan đến một bệnh lý nhất định. Người ta có thể so sánh dữ liệu microarray từ những tế bào bị ung thư với tế bào bình thường để xác định những protein nào được tăng cường hay giảm thiểu do ung thư. Dữ liệu biểu hiện gen cũng được dùng để nghiên cứu điều hoà gen.

Người ta có thể so sánh dữ liệu microarray của một sinh vật ở những trạng thái sinh lý khác nhau từ đó kết luận về vai trò của từng gen tham gia vào mỗi trạng thái. Để xác định các nhóm gen cùng biểu hiện, hay đơn vị điều hoà (regulon) và áp dụng giải thuật phân nhóm (clustering algorithms)… Nhờ đó có thể so sánh các giai đoạn khác nhau của chu kỳ tế bào (cell cycle) hay phản ứng của cơ thể ở những điều kiện stress (stress sốc nhiệt, đói dinh dưỡng…) ở sinh vật đơn bào. Những phân tích tiếp theo có thể triển khai theo nhiều hướng. Ví dụ phân tích promotor của những nhóm gen để xác định nhân tố điều hoà chung hoặc sử dụng các công cụ máy tính để dự đoán các promotor liên quan đến cơ chế điều hoà từng nhóm gen.

Nhận diện trình tự axit amin trong chuỗi polypeptide cũng là một giải pháp quan trọng để từ đó có thể suy ra cấu trúc của gen tương ứng. Ngày nay protein microarray và hệ thống khối phổ cao năng (high throughput mass spectrometry) có thể cung cấp hình ảnh tổng thể của các protein hiện có trong mẫu sinh học (biological sample). Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu được từ những hệ thống này. Đối với protein microarray, các nhà tin sinh học cần chuyển kiểm tra dữ liệu mRNA gắn trên array, trong khi đó những vấn đề tin sinh học liên quan đến việc so trùng (matching) dữ liệu khối phổ với cơ sở dữ liệu về trình tự axit amin trong polypeptid, hay trong protein. Chẳng hạn virus lở mồm long móng (Foot Mouth Disease Virus- FMDV) nhờ nhận diện trình tự các axit amin ở “điểm quyết định kháng nguyên” trên protein vỏ VP1. Trên cơ sở đó công nghệ sinh học hiện đại đã tạo ra được vacxin phân tử để sử dụng.

Dự đoán cấu trúc protein

Cấu trúc của protein có liên quan mật thiết với chức năng của nó, chẳng hạn hemoglobin, Catalaza, Glutamatdehydrogenaza, ARN pilymeraza có cấu trúc bậc IV, Ribonucleaza có cấu trúc bậc III, điểm quyết định kháng nguyên trên protein VP1 ở virus lở mồm long móng có cấu trúc bậc I… nếu cấu trúc bị thay đổi thì hoạt tính của những protein này bị thay đổi hoặc mất hoạt tính. Cho nên dự đoán cấu trúc là một ứng dụng rất quan trọng của tin sinh học. Khi xác định trình tự các axit amin ta có Cấu trúc bậc I, là trình tự sắp xếp các axit amin trong protein hay polipeptide, từ cấu trúc đó, phân tử protein cuộn xoắn lại một phần tạo nên cấu trúc bậc II, từ cấu trúc bậc II lại cuộn xoắn trong không gian cho cấu trúc bậc III. Nếu như xem đây là một tiểu phần hay bán đơn vị thì những bán đơn vị này kết hợp lại với nhau tạo nên cấu trúc bậc IV (hình dưới).

Xác định cấu trúc là một việc làm rất khó khăn. Trước kia, khi các thiết bị còn nghèo, người ta đã phải mất nhiều năm mới xác định được cấu trúc bậc I của insulin để từ đó tổng hợp chất này điều trị cho những người bị tiểu đường, nhưng hiện nay nhờ có một số phương pháp dự đoán cấu trúc bằng máy tính đang phát triển mà các nhà khoa học đỡ vất vả hơn rất nhiều. Trong tin sinh học người ta cũng chú ý đến tính tương đồng khi dự đoán cấu trúc của gen. Chẳng hạn nếu biết trình tự và chức năng của gen X và trình tự đó tương đồng với gen Y thì có thể biết được chức năng của gen Y. Và, với kỹ thuật mô phỏng tính tương đồng (homology modelling) thông tin này được dùng để dự đoán cấu trúc của protein khi đã biết cấu trúc của một protein khác tương đồng với nó. Hiện nay, đây là cách dự đoán cấu trúc đáng tin cậy.

Phân tích hình ảnh mức độ cao

Để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử lý, định lượng và phân tích một lượng lớn các hình ảnh sinh học có chứa thông tin cao, các kỹ thuật tính toán cũng được sử dụng. Với các hệ thống xử lý hình ảnh hiện đại tăng cường khả năng quan sát, giúp cho việc tính toán một tập hợp lớn và phức tạp bằng cải tiến độ chính xác, khách quan.

Một hệ thống phân tích hoàn thiện hoàn toàn có thể giúp quan sát, trong khi những hệ thống này không chỉ duy nhất phục vụ cho các hình ảnh có liên quan đến sinh học, ứng dụng của chúng đối với các vấn đề sinh học đang nghiên cứu. Chẳng hạn đã có những ứng dụng như: Định lượng với tốc độ cao và xác định vị trí các tế bào được sử dụng trong nghiên cứu bệnh lý học mô-tế bào. Hoặc dùng để phân tích các hình ảnh về quá trình phát triển của phôi nhằm theo dõi và dự đoán số phận của từng nhóm tế bào trong suốt quá trình phát triển hình thái. Hoặc định lượng mức độ lưu giữ trong các hình ảnh thời gian thực từ sự phát triển và hồi phục trong suốt thời gian tổn thương động mạch, hoặc đo đạc bằng tia hồng ngoại để xác định hoạt động trao đổi chất v.v…, tiếp tục tìm các giải pháp nhằm đưa nhiều ứng dụng xử lý ảnh về cùng một lĩnh vực tin sinh học.

Mạng điều khiển sinh học

Mạng điều khiển sinh học (biological regulatory network) là các mạng tương tác giữa gene, protein để điều khiển một quá trình sinh học nào đó trong tế bào, ví dụ như là quá trình trao đổi chất (metabolism), quá trình chu kỳ tế bào (cell cycle), nhịp sinh học (circadian rhytm), …

Các bài toán đặc trưng thường xây dựng mạng tương tác điều khiển một quá trình sinh học cụ thể với các gene và protein có vai trò trọng trong quá trình sinh học đó, lập mô hình toán học (có thể là nhị phân, hệ vi phân, hệ ngẫu nhiên, …) để phân tích các tính chất, quy luật của quá trình sinh học. Từ đó đưa ra các dự đoán liên quan đến các điểm bất thường như là bệnh, tật, đặc biệt là ung thư.

Tổng quan về Tin Sinh học ở Việt Nam

Tin sinh học là một lĩnh vực mới nhưng không xa lạ. Những năm qua ở Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích gen, xác định trình tự ADN của một số loài quan trọng để đánh giá về mặt di truyền, hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa dạng sinh học, xây dựng ngân hàng gen (gen bank).

Theo hướng đó, những năm gần đây trên bước đường nghiên cứu về tài nguyên sinh vật và đa dạng sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trường Đại học Vinh đã tiến hành nhân bản gen (polimerase chain reaction-PCR), giải trình tự ADN (DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn trong cố định nitơ không khí, có khả năng tổng hợp hữu cơ mạnh làm giàu dinh dưỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng đến sinh trưởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản gen và kỹ thuật phân tích tính đa hình của ADN được khuếch đại ngẫu nhiên (random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá trị như cam Xã Đoài, bưởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di truyền của chúng liên quan đến chất lượng quả, hoặc phân tích trình tự axit amin trên một số giống rắn thường sử dụng làm thuốc để từ cấu trúc của protein tìm hiểu về chức năng và vai trò sinh học của nó, hay phân tích trình tự ADN của một số loài cá mới phát hiện được tại Nghệ An…

Hiện nay kỹ thuật RAPD được xem là kỹ thuật phân loại phân tử và đang được sử dụng để xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật khác nhau trong loài. Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ) nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện được sự khác biệt di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và trung Á. Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần tích cực vào việc điều tra tài nguyên sinh vật, tìm kiếm những gen quý hiếm, nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mòn di truyền… mà lâu nay chưa có điều kiện để khám phá./.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: VGP - Vertebrate Genomes Projects