AlphaFold: Bước Đột Phá trong Dự Đoán Cấu Trúc Protein

AlphaFold: Bước Đột Phá trong Dự Đoán Cấu Trúc Protein

Protein là những phân tử có cấu trúc phức tạp trong mọi sinh vật sống, đóng vai trò thiết yếu trong hầu hết các quá trình sinh học. Hiểu được cấu trúc ba chiều (3D) của protein là chìa khóa để nắm bắt chức năng của chúng. Tuy nhiên, việc xác định cấu trúc protein bằng các phương pháp thực nghiệm như tinh thể học tia X, kính hiển vi điện tử đông lạnh (cryo-EM) hay cộng hưởng từ hạt nhân (NMR) đòi hỏi nhiều thời gian nỗ lực “gian khổ” cho một protein duy nhất.
Trong khi đó, số lượng trình tự protein đã biết đã lên tới hàng tỷ. Khoảng cách lớn giữa số lượng trình tự đã biết và số lượng cấu trúc đã được xác định thực nghiệm tạo ra một nan đề lớn trong sinh học cấu trúc và tin sinh học. Để giải quyết vấn đề này, các phương pháp tính toán chính xác là vô cùng cần thiết. Dự đoán cấu trúc 3D của một protein chỉ dựa vào trình tự axit amin của nó – một phần của “bài toán gấp protein” – là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm qua. Mặc dù đã có những tiến bộ đáng kể trong những năm gần đây, các phương pháp hiện có vẫn còn thiếu độ chính xác, đặc biệt là khi không có cấu trúc tương đồng gần gũi nào được biết đến.

Lịch Sử và Thách Thức của Bài Toán Dự Đoán Cấu Trúc

Việc phát triển các phương pháp tính toán để dự đoán cấu trúc protein 3D từ trình tự đã đi theo hai con đường bổ sung cho nhau. Con đường thứ nhất tập trung vào tương tác vật lý, tích hợp lực đẩy phân tử vào mô phỏng nhiệt động học hoặc động học của vật lý protein, hoặc các thống kê xấp xỉ. Cách tiếp cận này, mặc dù hấp dẫn về mặt lý thuyết, đã chứng minh là cực kỳ khó khăn ngay cả đối với các protein có kích thước trung bình do việc tính toán không khả thi của mô phỏng phân tử, tính ổn định của protein. Do đó, việc tạo ra các mô hình vật lý protein đủ chính xác dùng cho mô phỏng cấu trúc 3D vẫn còn thiếu độ chính xác cần thiết. Con đường thứ hai là tiếp cận tiến hóa, trong đó các ràng buộc về cấu trúc protein được suy ra từ phân tích tin sinh học về lịch sử tiến hóa của protein, sự tương đồng với các cấu trúc đã biết và các tương quan tiến hóa theo cặp. Cách tiếp cận này đã được hưởng lợi lớn từ sự tăng trưởng ổn định của các cấu trúc protein thực nghiệm trên Protein Data Bank (PDB), sự bùng nổ của các công nghệ giải trình tự gene và sự phát triển nhanh chóng của các kỹ thuật deep learning để diễn giải các tương quan này. Tuy nhiên, các phương pháp dựa trên vật lý và lịch sử tiến hóa đương đại vẫn tạo ra các dự đoán kém xa độ chính xác thực nghiệm trong phần lớn các trường hợp không có cấu trúc tương đồng gần gũi, điều này hạn chế tính hữu ích của chúng cho nhiều ứng dụng sinh học.

AlphaFold: Một Cách Tiếp Cận Mới Mạnh Mẽ

Trong bối cảnh đó, mạng lưới thần kinh mang tên AlphaFold đã được phát triển và tham gia vào kỳ đánh giá Critical Assessment of protein Structure Prediction (CASP) lần thứ 14 (CASP14) vào tháng 5-7 năm 2020. Đây được  coi là tiêu chuẩn vàng để đánh giá độ chính xác của dự đoán cấu trúc protein tham gia. Trong CASP14, các cấu trúc được AlphaFold dự đoán có độ chính xác vượt trội so với các phương pháp cạnh tranhThành công vượt trội này được củng cố bởi một cách tiếp cận học máy mới lạ, kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng dóng hàng đa trình tự (multiple-sequence alignments – MSAs) vào thiết kế của thuật toán deep learning. Phương pháp này kết hợp cả cách tiếp cận tin sinh học và vật lý, sử dụng một thiên kiến quy nạp vật lý và hình học (physical and geometric inductive bias) để xây dựng các thành phần học hỏi từ dữ liệu PDB với sự áp đặt tối thiểu các đặc trưng thủ công (ví dụ, AlphaFold tự động xây dựng liên kết hydro hiệu quả mà không cần hàm điểm liên kết hydro).

Kiến Trúc Mạng Lưới Thần Kinh của AlphaFold

Mạng lưới AlphaFold trực tiếp dự đoán tọa độ 3D của tất cả các nguyên tử nặng cho một protein nhất định, sử dụng trình tự axit amin chính và trình tự của các protein tương đồng được căn chỉnh làm đầu vào. Mạng lưới bao gồm hai giai đoạn chính:
1. Phần Trunk (Evoformer): Đây là phần chính của mạng lưới, xử lý đầu vào thông qua các lớp lặp đi lặp lại của một khối mạng lưới thần kinh mới được gọi là Evoformer. Evoformer tạo ra một biểu diễn MSA đã được xử lý và một biểu diễn theo cặp đại diện cho các cặp residue. Evoformer xem việc dự đoán cấu trúc protein như một bài toán suy luận đồ thị trong không gian 3D. Các phần tử của biểu diễn cặp mã hóa thông tin về mối quan hệ giữa các residue. Các cột của biểu diễn MSA mã hóa các residue riêng lẻ của trình tự đầu vào, trong khi các hàng đại diện cho các trình tự mà các residue đó xuất hiện. Các cải tiến chính trong khối Evoformer bao gồm các cơ chế mới để trao đổi thông tin trong biểu diễn MSA và cặp, cho phép suy luận trực tiếp về các mối quan hệ không gian và tiến hóa.
2. Module Cấu Trúc (Structure Module): Giai đoạn này tiếp theo phần trunk và giới thiệu một cấu trúc 3D cụ thể dưới dạng phép quay và tịnh tiến cho mỗi residue của protein. Ban đầu, các biểu diễn này được khởi tạo ở trạng thái đơn giản (tất cả phép quay là đơn vị, tất cả vị trí tại gốc tọa độ), nhưng chúng nhanh chóng phát triển và tinh chỉnh thành một cấu trúc protein có độ chính xác cao với các chi tiết nguyên tử chính xác. 

Các Yếu Tố Ảnh Hưởng Đến Độ Chính Xác

AlphaFold được huấn luyện trên dữ liệu PDB (có nhãn), nhưng độ chính xác còn được nâng cao hơn nữa bằng cách sử dụng phương pháp tương tự như tự chưng cất (self-distillation). Trong quy trình này, một mạng lưới đã được đào tạo được sử dụng để dự đoán cấu trúc của khoảng 350.000 trình tự đa dạng, tạo ra một tập dữ liệu mới gồm các cấu trúc được dự đoán và lọc ra những cấu trúc có độ tin cậy cao. Sau đó, cùng một kiến trúc được huấn luyện lại từ đầu, sử dụng hỗn hợp dữ liệu PDB và tập dữ liệu cấu trúc được dự đoán này làm dữ liệu huấn luyện. Quy trình tự chưng cất này sử dụng hiệu quả dữ liệu trình tự không có nhãn và cải thiện đáng kể độ chính xác của việc dự đoán. Ngoài ra, mạng lưới còn sử dụng một mục tiêu huấn luyện kiểu BERT (Bidirectional Encoder Representations from Transformers), trong đó các residue riêng lẻ trong MSA đầu vào được che đi hoặc đột biến ngẫu nhiên, và mạng lưới phải tái tạo lại các yếu tố bị che đi từ biểu diễn MSA đầu ra. Mục tiêu này khuyến khích mạng lưới học cách diễn giải các mối quan hệ phát sinh loài và đồng biến mà không cần mã hóa cứng một thống kê tương quan cụ thể nào vào các đặc trưng. Các nguồn dữ liệu được sử dụng để tìm kiếm MSA và khuôn mẫu bao gồm PDB, UniRef90, Big Fantastic Database (BFD), Uniclust30, và MGnify. Việc có các cơ sở dữ liệu metagenomics như BFD và MGnify rất quan trọng để đạt được độ chính xác đầy đủ, đặc biệt đối với các lớp mục tiêu ít được đại diện trong UniRef. AlphaFold có độ chính xác cao trên phần lớn các cấu trúc PDB đã được gửi. Tuy nhiên, vẫn có những yếu tố ảnh hưởng đến độ chính xác hoặc giới hạn khả năng áp dụng của mô hình như: độ sâu trung vị của MSA hay số lượng liên kết,… 

Kết luận

AlphaFold đã chứng minh tính hữu ích của nó đối với cộng đồng thực nghiệm, cả trong việc thay thế phân tử (molecular replacement) và diễn giải các bản đồ kính hiển vi điện tử đông lạnh (cryo-EM). Hơn nữa, vì AlphaFold xuất ra trực tiếp tọa độ protein, các dự đoán được tạo ra chỉ trong vài phút đến vài giờ sử dụng GPU tùy thuộc vào độ dài trình tự protein. Ví dụ, khoảng một phút GPU cho một mô hình 384 residue. Điều này mở ra khả năng thú vị là dự đoán cấu trúc ở quy mô proteome (toàn bộ tập hợp protein của một sinh vật) và hơn thế nữa. 

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM:  Học máy trong chọn tạo giống cây trồng
ĐỌC THÊM:  Ứng dụng các phương pháp học máy dựa vào pan-genome dùng để phân tích các hoạt động kháng kháng sinh của chủng Escherichia coli

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *