Tốc độ chóng mặt của việc đánh mất dữ liệu trong khoa học

Trên những căn gác mái, trong thùng carton vương vãi trong garage hay những chiếc đĩa mềm đã không còn được sử dụng từ lâu – đây chỉ là một số trong những nơi các nhà nghiên cứu thừa nhận đã dùng để lưu trữ các dữ liệu cũ. Điều này có nghĩa là, nền khoa học của chúng ta đang đánh mất một lượng lớn dữ liệu, với một tốc độ nhanh chóng.

Nghiên cứu chỉ ra điều này đã được xuất bản trên tạp chí Current Biology. Các tác giả đã đi tìm lại dữ liệu của 516 công bố về sinh thái đã được xuất bản trong thời gian 20 năm từ 1991 đến 2011. Những công bố được chọn này đều liên quan đến việc tìm hiểu đặc điểm về kích thước và hình dáng của động thực vật. Bằng việc liên lạc trực tiếp với tác giả của các công bố này, họ đã phát hiện rằng, hầu như toàn bộ dữ liệu của những công bố mới trong vòng 2 năm trở lại đều có thể truy cập được, tuy nhiên cứ với mỗi năm trở về trước, tỉ lệ dữ liệu truy cập được giảm đi 17%, và cho đến công bố vào đầu những năm 1990, chỉ còn 20% dữ liệu còn sót lại.

“Hầu hết tác giả của những bài báo này đều trả lời ‘có thể nó ở chỗ này hay chỗ kia’, ví dụ như trên gác mái ở nhà bố mẹ họ, hay ở một ổ đĩa nén nào đó mà họ chưa thấy lại lần nào trong vòng 15 năm”, Timothy Vines, tác giả chính của bài nghiên cứu và cũng là một nhà sinh thái học tiến hóa ở University of British Columbia in Vancouver, nói. “Nói về lý thuyết, những dữ liệu này không mất đi, nhưng thời gian và công sức bỏ ra để tìm lại chúng lại là một điều không tưởng”.

Một thách thức nữa trong việc thu thập dữ liệu là làm thế nào để liên lạc được với các tác giả và nhận được phản hồi từ họ. Ở đây tỉ lệ thành công của nhóm nghiên cứu chỉ là 37%. Cứ mỗi năm trở về trước, khả năng tìm được địa chỉ email (thậm chí sau khi đã thử tìm kiếm online) giảm đi 7%. Cùng lúc đó, chỉ một nửa trong những tác giả có email còn sử dụng gửi lại phản hồi.

Vai trò của các tạp chí

Matthew Woollard, giám đốc của UK Data Archive in Colchester, đã cảnh báo rằng bài phân tích này chưa xem xét đến kích thước của các bộ dữ liệu hay việc liệu chúng có được lưu trữ ở cơ quan quản lý nghiên cứu hay không. “Vào cuối những năm 1990 đầu 2000, các bộ dữ liệu lớn thường không được lưu trữ bởi các cá nhân nữa mà thay vào đó có khả năng cao được lưu trữ với các viện hoặc cơ quan nghiên cứu”.

Tuy nhiên, nhìn chung, Woollard cũng nói rằng đây là kết quả có thể dự đoán được trong bất cứ lĩnh vực nào. Các nhà nghiên cứu cho rằng các nhà xuất bản tạp chí là những người đứng ở vị trí tốt nhất để giải quyết vấn đề này. Vines cho biết, yêu cầu các tác giả nộp kèm dữ liệu vào một ngân hàng lưu trữ công khai có thể tạo ra một tác động đáng kể, “Đây là một điều rất dễ dàng mà các tạp chí có thể làm, tôi cho rằng nó có thể nâng cao mạnh mẽ chất lượng và số lượng dữ liệu được lưu trữ”.

Tạp chí Nature yêu cầu các tác giả chuyển tải dữ liệu đến người đọc với những yêu cầu truy cập hợp lý và kèm theo giới hạn truy cập trong submission. Một số loại dữ liệu như trình tự DNA cần phải được submit vào một kho lưu trữ cộng đồng công khai. Với những loại dữ liệu khác chưa có nhiều cơ sở dữ liệu lưu trữ được xây dựng, cách làm này của Nature được đặc biệt khuyến khích.

Mặc dù các cơ sở lưu trữ đặc thù cho lĩnh vực khiến việc bảo quản và chia sẻ dữ liệu dễ dàng hơn, mới chỉ một lượng nhỏ người tiếp cận sớm sử dụng tiện ích này, Micheal Hildreth, một nhà vật lý tại University of Notre Dame in Indiana, người đứng đầu dự án của chính phủ Mỹ Data and Software Preservation for Open Science, cho biết. Tuy nhiên, với việc các công cụ tìm kiếm và khai thác dữ liệu cũng như kết nối chúng được phát triển, đây sẽ trở thành phương pháp hiệu quả để đồng thời sắp xếp và bảo quản dữ liệu, Hildreth bổ sung.

Điều trái ngược là, một khảo sát thực hiện tại International Congress on Peer Review and Biomedical Publication in Chicago, Illinois vào tháng 9/2013 đã cho thấy các tác giả thường do dự trong việc chia sẻ công khai dữ liệu, ít nhất là trong các nghiên cứu y học. Một khảo sát khác thực hiện với các tác giả có công bố trên Annals of Internal Medicine giữa 2008 và 2012 cho kết quả là tỉ lệ sẵn sàng chia sẻ dữ liệu giảm dần theo thời gian từ 62% xuống còn 47%.

Không thể tìm lại

Trái với lo lắng của Timothy Vines về việc để mất dần những dữ liệu có giá trị là điều vô cùng điên rồ, chuyện này lại xảy ra quá phổ biến. Ví dụ, nhà nghiên cứu nông nghiệp Melvin McCarty đã dành 15 năm từ 1958 đến 1973 để ghi chép vòng đời của các loài thực vật và cỏ xung quanh khu vực Lincoln, Nebraska. 40 năm sau đó, nhà sinh thái học Lizzie Wolkovich của University of British Columbia in Vancouver muốn tìm kiếm dữ liệu của McCarty để phục vụ việc nghiên cứu ảnh hưởng của sự tăng nhiệt độ đến vòng đời của thực vật. Tuy nhiên, McCarty đã qua đời, và những dữ liệu của ông không còn tìm lại được. “Chúng ta không thể tái tạo lại bất kỳ thứ gì. Việc để mất những bộ dữ liệu dài hạn quả thật là đáng buồn”, Wolkovich nói.

ĐỌC THÊM: Hội nghị NAFOSTED lần thứ nhất về Khoa học Thông tin và Máy tính

Tương tự như vậy, bộ dữ liệu thu thập vào những năm 1980 bởi Otto Solbrig, một nhà sinh học của Harvard University in Cambridge, Massachusetts, về các loài hoa họ Violet tại New England cũng cùng chung số phận. Nhà nghiên cứu sinh học thực vật Sydne Record ở Michigan State University in East Lansing đã gửi thư cho Solbrig xin được sử dụng bộ dữ liệu gốc nhưng không may mắn là chúng đã không còn. “Chúng tôi có ít nhất 20 tập tài liệu lớn chứa những dữ liệu này, nhưng một thời gian dài không ai có hứng thú với chúng nên chúng tôi đã vứt chúng đi”, ông nói.

Dịch từ Nature News “Scientists losing data at a rapid rate“, Elizabeth Gibney & Richard Van Noorden.

LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.

ĐỌC THÊM: Ứng dụng WGS cho định danh nấm trong y tế

Blog

Tốc độ chóng mặt của việc đánh mất dữ liệu trong khoa học

Để lại một bình luận Hủy