Trong nghiên cứu khoa học, kiểm định giả thuyết thống kê là một bước quan trọng để đưa ra kết luận dựa trên dữ liệu mẫu. Dưới đây là các kiểm định thống kê phổ biến, chia theo loại biến phân tích.
MỤC LỤC BÀI VIẾT
Kiểm định cho biến liên tục
Kiểm định phân phối chuẩn
Kiểm định Shapiro-Wilk
- Mục đích: Kiểm tra xem một tập dữ liệu có tuân theo phân phối chuẩn hay không.
- Giả thuyết:
- H0: Dữ liệu tuân theo phân phối chuẩn.
- H1: Dữ liệu không tuân theo phân phối chuẩn.
- Ứng dụng: Được sử dụng khi cỡ mẫu nhỏ (n < 50).
- Đánh giá: Nếu p-value < 0.05, bác bỏ H0, tức là dữ liệu không chuẩn.
Kiểm định Kolmogorov–Smirnov
- Mục đích: Kiểm tra xem dữ liệu có tuân theo một phân phối cụ thể hay không.
- Giả thuyết:
- H0: Dữ liệu tuân theo phân phối mong muốn.
- H1: Dữ liệu không tuân theo phân phối mong muốn.
- Ứng dụng: Dùng để kiểm tra phân phối chuẩn hoặc các phân phối khác khi mẫu lớn.
- Đánh giá: Nếu p-value < 0.05, bác bỏ H0, tức là dữ liệu không tuân theo phân phối kiểm tra.
Kiểm định tương quan và hồi quy
Tương quan Pearson
- Mục đích: Đo lường mức độ tuyến tính giữa hai biến liên tục.
- Ứng dụng: Khi dữ liệu có phân phối chuẩn.
- Đánh giá: Hệ số tương quan r từ -1 đến 1, giá trị gần 1 hoặc -1 cho thấy mối quan hệ mạnh.
Tương quan Spearman
- Mục đích: Đo lường mối quan hệ đơn điệu giữa hai biến liên tục hoặc xếp hạng.
- Ứng dụng: Khi dữ liệu không tuân theo phân phối chuẩn hoặc có outliers.
- Đánh giá: Hệ số Spearman rho gần 1 hoặc -1 cho thấy mối quan hệ mạnh. Mức độ ảnh hưởng có thể đánh giá tương tự như Pearson với các giá trị 0.1 (nhỏ), 0.3 (trung bình), 0.5 (lớn).
Kiểm định hồi quy tuyến tính
-
- Mục đích: Đánh giá ảnh hưởng của một hoặc nhiều biến độc lập đến biến phụ thuộc.
- Giả thuyết:
- H0: Không có mối quan hệ giữa biến độc lập và biến phụ thuộc.
- H1: Có mối quan hệ giữa biến độc lập và biến phụ thuộc.
- Ứng dụng: Dự đoán xu hướng hoặc kiểm tra ảnh hưởng của một biến lên biến khác.
- Đánh giá: Hệ số hồi quy (beta) cho biết mức độ ảnh hưởng, p-value kiểm tra ý nghĩa thống kê. Đường hồi quy tuyến tính có dạng: Y = beta_0 + beta_1 * X + epsilon, trong đó beta_1 cho biết mức độ thay đổi của Y khi X thay đổi một đơn vị.
- So sánh các điểm dữ liệu với đường hồi quy: Khoảng cách giữa các điểm dữ liệu thực tế và giá trị dự đoán trên đường hồi quy có thể được đánh giá bằng phần dư (residuals). Giá trị phần dư càng nhỏ, mô hình hồi quy càng phù hợp. Để đánh giá khoảng cách tổng thể, có thể sử dụng R² (hệ số xác định) để đo lường mức độ mà mô hình giải thích được phương sai của dữ liệu. Ngoài ra, khoảng cách Euclidean có thể được tính để đo mức độ phân tán của dữ liệu quanh đường hồi quy.
Kiểm định cho biến liên tục cùng biến rời rạc (nhóm)
Kiểm định so sánh trung bình
T-test
- Mục đích: So sánh trung bình giữa hai nhóm.
- Giả thuyết:
- H0: Không có sự khác biệt giữa hai trung bình.
- H1: Có sự khác biệt giữa hai trung bình.
- Ứng dụng: Dùng khi dữ liệu có phân phối chuẩn.
- Đánh giá: Nếu p-value < 0.05, bác bỏ H0, tức là có sự khác biệt.
ANOVA (Phân tích phương sai)
- Mục đích: So sánh trung bình giữa nhiều hơn hai nhóm.
- Giả thuyết:
- H0: Không có sự khác biệt về trung bình giữa các nhóm.
- H1: Ít nhất một nhóm có trung bình khác biệt.
- Ứng dụng: Dùng khi có từ ba nhóm trở lên.
- Đánh giá: Nếu p-value < 0.05, ít nhất một nhóm có trung bình khác biệt. Mức độ ảnh hưởng có thể đánh giá bằng Eta-squared (η²), với giá trị η² từ 0.01 (nhỏ), 0.06 (trung bình) và 0.14 (lớn).
Kiểm định phi tham số cho biến liên tục
Mann-Whitney U test
- Mục đích: So sánh hai nhóm khi dữ liệu không tuân theo phân phối chuẩn.
- Ứng dụng: Thay thế T-test hai mẫu độc lập.
- Đánh giá: Nếu p-value < 0.05, có sự khác biệt giữa hai nhóm.
- Effect size: Có thể đánh giá bằng r (r = Z/sqrt(N)), với giá trị 0.1 (nhỏ), 0.3 (trung bình), 0.5 (lớn).
Kruskal-Wallis H test
- Mục đích: So sánh nhiều nhóm khi dữ liệu không chuẩn.
- Ứng dụng: Thay thế ANOVA khi dữ liệu không đồng nhất phương sai.
- Đánh giá: Nếu p-value < 0.05, có sự khác biệt giữa ít nhất hai nhóm.
- Effect size: Đánh giá bằng eta squared (η²), tương tự ANOVA.
Kiểm định cho biến rời rạc (phân loại)
Kiểm định độc lập giữa các biến phân loại
Kiểm định Chi-square (χ²)
- Mục đích: Kiểm tra mối liên hệ giữa hai biến phân loại.
- Giả thuyết:
- H0: Hai biến không có mối liên hệ.
- H1: Hai biến có mối liên hệ.
- Ứng dụng: Dùng trong khảo sát dữ liệu bảng chéo (contingency table).
- Đánh giá: Nếu p-value < 0.05, hai biến có mối liên hệ.
Kiểm định Fisher’s Exact Test
- Mục đích: Kiểm tra mối liên hệ giữa hai biến phân loại khi cỡ mẫu nhỏ.
- Ứng dụng: Khi số lượng mẫu quá nhỏ để sử dụng Chi-square.
- Đánh giá: Nếu p-value < 0.05, hai biến có mối liên hệ.
Kết luận
Việc chọn kiểm định thống kê phù hợp là rất quan trọng trong nghiên cứu khoa học. Kiểm định phải dựa trên loại dữ liệu, giả định về phân phối, và mục tiêu phân tích.
LOBI Vietnam là công ty tiên phong trong lĩnh vực Đọc trình tự gen thế hệ mới NGS (Next Generation Sequencing) và Phân tích Tin sinh học. Liên hệ hotline/Zalo 092.510.8899 để biết thêm chi tiết.