Presentation is loading. Please wait.

Presentation is loading. Please wait.

Phân tích mô tả biến liên tục

Similar presentations


Presentation on theme: "Phân tích mô tả biến liên tục"— Presentation transcript:

1 Phân tích mô tả biến liên tục
Nguyễn Văn Tuấn Viện nghiên cứu Y khoa Garvan Sydney, Australia

2 Nội dung Phân tích bằng biểu đồ Tóm lược dữ liệu từ một biến
Kiếm tra outliers Kiểm tra luật phân phối của dữ liệu Kiểm tra Tóm lược dữ liệu từ một biến So sánh hai nhóm Hai nhóm độc lập Hai nhóm “kết xứng” hay paired samples

3 Giả định trong phân tích thống kê
Số liệu tuân theo luật phân phối chuẩn (Normal distribution) Hai nhóm độc lập với nhau, và các số liệu cũng độc lập với nhau. Hai nhóm có cùng (hay tương đương) phuơng sai. Không có “outliers”

4 Kiểm tra phân phối của biến số
Cân đối, hình chuông Lí tưởng: phân phối chuẩn

5 Kiểm tra độ cân đối (symmetry)
Cân đối nhưng không theo hình chuông Thiếu cân đối, hai đỉnh Nghiêng về phía trái Nghiêng về phía phải

6 Một đỉnh hay 2 đỉnh (modality)
Hai đỉnh

7 Kiểm tra kurtosis  Đuôi dày Mesokurtic (trung bình)
Platykurtic (phẳng)  Đuôi mõng Leptokurtic (cao) Kurtosis rất khó kiểm tra bằng mắt!

8 Ảnh hưởng của luật skewness và kurtosis
(A) Cân đối (symmetry): trung bình = trung vị (B) Skew dương tính: trung bình > trung vị (C) Skew âm tính: trung bình < trung vị

9 Kiểm tra luật phân phối Triglyceride
tg <- c(1.1, 2.1, 0.8, 1.1, 2.1, 1.5, 2.6, 1.5, 5.4, 1.9, 1.7, 1.0, 1.6, 1.1, 1.5, 1.0, 2.7, 3.9, 3.0, 3.1, 2.2, 2.7, 1.1, 0.7, 1.0, 1.7, 2.9, 2.5, 6.2, 1.3, 3.3, 3.0, 1.0, 1.4, 2.5, 0.7, 2.4, 2.4, 1.4, 2.7, 2.4, 3.3, 2.0, 2.6, 1.8, 1.2, 1.9, 3.3, 4.0, 2.5)

10 Kiểm tra outlier x = c(1362, 1439, 1460, 1614, 1666, 1792, 1867, 9867, 1362, 1439, 1460, 1614, 1666) stripchart(x)

11 Tóm lược dữ liệu từ một nhóm

12 Những chỉ số thống kê thông dụng
Số lượng mẫu hay đối tượng (n) Trung bình (mean, average) Trung vị (median) Độ lệch chuẩn (standard deviation, SD) SD = căn số bậc hai của phương sai (variance) Percentile Trung vị 25%, 75% Tối đa (maximum), tối thiểu (minimum)

13 Biểu đồ hộp boxplot(height) 95% percentile 75% percentile
Median, 50% perc. 25% percentile 5% percentile

14 Trung bình và trung vị Số trung vị ít chịu ảnh hưởng từ “outlier”
Nếu chúng ta có số liệu từ 7 bệnh nhân sau đây: A = Nhưng nếu thay 1867 bằng 9867: B = Nhóm A Nhóm B Trung bình 1600 2742.9 Trung vị 1614 Độ lệch chuẩn 189.2 3145

15 So sánh hai nhóm: Biến liên tục

16 So sánh hai nhóm độc lập: t-test
Fasting cholesterol (mg/dl) Nhóm 1 (cá tính A): 233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325 Nhóm 2 (cá tính B): 344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213

17 Phân tích bằng biểu đồ Biểu đồ này cho thấy:
Nhóm 1 có chol cao hơn nhóm 2 – khác nhau về vị trí. Nhóm 2 có độ dao động cao hơn nhóm 1 – khác nhau về biến thiên Tương đối cân đối, nhưng có giá trị “outlier”

18 Tóm tắt bằng các chỉ số thống kê: n, trung bình, độ lệch chuẩn
Nhóm n mean SD 1 20 245.05 36.64 2 210.30 48.34 Mean = trung bình, SD = độ lệch chuẩn Quan sát và suy nghiệm!

19 Vài dòng lí thuyết về t-test
Thông số (quần thể) Quần thể 1 N1 µ1 σ1 Quần thể 2 N2 µ2 σ2 Thống kê (mẫu) Nhóm 1 n1 s1 Nhóm 2 n2 s2 là ước số (estimate) của

20 Kiểm định t Tóm lược số liệu cholesterol cho 2 nhóm Nhóm Số đối tượng
Độ lệch chuẩn Trung bình 1 20 36.64 245.05 2 48.34 210.30

21 Khoảng tin cậy 95% cho µ1 – µ2 Khoảng tin cậy 95% cho µ1 – µ2
Ví dụ (cholesterol):

22 Hoán chuyển số liệu không tuân theo luật phân phối chuẩn
Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của 29 bệnh nhân bị loét dạ dày và của 30 người chứng. Liệu có sự khác nhau về lượng lysozyme trong dịch dạ dày của hai nhóm này không? Nhóm bệnh: Nhóm chứng:

23 Tóm lược số liệu lysozyme
Nhóm N Mean (SD) Nhóm bệnh 29 (15.74) Nhóm chứng 30 7.68 (7.85)

24 Kiểm định t số liệu lysozyme
Nhóm N Mean (SD) Nhóm bệnh 29 (15.74) Nhóm chứng 30 7.68 (7.85) P = 0.04, có ý nghĩa thống kê

25 Giả định đằng sau kiểm định t có đáp ứng?
Hai nhóm độc lập? OK Phân phối chuẩn? Có vấn đề Phương sai tương đương? Có vấn đề.

26 Kiểm định Shapiro-Wilk
Để xem phân phối có tuân theo luật chuẩn hay không. Giả thuyết là phân phối g1, g2 tuân theo luật chuẩn (p >0.05), nếu kết quả thu được p <0.05  không tuân theo luật chuẩn. Cần chú ý: các test này rất nhạy nên cần phải xem xét các yếu tố khác: độ dốc (skewness) và độ nhọn (kurtosis) của đường cong phân phối đó. Shapiro.test(g1) Shapiro-Wilk normality test data: g1 W = , p-value = 9.697e-05 shapiro.test(g2) data: g2 W = , p-value =

27 Kiểm định F cho phương sai
Nhóm N Mean (SD) Nhóm bệnh 29 (15.74) Nhóm chứng 30 7.68 (7.85) Phương sai của nhóm bệnh cao gấp 4 lần so với nhóm chứng. Sự khác biệt này có ý nghĩa thống kê Phương pháp kiểm định t có vấn đề!

28 Hoán chuyển số liệu lysozyme
Số liệu gốc Số liệu log Bệnh Chứng 0.20 -1.61 0.30 -1.20 0.40 -0.92 1.10 0.70 0.10 -0.36 2.00 1.20 0.69 0.18 2.10 1.50 0.74 0.41 3.30 1.19 3.80 1.90 1.34 0.64 4.50 4.80 2.40 1.57 0.88 4.90 2.50 1.59 0.92 5.00 2.80 1.61 1.03 5.30 3.60 1.67 1.28 7.50 2.01 9.80 2.28 10.40 5.40 2.34 1.69 10.90 5.70 2.39 1.74 11.30 5.80 2.42 1.76 12.40 2.52 16.20 8.70 2.79 2.16 17.60 8.80 2.87 2.17 18.90 9.10 2.94 2.21 20.70 10.30 3.03 2.33 24.00 15.60 3.18 2.75 25.40 16.10 3.23 2.78 40.00 16.50 3.69 42.20 16.70 3.74 2.82 50.00 20.00 3.91 3.00 60.00 4.09 33.00 3.50 Nhóm N Mean (SD) Nhóm bệnh 29 1.92 (1.48) Nhóm chứng 30 1.41 (1.32) t = 1.41, p = 0.165 Độ khác biệt: d = 1.92 – 1.41 = 0.51 Khoảng tin cậy 95%: đến 1.25 Hoán chuyển sang đơn vị gốc: Độ khác biệt: exp(0.51) 1.665 Khoảng tin cậy 95%: 0.80 đến 3.49 Tính trung bình, nồng độ lysozyme ở nhóm bệnh cao hơn nhóm chứng khoảng 66%, nhưng phân tích khoảng tin cậy 95% cho thấy có thể thấp hơn 20% hay cao hơn 2.5 lần.

29 Phân tích lại số liệu lysozyme
data: log.g1 and log.g2 t = 1.406, df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y exp( ) = 1.67 Trị số lysozyme của nhóm bệnh nhân cao hơn nhóm chứng 1.67 lần hay 67%, tuy nhiên không có ý nghĩa thống kê

30 Phân tích số liệu 2 nhóm kết xứng (matched case control study)

31 Matched samples Trước / sau Sinh đôi Matched case-control

32 Paired sample t-test Cặp Case Control diff 1 4.61 3.84 0.77 2 6.42 5.57 0.85 3 5.40 5.85 -0.45 4 4.54 4.80 -0.26 5 3.98 3.68 0.30 6 3.82 2.96 0.86 7 5.01 4.41 0.60 8 4.34 3.72 0.62 9 3.80 3.49 0.31 10 4.56 0.72 11 5.35 5.26 0.09 12 3.89 3.73 0.16 13 2.25 1.84 0.41 14 4.24 4.14 0.10 Mean 4.44 4.08 0.36 SD 0.97 1.06 SE 0.26 0.28 0.11 t 3.34 LDL ở nhóm bệnh cao hơn nhóm chứng 0.36 mg/dl (khoảng tin cậy 95%: 0.13 đến 0.60), và độ khác biệt có ý nghĩa thống kê

33 Tóm lược Cẩn thận với phân phối của số liệu Hai nhóm độc lập:
Sử dụng các thuật phân tích biểu đồ Hai nhóm độc lập: Kiểm định t Khoảng tin cậy 95% Hai nhóm không độc lập:


Download ppt "Phân tích mô tả biến liên tục"

Similar presentations


Ads by Google