מבחן חי-בריבוע
Transcription
מבחן חי-בריבוע
טבלאות שכיחות דו-מימדיות דוגמא :במחקר של גורמי סיכון לסרטן ,שנוהל בגרמניה ,נאספו הנתונים הבאים המתייחסים לעישון ולסרטן .המטרה הייתה לבחון האם ישנה תלות בין שני המשתנים :סטאטוס עישון (מעשן/לא מעשן) לבין סרטן (חולה/לא חולה). להלן טבלת השכיחות הדו-ממדית שהתקבלה: סטאטוס עישון/סרטן סה"כ לא מעשנים מעשנים 222 111 101 חולי סרטן 134 861 161 לא חולי סרטן 626 382 274 סה"כ בטבלת שכיחות דו-מימדית ישנם 1סוגים של אחוזים :שורה ,עמודה וסה"כ. נוכל לשאול את השאלות הבאות: אחוז שורה - מהו אחוז המעשנים מקרב חולי הסרטן? - מהו אחוז המעשנים מקרב אלו שאינם חולי הסרטן? 108 *100 48% 225 163 *100 37.8% 431 אחוז עמודה - מהו אחוז חולי הסרטן מקרב המעשנים? - מהו אחוז חולי הסרטן מקרב הלא מעשנים? 108 *100 39.85% 271 117 *100 30.4% 385 אחוז מכלל התצפיות ()total - מהו אחוז חולי הסרטן שהם מעשנים מתוך כלל התצפיות? 108 *100 16.5% 656 הערה :כמובן ,ניתן לבנות את הטבלה כך שהמשתנה שערכיו נתונים בשורות יהיו בעמודות ,ולהיפך. מכאן הכינויים (שורה ,עמודה) הם שרירותיים ,ויש להבין את המשמעות של %שורה ו % -עמודה בהקשר כל טבלה ,כלומר מקרב איזה קבוצות מדובר? נכתב על ידי :רוחמה אלעד-ירום ביו-סטטיסטיקה :תרגול ממוחשב ,מבחן חי-בריבוע 1 מבחן חי-בריבוע לבחינת אי-תלות בין שני משתנים שמיים סטאטוס עישון/סרטן סה"כ לא מעשנים מעשנים 222 111 101 חולי סרטן 134 861 161 לא חולי סרטן 626 382 274 סה"כ בהמשך לדוגמא בהקשר מטרת המחקר -מערכת ההשערות שלנו תהיה: אין תלות בין עישון למחלת הסרטן H 0 : קיימת תלות בין עישון למחלת הסרטן H1 : הערה :במצב של טבלת שכיחות דו-מימדית ,8*8מערכת ההשערות הנ"ל שקולה לבאה: כאשר = p1 :פרופורציית חולי הסרטן מתוך אוכלוסיית המעשנים; = p 2פרופורציית חולי הסרטן מתוך אוכלוסיית הלא-מעשנים. H 0 : p1 p2 0 H1 : p1 p2 0 א .נסמן את השכיחויות הנצפות בפועל ( )Observedבכל אחד מהתאים: O2,1 163 O2,2 268 O1,1 108 O1,2 117 כאשר i=1,2הוא אינדקס שורה (ובמקרה הכללי ,i=1,2,…,rכאשר rהוא סה"כ מספר השורות בטבלה); ו j=1,2 -הוא אינדקס עמודה ובמקרה הכללי ,j=1,2,…,cכאשר cהוא סה"כ מספר העמודות). ב .נחשב את השכיחויות הצפויות ( )Expectedבכל אחד מהתאים בהנחה שאין תלות בין עישון וסרטן. השכיחות הצפויה בכל תא מתקבלת ע"י הכפלת ה totalשורה ב totalעמודה וחלוקה ב totalהתצפיות שיש במדגם .לידיעה כללית -הסיבה לכך היא שבהנחת אי תלות ,ההסתברות לקומבינציה המסוימת בין שני המשתנים – כלומר ,לחיתוך (למשל ההסתברות להיות גם מעשן וגם חולה סרטן) – מתקבלת ע"י מכפלת ההסתברויות השוליות ,כלומר ההסתברות לקבל את הערך המסוים במשתנה האחד (ההסתברות להיות מעשן = ) 271כפול ההסתברות לקבל את הערך המסוים במשתנה השני (ההסתברות להיות חולה 656 סרטן = .) 225התרגום לשכיחויות צפויות מתקבל ע"י הכפלה בסה"כ התצפיות (.)656 656 סה"כ לא מעשנים מעשנים 222 225 385 132.05 656 225 271 92.95 656 חולי סרטן 134 431 385 252.95 656 431 271 178.05 656 לא חולי סרטן 626 382 274 נסמן: E 2,2 252.95 E 2,1 178.05 סטאטוס עישון/סרטן סה"כ E1,2 132.05 E1,1 92.95 הערה חשובה :במבחן ניתן להשתמש (המבחן תקף) אם לכל היותר ב 80% -מהתאים בטבלה ערך השכיחות הצפויה הוא קטן או שווה ל .5-אם המבחן אינו תקף יש לבצע מבחן פישר (אותו נכיר בקורס ההמשך – בסמסטר ב). בדוגמא שלנו :ערך השכיחות הצפויה בכל אחד מהתאים הוא גדול מ( 5 -ראו הטבלה של השכיחויות הצפויות בסעיף ב) ,לכן המבחן תקף .כלומר ,נוכל להמשיך בביצועו ולהסיק מסקנות. נכתב על ידי :רוחמה אלעד-ירום ביו-סטטיסטיקה :תרגול ממוחשב ,מבחן חי-בריבוע 2 ג .חישוב סטטיסטי המבחן לוקח בחשבון ,ברמת העיקרון ,את המרחקים בין השכיחויות שנצפות בפועל לבין השכיחויות הצפויות בהנחת אי-תלות (כלומר השכיחויות בהנחה שהשערת האפס היא נכונה): (O 2 , 2 E 2 , 2 ) 2 E 2,2 (O2,1 E 2,1 ) 2 E 2,1 (O1,2 E1,2 ) 2 E1,2 (O1,1 E1,1 ) 2 E1,1 ( Oi , j E i , j ) 2 Ei , j .2 i, j נשים לב שככל שההבדל בין ה Observed -וה Expected -גדול יותר אז סטטיסטי המבחן 2גדול יותר ,ויותר סביר שיש קשר בין עישון לסרטן. כלומר המבחן ידחה את H 0עבור ערכי סטטיסטי 2גדולים ,ולא ידחה עבור ערכים קטנים. נחשב את סטטיסטי המבחן בדוגמא שלנו: (108 92.95) 2 (117 132.05) 2 (163 178.05) 2 (268 252.95) 2 6.322 92.95 132.05 178.05 252.95 ( Oi , j E i , j ) 2 Ei , j .2 i, j ד .תחת ( H 0כלומר בהנחה שאין קשר בין עישון לסרטן) סטטיסטי המבחן 2מפולג התפלגות חי-בריבוע עם ( )r-1()c-1דרגות חופש כאשר ,כאמור בסעיף א r :הוא מספר השורות ( ,)rowsו c -הוא מספר העמודות (.)columns בדוגמא שלנו r=2 :וגם ,c=2ולכן מדובר בדרגת חופש אחת: )~ ((2 r 1)( c 1)) ((2 2 1)( 2 1)) (21 (Oi , j Ei , j ) 2 Ei , j .2 i, j כלל ההחלטה באופן כללי (ע"י מציאת ערך קריטי) :נדחה את השערת האפס עבור אם , . 2 (2r 1)( c 1),1כלומר אם ערכו של סטטיסטי המבחן הוא גדול מהאחוזון 1 של התפלגות ))( ((2 r 1)( c 1האחוזון הוא הערך הקריטי). בדוגמא שלנו :ההתפלגות של סטטיסטי המבחן הינה ) ((2 r 1)( c 1)) ((2 21)( 21)) (21 עבור 0.05נפעל לפי כלל ההכרעה ,ונשווה את סטטיסטי המבחן לאחוזון ה 0..5של התפלגות ) (21 נמצא כי ערכו של סטטיסטי המבחן גדול מהאחוזון הרלוונטי . 2 6.322 (21), 0.95 3.841 : להלן שרטוט של פונקצית הצפיפות של התפלגות חי-בריבוע עם דרגת חופש אחת: אזור הדחייה כמובן ,ניתן לחשב את ה p_valueשל סטטיסטי המבחן 6.18תחת ההתפלגות הנ"ל ,מדובר ב"זנב הימני". נכתב על ידי :רוחמה אלעד-ירום ביו-סטטיסטיקה :תרגול ממוחשב ,מבחן חי-בריבוע 3 ה .על סמך סעיף ד -המסקנה הסטטיסטית היא :עבור 0.05נדחה את השערת האפס. מכאן המסקנה המילולית :ישנה תלות בין עישון לבין סרטן .לא נסתפק בכך ,כי לאחר שדחינו -נרצה לראות באיזה אופן באה לידי ביטוי ההשפעה – נוכל לעשות זאת ע"י השוואת האחוזים הרלוונטיים (אחוז חולי הסרטן מתוך קבוצת המעשנים הוא ,1..15%והוא גבוה יותר מאחוז חולי הסרטן מתוך קבוצת הלא-מעשנים ,10.3% ,ראו עמ' )1או חישוב ה( OR -ראו הסבר להלן). לסיכום ,להלן שלבי העבודה לביצוע מבחן חי-בריבוע לבדיקת קשר בין שני משתנים: )1יש לסמן את השכיחויות הנתונות בפועל במדגם בכל תא (;)Observed )8יש לחשב את השכיחויות הצפויות בכל קומבינציה (תא) תחת ההנחה שאין תלות (;)Expected )1יש לחשב את סטטיסטי המבחן (בעזרת נתוני ה Observed -וה;)Expected - )3יש למצוא את הערך הקריטי בטבלת התפלגות חי-בריבוע ולהשוות את הערך הקריטי לסטטיסטי המבחן; )5יש להסיק מסקנה סטטיסטית ומסקנה מילולית-תוכנית. - )Odds Ratio( ORיחס הסיכויים יחס הסיכויים ORמודד את חוזק הקשר בין שני משתנים. ) p1 /(1 p1 ) p 2 /(1 p 2 OR כאשר - p1 :ההסתברות לאירוע בקרב ה .cases ) - (1 p1ההסתברות ללא-אירוע בקרב ה .cases p2 -ההסתברות לאירוע בקרב ה .controls ) - (1 p2ההסתברות ללא-אירוע בקרב ה .controls נשים לב ,כי ניתן לנסח את ההשערה בדבר אי-תלות גם באופן הבאH 0 : OR 1 : H1 : OR 1 ORהשווה ל 4-או הנמצא בסביבת הערך 4יצביע על כך ,שהסיכוי לאירוע לעומת לא אירוע הוא דומה בשתי הקבוצות (ובדוגמא שלנו אם ה ORהוא בסביבת ,1זה יצביע על כך שאין קשר בין סטאטוס העישון לסטאטוס המחלה). ORשהוא גדול משמעותית מ 4-יצביע על כך ,שההסתברות לאירוע לעומת לא אירוע היא גבוהה יותר בקרב ה casesמאשר בקרב הבקרה (ובדוגמא שלנו אם ה ORהוא גדול משמעותית מ ,1-זה יצביע על כך שההסתברות לסרטן לעומת לא סרטן היא גבוהה יותר בקרב המעשנים מאשר בקרב הלא- מעשנים). ORשהוא קטן משמעותית מ 4-יצביע על כך שההסתברות לאירוע לעומת לא אירוע היא קטנה יותר בקרב ה casesמאשר בקרב הבקרה (ובדוגמא שלנו אם ה ORהוא קטן משמעותית מ ,1-זה יצביע על כך שההסתברות לסרטן לעומת לא סרטן היא קטנה יותר בקרב המעשנים מאשר בקרב הלא-מעשנים). נכתב על ידי :רוחמה אלעד-ירום ביו-סטטיסטיקה :תרגול ממוחשב ,מבחן חי-בריבוע 4 נחשב אומדן ל ORעל סמך המדגם (כמובן ,האומדן ל OR -ניתן לחישוב רק כאשר הטבלאות הן מסדר .)8*8 א .נחשב את אומדני ההסתברויות: - pˆ 1 108האומדן להסתברות לחלות בסרטן בקרב מעשנים. 271 - (1 pˆ 1 ) 163האומדן להסתברות לא לחלות בסרטן בקרב מעשנים. 271 117 385 pˆ 2 -האומדן להסתברות לחלות בקרב הלא מעשנים. - (1 pˆ 2 ) 268האומדן להסתברות לא לחלות בקרב הלא מעשנים. 385 ב .נחשב את הסיכויים ( )oddsבקרב כל אחת מהקבוצות: בקרב המעשנים: pˆ 1 108 / 271 108 0.6626 (1 pˆ 1 ) 163 / 271 163 -פי כמה גדול אומדן ההסתברות לחלות בסרטן ,מאשר לא לחלות. בקרב הלא מעשנים: pˆ 2 117 / 385 117 0.4365 (1 pˆ 2 ) 268 / 385 268 -פי כמה גדול אומדן ההסתברות לחלות בסרטן ,מאשר לא לחלות. ג .נחשב את יחס הסיכויים: - OR p1 /(1 p1 ) 0.6626 1.518יחס הסיכויים. 0.4365 ) p 2 /(1 p 2 מכיוון שמצאנו לפי מבחן חי בריבוע שישנה תלות בין סטאטוס עישון לבין סטאטוס מחלה – נוכל לפרש את כיוון ההשפעה לפי אומדן ה ORשחישבנו :ההסתברות לסרטן לעומת לא סרטן היא גבוהה יותר בקרב המעשנים מאשר בקרב הלא-מעשנים פי .1.511 כלומר ,עישון מהווה סיכון לסרטן. הערות: .1בפלט SPSSנוכל לראות רווח סמך ל ( ORברירת המחדל היא רווח סמך ברמת בטחון של .).5% רווח סמך זה אינו סימטרי סביב האומדן של ה ,ORאלא סימטרי סביב האומדן של ).ln(OR עבור ה המתאימה (כאמור ,בהסתמך על רווח הסמך שבברירת המחדל ) 0.05 -אם רווח הסמך כולל את הערך ,1אז אין תלות; אחרת יש. .8לצורך אמידת ה ORישנה הנוסחה הבאה המוכרת לכם a d :כאשר: bc סה"כ לא מעשנים מעשנים סטאטוס עישון/סרטן 222 b=111 a=101 חולי סרטן 134 d=861 c=161 לא חולי סרטן 626 382 274 שימו לב כי היא מתקבלת ע"י: נכתב על ידי :רוחמה אלעד-ירום סה"כ 108 / 271 p1 /(1 p1 ) 163 / 271 108 / 271 268 / 385 108 268 OR p 2 /(1 p 2 ) 117 / 385 163 / 271 117 / 385 163 117 268 / 385 ביו-סטטיסטיקה :תרגול ממוחשב ,מבחן חי-בריבוע 5