מבחן חי-בריבוע

Transcription

מבחן חי-בריבוע
‫טבלאות שכיחות דו‪-‬מימדיות‬
‫דוגמא‪ :‬במחקר של גורמי סיכון לסרטן‪ ,‬שנוהל בגרמניה‪ ,‬נאספו הנתונים הבאים המתייחסים לעישון‬
‫ולסרטן‪ .‬המטרה הייתה לבחון האם ישנה תלות בין שני המשתנים‪ :‬סטאטוס עישון (מעשן‪/‬לא מעשן)‬
‫לבין סרטן (חולה‪/‬לא חולה)‪.‬‬
‫להלן טבלת השכיחות הדו‪-‬ממדית שהתקבלה‪:‬‬
‫סטאטוס עישון‪/‬סרטן‬
‫סה"כ‬
‫לא מעשנים‬
‫מעשנים‬
‫‪222‬‬
‫‪111‬‬
‫‪101‬‬
‫חולי סרטן‬
‫‪134‬‬
‫‪861‬‬
‫‪161‬‬
‫לא חולי סרטן‬
‫‪626‬‬
‫‪382‬‬
‫‪274‬‬
‫סה"כ‬
‫בטבלת שכיחות דו‪-‬מימדית ישנם ‪ 1‬סוגים של אחוזים‪ :‬שורה‪ ,‬עמודה וסה"כ‪.‬‬
‫נוכל לשאול את השאלות הבאות‪:‬‬
‫אחוז שורה‬
‫‪-‬‬
‫מהו אחוז המעשנים מקרב חולי הסרטן?‬
‫‪-‬‬
‫מהו אחוז המעשנים מקרב אלו שאינם חולי הסרטן?‬
‫‪108‬‬
‫‪*100  48%‬‬
‫‪225‬‬
‫‪163‬‬
‫‪*100  37.8%‬‬
‫‪431‬‬
‫אחוז עמודה‬
‫‪-‬‬
‫מהו אחוז חולי הסרטן מקרב המעשנים?‬
‫‪-‬‬
‫מהו אחוז חולי הסרטן מקרב הלא מעשנים?‬
‫‪108‬‬
‫‪*100  39.85%‬‬
‫‪271‬‬
‫‪117‬‬
‫‪*100  30.4%‬‬
‫‪385‬‬
‫אחוז מכלל התצפיות (‪)total‬‬
‫‪-‬‬
‫מהו אחוז חולי הסרטן שהם מעשנים מתוך כלל התצפיות?‬
‫‪108‬‬
‫‪*100  16.5%‬‬
‫‪656‬‬
‫הערה‪ :‬כמובן‪ ,‬ניתן לבנות את הטבלה כך שהמשתנה שערכיו נתונים בשורות יהיו בעמודות‪ ,‬ולהיפך‪.‬‬
‫מכאן הכינויים (שורה‪ ,‬עמודה) הם שרירותיים‪ ,‬ויש להבין את המשמעות של ‪ %‬שורה ו‪ % -‬עמודה‬
‫בהקשר כל טבלה‪ ,‬כלומר מקרב איזה קבוצות מדובר?‬
‫נכתב על ידי‪ :‬רוחמה אלעד‪-‬ירום‬
‫ביו‪-‬סטטיסטיקה‪ :‬תרגול ממוחשב‪ ,‬מבחן חי‪-‬בריבוע‬
‫‪1‬‬
‫מבחן חי‪-‬בריבוע לבחינת אי‪-‬תלות בין שני משתנים שמיים‬
‫סטאטוס עישון‪/‬סרטן‬
‫סה"כ‬
‫לא מעשנים‬
‫מעשנים‬
‫‪222‬‬
‫‪111‬‬
‫‪101‬‬
‫חולי סרטן‬
‫‪134‬‬
‫‪861‬‬
‫‪161‬‬
‫לא חולי סרטן‬
‫‪626‬‬
‫‪382‬‬
‫‪274‬‬
‫סה"כ‬
‫בהמשך לדוגמא בהקשר מטרת המחקר ‪ -‬מערכת ההשערות שלנו תהיה‪:‬‬
‫אין תלות בין עישון למחלת הסרטן ‪H 0 :‬‬
‫קיימת תלות בין עישון למחלת הסרטן ‪H1 :‬‬
‫הערה‪ :‬במצב של טבלת שכיחות דו‪-‬מימדית ‪ ,8*8‬מערכת ההשערות הנ"ל שקולה לבאה‪:‬‬
‫כאשר‪ = p1 :‬פרופורציית חולי הסרטן מתוך אוכלוסיית המעשנים;‬
‫‪ = p 2‬פרופורציית חולי הסרטן מתוך אוכלוסיית הלא‪-‬מעשנים‪.‬‬
‫‪H 0 : p1  p2  0‬‬
‫‪H1 : p1  p2  0‬‬
‫א‪ .‬נסמן את השכיחויות הנצפות בפועל (‪ )Observed‬בכל אחד מהתאים‪:‬‬
‫‪O2,1  163‬‬
‫‪O2,2  268‬‬
‫‪O1,1  108‬‬
‫‪O1,2  117‬‬
‫כאשר ‪ i=1,2‬הוא אינדקס שורה (ובמקרה הכללי ‪ ,i=1,2,…,r‬כאשר ‪ r‬הוא סה"כ מספר השורות בטבלה);‬
‫ו‪ j=1,2 -‬הוא אינדקס עמודה ובמקרה הכללי ‪ ,j=1,2,…,c‬כאשר ‪ c‬הוא סה"כ מספר העמודות)‪.‬‬
‫ב‪ .‬נחשב את השכיחויות הצפויות (‪ )Expected‬בכל אחד מהתאים בהנחה שאין תלות בין עישון וסרטן‪.‬‬
‫השכיחות הצפויה בכל תא מתקבלת ע"י הכפלת ה ‪ total‬שורה ב ‪ total‬עמודה וחלוקה ב ‪ total‬התצפיות‬
‫שיש במדגם‪ .‬לידיעה כללית ‪ -‬הסיבה לכך היא שבהנחת אי תלות‪ ,‬ההסתברות לקומבינציה המסוימת בין‬
‫שני המשתנים – כלומר‪ ,‬לחיתוך (למשל ההסתברות להיות גם מעשן וגם חולה סרטן) – מתקבלת ע"י‬
‫מכפלת ההסתברויות השוליות‪ ,‬כלומר ההסתברות לקבל את הערך המסוים במשתנה האחד (ההסתברות‬
‫להיות מעשן = ‪ ) 271‬כפול ההסתברות לקבל את הערך המסוים במשתנה השני (ההסתברות להיות חולה‬
‫‪656‬‬
‫סרטן = ‪ .) 225‬התרגום לשכיחויות צפויות מתקבל ע"י הכפלה בסה"כ התצפיות (‪.)656‬‬
‫‪656‬‬
‫סה"כ‬
‫לא מעשנים‬
‫מעשנים‬
‫‪222‬‬
‫‪225  385‬‬
‫‪ 132.05‬‬
‫‪656‬‬
‫‪225  271‬‬
‫‪ 92.95‬‬
‫‪656‬‬
‫חולי סרטן‬
‫‪134‬‬
‫‪431  385‬‬
‫‪ 252.95‬‬
‫‪656‬‬
‫‪431  271‬‬
‫‪ 178.05‬‬
‫‪656‬‬
‫לא חולי סרטן‬
‫‪626‬‬
‫‪382‬‬
‫‪274‬‬
‫נסמן‪:‬‬
‫‪E 2,2  252.95‬‬
‫‪E 2,1  178.05‬‬
‫סטאטוס עישון‪/‬סרטן‬
‫סה"כ‬
‫‪E1,2  132.05‬‬
‫‪E1,1  92.95‬‬
‫הערה חשובה‪ :‬במבחן ניתן להשתמש (המבחן תקף) אם לכל היותר ב‪ 80% -‬מהתאים בטבלה ערך‬
‫השכיחות הצפויה הוא קטן או שווה ל‪ .5-‬אם המבחן אינו תקף יש לבצע מבחן פישר (אותו נכיר בקורס‬
‫ההמשך – בסמסטר ב)‪.‬‬
‫בדוגמא שלנו‪ :‬ערך השכיחות הצפויה בכל אחד מהתאים הוא גדול מ‪( 5 -‬ראו הטבלה של השכיחויות‬
‫הצפויות בסעיף ב)‪ ,‬לכן המבחן תקף‪ .‬כלומר‪ ,‬נוכל להמשיך בביצועו ולהסיק מסקנות‪.‬‬
‫נכתב על ידי‪ :‬רוחמה אלעד‪-‬ירום‬
‫ביו‪-‬סטטיסטיקה‪ :‬תרגול ממוחשב‪ ,‬מבחן חי‪-‬בריבוע‬
‫‪2‬‬
‫ג‪ .‬חישוב סטטיסטי המבחן לוקח בחשבון‪ ,‬ברמת העיקרון‪ ,‬את המרחקים בין השכיחויות שנצפות בפועל‬
‫לבין השכיחויות הצפויות בהנחת אי‪-‬תלות (כלומר השכיחויות בהנחה שהשערת האפס היא נכונה)‪:‬‬
‫‪(O 2 , 2  E 2 , 2 ) 2‬‬
‫‪E 2,2‬‬
‫‪‬‬
‫‪(O2,1  E 2,1 ) 2‬‬
‫‪E 2,1‬‬
‫‪‬‬
‫‪(O1,2  E1,2 ) 2‬‬
‫‪E1,2‬‬
‫‪‬‬
‫‪(O1,1  E1,1 ) 2‬‬
‫‪E1,1‬‬
‫‪‬‬
‫‪( Oi , j  E i , j ) 2‬‬
‫‪Ei , j‬‬
‫‪.2  ‬‬
‫‪i, j‬‬
‫נשים לב שככל שההבדל בין ה‪ Observed -‬וה‪ Expected -‬גדול יותר אז סטטיסטי המבחן ‪  2‬גדול‬
‫יותר‪ ,‬ויותר סביר שיש קשר בין עישון לסרטן‪.‬‬
‫כלומר המבחן ידחה את ‪ H 0‬עבור ערכי סטטיסטי ‪  2‬גדולים‪ ,‬ולא ידחה עבור ערכים קטנים‪.‬‬
‫נחשב את סטטיסטי המבחן בדוגמא שלנו‪:‬‬
‫‪(108  92.95) 2 (117  132.05) 2 (163  178.05) 2 (268  252.95) 2‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ 6.322‬‬
‫‪92.95‬‬
‫‪132.05‬‬
‫‪178.05‬‬
‫‪252.95‬‬
‫‪‬‬
‫‪( Oi , j  E i , j ) 2‬‬
‫‪Ei , j‬‬
‫‪.2  ‬‬
‫‪i, j‬‬
‫ד‪ .‬תחת ‪( H 0‬כלומר בהנחה שאין קשר בין עישון לסרטן) סטטיסטי המבחן ‪  2‬מפולג התפלגות חי‪-‬בריבוע‬
‫עם (‪ )r-1()c-1‬דרגות חופש כאשר‪ ,‬כאמור בסעיף א‪ r :‬הוא מספר השורות (‪ ,)rows‬ו‪ c -‬הוא מספר‬
‫העמודות (‪.)columns‬‬
‫בדוגמא שלנו‪ r=2 :‬וגם ‪ ,c=2‬ולכן מדובר בדרגת חופש אחת‪:‬‬
‫)‪~   ((2 r 1)( c 1))   ((2 2 1)( 2 1))   (21‬‬
‫‪(Oi , j  Ei , j ) 2‬‬
‫‪Ei , j‬‬
‫‪.2  ‬‬
‫‪i, j‬‬
‫כלל ההחלטה באופן כללי (ע"י מציאת ערך קריטי)‪ :‬נדחה את השערת האפס עבור ‪ ‬אם‬
‫‪ ,  . 2   (2r 1)( c 1),1‬כלומר אם ערכו של סטטיסטי המבחן הוא גדול מהאחוזון‬
‫‪1‬‬
‫של התפלגות‬
‫))‪(  ((2 r 1)( c 1‬האחוזון הוא הערך הקריטי)‪.‬‬
‫בדוגמא שלנו‪ :‬ההתפלגות של סטטיסטי המבחן הינה )‪ ((2 r 1)( c 1))   ((2 21)( 21))   (21‬‬
‫עבור ‪   0.05‬נפעל לפי כלל ההכרעה‪ ,‬ונשווה את סטטיסטי המבחן לאחוזון ה ‪ 0..5‬של התפלגות )‪ (21‬‬
‫נמצא כי ערכו של סטטיסטי המבחן גדול מהאחוזון הרלוונטי‪ . 2  6.322   (21), 0.95  3.841 :‬‬
‫להלן שרטוט של פונקצית הצפיפות של התפלגות חי‪-‬בריבוע עם דרגת חופש אחת‪:‬‬
‫אזור הדחייה‬
‫כמובן‪ ,‬ניתן לחשב את ה ‪ p_value‬של סטטיסטי המבחן ‪ 6.18‬תחת ההתפלגות הנ"ל‪ ,‬מדובר ב"זנב הימני"‪.‬‬
‫נכתב על ידי‪ :‬רוחמה אלעד‪-‬ירום‬
‫ביו‪-‬סטטיסטיקה‪ :‬תרגול ממוחשב‪ ,‬מבחן חי‪-‬בריבוע‬
‫‪3‬‬
‫ה‪ .‬על סמך סעיף ד ‪ -‬המסקנה הסטטיסטית היא‪ :‬עבור ‪   0.05‬נדחה את השערת האפס‪.‬‬
‫מכאן המסקנה המילולית‪ :‬ישנה תלות בין עישון לבין סרטן‪ .‬לא נסתפק בכך‪ ,‬כי לאחר שדחינו ‪ -‬נרצה‬
‫לראות באיזה אופן באה לידי ביטוי ההשפעה – נוכל לעשות זאת ע"י השוואת האחוזים הרלוונטיים‬
‫(אחוז חולי הסרטן מתוך קבוצת המעשנים הוא ‪ ,1..15%‬והוא גבוה יותר מאחוז חולי הסרטן מתוך‬
‫קבוצת הלא‪-‬מעשנים‪ ,10.3% ,‬ראו עמ' ‪ )1‬או חישוב ה‪( OR -‬ראו הסבר להלן)‪.‬‬
‫לסיכום‪ ,‬להלן שלבי העבודה לביצוע מבחן חי‪-‬בריבוע לבדיקת קשר בין שני משתנים‪:‬‬
‫‪ )1‬יש לסמן את השכיחויות הנתונות בפועל במדגם בכל תא (‪;)Observed‬‬
‫‪ )8‬יש לחשב את השכיחויות הצפויות בכל קומבינציה (תא) תחת ההנחה שאין תלות (‪;)Expected‬‬
‫‪ )1‬יש לחשב את סטטיסטי המבחן (בעזרת נתוני ה‪ Observed -‬וה‪;)Expected -‬‬
‫‪ )3‬יש למצוא את הערך הקריטי בטבלת התפלגות חי‪-‬בריבוע ולהשוות את הערך הקריטי לסטטיסטי‬
‫המבחן;‬
‫‪ )5‬יש להסיק מסקנה סטטיסטית ומסקנה מילולית‪-‬תוכנית‪.‬‬
‫‪ - )Odds Ratio( OR‬יחס הסיכויים‬
‫יחס הסיכויים ‪ OR‬מודד את חוזק הקשר בין שני משתנים‪.‬‬
‫) ‪p1 /(1  p1‬‬
‫) ‪p 2 /(1  p 2‬‬
‫‪OR ‬‬
‫כאשר‪ - p1 :‬ההסתברות לאירוע בקרב ה ‪.cases‬‬
‫) ‪ - (1  p1‬ההסתברות ללא‪-‬אירוע בקרב ה ‪.cases‬‬
‫‪p2‬‬
‫‪ -‬ההסתברות לאירוע בקרב ה ‪.controls‬‬
‫) ‪ - (1  p2‬ההסתברות ללא‪-‬אירוע בקרב ה ‪.controls‬‬
‫נשים לב‪ ,‬כי ניתן לנסח את ההשערה בדבר אי‪-‬תלות גם באופן הבא‪H 0 : OR  1 :‬‬
‫‪H1 : OR  1‬‬
‫‪ OR‬השווה ל‪ 4-‬או הנמצא בסביבת הערך ‪ 4‬יצביע על כך‪ ,‬שהסיכוי לאירוע לעומת לא אירוע הוא דומה‬
‫בשתי הקבוצות (ובדוגמא שלנו אם ה ‪ OR‬הוא בסביבת ‪ ,1‬זה יצביע על כך שאין קשר בין סטאטוס‬
‫העישון לסטאטוס המחלה)‪.‬‬
‫‪ OR‬שהוא גדול משמעותית מ‪ 4-‬יצביע על כך‪ ,‬שההסתברות לאירוע לעומת לא אירוע היא גבוהה יותר‬
‫בקרב ה‪ cases‬מאשר בקרב הבקרה (ובדוגמא שלנו אם ה ‪ OR‬הוא גדול משמעותית מ‪ ,1-‬זה יצביע על‬
‫כך שההסתברות לסרטן לעומת לא סרטן היא גבוהה יותר בקרב המעשנים מאשר בקרב הלא‪-‬‬
‫מעשנים)‪.‬‬
‫‪ OR‬שהוא קטן משמעותית מ‪ 4-‬יצביע על כך שההסתברות לאירוע לעומת לא אירוע היא קטנה יותר‬
‫בקרב ה‪ cases‬מאשר בקרב הבקרה (ובדוגמא שלנו אם ה ‪ OR‬הוא קטן משמעותית מ‪ ,1-‬זה יצביע על‬
‫כך שההסתברות לסרטן לעומת לא סרטן היא קטנה יותר בקרב המעשנים מאשר בקרב הלא‪-‬מעשנים)‪.‬‬
‫נכתב על ידי‪ :‬רוחמה אלעד‪-‬ירום‬
‫ביו‪-‬סטטיסטיקה‪ :‬תרגול ממוחשב‪ ,‬מבחן חי‪-‬בריבוע‬
‫‪4‬‬
‫נחשב אומדן ל ‪ OR‬על סמך המדגם (כמובן‪ ,‬האומדן ל‪ OR -‬ניתן לחישוב רק כאשר הטבלאות הן מסדר‬
‫‪.)8*8‬‬
‫א‪ .‬נחשב את אומדני ההסתברויות‪:‬‬
‫‪ - pˆ 1  108‬האומדן להסתברות לחלות בסרטן בקרב מעשנים‪.‬‬
‫‪271‬‬
‫‪ - (1  pˆ 1 )  163‬האומדן להסתברות לא לחלות בסרטן בקרב מעשנים‪.‬‬
‫‪271‬‬
‫‪117‬‬
‫‪385‬‬
‫‪pˆ 2 ‬‬
‫‪ -‬האומדן להסתברות לחלות בקרב הלא מעשנים‪.‬‬
‫‪ - (1  pˆ 2 )  268‬האומדן להסתברות לא לחלות בקרב הלא מעשנים‪.‬‬
‫‪385‬‬
‫ב‪ .‬נחשב את הסיכויים (‪ )odds‬בקרב כל אחת מהקבוצות‪:‬‬
‫בקרב המעשנים‪:‬‬
‫‪pˆ 1‬‬
‫‪108 / 271 108‬‬
‫‪‬‬
‫‪‬‬
‫‪ 0.6626‬‬
‫‪(1  pˆ 1 ) 163 / 271 163‬‬
‫‪ -‬פי כמה גדול אומדן ההסתברות לחלות בסרטן‪ ,‬מאשר לא לחלות‪.‬‬
‫בקרב הלא מעשנים‪:‬‬
‫‪pˆ 2‬‬
‫‪117 / 385 117‬‬
‫‪‬‬
‫‪‬‬
‫‪ 0.4365‬‬
‫‪(1  pˆ 2 ) 268 / 385 268‬‬
‫‪ -‬פי כמה גדול אומדן ההסתברות לחלות בסרטן‪ ,‬מאשר לא לחלות‪.‬‬
‫ג‪ .‬נחשב את יחס הסיכויים‪:‬‬
‫‪ - OR  p1 /(1  p1 )  0.6626  1.518‬יחס הסיכויים‪.‬‬
‫‪0.4365‬‬
‫) ‪p 2 /(1  p 2‬‬
‫מכיוון שמצאנו לפי מבחן חי בריבוע שישנה תלות בין סטאטוס עישון לבין סטאטוס מחלה – נוכל לפרש‬
‫את כיוון ההשפעה לפי אומדן ה ‪ OR‬שחישבנו‪ :‬ההסתברות לסרטן לעומת לא סרטן היא גבוהה יותר‬
‫בקרב המעשנים מאשר בקרב הלא‪-‬מעשנים פי ‪.1.511‬‬
‫כלומר‪ ,‬עישון מהווה סיכון לסרטן‪.‬‬
‫הערות‪:‬‬
‫‪ .1‬בפלט ‪ SPSS‬נוכל לראות רווח סמך ל ‪( OR‬ברירת המחדל היא רווח סמך ברמת בטחון של ‪.).5%‬‬
‫רווח סמך זה אינו סימטרי סביב האומדן של ה ‪ ,OR‬אלא סימטרי סביב האומדן של )‪.ln(OR‬‬
‫עבור ה ‪ ‬המתאימה (כאמור‪ ,‬בהסתמך על רווח הסמך שבברירת המחדל ‪ )   0.05 -‬אם רווח הסמך‬
‫כולל את הערך ‪ ,1‬אז אין תלות; אחרת יש‪.‬‬
‫‪ .8‬לצורך אמידת ה ‪ OR‬ישנה הנוסחה הבאה המוכרת לכם‪ a  d :‬כאשר‪:‬‬
‫‪bc‬‬
‫סה"כ‬
‫לא מעשנים‬
‫מעשנים‬
‫סטאטוס עישון‪/‬סרטן‬
‫‪222‬‬
‫‪b=111‬‬
‫‪a=101‬‬
‫חולי סרטן‬
‫‪134‬‬
‫‪d=861‬‬
‫‪c=161‬‬
‫לא חולי סרטן‬
‫‪626‬‬
‫‪382‬‬
‫‪274‬‬
‫שימו לב כי היא מתקבלת ע"י‪:‬‬
‫נכתב על ידי‪ :‬רוחמה אלעד‪-‬ירום‬
‫סה"כ‬
‫‪108 / 271‬‬
‫‪p1 /(1  p1 ) 163 / 271 108 / 271 268 / 385 108 268‬‬
‫‪OR ‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪p 2 /(1  p 2 ) 117 / 385 163 / 271 117 / 385 163 117‬‬
‫‪268 / 385‬‬
‫ביו‪-‬סטטיסטיקה‪ :‬תרגול ממוחשב‪ ,‬מבחן חי‪-‬בריבוע‬
‫‪5‬‬