ניסוי: סטטיסטיקה שימושית

Transcription

ניסוי: סטטיסטיקה שימושית
‫הטכניון – מכון טכנולוגי לישראל‬
‫הפקולטה להנדסה ביו‪-‬רפואית‬
‫מעבדה בהנדסה ביו‪-‬רפואית ‪(331005 ) I‬‬
‫ניסוי‪ :‬סטטיסטיקה שימושית‬
‫חלק א'‬
‫‪ .1‬מטרות הניסוי‬
‫‪ .2‬תקציר הניסוי‬
‫‪ .3‬רקע‬
‫חלק ב'‬
‫‪ .4‬דו"ח מכין‬
‫חלק ג'‬
‫‪ .5‬תאור מערכת הניסוי‬
‫‪ .6‬מהלך הניסוי‬
‫חלק ד'‬
‫‪ .7‬ניתוח תוצאות‬
‫‪ .8‬הנחיות לכתיבת הדו"ח המסכם‬
‫נספחים‬
‫א‪.‬‬
‫ב‪.‬‬
‫ג‪.‬‬
‫ד‪.‬‬
‫ה‪.‬‬
‫מושגי יסוד בסטטיסטיקה‬
‫טבלת הסתברות מצטברת (הפוכה) עבור התפלגות ‪.t‬‬
‫צמיגות תמיסות סוכרוז‬
‫פקודות מטלב שימושיות‬
‫מקורות‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 1‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫חלק א'‬
‫‪ .5‬מטרות הניסוי‬
‫א‪.‬‬
‫ב‪.‬‬
‫ג‪.‬‬
‫לימוד תכנון ניסוי תוך התחשבות בסטטיסטיקה‪.‬‬
‫ביצוע בדיקות סטטיסטיות על תוצאות ניסיוניות להוכחת השערה‪.‬‬
‫(למדתם סטטיסטיקה? בואו נראה מה לעשות איתה‪).‬‬
‫‪ .2‬תקציר הניסוי‬
‫מהנדסים בפרט‪ ,‬ומדענים בכלל‪ ,‬משתמשים בכלים סטטיסטיים כדי להדגים את המשמעותיות של‬
‫התוצאות ולהסיק מסקנות ברות משמעות‪ .‬בניסוי הקודם‪" ,‬שיערוך וקידום שגיאות‪ ",‬למדתם על סוגי‬
‫השגיאות השונים וכיצד לחשבם‪ .‬בניסוי זה נלמד על התיאוריה והשימוש במבחנים סטטיסטיים כדי‬
‫להעריך אם קיים הבדל משמעותי בין התוצאות של שני ניסויים‪.‬‬
‫במהלך הניסוי נשתמש בצינורית פלסטיק המלאה בתמיסות של סוכרוז בריכוזים שונים‪ .‬נמדוד את‬
‫הצמיגות של תמיסות אלו באמצעות כדור מתגלגל‪ ,‬ונבנה עקומת סטנדרט לריכוזים ידועים של סוכר‪.‬‬
‫לאח ר מכן‪ ,‬נמדוד את צמיגויותיהם של שתי תמיסות סוכר בריכוזים לא ידועים‪ ,‬ונשווה ביניהם באמצעות‬
‫מבחן סטטיסטי‪.‬‬
‫‪ .3‬רקע‬
‫א‪ .‬מבוא‬
‫איכותן של תוצאות ניסוי נאמדות לפי תכנון ניסוי נכון‪ .‬לדוגמה‪ ,‬בניסוי בו יש הרבה רעש יש צורך לבצע‬
‫מספר ניסויים רב יותר כדי לקבל תוצאות משמעותיות‪ .‬אקראיות ורעשים מהווים לעיתים קרובות חלק‬
‫משמעותי בתוצאות ניסוי‪ .‬פועל יוצא הוא שכמעט כל ניסוי יניב תוצאות שאינן זהות לניסוי אחר‪ .‬כיצד‪ ,‬אם‬
‫כן‪ ,‬יידע חוקר לזהות תוצאות ברות משמעות‪ ,‬שאינן נובעות מרעשים? לשם כך פותחו כלים ומבחנים‬
‫סטטיסטיים רבים‪ .‬מבחנים אלו מבוססים על ידע של התנהגותם הסטטיסטית של משתנים‪ ,‬והם יכולים‬
‫לתת תשובות לשאלות מחקריות (למשל‪ ,‬אם קיים הבדל משמעותי בין אוכלוסיות)‪ .‬טיב השאלה‬
‫המחקרית‪ ,‬ומבנה הניסוי‪ ,‬משפיעים באופן ישיר על היכולת שלנו להגיע למסקנות נכונות ושימושיות‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 2‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ב‪ .‬תמיסות סוכר‬
‫במעבדה זו נשתמש בתמיסות סוכרוז במים‪ ,‬אלו יוצרות נוזל ניוטוני בצמיגויות שונות כתלות בכמות‬
‫הסוכר המומס‪ .‬את כמות הסוכרוז המומס ניתן לכמת כאחוז משקלי (‪ ,)% w/w‬או משקל הסוכרוז המומס‬
‫ליחידת משקל של ‪ 111‬גרם תמיסה‪ .‬בתעשיות רבות בהן ויסות ריכוז הסוכר חשוב לכשעצמו (מיצים‪,‬‬
‫יי נות‪ ,‬סירופים‪ ,‬דבשים ועוד) האחוז המשקלי של הסוכרוז בתמיסה יכול גם להינתן על ידי "מעלות בריקס"‬
‫(‪ ,)Degrees Brix‬מסומן ‪ .oBx‬עבור תמיסות סוכרוז בריכוזים של עד כ‪( 68oBx -‬קרוב לגבול המסיסות‬
‫בטמפרטורת חדר במים מזוקקים)‪ ,‬ניתן לחשב את צמיגות התמיסה ‪ ‬על ידי משוואת ארהניוס גלובלית‪:‬‬
‫‪‬‬
‫‪ 1 1 ‬‬
‫‪exp a3 exp a4C   ‬‬
‫‪ T TS ‬‬
‫‪‬‬
‫‪1‬‬
‫‪a2‬‬
‫]‪[ Sucrose‬‬
‫‪‬‬
‫‪a1 ‬‬
‫(‪)1‬‬
‫‪5‬‬
‫כאשר ]‪ [Sucrose‬הינו הריכוז ב‪ TS ,oBx -‬הינה טמפרטורת ייחוס כלשהי (אבסולוטי)‪ T ,‬היא טמפרטורת‬
‫התמיסה‪ ,‬ו‪ a 4 , a3 , a 2 , a1 -‬הינם קבועים הניתנים למציאה באופן אמפירי (‪ .)Quintas et al. 2006‬אם‬
‫נניח כי אנו שומרים על טמפרטורה קבועה‪ ,‬הרי שהסוגרים המרובעים מתאפסים‪ ,‬כל האקספוננט החיצוני‬
‫הופך ל‪ ,1 -‬ואנו מקבלים את היחס המפושט‪:‬‬
‫‪1‬‬
‫‪a2‬‬
‫]‪[ Sucrose‬‬
‫‪‬‬
‫‪a1 ‬‬
‫(‪)2‬‬
‫‪2‬‬
‫אם נעלה בחזקת )‪ (-1‬את שני האגפים‪ ,‬נקבל‪:‬‬
‫‪1‬‬
‫]‪[ Sucrose‬‬
‫‪ a1  a2‬‬
‫‪1‬‬
‫‪‬‬
‫(‪)3‬‬
‫‪3‬‬
‫הגענו למשוואה הניתנת למידול ליניארי‪ .‬באיור ‪ 1‬מוצגת התלות של צמיגות תמיסת סוכרוז‪-‬מים בריכוז‬
‫הסוכרוז המומס (מוצג עבור ‪:)20oC‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 3‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫]‪µ [cP‬‬
‫‪0‬‬
‫‪Bx‬‬
‫‪o‬‬
‫איור ‪ .5‬תלות של צמיגות תמיסת סוכרוז טהור באחוז משקלי של סוכרוז‪ ,‬בטמפרטורת ‪Hoynak and ( 20 C‬‬
‫‪.)Bollenback 1966‬‬
‫במעבדה אנו נשערך את הקשר הזה באמצעות מדידת הצמיגויות של חמש תמיסות סוכרוז בריכוזים‬
‫ידועים‪ .‬מדידות הצמיגות יעשו באמצעות ויסקומטר כדור מתגלגל‪ ,‬כפי שיתואר בחלק ג' במבוא זה‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 4‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ג‪ .‬ויסקומטר כדור מתגלגל‬
‫שיטה פשוטה למדידת צמיגותו של נוזל ניוטוני הוא ויסקומטר כדור מתגלגל‪ .‬בויסקומטר זה‪ ,‬ניתן לחשב‬
‫את צמיגות הנוזל על ידי מדידת הזמן שלוקח לכדור (בעל צפיפות וגודל ידועים) להתגלגל דרך מרחק ידוע‬
‫של הנוזל בתוך צינור בקוטר נתון‪ .‬בהנחה שזרימת הנוזל סביב הכדור הינה למינרית (לפי ריינולדס‬
‫מחושב)‪ ,‬ניתן לקבל את המהירות המכסימלית ‪ U max‬שהכדור יכול להגיע אליה מתוך הקשר‪:‬‬
‫‪  f‬‬
‫‪x‬‬
‫‪C b‬‬
‫‪t‬‬
‫‪‬‬
‫‪U max ‬‬
‫(‪)4‬‬
‫‪4‬‬
‫כאשר ‪  b‬ו‪  f -‬הם צפיפויות הכדור והנוזל‪ ,‬בהתאמה‪  ,‬היא הצמיגות הדינמית של הנוזל עם יחידות‬
‫של ‪ , [ ]  Poise  P  g cm 1 s 1‬ו‪ C -‬הינו פרמטר אמפירי המקשר בין משתנים אלו לבין המהירות‬
‫המכסימלית‪ .‬הפרמטר ‪ C‬תלוי במבנה וחומרים מהם מורכב המתקן בו משתמשים‪ .‬בניסוי נמדוד את הזמן‬
‫‪ t‬הדרוש לכדור להתגלגל מרחק מדוד וקבוע ‪ . x‬יש להניח כי הכדור מגיע למהירותו המכסימלית לפני‬
‫כניסתו לתחום המדידה בצינורית‪ ,‬והנוזל אחיד בכל נפח הכלי‪ .‬בנוסף‪ ,‬נניח שהכדור מתגלגל בנתיב ישר‬
‫ולא מחליק (נכון עבור זוויות גלגול קטנות ביחס לאופקי)‪ .‬מנוסחה ‪ 3‬ניתן לקבל את הצמיגות הדינמית על‬
‫ידי‪:‬‬
‫‪b   f‬‬
‫‪U max‬‬
‫‪ C‬‬
‫(‪)5‬‬
‫‪1‬‬
‫אם נניח כי מרחק הגלגול והצפיפויות נשארים קבועים‪ ,‬אז נקבל‪:‬‬
‫‪  Bt‬‬
‫(‪)6‬‬
‫‪6‬‬
‫כאשר‬
‫‪C b   f ‬‬
‫‪x‬‬
‫‪B‬‬
‫‪7‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 5‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫(‪)7‬‬
‫ד‪ .‬תחום העבודה של ויסקומטר כדור מתגלגל‬
‫ויסקומטר כדור מתגלגל מסוגל לתת לנו מדידה טובה ופשוטה של צמיגות נוזל בהנחה שזרימת הנוזל‬
‫סביב לכדור המתגלגל הינה למינרית‪ .‬זרימה למינרית מוגדרת כזרימה שכבתית ללא ערבוב בין השכבות‪.‬‬
‫זרימה למינרית תתקיים כאשר מספר ריינולדס ( ‪) Re‬יהיה קטן מערך קריטי‪ ,‬אותו נסמן ב‪ . Rec -‬את‬
‫מספר ריינולדס עבור הכדור המתגלגל דרך נוזל ניוטוני נחשב באמצעות‪:‬‬
‫‪d eff U max  f‬‬
‫‪‬‬
‫‪Re ‬‬
‫(‪)8‬‬
‫‪8‬‬
‫כאשר ‪ d eff‬הינו האורך המייצג את הנוזל הזורם סביב הכדור‪( ,‬כפי שמוצג באיור ‪2‬א)‪ ,‬והוא שווה‪:‬‬
‫‪deff  D  d‬‬
‫(‪)9‬‬
‫‪9‬‬
‫כאן‪ D ,‬ו‪ d -‬הינם קוטרו הפנימי של הצינור וקוטרו של הכדור‪ ,‬בהתאמה‪ .‬ידוע כי קיים קשר בין ‪ Rec‬לבין‬
‫יחס הקטרים ‪ ,d/D‬כפי שמוצג באיור ‪2‬ב‪ .‬ככל שהיחס גדל‪ ,‬כך גדל גם תחום ה‪ Re -‬שבו ניתן למדוד את‬
‫הצמיגות‪ .‬בניסויים שלנו‪ ,‬נוודא שמספר הריינולדס הינו מתחת לערך קריטי המתאים לקטרים שבהם‬
‫נשתמש‪ ,‬בכדי להבטיח זרימה למינרית בין הכדור לדופן הצינור‪.‬‬
‫ב‬
‫א‬
‫איור ‪ .2‬א‪ .‬סכימת חתך דרך כדור קשיח ומלא המתגלגל בתוך צינור המלא בנוזל שאת צמיגותו נרצה למדוד‪ - D .‬קוטרו הפנימי של הצינור‪d ,‬‬
‫ קוטרו של הכדור המתגלגל‪ - deff ,‬אורך מייצג של הנוזל הזורם סביב הכדור המתגלגל‪ .‬ב‪ .‬תלות של מספר ריינולדס קריטי ‪ Rec‬ביחס‬‫הקטרים של פנים הצינור (‪ )D‬והכדור (‪ ,)d‬עבור ויסקומטר כדור מתגלגל (‪.)Hubbard and Brown 1943‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 6‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ה‪ .‬התפלגות נורמלית‬
‫‪ .5‬התפלגות נורמלית‪ :‬מתארת התפלגות טבעית ובסיסית‪ ,‬ועל כן היא נקראת נורמלית‪ .‬תופעות‬
‫טבע ושלל תופעות אחרות‪ ,‬מראות את סוג התפלגות זו‪ ,‬שתוארה לראשונה על ידי גאוס בשנת‬
‫‪ ,1819‬ומכאן שמה השני‪ ,‬פעמון גאוס‪ .‬התפלגות פעמון זו מתוארת על ידי פונקצית גאוס‪ ,‬כדלהלן‪:‬‬
‫‪ 1  x   2 ‬‬
‫‪1‬‬
‫‪exp  ‬‬
‫‪ ‬‬
‫‪ 2‬‬
‫‪ 2    ‬‬
‫‪f X x  ‬‬
‫(‪)11‬‬
‫‪50‬‬
‫גרף של פונקצית התפלגות‪ ,‬לדוגמה עבור ממוצע אפס וסטיית תקן יחידה ‪   0‬ו‪   1 -‬ניתן‬
‫לראות באיור ‪3‬א‪( .‬מקרה זה נקרא התפלגות נורמלית תקנית)‪ .‬כפי שרואים‪ ,‬ההתפלגות הזו היא‬
‫בעלת מבנה סימטרי סביב ה‪ ,1-‬שהינו הממוצע‪.‬‬
‫‪x‬‬
‫‪Probability Function‬‬
‫‪Probability Distribution‬‬
‫א‬
‫ב‬
‫‪x‬‬
‫איור ‪ .3‬א‪ .‬התפלגות נורמלית תקנית של משתנה אקראי עם ממוצע אפס וסטיית תקן יחידה‪ .‬ב‪ .‬פונקצית‬
‫הסתברות נורמלית תקנית מצטברת‪.‬‬
‫‪ .2‬פונקצית ההסתברות הנורמלית המצטברת‪ :‬ההסתברות שמשתנה אקראי ‪ X‬יקבל ערך קטן מ‪-‬‬
‫‪ x‬ניתנת על ידי אינטגרציה של הביטוי במשוואה ‪ 11‬מ‪ -‬מינוס אינסוף עד ‪ .x‬איור ‪3‬ב מציג את‬
‫ההסתברות הזו כתלות ב‪ .x -‬אם נתייחס למשמעות של פונקצית הסתברות‪ ,‬נבחין כי ערכה הוא‬
‫אפסי בערכים נמוכים של ‪ ,x‬ושואפת ל‪ 1 -‬בערכים גבוהים‪ .‬המשמעות היא שההסתברות הולכת‬
‫וקטנה ש‪ X -‬יקבל ערך שקטן מהממוצע‪ .‬ההסתברות ש‪ X -‬יקבל ערך קטן מאינסוף הוא ‪ ,1‬כלומר‬
‫מלאה‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 7‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪ .3‬התפלגות ‪ :t‬בהרבה מקרים ניסיוניים‪ ,‬איננו יודעים את הפרמטרים האמיתיים ‪ μ‬ו‪ σ -‬של‬
‫התפלגות נורמלית‪ .‬לכן‪ ,‬משתמשים בהתפלגות ‪ ,t‬שלוקחת בחשבון את האי‪-‬ודאות הקיימת‬
‫בלקיחת דגימות סופיות מאוכלוסייה אינסופית‪ ,‬ומשערכת את התפלגותה האמיתית‪ .‬התיאוריה‬
‫מורכבת למדי ואיננו משתמשים בביטוי אנליטי כמו שהוצג עבור ההתפלגות הנורמלית‪.‬‬
‫השימוש בהתפלגות ‪ t‬דומה מאוד לשימוש בהתפלגות נורמלית‪ ,‬אך הדבר החשוב ביותר להבין על‬
‫התפלגות זו הוא שישנן אינסוף התפלגויות ‪ .t‬ההתפלגות מקבלת ערכים שונים (אך שומרת על‬
‫צורתה הכללית) כתלות במספר הדגימות שלוקחים מהאוכלוסייה שאותה בוחנים‪ .‬עקרון זה יגולם‬
‫בערך הנקרא דרגות החופש (‪ ,)df, degrees of freedom‬המסומן על ידי ‪ .v‬במקרה הספציפי‬
‫של התפלגות ‪ ,t‬מספר דרגות החופש שווה למספר הדגימות פחות אחד‪ .‬באופן מתמטי‬
‫(ואינטואיטיבי)‪ ,‬ככל שמספר דרגות החופש גדל‪ ,‬כך התפלגות ‪ t‬מתקרבת יותר להתפלגות‬
‫נורמלית (ראה גרף להלן)‪.‬‬
‫‪Probability Density‬‬
‫‪t‬‬
‫איור ‪ .4‬התפלגויות ‪ t‬כתלות במספר דרגות החופש ‪ .v‬ככל שישנן יותר דרגות חופש‪ ,‬כך ההתפלגות הולכת‬
‫ונעשת צרה יותר‪ ,‬גובה המקסימום גדל‪ ,‬וצורתה הכללית מתקרבת לזו של התפלגות נורמלית תקנית‪.‬‬
‫ה‪ .‬השערות (‪)Hypotheses‬‬
‫השערה מחקרית הינה התוצאה הצפויה בעקבות ניסוי‪ .‬התפקיד של השערה סטטיסטית יהיה לוודא‬
‫שהתוצאה שהתקבלה אכן משמעותית‪ .‬חוקר יכול לרצות להוכיח את השערתו שתרופה חדישה תרפה‬
‫מחלה מסוימת‪ ,‬ולשם כך הוא יבצע ניסוי ויפיק נתונים‪ .‬אם הוא יבצע את הניסוי על מספר אנשים‪ ,‬וכולם‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 8‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫הגיבו לתרופה באותה צורה‪ ,‬מבחינה סטטיסטית השערתו לא הוכחה או הופרכה‪ ,‬אלא נתמכה ברמת‬
‫סיכון מסוימת הנגרמת מאי‪-‬וודאות סטטיסטית‪.‬‬
‫השערות סטטיסטיות הינן הבסיס של מבחן סטטיסטי‪ .‬במבחן סטטיסטי‪ ,‬ישנן בדרך כלל שתי השערות‪,‬‬
‫הנקראות השערת האפס (‪ )H0‬וההשערה החלופית (‪ .)H1‬השערת האפס לרוב תהיה ההפך המוחלט של‬
‫ההשערה החלופית‪ .‬אם מדובר בתרופה אזי השערת האפס תהיה שהתרופה לא משפיעה על מדד מסוים‪.‬‬
‫השערת ‪ H1‬היא בדרך כלל ההשערה המחקרית‪ ,‬שאותה החוקר היה רוצה להוכיח‪ .‬ניתן גם לנסח מבחן‬
‫עם יותר מהשערה חלופית אחת‪.‬‬
‫המבחן הסטטיסטי בוחן את ההסתברות שהשערת האפס אכן ניתנת לדחייה ו‪ H1 -‬ניתנת לקבלה‪.‬במקביל‬
‫אם המבחן הסטטיסטי מאפשר דחיית ‪ H0‬אך זה קרה רק בשל חוסר דגימה או רעשים‪ ,‬נוכל לדעת מה‬
‫ההסתברות שקיבלנו ”‪ “false positive‬שבו ‪ H1‬נראה נכון אבל בעצם אינו (זוהי רמת המובהקות של‬
‫הנתונים שלנו)‪ .‬מגבלתו העיקרית של המבחן היא שאינו יכול להוכיח את ‪ H1‬חד משמעית‪ ,‬אלא רק לדחות‬
‫את ‪ H0‬ביחס ל‪ H1 -‬ברמת סיכון מסוימת הנקראת מובהקות‪.‬‬
‫ו‪ .‬מבחנים סטטיסטיים‬
‫‪ .5‬מבנה וגישה למבחנים סטטיסטיים‪ :‬כל מבחן סטטיסטי בנוי משלושה רכיבים מרכזיים‪.‬‬
‫א‪.‬‬
‫הגדרת ההשערות הסטטיסטיות ‪ H0‬ו‪ .H1 -‬כפי שהוסבר לעיל‪ ,‬בדרך כלל ‪ H1‬ייצג בעבורנו את‬
‫ההשערה המחקרית אותה נרצה לבדוק באמצעות המבחן‪.‬‬
‫ב‪.‬‬
‫ציון ההנחות שאותן יש להניח‪ .‬ביניהן‪ ,‬לפעמים יש להניח שמשתנה אקראי מתפלג לפי פילוג‬
‫נורמלי‪ ,‬ולפעמים יש להניח אחרת‪ ,‬בכדי שהנוסחות המשמשות במבחן הסטטיסטי יקבלו‬
‫תוקף‪ .‬חשוב לדעת מה אנחנו מניחים ולכן מה המגבלות בשיטה‪ ,‬בלי "לירות באפלה"‪.‬‬
‫במעבדה זו נעסוק רק במשתנים אקראיים המתפלגים נורמלית‪ ,‬ובעלי סטיית תקן שווה אך לא‬
‫ידועה מראש‪ .‬יש לזכור כי כל מבחן דורש הנחות מסויימות‪ ,‬וייתכן מאוד שתיתקלו במהלך‬
‫הקריירה שלכם (במחקר או בתעשיה) במבחנים סטטיסטיים בהם נדרש להניח התפלגות‬
‫אחרת מהנורמלית‪ .‬יש לתת לכך תשומת לב רבה! די בהנחה שגויה‪ ,‬ומסקנה יכולה להיות‬
‫מוטעת לחלוטין‪.‬‬
‫ג‪.‬‬
‫הגדרת רמת המובהקות הנדרשת‪ ,‬מסומנת על ידי ‪ .α‬רמת מובהקות היא הסף לקביעה אם‬
‫ניתן לדחות את השערת האפס‪ .‬מתוקף הגדרתה‪ ,‬היא גם נותנת לחוקר ידע מסוים על החוזק‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 9‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫של תוצאת המבחן‪ .‬ככל שרמת המובהקות הנדרשת קטנה יותר‪ ,‬כך המבחן מחמיר יותר‪ .‬כפי‬
‫שנראה בהמשך‪ ,‬להחמרה או הקלה של מבחן סטטיסטי השלכות על תוצאות המבחן‪ .‬הדרך‬
‫הנכונה ביותר לתכנן ניסוי היא לקבוע את רמת המובהקות הרצויה ולפיה לתכנן את מהלך‬
‫הניסוי (גודל המדגם וכד')‪.‬‬
‫קיימים הרבה סוגי מבחנים סטטיסטיים‪ .‬כדי להבין את מרביתם‪ ,‬נלמד על מבחן ‪ t‬השוואתי‪.‬‬
‫‪ .2‬מבחן ‪ t‬השוואתי (‪ :)Student’s t-test for differences‬במבחן זה‪ ,‬נבדקים הבדלים בממוצעים‬
‫של שתי התפלגויות נורמליות‪ ,‬כאשר ההנחה היא שסטיות התקן שלהן שוות אך לא ידועות‪ .‬נקרא‬
‫להתפלגות אחת ‪ X1‬ולהתפלגות השנייה ‪ .X2‬נניח שההתפלגויות של האוכלוסיות הן בעלות צפיפות‬
‫כמוצג באיור ‪ .5‬מכל אוכלוסיה לקחנו ‪ n1‬ו‪ n2 -‬דגימות בהתאם‬
‫(‪X1‬‬
‫ו‪-‬‬
‫‪X2‬‬
‫הם הממוצעים של‬
‫הדגימות)‪ .‬אם נרצה לבחון האם ‪ X1‬שונה משמעותית מ‪ ,X2 -‬אנו נבצע מבחן דו‪-‬צדדי‪ ,‬וההשערות‬
‫למבחן זה הינן‪:‬‬
‫‪H 0 : 1   2‬‬
‫‪H 1 : 1   2‬‬
‫(‪)11‬‬
‫‪55‬‬
‫ראשית‪ ,‬כדי להבין את עקרונות המבחן‪ ,‬נתבונן במקרה פשוט יותר‪ ,‬שהוא מבחן חד‪-‬צדדי‪:‬‬
‫‪H 0 : 1   2‬‬
‫‪H 1 : 1   2‬‬
‫‪52‬‬
‫המשמעות של מבחן חד‪ -‬או דו‪-‬צדדי וכיצד מבצעים מבחן דו‪-‬צדדי יוסברו בהמשך‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 11‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫(‪)12‬‬
‫‪d  X 2  X1‬‬
‫איור ‪ .1‬שתי התפלגויות נורמליות‪ ,‬בעלות הפרש ממוצע ‪. d‬‬
‫ההפרש בין ממוצעי ההתפלגויות יסומן ‪ . d‬למרות שנראה שההתפלגויות בעלות ממוצעים שונים‪,‬‬
‫האם ‪ d‬גדול מספיק באמות מידה סטטיסטיות? כדי לענות על שאלה זו ולנסות לדחות את השערת‬
‫האפס‪ ,‬צריכים לחשב משתנה אקראי שייצג את ‪ , d‬מתוך ההתפלגויות ‪ X1‬ו‪ X2 -‬וההשערות‬
‫הסטטיסטיות ‪ H0‬ו‪ .H1 -‬משתנה אקראי חדש זה‪ ,‬אשר מתפלג לפי התפלגות ‪ ,t‬נקרא גם ה‪-‬‬
‫"‪ "Statistic‬של המבחן‪ ,‬והוא מחושב על ידי נוסחה ‪ .13‬מספר דרגות החופש הם‬
‫‪.   1  2  n1  1  n2  1  n1  n2  2‬‬
‫‪‬‬
‫‪ X 1  2  1  d  ‬‬
‫‪‬‬
‫‪Sd‬‬
‫‪Sd‬‬
‫‪2‬‬
‫‪X‬‬
‫‪t‬‬
‫(‪)13‬‬
‫‪53‬‬
‫כאשר ‪ ,   2  1‬והאיבר ‪ S d‬מייצג את השונות המשוערכת של ההפרש בין המשתנים‬
‫האקראיים‪ ,‬והוא מחושב על ידי השונויות המדגמיות של ‪ X1‬ו‪ X2 -‬בנוסחה ‪:14‬‬
‫‪S12 S 22‬‬
‫‪‬‬
‫‪n1 n2‬‬
‫‪Sd ‬‬
‫(‪)14‬‬
‫‪54‬‬
‫במבחן‪ ,‬אנו מעוניינים לדחות את ההשערה שבה ‪ .  H 0    0  0‬עבור השערת האפס‪,‬‬
‫‪ . t H 0  t  0   t 0‬עבור ההשערה המשנית‪. t H 1  t 1  ,‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 11‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫כדי להמשיך בניתוח הסטטיסטי‪ ,‬נשאלת השאלה מהי ההסתברות ש‪ t -‬למעשה מתפלג סביב אפס‬
‫(הנחת ‪ H0‬נכונה)? אם ההסתברות הזו תהיה קטנה מספיק‪ ,‬נוכל להסיק שהוא לא מתפלג סביב‬
‫אפס‪ ,‬ולכן גם ‪ d‬שונה מאפס‪ ,‬וניתן יהיה לדחות את ‪ .H0‬ההסתברות הזו היא ה‪ p-value -‬של‬
‫המבחן‪ .‬ערך זה בדרך כלל מדווח עם תוצאות ניסוי כדי להראות שנעשתה בדיקה סטטיסטית ומה‬
‫טיבה‪ .‬מהי הסתברות ‪ p-value‬קטנה מספיק? הערך הגדול ביותר ש‪ p-value -‬יכול לקבל בשביל‬
‫לדחות את ‪ H0‬הוא רמת המובהקות (‪.)α‬‬
‫רמת המובהקות גם נקראת שגיאה מסוג ‪ I‬או ההסתברות ל‪ .“false positive” -‬אם ה‪p-value -‬‬
‫קטן מ‪ ,α -‬נוכל לדחות את השערת האפס‪ .‬את הערך של ‪ α‬יש לקבוע מראש‪ ,‬לפני תחילת הניסוי‪.‬‬
‫ברוב המקרים נהוג לקבוע ‪ α = 0.05‬או ‪ ,α = 0.01‬אך לעיתים נדרש אף להחמיר (ויתרה על כך‪,‬‬
‫אם אפשר להחמיר ללא מאמץ יתר‪ ,‬כדאי)‪ .‬כדי לבצע את המבחן הסטטיסטי‪ ,‬יש צורך לתרגם את‬
‫‪ α‬לערך הקריטי *‪ t‬לבדיקה שתאפשר דחיית ‪ .H0‬במקרה של מבחן חד‪-‬צדדי‪ ,‬מוצאים את *‪ t‬מתוך‬
‫טבלה (נספח ב') כך שמתקיים‪,‬‬
‫‪  Pt H 0  t*,   Pt H 0  t1  ‬‬
‫‪  n1  n2  2‬‬
‫(‪)15‬‬
‫‪51‬‬
‫ישנה גם שגיאה מסוג ‪ ,)β( II‬המייצגת את ההסתברות ש‪ t -‬לא מתפלג לפי ‪ H0‬למרות שלא דחינו‬
‫אותה )‪ .(false negative‬אם קיבלנו הפרש ‪ , d‬ונניח ‪  H1   1‬שמתאים להשערה ‪ H1‬שלנו‪,‬‬
‫אזי‪,‬‬
‫‪‬‬
‫‪ t , ‬‬
‫‪‬‬
‫‪ d  1‬‬
‫‪  Pt*  t H 1 ,   P‬‬
‫‪ Sd‬‬
‫‪  n1  n2  2‬‬
‫‪.‬‬
‫(‪)16‬‬
‫‪56‬‬
‫בחירת ‪  1‬הינה שרירותית בשביל לחשב את ‪ . ‬בהמשך נראה כיצד נשתמש בבחירת ‪  1‬בשביל‬
‫לתכנן ניסוי עם ‪ ‬רצוי‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 12‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ב‬
‫איור ‪ 6‬מוצגות שתי התפלגויות‪ :‬השמאלית מתארת את ההתפלגות של ‪ d‬תחת ‪ ,H0‬והימנית את‬
‫ההתפלגות תחת ‪ .H1‬רמת המובהקות שלנו הכתיבה את ה‪,)"Rejection Threshold"( t* -‬‬
‫והמשתנה הסטטיסטי ‪ t‬שלנו (‪ )t-statistic‬גדול מ‪ .t* -‬לכן בדוגמה מאוירת זו ניתן לראות שאפשר‬
‫לדחות את ‪ .H0‬השגיאה מהסוג ה‪ II -‬מחושבת על ה"זנב" של ההתפלגות של ‪( H1‬לכן לוקחים‬
‫‪ )    H1 ‬שנכנס לתוך התחום של ההתפלגות של ‪ .H0‬במילים אחרות‪ ,‬אנו בודקים את הסיכוי‬
‫שהפעמון הימני (של ‪" )H1‬מתחזה" לפעמון השמאלי (של ‪.)H0‬‬
‫‪Probability Density‬‬
‫‪d‬‬
‫איור ‪ .6‬סכימת דחיית השערת האפס‪ ,‬והשגיאות‪ .‬פעמון שמאלי‪ -‬התפלגות ‪ d‬בהנחת ‪ .H0‬פעמון ימני‪ -‬התפלגות ‪d‬‬
‫בהנחת ‪ .H1‬שטח מסומן משמאל בירוק‪ -‬שגיאה מסוג ‪ )β( II‬של המבחן הסטטיסטי‪ .‬שטח מסומן מימין בפסים‬
‫כחולים ‪ -‬שגיאה מסוג ‪ )α( I‬של המבחן הסטטיסטי‪ .‬שטח מסומן מימין לקו הנקרא "‪ "t-statistic‬ובאדום‪p-Value -‬‬
‫של תוצאות הניסוי‪.‬‬
‫ההסתברויות המשלימות של שני סוגי השגיאות הן הדיוק (‪ )specificity‬והעוצמה (‪.)power‬‬
‫הדיוק‪ ,‬ששווה ל‪ ,(1-α) -‬מתייחס להסתברות שאי‪-‬דחיית ‪ H0‬מוצדקת‪ .‬לעומת זאת‪ ,‬העוצמה )‪(1-β‬‬
‫מתייחסת להסתברות ש‪ H1 -‬הוא נכון בהינתן שדחינו את ‪ .H0‬כדי לחשב את העוצמה‪ ,‬נדרש‬
‫להניח ‪ d‬מסוים (נניח אפשרות ממרחב האפשרויות שמכתיבה ‪ ,H1‬כלומר ‪ ) 1   2‬ולחשב את ‪.β‬‬
‫בהמשך נראה כיצד ניתן לנצל את ההנחה של ‪ d‬בכדי לתכנן ניסוי כך שתתקבל עוצמה )‪(1-β‬‬
‫רצויה‪ .‬ניתן לראות בטבלה ‪ 1‬את סיכום שני סוגי השגיאות וההסתברויות המשלימות שלהם‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 13‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫תוצאה‬
‫לדחות את ‪H0‬‬
‫לא לדחות את ‪H0‬‬
‫אמת‬
‫‪ H0‬נכון‬
‫‪ H1‬נכון‬
‫‪Type I Error, or‬‬
‫)‪False Positive (α‬‬
‫)‪Power (1-β‬‬
‫)‪Specificity (1-α‬‬
‫‪Type II Error, or‬‬
‫)‪False Negative (β‬‬
‫טבלה ‪ .5‬שני סוגי השגיאות וההסתברויות המשלימות שלהם‪.‬‬
‫‪ .3‬מבחן דו‪-‬צדדי‪ :‬במבחן דו‪-‬צדדי נרצה לבדוק אם ממוצע של אוכלוסייה אחת שונה מזה של‬
‫אוכלוסיה שנייה‪ ,‬וה‪ p-value -‬יחושב תחת התפלגות ‪ t‬משני צידי ההתפלגות‪ .‬לכן‪ ,‬ה‪ α -‬שקבענו‬
‫מתחלק באופן שווה על שני צידי התפלגות ‪ .t‬כדי לדחות את השערת האפס נדרוש ש‪t> t* -‬‬
‫ושיתקיים ‪2  Pt  t*,   Pt  t*, ‬‬
‫‪ . ‬כאן עדיין ‪ ,  n1  n2  2‬כמו במבחן החד‪-‬צדדי‪.‬‬
‫בהתאם לכך‪ ,‬ערך הסף ייחשב על ידי‪ . t*  t1 2   ,‬בגלל שההתפלגות סימטרית‪ ,‬בודקים רק‬
‫את אחד מההסתברויות הנ"ל‪ .‬חישובי ה‪ p-value -‬והעוצמה משתנים גם הם‪ .‬למעט אלו‪ ,‬מבחן דו‪-‬‬
‫צדדי מתבצע באופן זהה למבחן חד‪-‬צדדי‪.‬‬
‫‪ .4‬תכנון גודל מדגם – אנליזת עוצמה (עבור מבחן ‪ t‬השוואתי)‪ :‬ראינו שככל שמספר הדגימות גדל‪,‬‬
‫כך גם מספר דרגות החופש של פילוג ‪ t‬גדל והוא מקרב ברמה טובה יותר את הפילוג הנורמלי‪ .‬לפי‬
‫כך‪ ,‬נרצה גודל מדגם גדול ככל האפשר כדי לשפר את הסטטיסטיקה‪ .‬אך במקרים כגון במחקרים‬
‫קליניים אנושיים וניסויים בחיות רצוי להקטין ככל האפשר את מספר ה"דגימות" הנדרש כדי להקטין‬
‫עלויות וסיכונים‪ .‬האופטימיזציה אותה נבצע היא תכנון גודל מדגם‪ ,‬שיבוצע על ידי בחינת עוצמת‬
‫המבחן הסטטיסטי‪.‬‬
‫בכדי לבצע תכנון גודל מדגם בשיטת אנליזת עוצמה‪ ,‬יש לקבוע את רמת המובהקות ‪ ,α‬העוצמה‬
‫הרצויה למבחן ‪ ,1-β‬ואת ההבדל ‪ d‬המינימלי המשמעותי ( ‪ ) d min‬שאותו נרצה לזהות באמצעות‬
‫המבחן‪ .‬במקרים רבים מקובל ש‪ , 1   = 0.8 ,  = 0.05 -‬אך ניתן לבצע את התכנון לפי ערכים‬
‫אחרים‪ .‬ככל שמקטינים את רמת המובהקות ומגדילים את העוצמה‪ ,‬כך תוצאות המבחן יותר‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 14‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫אמינות (יותר מחמירות)‪ .‬חשוב לציין שאם בוחרים ‪ , ‬קטנים מידי המסקנות יכולות להוביל ל‪-‬‬
‫‪ false negative‬כאשר‪ ,‬למשל‪ ,‬נחליט שאין הבדל בין אוכלוסיות כשבעצם יש‪ .‬כאן נפתח את‬
‫השיטה עבור המבחן החד‪-‬צדדי‪.‬‬
‫למציאת מספר הדגימות ‪ n‬המינימלי הדרוש (מכל קבוצה)‪ ,‬נניח כי השונות ידועה (מנחשים אותה‬
‫אם אין ידע קודם) וקבועה עבור שתי אוכלוסיות ‪ X1‬ו‪ .X2 -‬נניח שנרצה למצוא ‪ d min‬בין הממוצעים‬
‫של האוכלוסיות ‪ 1‬ו‪ ,  2 -‬במבחן חד‪-‬צדדי המנוסח כמו בביטוי ‪ ,12‬שבו יתקבלו ‪ α‬ו‪ β -‬מסוימים‪.‬‬
‫מכיוון שאנו דנים במציאת גודל המדגם המינימלי‪ ,‬אין אנו יודעים את דרגות החופש ‪ v‬שיתקבלו‬
‫במבחן‪ .‬לכן אנו נניח כי ישנן אינסוף דרגות חופש‪ .‬במקרה כזה‪ ,‬אנו עוסקים בהתפלגות נורמלית‬
‫תקנית והיא מסומנת על ידי האות ‪. t p     Z p :Z‬‬
‫‪Z p  t p    ‬‬
‫‪p  Pt  t p ,   ‬‬
‫(‪)17‬‬
‫‪57‬‬
‫מצד אחד‪ ,‬נדרוש שההסתברות ‪ α‬תקיים עבור ערך קריטי מסוים ‪,m1‬‬
‫‪m1  1 ‬‬
‫‪‬‬
‫‪ X 1 ‬‬
‫‪‬‬
‫‪  PZ  Z1   P Z ‬‬
‫‪‬‬
‫(‪)18‬‬
‫‪58‬‬
‫מצד שני‪ ,‬נדרוש שההסתברות ‪ β‬תקיים עבור ערך קריטי מסוים ‪,m2‬‬
‫‪‬‬
‫‪  m2 ‬‬
‫‪‬‬
‫‪1    PZ  Z1   P Z  2‬‬
‫‪‬‬
‫‪X2‬‬
‫‪‬‬
‫‪‬‬
‫‪59‬‬
‫בביטוי הימני ביותר‪ ,‬הסדר הוחלף בין ‪  2‬ל‪ m2 -‬כדי שהשבר יהיה חיובי‪ .‬השונויות‬
‫(‪)19‬‬
‫‪  X 1‬ו‪ X 2 -‬‬
‫מייצגות את שונויות הדגימה של המשתנים האקראיים ‪ X1‬ו‪ .X2 -‬כאשר דוגמים ‪ n‬פעמים באוכלוסיה‬
‫בעלת שונות ידועה ‪ , ‬השונות של המדגם תהיה ‪ .  / n‬משום שהנחנו כי השונויות של ‪ X1‬ו‪X2 -‬‬
‫זהות‪ ,‬מתקבל‪:‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 15‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪‬‬
‫‪n‬‬
‫‪ X1   X 2 ‬‬
‫(‪)21‬‬
‫‪20‬‬
‫נציב את נוסחה ‪ 21‬בתוך הביטוי עבור ‪ Z ‬ונקבל‪:‬‬
‫‪m1  1‬‬
‫‪‬‬
‫‪n‬‬
‫‪Z1 ‬‬
‫(‪)21‬‬
‫‪25‬‬
‫ומכאן נובע שהערך הקריטי של רמת המובהקות הוא‬
‫‪Z1‬‬
‫‪‬‬
‫‪n‬‬
‫‪m1  1 ‬‬
‫(‪)22‬‬
‫‪22‬‬
‫במבחן הסטטיסטי חישוב ההסתברויות ‪ α‬ו‪ β -‬נעשה עבור אותו ערך קריטי ולכן‬
‫‪m1  m2‬‬
‫(‪)23‬‬
‫‪23‬‬
‫בהצבת נוסחות ‪ 21‬ו‪ 22 -‬לתוך הביטוי עבור ‪ Z1‬מתקבל‬
‫‪‬‬
‫‪‬‬
‫‪Z1 ‬‬
‫‪n‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫‪ 2   1 ‬‬
‫‪‬‬
‫‪‬‬
‫‪Z1  ‬‬
‫(‪)24‬‬
‫‪24‬‬
‫ולאחר העברת אגפים‬
‫‪ Z1    2  1  d min‬‬
‫‪1 ‬‬
‫‪Z‬‬
‫‪‬‬
‫‪n‬‬
‫‪.‬‬
‫(‪)25‬‬
‫‪21‬‬
‫לבסוף‪ ,‬נמצא את ה‪ n-‬המינימלי לתכנון הניסוי‪:‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪Z1  Z1 ‬‬
‫‪‬‬
‫‪ d min‬‬
‫‪‬‬
‫‪nmin‬‬
‫‪26‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 16‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫(‪)26‬‬
‫אם לא ידועה לנו סטיית התקן התיאורטית‪ ,‬נחליף אותה בסטיית תקן מדגמית אותה נקבל מניסוי‬
‫מקדים‪:‬‬
‫‪2‬‬
‫‪ S‬‬
‫‪Z1  Z1 ‬‬
‫‪‬‬
‫‪ d min‬‬
‫‪‬‬
‫‪nmin‬‬
‫(‪)27‬‬
‫‪27‬‬
‫הערה‪ :‬באופן מעשי‪ ,‬כיוון שיש ל‪ S -‬תלות במספר הדגימות‪ ,‬החוקר נאלץ לעשות כאן אחד‬
‫משלושה דברים‪ :‬הנחה ש‪ S -‬המחושב בניסוי המקדים משקף את הערך האמיתי של סטיית‬
‫התקן‪ ,‬הנחת ערך כלשהו של ‪ S‬ללא ביצוע ניסוי מקדים או ביצוע איטרציות של החישוב עד‬
‫להתייצבות הערך ‪.nmin‬‬
‫‪ .1‬מבחן לטיב התאמה ליניארי‪ :‬במעבדת "שיערוך וקידום שגיאות"‪ ,‬התאמתם קו בשיטת הריבועים‬
‫הפחותים עם משוואה מסוג ‪ . y  L1 x  L0‬עוד ראינו כיצד לחשב את מקדם טיב המתאם ‪ .r‬מקדם‬
‫הטיב אינו מייצג בלעדי או טוב במיוחד לאמינות הסטטיסטית של המתאם‪ ,‬אותה יש לבדוק בנפרד‪.‬‬
‫כיצד נבדוק אם הקו שהותאם בשיטה זו הוא אמין סטטיסטית? לשם כך ישנו מבחן ‪ t‬על השיפוע ‪L1‬‬
‫שנמצא‪ .‬אם ‪  1‬מייצג את ערכו האמיתי של ‪ , L1‬אזי ההשערה הסטטיסטית הינה‪:‬‬
‫‪H 0 : 1  0‬‬
‫‪H 1 : 1  0‬‬
‫(‪)28‬‬
‫‪28‬‬
‫למעשה‪ ,‬במבחן זה בודקים אם הקו שהתאמנו אינו יותר טוב מאשר קו אופקי (שיפוע שווה ‪.)1‬‬
‫כלומר‪ ,‬בודקים אם הערכים שמדדנו הם אקראיים סביב קבוע וניתנים לחיזוי על ידי הממוצע שלהם‬
‫בלבד (הקבוע ‪ L0‬בהתאמת הקו)‪ .‬שימו לב שמבחן זה הינו דו‪-‬צדדי‪ .‬מספר דרגות החופש במבחן‬
‫‪ t‬זה הינו מספר הדגימות (סה"כ) פחות ‪( 2‬כי ישנם ‪ 2‬פרמטרים במשוואה שהותאמה)‪:‬‬
‫‪t*  t1 / 2 n  2‬‬
‫‪29‬‬
‫אם ישנו רק פרמטר אחד‪ ,‬אז מספר דרגות החופש יהיה ‪.n-1‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 17‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫(‪)29‬‬
‫המשתנה הסטטיסטי ‪ t‬המחושב הינו‪:‬‬
‫‪L1  0‬‬
‫‪S L1‬‬
‫(‪)31‬‬
‫‪t‬‬
‫‪30‬‬
‫כאשר השונות של השיפוע ‪ L1‬משוערך על ידי‪:‬‬
‫‪S e2‬‬
‫‪n  1S x2‬‬
‫‪S L1 ‬‬
‫(‪)31‬‬
‫‪31‬‬
‫כאשר ‪ Se2‬הינה השונות של ההתאמה הליניארית‪ ,‬והיא מחושבת על ידי‪:‬‬
‫‪ y xi ‬‬
‫‪n‬‬
‫‪2‬‬
‫‪‬‬
‫‪i‬‬
‫‪y‬‬
‫‪i 1‬‬
‫‪S e2 ‬‬
‫(‪)32‬‬
‫‪32‬‬
‫מספר דרגות החופש של ההתאמה הליניארית‪ , ,‬הוא בהתאם להתאמה ומספר הדגימות‪ :‬אם‬
‫היו לכם ‪ ‬פרמטרים בהתאמה‪ ,‬מספר דרגות החופש יהיה ‪ .  n  ‬הערך ‪ Sx‬הוא השונות‬
‫של המשתנה של ציר ה‪ ,x -‬לפי הנוסחא לשונות מדגמית בנספח א‪ .‬בנוסף‪ yi ,‬הוא ערך ניסויי‬
‫(השייך למשתנה של ציר ה‪ ,)y -‬ו‪ y(xi) -‬הוא הערך המתקבל מההתאמה הליניארית כאשר מזינים‬
‫את הערך הניסויי ‪( xi‬השייך למשתנה של ציר ה‪ :)x -‬כלומר ‪. yxi   L1 xi  L0‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 18‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫חלק ב'‬
‫‪ .4‬דוח מכין‬
‫נא להגיש את הדו"ח המכין יחד עם קוד המטלב בהדפסה לפני ביצוע הניסוי במעבדה‪ .‬לפירוט על פקודות‬
‫מטלב‪ ,‬ראו נספח ה'‪.‬‬
‫‪ .1‬חשבו את משקל הסוכרוז שיש לערבב עם ‪ 31‬גרם מים מזוקקים כדי לקבל תמיסות סוכרוז בעלות‬
‫ריכוזים של ‪ 500Bx ,400Bx ,300Bx ,200Bx‬ו‪ .600Bx -‬להזכירכם‪ ,‬מעלה בריקס היא אחוז משקלי‬
‫של הסוכר בתמיסה‪ .‬הראו דוגמת חישוב עבור אחד הריכוזים‪.‬‬
‫‪ .2‬ויסקומטר כדור נופל מערב מדידת זמן נפילתו של כדור בתוך נוזל צמיג ניוטוני‪ .‬בויסקומטר זה‪,‬‬
‫המרחק בין הכדור לדפנות צריך להיות גדול לפחות פי ‪ 3‬מקוטר הכדור בכדי להזניח את הדפנות‪.‬‬
‫עבור ויסקומטר מסוג זה‪ ,‬בהנחה שמספר ריינולדס ‪ Re  U max d ‬נמוך‪ ,‬מתקיים הקשר‪,‬‬
‫‪  f d 2 g‬‬
‫‪s‬‬
‫‪‬‬
‫‪18‬‬
‫‪U max ‬‬
‫(‪)33‬‬
‫‪33‬‬
‫מתי לדעתכם עדיף השימוש בויסקומטר כדור נופל על פני ויסקומטר כדור מתגלגל‪ ,‬ולהיפך? מהם‬
‫יתרונותיו וחסרונותיו של ויסקומטר כדור נופל?‬
‫‪ .3‬בבדיקה שנעשתה על פרסומים בכתב העת היוקרתי "‪ "New England Journal of Medicine‬נמצא‬
‫שרק ב‪ 36% -‬מהמחקרים הקליניים שהציגו תוצאות שליליות היו בעלי עוצמה סטטיסטית גדולה‬
‫מספיק כך שיוכלו לזהות שינוי משמעותי (מתואר ע"י הגודל ‪ ) d min‬של ‪ ,50%‬ורק ב‪ 16% -‬מהמחקרים‬
‫יכלו לזהות שינוי משמעותי של ‪ .)Moher et al. 1994( 25%‬תארו בקצרה את ההשלכות של שימוש‬
‫במבחן ‪ t‬השוואתי עם מעט מידי דגימות‪ ,‬וכיצד יכול להיווצר מצב שבו מתקבלת תוצאה שלילית שגויה‬
‫(אי‪-‬דחיית ‪ .)H0‬הסבירו בקצרה מדוע לדעתכם תופעה זו קיימת‪ ,‬וציינו לפחות שתי דרכים כיצד ניתן‬
‫להתגבר עליה‪.‬‬
‫‪ .4‬נסחו מבחן דו‪-‬צדדי השוואתי הבודק אם יש הבדל בין שני משתנים אקראיים המתפלגים נורמלית ‪Y1‬‬
‫ו‪ .Y2 -‬למשתנים יש סטיית תקן זהה‪ ,‬ומהאוכלוסיות של כל אחד נלקחו ‪ n‬דגימות‪ .‬נסחו את החישוב‬
‫הכללי לעוצמת המבחן עבור הבדל ‪. d min‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 19‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪ .5‬במטלב‪ ,‬צרו שלושה וקטורים ‪ B ,A‬ו‪( C-‬בעלי ‪ 15‬איברים כל אחד) המתפלגים נורמלית עם ממוצעים‬
‫וסטיות תקן לפי טבלה ‪ .2‬הציגו היסטוגרמות עבור כל וקטור באמצעות פקודת ‪ .hist‬עדיף להשתמש‬
‫בפקודת ‪( subplot‬עם ‪ 3‬שורות ועמודה אחת) עבור כל משתנה בשביל תצוגה נוחה‪ .‬על גבי כל‬
‫היסטוגרמה הוסיפו עקומת התפלגות נורמלית (בצבע שונה) בעלת ממוצע וסטיית תקן כנתון בטבלה ‪2‬‬
‫(השתמשו בנוסחה ‪ 11‬ובפקודות ‪ .hold on/off‬הכפילו את העקומות בקבוע שרירותי כך שצורתן‬
‫הגאוסיאנית תהיה ברורה‪ .‬וודאו שלכל הגרפים טווחים זהים בצירי ‪ .Y ,X‬בנוסף‪ ,‬הציגו על גרף אחד‬
‫‪ ,boxplots‬עם ממוצעים‪ ,‬עבור הוקטורים שיצרתם‪.‬‬
‫‪C‬‬
‫‪B‬‬
‫‪A‬‬
‫‪14‬‬
‫‪11‬‬
‫‪10‬‬
‫‪μ‬‬
‫‪3‬‬
‫‪3‬‬
‫‪3‬‬
‫‪σ‬‬
‫טבלה ‪ .2‬פרמטרים סטטיסטיים עבור סעיף ‪.5‬‬
‫‪ .6‬נסחו מבחן ‪ t‬השוואתי חד‪-‬צדדי ובצעו אותו בין הוקטורים ‪ B‬ל‪ ,A -‬ובין הוקטורים ‪ C‬ל‪ ,A -‬מהנתונים‬
‫שייצרתם בסעיף ‪ .5‬במבחנים‪ ,‬בידקו את ההשערות שהממוצעים של ‪ B‬ו‪ C -‬גדולים מ‪ .A -‬בצעו את‬
‫המבחנים ברמת מובהקות של ‪ ,   0.05‬ושוב ברמת מובהקות של ‪ .   0.01‬הציגו תוצאות ותנו‬
‫הסבר קצר למשמעותן‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 21‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫חלק ג'‬
‫‪ .1‬תיאור הניסוי‬
‫ראשית נמצא את הקשר בין צמיגות תמיסת הסוכרוז לבין ריכוז הסוכרוז‪ ,‬על ידי זמן הגילגול של כדור‬
‫למרחק קבוע‪ .‬הפרמטרים המייצגים את הקשר הזה ייתנו עקום סטנדרט למדידת צמיגות‪ .‬בשלב הבא‪,‬‬
‫נמדוד את צמיגותן של שתי תמיסות סוכרוז בריכוזים לא ידועים‪ .‬בעיבוד הנתונים‪ ,‬נבצע מבחן סטטיסטי‬
‫לבדיקה אם שתי תמיסות אלו שונות אחת מהשניה‪.‬‬
‫ציוד‪:‬‬
‫‪)1‬‬
‫‪)2‬‬
‫‪)3‬‬
‫‪)4‬‬
‫‪)5‬‬
‫‪)6‬‬
‫‪)7‬‬
‫‪)8‬‬
‫מתקן ויסקומטר מפלסטיק‪ ,‬בעל ‪ 3‬זוויות שונות‪.‬‬
‫שבעה צינורות פרספקס (אורך – ‪ ~25‬ס"מ‪ ,‬קוטר פנימי ‪ 6.5‬מ"מ)‪.‬‬
‫שבעה כדורי נירוסטה (קוטר ‪ 6 -‬מ"מ‪ ,‬צפיפות – ‪.)7.8 g/cm3‬‬
‫חמש תמיסות סוכרוז בריכוזים שונים ידועים‪.‬‬
‫שתי תמיסות סוכרוז בריכוזים לא ידועים‪.‬‬
‫טיימר למדידת זמן גלגול הכדורים‪.‬‬
‫קליבר‪.‬‬
‫מד טמפרטורה‪.‬‬
‫מערכת הניסוי מוצגת באיור ‪ .7‬במערכת אפשרות לביצוע מדידת זמן גלגול בשלושה זוויות שונות‪ .‬בצידו‬
‫האחד נמצא חלקו העליון של הצינור‪ .‬בצידו השני נמצא חלקו התחתון של הצינור‪ .‬כאשר מוכנים להתחיל‬
‫בגלגול‪ ,‬מטים את הצינור מטה כך שהכדור יתחיל בגלגול והחלק התחתון של הצינור יושב היטב בגומחה‬
‫המתאימה לו‪.‬‬
‫ב‬
‫א‬
‫איור ‪ .7‬מערכת הניסוי‪ .‬א‪ .‬מבט על המערכת עם צינור מלא בתמיסת סוכרוז ‪ .200Bx‬ב‪ .‬מבט על החלק העליון של‬
‫הצינור‪ ,‬בו ניתן להבחין בכדור נירוסטה המוחזק על ידי מגנט‪ .‬הסרגל של סנטימטרים‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 21‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪ .6‬מהלך הניסויים‬
‫א‪ .‬תחילה‪ ,‬מדדו ורשמו את הטמפרטורה בחדר‪.‬‬
‫ב‪ .‬ניסוי ‪ :5‬עקום סטנדרט לצמיגות תמיסת סוכרוז‬
‫עבור כל תמיסת סוכרוז בריכוז ידוע‪ ,‬מידדו את הזמן הלוקח לכדור להתגלגל למרחק של ‪4‬‬
‫ס"מ‪ 11 ,‬פעמים לכל תמיסה‪.‬‬
‫‪ )1‬וודאו שהצינורות למדידות צמיגות מלאים עד הסוף בתמיסה‪ ,‬שאינם מטפטפים ושהכדור‬
‫בפנים‪ .‬רישמו את המיקום החריץ במתקן הויסקומטר שבו תבצעו את הניסוי‪ ,‬לפי‬
‫הוראותיו של המדריך‪.‬‬
‫‪ )2‬סמנו על הצינוריות שקיבלתם שני סימונים באמצעות טוש‪ ,‬כאשר המרחק בין הסימונים‬
‫הוא לפחות ‪ 4‬ס"מ‪ .‬מרחק זה יהיה מרחק הבקרה בו תמדדו את זמן (ומהירות) הגלגול‪.‬‬
‫‪ )3‬שחררו את הכדור כך שיתחיל להתגלגל מעל לקו שחור חיצוני המסומן על הצינורית (ראה‬
‫‪ .) )4‬המרחק בין זוג קווים שחורים חיצוני ופנימי הוא המרחק המינימלי הדרוש להשלמת‬
‫התאוצה של הכדור ולהגעה למהירות קבועה‪.‬‬
‫‪ )5‬כאשר הכדור חולף על פני סימון העליון שסימנתם‪ ,‬התחילו במדידת זמן הגלגול באמצעות‬
‫הטיימר‪ .‬כאשר הכדור חולף על פני הסימון התחתון של שסימנתם‪ ,‬עיצרו את הטיימר‪.‬‬
‫‪ )6‬רישמו את זמן הגלגול אותו מדדתם‪ ,‬וחיזרו שוב על שלבים ‪ ,4-7‬סך הכל ‪ 11‬חזרות עבור‬
‫כל תמיסה‪.‬‬
‫הערה‪ :‬ניתן לתת לכדור להתגלגל עד סוף הצינור‪ ,‬ולהפוך אותו בין מדידות עוקבות‪.‬‬
‫ג‪ .‬ניסוי ‪ :2‬תמיסות לא ידועות‬
‫עבור שתי תמיסות בריכוזים לא ידועים‪ ,‬בצעו מדידת זמני הגלגול של כדורים באותו אופן כמו‬
‫בניסוי ‪ 1‬לעיל‪ .‬רישמו לפניכם את השמות של התמיסות‪ ,‬וציינו אותם בדו"ח המסכם‪.‬‬
‫איור ‪ .8‬צינורית אחת‪ ,‬בה רואים את הקווים השחורים‪ .‬כל זוג קווים מסמן את המרחק המינימלי שנדרש בשביל‬
‫שהכדורים יגיעו למהירות הגלגול המקסימלית שלהם‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 22‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫חלק ד'‬
‫‪ .7‬ניתוח תוצאות‬
‫כל העבודה‪ ,‬כולל יצירת גרפים‪ ,‬צריכה להיות במטלב‪ .‬לפירוט על פקודות מטלב‪ ,‬ראו נספח ה'‪.‬‬
‫א‪ .‬ציינו לפחות ‪ 3‬מקורות לשגיאה ואת סוג השגיאה בניסויים שביצעתם‪ .‬אין צורך בחישובים‪.‬‬
‫ב‪ .‬חשבו את מספר ריינולדס הממוצע עבור כל תמיסת סוכרוז בריכוז ידוע‪ ,‬ובידקו כי למינריות‬
‫מתקיימת (איור ‪2‬ב)‪ .‬שימו לב שאם למינריות לא מתקיימת עבור נתונים מסויימים‪ ,‬לא ניתן‬
‫להשתמש בהם ויש להשמיטם‪.‬‬
‫ג‪ .‬בעזרת הנתונים בנספח ג'‪ ,‬התאימו קו ישר בשיטת הריבועים הפחותים עבור תמיסות סוכרוז‬
‫בתחום ‪ 00Bx – 300Bx‬בטמפרטורה שבה ביצעתם את הניסוי (השתמשו בפונקציה ‪.)fit‬‬
‫המשתנה הבלתי תלוי הוא אחד חלקי ריכוז הסוכרוז‪ ,‬והמשתנה התלוי הוא אחד חלקי צמיגות‬
‫התמיסה‪ .‬מיצאו את ‪ r2‬של ההתאמה‪ .‬הציגו יחד על אותו הגרף את הנתונים‪ ,‬הקו‬
‫שהתאמתם‪ ,‬את משוואת הקו ואת ה‪ r2 -‬של ההתאמה‪.‬‬
‫ד‪ .‬לכל הנתונים שאספתם מתמיסות הסוכרוז בריכוזים ידועים (ניסוי ‪ )1‬התאימו קו ישר בשיטת‬
‫הריבועים הפחותים (השתמשו בפונקציה ‪ .)fit‬המשתנה הבלתי תלוי הוא צמיגות התמיסה‬
‫והמשתנה התלוי הוא זמן הגלגול‪ .‬מיצאו את ‪ r2‬של ההתאמה‪ .‬הציגו על אותו הגרף את כל‬
‫הנתונים‪ ,‬הקו שהתאמתם‪ ,‬את משוואת הקו ואת ה‪ r2 -‬של ההתאמה‪.‬‬
‫ה‪ .‬חשבו את ריכוזי הסוכרוז (ממוצעים) של התמיסות הידועות באמצעות הקשרים שמצאתם‬
‫בסעיפים ג' ו‪ -‬ד‪ .‬הציגו היסטוגרמות עבור ריכוז הסוכרוז המחושב לכל תמיסה ידועה‪ .‬בשביל‬
‫תצוגה נוחה‪ ,‬עדיף להשתמש בפקודת ‪ subplot‬עם ‪ 5‬שורות ועמודה אחת‪ .‬על גבי כל‬
‫היסטוגרמה הוסיפו עקומת התפלגות נורמלית (בצבע שונה) בעלת ממוצע וסטיית תקן‬
‫מדגמית (השתמשו בנוסחה ‪ 11‬ובפקודות ‪ .)hold on/off‬הכפילו את העקומות בקבוע שרירותי‬
‫כך שצורתן הגאוסיאנית תהיה ברורה‪ .‬וודאו שלכל הגרפים טווח זהה בצירים ‪ X‬ו‪.Y -‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 23‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ו‪ .‬הציגו על גרף אחד ‪( boxplots‬עם ממוצעים) של ריכוזי הסוכרוז המחושבים (כל הנתונים)‬
‫עבור התמיסות בריכוזים ידועים‪ .‬ציר ‪ X‬הוא ריכוזי הסוכרוז הידועים‪ ,‬וציר ‪ Y‬ריכוזי הסוכרוז‬
‫המחושבים‪ .‬וודאו שלכל הגרפים טווח זהה בציר ‪ Y‬בשביל שיהיה ניתן להשוות ביניהם‪.‬‬
‫ז‪ .‬בצעו מבחן ‪ t‬דו‪-‬צדדי לשיפוע הקוו שהתאמתם בסעיף ד'‪ .‬הציגו את חישוביכם ודונו‬
‫במשמעויות התוצאות‪ .‬השתמשו בפונקציית ‪ tinv‬למציאת הערך הקריטי *‪ ,t‬תוך וידוי כי‬
‫קיבלתם את הערך הנכון על ידי נספח ב'‪.‬‬
‫ח‪ .‬מיצאו את ריכוזי הסוכרוז (ממוצעים) בשתי התמיסות הלא ידועות שבדקתם באמצעות‬
‫ההתאמות הליניאריות מסעיפים ג' ו‪ -‬ד'‪ .‬הציגו על גרף אחד את הקו שהתאמתם בסעיף ג'‬
‫ואת הריכוזים המחושבים של שתי התמיסות הלא ידועות‪ .‬בנוסף‪ ,‬הציגו היסטוגרמות עבור כל‬
‫תמיסה לא ידועה‪ ,‬ו‪( boxplots -‬עם ממוצעים)‪.‬‬
‫ט‪ .‬בצעו מבחן ‪ t‬השוואתי דו‪-‬צדדי לריכוזי הסוכרוז של התמיסות הלא ידועות שבדקתם‪ .‬הציגו‬
‫את חישוביכם‪ .‬השתמשו בפונקציית ‪ tinv‬למציאת הערך הקריטי *‪ ,t‬תוך וידוי כי קיבלתם את‬
‫הערך הנכון על ידי נספח ב'‪.‬‬
‫י‪.‬‬
‫מבין כל התמיסות הידועות שבחנתם‪ ,‬מצאו את סטיית התקן הגדולה ביותר של הצמיגות‬
‫המחושבת מתוך ההתאמה הליניארית מסעיף ד'‪ .‬ערך זה יהווה חסם עליון לניחוש של סטיית‬
‫התקן של צמיגות תמיסת סוכרוז במעבדה זו (נסמן אותה ‪ S‬והיא תחליף את ‪ σ‬התיאורטי)‪.‬‬
‫נניח ש‪ S -‬נכון לכל ריכוז סוכרוז‪ .‬מיצאו את מספר הדגימות המינימלי שצריך לאסוף מכל‬
‫תמיסה לא ידועה‪ ,‬כדי למצוא הבדל מינימלי בריכוז הסוכרוז של ‪( d min  5o Bx‬בטווח הריכוזים‬
‫שמצאתם בסעיף ח' עבור התמיסות הלא ידועות) ברמת מובהקות ‪ α=0.05‬ועוצמה ‪.1-β=0.8‬‬
‫יש לתרגם את ‪ d min‬ל‪  min -‬באמצעות הקשר הליניארי שמצאתם בין צמיגות לריכוז‪ .‬הראו‬
‫את חישוביכם‪ .‬דונו בהבדל (אם היה) בין ערך מספר דגימות מינימלי זה לבין מספר הדגימות‬
‫שנלקח בניסוי‪ .‬כיצד הייתם משנים את הניסוי אילו הייתם מבצעים אנליזת עוצמה מראש?‬
‫יא‪ .‬הסבירו‪ ,‬באמצעות ‪ 2‬דוגמאות קלינית‪-‬מחקריות‪ ,‬את החשיבות ואופן יישומו של ‪power‬‬
‫‪ ,analysis‬וכיצד הוא מסייע לבניית מחקרים ברי משמעות והשקעה מיטביים‪.‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 24‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪ .8‬דוח סופי להגשה‬
‫א‪ .‬דף שער עם שמות‪ ,‬מספרי זהות‪ ,‬מספר הקבוצה‪ ,‬שם הניסוי ותאריך ביצוע הניסוי‪.‬‬
‫ב‪ .‬תקציר המסכם את הדו"ח‪ :‬רקע‪ ,‬מטרות‪ ,‬מהלך הניסוי‪ ,‬תוצאות‪ ,‬מסקנות‪ .‬אורך כחצי עמוד‪.‬‬
‫ג‪ .‬מבוא באורך של עד שני עמודים‪ .‬המבוא יכלול בתוכו‪:‬‬
‫‪ )1‬תמצית הרקע התיאורטי‬
‫‪ )2‬מטרות הניסוי‬
‫‪ )3‬תיאור הניסוי בקצרה‬
‫ד‪ .‬גוף הדו"ח‪ :‬כל התוצאות הגולמיות‪ ,‬וניתוחן‪ .‬יש להציג את תוצאות הניסוי (כולל הצגה גרפית)‬
‫וניתוחן‪ .‬יש לענות על כל השאלות בסעיף ניתוח התוצאות‪.‬‬
‫ה‪ .‬סיכום ומסקנות‪ :‬חצי עמוד עד עמוד‪ .‬יש להתייחס למשמעויות של חלקי ניתוח התוצאות בניסוי‬
‫זה‪ ,‬יחד עם חשיבותן למחקר בכלל‪ .‬קשרו בין מסקנותיכם בניסוי שיערוך וקידום שגיאות לבין‬
‫ניסוי זה‪.‬‬
‫‪‬‬
‫על כל הגרפים להיות ברורים ככל הניתן – נקודות יורדו על כל גרף שאינו ברור‪.‬‬
‫‪‬‬
‫הדו"ח יוגש באותן הזוגות כפי שעבדתם במעבדה‪ .‬ההגשה תהיה עד שבועיים מיום ביצוע‬
‫המעבדה‪.‬‬
‫‪‬‬
‫את הדו"ח יש להגיש בדואר אלקטרוני בלבד אל המדריך‪[email protected] :‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 25‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫חלק ה'‬
‫‪ .9‬נספחים‬
‫נספח א'‪ :‬מושגי יסוד בסטטיסטיקה‬
‫משתנה אקראי – אוסף ערכים שנמדדים בד"כ על ידי ניסוי‪.‬‬
‫פילוג צפיפות הסתברות – צפיפות ההסתברות מראה בצורה גרפית את הערכים של המשתנה‬
‫האקראי המנורמל‪ .‬סך כל השטח מתחת לגרף פילוג צפיפות ההסתברות הוא אחד (מנורמל)‪ .‬כאשר‬
‫המשתנה האקראי בדיד‪ ,‬מדובר בערכים בדידים בלבד‪ ,‬אך אם המשתנה רציף או שנאספו "אינסוף"‬
‫ערכים בדידים‪ ,‬הפילוג יהיה עקומה רציפה‪ .‬צורת הגרף עצמה מוגדרת על ידי פונקצית ההסתברות‪.‬‬
‫מהגרף ניתן לקבל את ההסתברות שהמשתנה האקראי יהיה בעל ערך מסוים‪ ,‬כשמסתכלים על השטח‬
‫מתחת לגרף בטווח הערכים הרצויים‪.‬‬
‫פונקצית ההסתברות – ההסתברות שהערך של המשתנה האקראי יהיה קטן מערך כלשהו שנקבע‬
‫מראש (משתנה פונקצית ההסתברות)‪ .‬אם מדובר במשתנה אקראי בדיד‪ ,‬אזי פונקצית ההסתברות‬
‫היא‪:‬‬
‫‪k‬‬
‫‪FX xk   P X  xk    P X  xi ‬‬
‫‪i 1‬‬
‫‪& 1 k  n‬‬
‫‪xi  x1,..., xn‬‬
‫(‪)34‬‬
‫‪34‬‬
‫אם מדובר במשתנה אקראי רציף‪ ,‬אזי פונקצית ההסתברות היא‪:‬‬
‫‪f x dx‬‬
‫‪x‬‬
‫‪FX x   P X  x   ‬‬
‫‪‬‬
‫(‪)35‬‬
‫‪35‬‬
‫סכום ההסתברויות (במשתנה רציף‪ ,‬אינטגרל על פילוג ההסתברות) על כל תחומו של משתנה‬
‫האקראי (מנורמל) שווה ל‪ .1 -‬הערה‪ :‬פונקצית הסתברות נורמלית תקנית איננה בעלת ביטוי אנליטי‪,‬‬
‫ולכן משתמשים בערכים מטבלה‪ .‬ניתן לראות את הערכים האלו בנספח ב' עבור ‪( df  ‬התפלגות ‪t‬‬
‫עם אינסוף דרגות חופש‪ ,‬ראו הסבר בתכנון גודל מדגם בעמוד ‪.)9‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 26‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫פונקציה של משתנה אקראי – אם ‪ X‬הוא משתנה אקראי‪ ,‬ו‪ Y -‬הוא פונקציה של ‪ X‬לפי‪,‬‬
‫‪, Y  gX ‬‬
‫(‪)36‬‬
‫‪36‬‬
‫אזי גם ‪ Y‬הוא משתנה אקראי בעל פונקצית הסתברות המתוארת על ידי‪:‬‬
‫‪. FY Y   PY  y   Pg  X   y‬‬
‫(‪)37‬‬
‫‪37‬‬
‫אך במקרה הפרטי שבו ‪ g‬הינה פונקציה מונוטונית עולה‪ ,‬מתקיים‪,‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪FY Y   P X  g 1  y   FX g 1  y   FX x ‬‬
‫(‪)38‬‬
‫‪38‬‬
‫חישוב הסתברות מתוך צפיפות ההתפלגות – נניח ש‪ X -‬משתנה אקראי רציף המתפלג בצורה‬
‫נורמלית תקנית ואנחנו נרצה לחשב את ההסתברות ש‪ X -‬יקבל ערך בין (‪ )-1‬ל‪ .2 -‬באמצעות פונקצית‬
‫הסתברות נורמלית תקנית‪ ,‬אנחנו יודעים לחשב את ההסתברויות ש‪ X -‬מקבל ערך קטן‪/‬שווה ל‪ 2 -‬או‬
‫ל‪ .)-1( -‬החסרה של שתי ההסתברויות הללו תיתן לנו את ההסתברות הרצויה (ראו איור ‪ .)9‬באופן‬
‫כללי‪ ,‬ההסתברות ש‪ Y -‬משתנה אקראי כללי (רציף) יקבל ערך בטווח שבין ‪ a‬ל‪ b -‬ניתן על ידי‪,‬‬
‫‪. Pa  Y  b  PY  b  PY  a  FY b  FY a‬‬
‫‪39‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 27‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫(‪)39‬‬
‫‪P 1  X  2‬‬
‫‪P X  1‬‬
‫איור ‪ .9‬חישוב הסתברות ש‪ X -‬משתנה אקראי נורמאלי תקני יקבל ערך בין (‪ )-1‬ל‪.2 -‬‬
‫ממוצע מדגמי – הוא הערך המשוערך שמשתנה אקראי אמור לקבל במצב אידיאלי‪ ,‬ללא רעשים או‬
‫השפעות מהסביבה‪ .‬משום שדגימות מניסוי הן בדידות‪ ,‬נתבונן על המקרה של משתה אקראי בדיד‪.‬‬
‫אלגברית‪ ,‬הממוצע ניתן לשערוך על ידי‪:‬‬
‫‪n‬‬
‫‪i‬‬
‫‪x‬‬
‫‪i 1‬‬
‫‪n‬‬
‫‪X ‬‬
‫(‪)41‬‬
‫‪40‬‬
‫שונות מדגמית – מידת הפיזור של משתנה אקראי‪ .‬השונות מבטאת את הסטייה הממוצעת של‬
‫דגימות של משתנה כלשהו מהממוצע של אותו המשתנה‪ .‬במילים אחרות השונות היא ממוצע ריבועי‬
‫השגיאות‪ .‬במקרה של משתנה אקראי בדיד‪ ,‬ניתן לשערך את השונות על ידי הביטוי‪,‬‬
‫‪‬‬
‫‪2‬‬
‫‪X‬‬
‫‪ X‬‬
‫‪n‬‬
‫‪i‬‬
‫‪n 1‬‬
‫‪i 1‬‬
‫‪S2 ‬‬
‫(‪)41‬‬
‫‪45‬‬
‫סטיית התקן המדגמית הינה שורש השונות המדגמית‪ .‬החזקה השנייה בתוך הסכום קיימת כדי‬
‫שההפרשים החיוביים לא יבטלו את ההפרשים השליליים‪ ,‬והחלוקה היא במספר דרגות החופש (‪.)n-1‬‬
‫למעשה השונות גם היא משתנה אקראי‪ .‬כאשר מספר הדגימות גדול מאוד‪ ,‬המכנה הופך ל‪.)n( -‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 28‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫נספח ב'‪ :‬טבלת הסתברות מצטברת (הפוכה) עבור התפלגות ‪.t‬‬
‫הערכים ‪ t‬של משתנה אקראי המתפלג לפי התפלגות ‪ ,t‬כתלות בהסתברות )*‪ P(t>t‬ומספר‬
‫דרגות החופש (‪.)df‬‬
‫‪t-Distribution‬‬
‫)‪p = P(t>t*) = P(t>t1-p‬‬
‫‪Probability‬‬
‫‪t = t*= t1-p‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 29‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫נספח ג'‪ :‬צמיגות תמיסות סוכרוז‬
‫נתון כתלות בטמפרטורה וריכוז סוכרוז טהור במים‪ ,‬ביחידות של ‪: cP = 1x10-2 Poise‬‬
‫‪ρ‬‬
‫‪cP‬‬
‫‪g/L‬‬
‫‪Bx Sucr.‬‬
‫‪1.018‬‬
‫‪1.144‬‬
‫‪50.9‬‬
‫‪5‬‬
‫‪1.038‬‬
‫‪1.333‬‬
‫‪103.8‬‬
‫‪10‬‬
‫‪1.059‬‬
‫‪1.589‬‬
‫‪158.90‬‬
‫‪15‬‬
‫‪1.081‬‬
‫‪1.941‬‬
‫‪216.20‬‬
‫‪20‬‬
‫‪1.104‬‬
‫‪2.442‬‬
‫‪275.90‬‬
‫‪25‬‬
‫‪1.127‬‬
‫‪3.181‬‬
‫‪338.10‬‬
‫‪30‬‬
‫‪1.151‬‬
‫‪4.314‬‬
‫‪402.90‬‬
‫‪35‬‬
‫‪1.176‬‬
‫‪6.150‬‬
‫‪470.60‬‬
‫‪40‬‬
‫‪1.203‬‬
‫‪9.360‬‬
‫‪541.10‬‬
‫‪45‬‬
‫‪1.230‬‬
‫‪15.400‬‬
‫‪614.80‬‬
‫‪50‬‬
‫‪o‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 31‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫נספח ד'‪ :‬צפיפות תמיסת סוכרוז טהור כתלות באחוז משקלי (‪( )DS‬מתוך ‪.)Asadi 2005‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 31‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫נספח ה'‪ :‬פקודות מטלב שימושיות ( * = הפונקציה מותקנת וקיימת במחשבים בחוות הפקולטה)‪.‬‬
‫)‪normrnd(mu,sigma,m,n‬‬
‫יצירת מטריצה בעלת ‪ m‬שורות ו‪ n-‬עמודות‪ ,‬אשר איבריה‬
‫נלקחו מהתפלגות נורמלית בעלת ממוצע ‪ mu‬וסטיית תקן‬
‫‪.sigma‬‬
‫)‪boxplot(X‬‬
‫יצירת דיאגרמות ‪ boxplot‬של מספר ניסויים כמספר‬
‫העמודות של מטריצת ‪ X‬ומספר שורות כמספר החזרות‬
‫בכל ניסוי‪ .‬הדיאגרמה הבאה מציגה דוגמה לפלט‬
‫הפונקציה (עמודה אחת ממטריצת ‪.)X‬‬
‫*‬
‫*‬
‫אחוזון ‪(“whisker”) 99.65%‬‬
‫אחוזון ‪(“3rd Quartile”) 75.00%‬‬
‫אחוזון ‪(“2nd Quartile”) 50.00%‬‬
‫אחוזון ‪(“1st Quartile”) 25.00%‬‬
‫אחוזון ‪(“whisker”) 0.3500%‬‬
‫חריג‬
‫אחוזון ‪ 50.00%‬מייצג את הערך ש‪ 50.00% -‬מהנתונים‬
‫קטנים‪/‬שווים אליו (‪ .)median‬ה‪ “box” -‬תחום על ידי‬
‫ה‪“whiskers” -‬‬
‫האחוזונים ‪ 75.00%‬ו‪.25.00% -‬‬
‫מייצגים את האחוזונים ‪ 0.3500%‬ו‪ .99.65% -‬חריגים‬
‫הינם נתונים שנמצאים מתחת לאחוזון ‪ 0.3500%‬או מעל‬
‫אחוזון ‪.99.65%‬‬
‫הערה‪ :‬יש להוסיף סמן למיקום הממוצעים האלגבריים‬
‫לאחר הפקודה ‪( hold on‬נותן את האפשרות לצייר על‬
‫אותו הגרף עוד פעמים)‪ ,‬ואז באמצעות ‪ scatter‬של ערכי‬
‫הממוצעים (מצייר את הממוצעים כנקודות)‪.‬‬
‫יצירת היסטוגרמה מוקטור הנתונים ‪ ,A‬אשר מראה את‬
‫מספר הנתונים הנמצאים בתוך ‪ nbins‬תחומים בגודל‬
‫שווה‪ .‬למשל‪ ,‬אם ‪ nbins‬שווה ‪ ,5‬הפונקציה מחלקת את‬
‫הטווח של הנתונים ב‪ A -‬ל‪ 5 -‬תחומים שווים‪ ,‬ומוצא כמה‬
‫מהם נופלים בכל תחום‪.‬‬
‫)‪hist(A,nbins‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 32‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫)‪ffun=fittype(expr‬‬
‫יצירת אובייקט התאמה ‪ ffun‬מתוך ‪ ,expr‬שמשתמשים בו‬
‫בפונציית ‪ .fit‬במקרה של התאמת פונקציה )‪ f(x‬בעלת‬
‫משתנה יחיד‪ expr ,‬יכול להיות מחרוזת תווים שמבטאת‬
‫את )‪ f(x‬כפונציה של ‪ x‬עם פרמטרים שאותם יש למצוא‪.‬‬
‫למשל‪ ,‬עבור התאמה ריבועית‪ expr ,‬יכול להיות‬
‫'‪ ,'a+b*x+c*x^2‬כאשר ‪ b ,a‬ו‪ c -‬הינם הפרמטרים‪ .‬ישנם‬
‫עוד שימושים מגוונים וחזקים של פונקציה זו‪.‬‬
‫)>‪[myfit,gof]=fit(x,y,ffun,<fitoptions‬‬
‫ביצוע התאמה לפי אובייקט ההתאמה ‪ ffun‬לנתונים ‪x‬‬
‫(משתנה בלתי‪-‬תלוי) ו‪( y -‬משתנה תלוי)‪ .‬התוצאה ‪myfit‬‬
‫הינו משתנה מסוג ‪ ,cfit‬וניתן לקבל את הערכים שהותאמו‬
‫לפרמטרים על ידי‪,‬‬
‫*‬
‫*‬
‫‪myfit.ParamName‬‬
‫ניתן להגדיר ב‪ <fitoptions> -‬אופציות נוספות (ללא‬
‫הסוגריים)‪ ,‬כגון ‪ StartPoint‬שמגדיר את הניחוש‬
‫ההתחלתי שפונקצית ‪ fit‬תשתמש במציאת הפרמטרים‬
‫שהוגדרו ב‪ ,ffun -‬על ידי נתינת וקטור הערכים לניחוש כל‬
‫פרמטר‪ .‬אופן הגדרה היא (עבור התאמה עם שני‬
‫פרמטרים)‪:‬‬
‫)]‪fit(x,y,ffun,'StartPoint',[1 2‬‬
‫הפלט השני ‪ gof‬הינו ‪ structure‬הנותן מידע השימושי‬
‫להערכת טיב ההתאמה‪ .‬ספציפית‪ r2 ,‬נתון על ידי‪,‬‬
‫‪gof.rsquare‬‬
‫ישנן עוד הרבה הגדרות שימושיות שאותן ניתן לשרשר‬
‫בתוך ‪ ,fit‬ואותן ניתן למצוא תחת הערך "‪ "fitoptions‬ב‪-‬‬
‫‪ help‬של מטלב‪.‬‬
‫מוצא את הערך ‪ t‬שעבורו ההסתברות המצטברת של‬
‫התפלגות ‪ t‬שווה ‪ .p‬המשתנה ‪ free‬הוא מספר דרגות‬
‫החופש‪.‬‬
‫)‪t=tinv(p,free‬‬
‫*‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 33‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫‪hold on‬‬
‫‪ – hold on‬לאחר יצירת גרף ושרטוט עקומה‪ ,‬קוראים‬
‫לפקודה זו כדי לאפשר הוספת עקומות נוספות ללא‬
‫איתחול הגרף‪.‬‬
‫‪ – hold off‬כל שינוי שיעשה בגרף עכשיו יאתחל אותו‬
‫(ריק)‪.‬‬
‫)‪subplot(rows,cols,ind‬‬
‫יצירת "מטריצה" של גרפים בתוך ‪ figure‬אחד‪ ,‬כאשר‬
‫למטריצה מספר שורות ‪ rows‬ומספר עמודות ‪ .cols‬את‬
‫הפקודה הזו יש לקרוא לפני כל פקודה ליצירת גרף חדש‪,‬‬
‫כאשר ‪ rows‬ו‪ cols -‬אינם משתנים‪ .‬כדי לבחור את‬
‫המיקום של הגרף החדש בתוך "מטריצת" הגרפים‪,‬‬
‫בוחרים ערך ל‪ ind -‬מתאים‪ ,‬כאשר ‪ ind‬הוא מספר הגרף‬
‫ב"מטריצה"‪ .‬מספור הגרפים הוא משמאל לימין‪ ,‬ומלמעלה‬
‫למטה‪ .‬לדוגמה‪:‬‬
‫‪hold off‬‬
‫‪1 2 3‬‬
‫‪4 5 6‬‬
‫ניסוי ‪ :‬סטטיסטיקה שימושית‬
‫עמוד ‪ 34‬מתוך ‪53‬‬
‫עדכון אחרון‪ 5323/2/30/ :‬ע"י גיא וינר‬
‫ מקורות‬:'‫נספח ו‬
1. Asadi, M. Beet-Sugar Handbook (p. 779 – 780). John Wiley & Sons (2005).
2. Hoynak PX and Bollenback GN, This is Liquid Sugar (p. 224 – 225). Key Book Service,
Inc. (1966) 2nd Ed.
3. Hubbard RM and Brown GG. The rolling ball viscometer. Indust Eng Chem 15(3): 212218 (1943).
4. Moher D, Dulberg CS, Wells GA. Statistical Power, Sample Size, and Their Reporting in
Randomized Controlled Trials. JAMA 272: 122-124 (1994).
5. Quintas M et al. Rheology of supersaturated sucrose solutions. J Food Eng 77: 844-852
(2116).
‫ סטטיסטיקה שימושית‬: ‫ניסוי‬
‫ ע"י גיא וינר‬5323/2/30/ :‫עדכון אחרון‬
53 ‫ מתוך‬35 ‫עמוד‬