מבוא לאקונומטריקה ־ 57322
Transcription
מבוא לאקונומטריקה ־ 57322
מבוא לאקונומטריקה ־ 57322 חיים שחור ־ סיכומי הרצאות של פרופ' שאול לאך 21ביוני 2012 5 תכונות אסימפטוטיות של OLS ז' סיון תשע"ב )שעור (1 נרצה לעשות ניתוח כאשר ∞ → .nיש שתי תכונות עיקריות של :OLS ,M LR1בעיקר ,M LR4 : E [u | x1 . . . xk ] = 0שהובילה לכך h −i M LR4 .1 ש־ .E βˆj = βj σ2 M LR5 .2־ הומוסקדסטיות ,שהובילה לכך ש־ SSTj 1 − Rj2 Pn 2 = ,SSTjו־ Rj2הוא R2מרגרסיה של xjעל כל כאשר ) i=1 (xij − xj המשתנים האחרים. = ,V ar βˆj בעזרת הנחות ,1 − 5יש לנו משפט גאוס מרקוב כי OLSהוא .BLU E M LR6 : y | x ∼ Nגררה כי .βˆj ∼ N βj , var βˆjמכאן ניתן להשתמש במבחני t, fלבדיקת השערות. למה חשוב ניתוח אסימפטוטי? משתנה נורמלי הוא רציף ,יכול לקבל כל ערך אפשרי. משתנים בכלכלה הם לפעמים בדידים ,ולפעמים חיוביים ומוגבלים בטווח מסויים .נרצה להראות שבמדגם מאוד גדול הנחה M LR6לא חשובה ,וניתן עדיין להשתמש במבחנים הנ"ל. אם מגדילים את גודל המדגם ,למה האומד ישאף? האם βˆjשואף ל־ ?βjבשביל זה נצטרך לפתח את המונח גבול של אומדים ,ואם כן ,נאמר שהאומד הוא עקיב )קונסיסטנטי( .מה ההבדל בין עקביות לחוסר הטיה? 1 חוסר הטיה של אומד משמעותו שעל פני מספר גדול של מדגמים ,הממוצע של האומד הוא האומד האמיתי. נשתמש בסימולציה לבנות מודל פשוט .y = β0 + β1 x1 + uנניח .β0 = 1, β1 = 2 שולפים עבור ,n = 150תצפיות מסוג ) .{xi1 , ui }ni=1 ∼ χ2 (1מתוך זה בונים את .yP= 1 + 2xi + uiמריצים רגרסיה של yעל ,xומקבלים אומדים .βˆ0 , βˆ1הנוסחא היא (x1i − x1 ) yi .βˆ1 = Pבהרצה של 1000מדגמים של 150תצפיות ,הממוצע הוא מאוד (x1i − x1 )2 קרוב ל־ ,2והחותך מאוד קרוב ל־ .1מספר המדגמים הוא סופי ,ולכן זה רק כמעט .אם עושים היסטוגרמה מגלים שרוב הערכים הם סביב ,2אבל יש גם .2.4 )(n βˆ1את האומד עבור nתצפיות .נרצה האומד תלוי בגודל המדגם ,nולכן נסמן )(k+1 )(k+2 )(n ˆ ˆ .βjנרצה למצוא גבול , βj .βˆ1נסתכל על הסדרה , . . . לשאול ?→−−− ∞→n לסדרה הזו. יש כאן בעיה מהותית בהגדרה .עד כה היו לנו סדרות של מספרים .כעת יש לנו סדרות של משתנים מקריים .כל אומד הוא מקרי ותלוי במדגם ,ולכן עבור ערכים גדולים של ,nאולי נקבל ערכים רחוקים מהגבול במדגם מסויים. o )n (n יהי .ε > 0נגדיר .pn = P r βˆj − c < εנגדיר התכנסות בהסתברות p βˆj −−−→ cאם pn −−−→ 1לכל .ε > 0 ∞→n ∞→n בעמ' 4יש דוגמא של התפלגויות )ˆ(n βjעבור .n = 1, 2, 3 אם האומד מתכנס בהסתברות לפרמטר האמיתי ,נאמר ש βˆjעקיב ל־ .βjנרצה להראות אלו הנחות צריך כדי לומר שאומד הוא עקיב. n h (n) i טענה 5.1אם = βj E βˆjלכל ,nו־ ,limn→∞ V ar βˆj = 0אזי βˆjעקיב ל־ .βj האם OLSעקיב? h i M LR1 − M LR4 .1מבטיח כי E βˆj = βj σ2 .2בעזרת M LR5נקבל 2 2 (x − x ) 1 − R ij j j i=1 השלישית אנחנו שוללים את העובדה ש־ ,Rj2 → 1ולכן ככל ש־∞ → ,nהמונה עולה ,והשונות שואפת לאפס. ) (n .V ar βˆjבהנחה = Pn בהמשך נראה כי ההנחות הדרושות הן .M LR1 − M LR4ההנחה החמישית אינה נצרכת. 2 סימולציה במחשב :עבור ,n = 2 . . . 10, 000מגרילים ) .xi , ui ∼ χ2 (1מחשבים .y = 1 + 3x + uאם בודקים ,בהתחלה יש שונות גדולה ,אבל ככל ש־ nגדל ,אנחנו מתכנסים ל .3אם מסתכלים על הענן בזנב ,מקבלים שמעבר ל ,9000הטווחים הם בתוך ] .[2.97, 3.03למרות שיש לנו התכנסות ,עדיין יש פה ושם נקודות שסוטות יותר .ניתן להמשיך עוד ועוד. P P x ) y x (x − (x − 1 i 1 ) ui i1 i1 ,βˆ1 = Pלכן 2 = β1 + P באופן כללי 2 ) (x1i − xi (x1i − x ) i P (xi1 − x1 ) ui ˆ .p lim β1 = β1 + p lim P (x1i − xi )2 ∞} {ziב"ת הבאים מאותה התפלגות ,i.i.d.ותוחלת לפי חוק המספרים הגדולים ,עבור i=1 1 Pn = ,znיש לנו סדרת ממוצעים .z1 , z2 , . . . ∞ < ] .E [zאזי בחישוב הממוצע zi n i=1 לפי חוק המספרים הגדולים.p lim zn = E [z] , כעת נחשב את הגבול של המנה ,אזי P P p lim n1 ni=1 (xi1 − x1 ) ui (xi1 − x1 ) ui )cov (x1 , u p lim P = Pn 2 = 2 1 ) V ar (x1 ) p lim n i=1 (xi1 − x1 ) (x1i − xi לכן האומד βˆ1עקיב אם .cov (x1 , u) = 0זה נובע מהנחת ) M LR4ואפילו חלש ממנה(. 1P איך נחשב את (xi1 − x1 ) ui ?p lim n ])] .cov (x1 , u) = E (x1 u) − E (x1 ) E (u) = E [(x1 − E [x1 ]) (u − E [uלפי חוק 1P 1P = (xi1 − x1 ) ui המספרים הגדולים(xi1 ui ) − x1 u , ,לכן n n 1X 1X (xi1 − x1 ) ui = p lim = ¯xi1 ui − p lim x1 u p lim n n 1X = p lim = xi1 ui − p lim x1 lim u n )= E [x1 u] − E [x1 ] E [u] = cov (x1 , u P P n1לפי טריק מס' ,1ומכאן להמשיך אותו (xi − x)2 = n1 את המכנה (xi − x) xi P 2 1 2 2 2 דבר .בעזרת p lim x = (p lim x ) = E [X]2ו־] .p lim n x = p lim x2 = E [x י' סיון תשע"ב )שעור (2 הוכחנו שאם האומד חסר הטיה ,הוא יהיה עקיב ,וזה מתקיים תחת הנחות 4־ .1נתנו ,y =Pוהראינו כי הוכחה למודל הפשוט β0 + β1 x1 + u )cov (x1 , u (xi1 − x¯1 ) yi p .βˆ1 = P − β1 + → 2 ) V ar (x1 ) (xi1 − x¯1 3 נרצה לדעת האם השאיפה היא עם סטייה חיובית או שלילית .המכנה הוא שונות ,ולכן תמיד חיובי .נרצה לתת "ניחוש מלומד" על ) .cov (x1 , uקשה לדעת מה זה uבדיוק, לכן ניתן דוגמא ספציפית. P אפשר לקבל את הרושם המוטעה שבמודל כללי יותר ,y = β0 + βi xi + uהתנאי ל־ p lim βˆj = βjהוא גם כן ) ,cov (xj , uאבל זה לא מספיק .דרוש שלכל iיתקיים ) .cov (xi , uזה עדיין נגרר ע"י הנחה E [u | x1 , . . . xk ] = 0 ,M LR4שהיא אפילו חזקה יותר )אי תלות בתוחלת חזקה מחוסר מתאם(. הדוגמא שלנו תהיה השמטת משתנה .נניח ,y = β0 + β1 x1 + β2 x2 + vתחת M LR4 כי .E [v | x1 , x2 ] = 0אם נריץ רגרסיה נקבל βˆ0 , βˆ1 , βˆ2עקיבים .אם אין נתונים על ,x2נריץ רק על x1ונקבל ∗ .βˆ1בשלב זה x2הופך להיות חלק מהטעות .נשים לב כי ) cov (x1 , u) = cov (x1 , β2 x2 + v) = β2 cov (x1 , x2 )+cov (x1 , v) = (by M RL4 :) β2 cov (x1 , x2 ) β2 cov (x1 , x2 )cov (x1 , u = β1 + לכן .p lim βˆ1∗ = β1 +כעת אני יכול לדבר על ) V ar (x1 ) V ar (x1 הנחות על המקדם של ,β2ועל המתאם ) cov (x1 , x2כדי לדעת האם האומדן נוטה כלפי מעלה או כלפי מטה. גם אם β2לא מעניין אותי ,הוא מעניין כדי לא לקלקל את האומדן של .β1נשים לב שהנוסחה מתאימה להשמטת משתנה ,לא למקרה הכללי. הנחת ) M LR6נורמליות( היא בעייתית כי לא תמיד הערכים המתקבלים חוקיים. הרווחנו מההנחה את היכולת להשתמש בסטטיסטי tאו .fאם ) ,u ∼ N (0, σ 2אזי y = β0 + β1 x1 + uיהיה בעל התפלגות שתלויה ב־ xוב־ .yאבל ]E [y] = β0 + β1 E [x] + E [u )V ar (y) = β12 V ar (x1 ) + V ar (u) + 2β1 cov (x1 , u ] E [y | x1 = xo1 ] = β0 + β1 xo1 + E [u | x1 = xo1 ) V ar (y | x1 ) = V ar (u | x1 לכן )) ,y | x1 ∼ N (β0 + β1 x1 , V ar (u | x1ובמקרה של M LR5אנחנו מקבלים ) .y | x1 ∼ N (β0 + β1 x1 , σ 2 אם לא מניחים את ,M LR6אזי בבדיקת השערה של ,H0 : β1 = β1oאנחנו מקבלים βˆ1 − β1o t = rובאופן דומה לא ניתן להשתמש בסטטיסטי .f 6∼ tn−k−1 d V ar βˆ1 4 ניתוח אסימפטוטי בא לפתור את הבעיה הזו .הניתוח אומר שתחת ההנחות M LR1 − βˆ1 − β1o a . rלכן ניתן להמשיך ,M LR4כאשר ∞ → nאנו מקבלים ) ∼ N (0, 1 Vd ar βˆ1 לומר כי ) t ∼ N (0, 1כשמשתמשים ב־ nגדול ,ובאופן דומה לסטטיסטי .fהיום בעזרת מהפכת המחשוב יש לנו הרבה נתונים במקרים גדולים. 6 6.1 פונקציית המודל הליניארי שינוי ביחידות המדידה של xו־y לפעמים אנחנו משנים את היחידות ,למשל מעבר מסיגריות לחפיסות וכד' .זה לא משנה את המודל ,אבל נראה שזה משפיע על האומדים והשונויות שלהם. דוגמא :מחיר דירה ביחס לרמת השכונה ומספר החדרים .אם מריצים רגרסיה מקבלים שכל חדר מוסיף $ 8200למחיר .מה יקרה אם מחשבים את המחיר באלפי דולרים? האומד צריך להשתנות ל־) 8.2וכל המקדמים מתחלקים באלף( .סטיית התקן מתחלקת גם היא ,והסטטיסטי ,tו R2לא השתנו .גם המשמעות של המודל לא השתנתה. ˜, נניח כי המודל המקורי הוא .y = β0 + β1 x1 + uאנו רוצים לעבור ל־y = d · y ו־ x˜1 = cx1עבור .c, d > 0אם נריץ רגרסיה של ˜ yעל ,x˜1נקבל y = β0 + β1 x1 + u ˜y x˜1 = β0 + β1 + u d c dβ1 y˜ = dβ0 + ˜x˜1 + u c ˜= β˜0 + β˜1 x˜1 + u ˜. המטרה היא לבצע טרנספורמציות של המשוואה המקורית כדי לקבל את ˜ yו־x אם רק yמשתנה ) ,(c = 1כל המקדמים מוכפלים ב־.d אם x1משתנה ) ,(d = 1רק המקדם β1מוכפל ב־.c P x˜1i − x˜1 y˜1 cd (x1i − x¯1 ) y1 d ˆ ˜ .β1 = P נסתכל על האומדים= βˆ1 : P = 2 2 c ) c2 (x1i − x1 x˜1i − x˜1 ˜ˆ ˆ d d 2 β β 1 1 ˆ c ˜ ˜ = ,V ar β1לכן הסטטיסטי t = r = r = t V ar βˆ1 c d V βˆ1 V βˆ˜1 c 5 P לא השתנה .רווח הסמך משתנה גם הוא בהתאם לשינוי בסטיית התקן R2 .לא משתנה )להוכיח בבית מהנוסחא לחישוב השאריות( .לכן ˆuˆ˜ = d ˜P,לכן גם u כי u = du P 2 ˆ uˆi u˜i d .R˜2 = 1 − P =1− P = R2 2 2 d (yi − y¯)2 )¯˜(y˜i − y ˜ ,נקבל מה קורה במודל ?ln y = β0 + β1 x1 + uאם נשנה y = dy ln y˜ = ln y + ln d = d + β0 + β1 x1 + u כלומר החותך השתנה ,אבל לא שאר האומדים .לכן אם משתנה מופיע בלוג במשוואה, הכפלתו משפיעה רק על החותך. אם יש לי משוואה של ,ln y = β0 + β1 ln x1 + uשינוי של יחידות x1לא ישנה את האומד )גמישות לא תלויה ביחידות(. נניח שאנו רוצים להוסיף את אחוז האנשים באוכלוסיה עם מצב סוציו־אקונומי נמוך. אפשר למדוד 12%כ־ ,12או כ־ .0.12למשל אם מעלים את האחוז בנקודה אחת, המחיר יורד ב .583$אם נבדוק כמספר ,נקבל מקדם של .58, 300המשמעות אותה משמעות ,אבל צריך להיזהר בהבנה שלה. 6.2 מדד R2מתוקן י"ד סיון תשע"ב )שעור (3 P 2 ˆu 2 ≤1 .0 ≤ R = 1 − Pזהו מדד מטעה .בעבר השתמשו יותר מדי במדד (yi − y¯)2 הזה ,ושאפו לקבל R2גבוה ככל הניתן .בעיקרון R2מסביר עד כמה ה־ xמסבירים את השונות של .yבקורס שלנו ,המטרה שלנו היא למדוד את האפקט של xעל .y בעיקר אם מדובר במשתנים מסבירים שניתן לשנות אותם כדי לקבל תוצאה שונה. בד"כ מעניינת אותי המטרה של משתנה ספציפי .והדגש של R2הוא לא כ"כ חשוב. כיום הרבה עבודות מציגות רגרסיות עם R2נמוך )של .(2 − 5% אם היינו רוצים למקסם את ,R2היינו רוצים להוסיף עוד ועוד משתנים מסבירים .זה תועלת מלבד העלאת .R2בשביל זה המציאו מפתה להכניס כל מיני דברים שאין בהם P 2 uˆ /n − k − 1 את מדד .R2המדד הוא .1 − Pבמצב זה ,אם מגדילים את ,k (yi − y¯)2 /n − 1 המונה עולה ,והסך הכל יורד .במצב כזה המדד אומר לי יותר ־ הצלחתי להגיע ל־ R2 גבוה בלי להוסיף מלא משתנים. טענה R2 6.1הוא ריבוע של )ˆ.corr (y, y 6 בכל אופן ,כיום פחות מסתכלים על ה־ ,R2ומתמקדים בשאלה האם הפרמטרים נאמדו בצורה נכונה. 6.3 צורה פונקציונלית של המודל אנחנו מזכירים את המילה "ליניארי" בכמה מקומות: .1מודל הרגרסיה הלינארית .משוואה מסוג .(1) y = β0 + β1 x1 + u .2קשר לינארי בין xל־.y OLS .3הוא אומד לינארי ב־.y גם אם יש לנו מודל של ,y = eβ0 +β1 x1 +uאנחנו יכולים להשתמש במודל הלינארי עבור .(2) ln y = β0 + β1 x1 + u את המודל y = eβ0 xβ1 1 euניתן לכתוב כ־.(3)ln y = β0 + β1 ln x1 + u מה המשמעות של כל אחד מהמקדמים. במודל הליניארי ,אנחנו מניחים כי התוספת השולית של כל משתנה היא קבועה, והמשמעות של המקדם הוא שיעור התוספת השולית. במודל השני ,המשמעות הכלכלית של המקדם הוא בכמה אחוזים המשתנה המוסבר יעלה ,כשהמשתנה המסביר עולה ביחידה. במודל השלישי ,אנו מודדים את הגמישות ־ תוספת של אחוז למשתנה המסביר ,בכמה אחוזים היא תעלה את המשתנה המוסבר. d ln y ,כשנריץ את מודל ) ,(2ונרצה לתת את התוספת האבסולוטית ,נקבל אם = β1 dx1 ∆y ∆y ≈ d ln yכי = β1 y מ־ .נהוג לבחור את הממוצע של yאו את הממוצע של ∆x1 y .x בדוגמאות יש לנו רגרסיה של השכר לעומת ההשכלה בשלושת המודלים. באופן דומה אם רוצים לתרגם את הגמישות לתוספת אבסולוטית. הרבה פעמים ,משתנים בני־מניה ,לא מומלץ להמיר אותם עם .logבד"כ אנחנו לא נדבר על כמה מוסיף לי עוד 10%של שנות לימוד .באופן דומה ,כשמדובר על אחוזים באוכלוסיה זה עשוי להיות מאוד מבלבל. דרך אחרת לחמוק מהמודל הליניארי הנוקשה )תוספת שולית קבועה( ,היא להשתמש בפולינום ־ ,y = β0 + β1 x1 + β2 x21 + uאו אינטראקציות של המשתנים המסבירים .y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + u 7 השאלה הקשה היא מהו המודל הנכון לבחור .הדרך הכי נכונה היא להתבסס על מודל כלכלי שמבוסס בתיאוריה .הבעיה היא שהרבה פעמים אנחנו קופצים לאמצע ,והמטרה היא לאפשר כמה שיותר גמישות למודל. דוגמא :פונקציית ייצור קוב־דאגלס ־ .y = Ak β1 Lβ2 euאם נוציא logנקבל .ln y = ln A + β1 ln K + β2 ln L + uהתפוקות השוליות אינן קבועות ,אבל הגמישויות d ln y = .β1איך נאפשר גמישות לא קבועה? ניתן להכניס משתנים נוספים קבועות d ln k d ln y כמו .ln y = β0 + β1 ln k + β2 ln l + β3 (ln k)2 + uעכשיו = β1 + 2β3 ln k . d ln k אפשר גם להוסיף ln k ln lולקבל גמישות שהיא פונקציה של .lאח"כ ניתן לבצע בדיקת השערות של מבחן tאיזה מקדם כנראה שווה לאפס. 8 הטרוסקדסטיות הנחת הומוסקדסטיות M LR5נתנה לנו נוסחא לחישוב השונות: σ2 (xij − xj ) 1 − Rj2 V ar βˆj = P הדבר השני ,הוא הוכחה של משפט גאוס מרקוב. אם ההנחה M LR5לא מתקיימת) V ar (ui | xi1 , . . . , xik ) = σi2 ,אין כאן הנחה. נסמן ב־ σi2את השונות של uבהינתן ערכי xשל תצפית .iבשיעור קודם הראינו שההנחה חזקה ואומרת ש־ .V ar (y | x) = σ 2 הרעיון האינטואטיבי ־ השונות בד"כ תלויה בגודל של היחידה .למשפחה עם יותר נפשות ,השונות של סך הצריכה תהיה גבוהה יותר. W LS־ אומד חסר הטיה שהוא יותר טוב מ־ OLSאם M LR5לא ידוע .כדי להשתמש בו צריך לדעת את כל .σi2לא נשתמש בו בקורס. 0 1 − p = ,yבמקרה של המודל, דוגמא :עבור משתנה מוסבר בינארי, 1 p ,E [y | x] = p (x) = β0 +β1 x1ו־) V ar (y | x) = (β0 + β1 x1 ) (1 − β0 − β1 x1והוא תלוי ב־.x זה פוגע בתכונה של ,BLU Eובנוסחא של השונות. 8 P (xi − x) yi ˆ ,β1 = Pאנו נחשב את כי נזכור .V ar נפתח את הנוסחא βˆj (xi − x)2 ! ! n n X X ¯xi − x )¯(xi − x = V ar P = ui | x V ar βˆ1 | x = V ar P 2 ui | x ¯)2 )j (xj − x j (xj − x i=1 i=1 Pn n X ¯)2 2 (xi − x¯)2 i=1 (xi − x = V ar (u | )x = P 2 P 2 σi i 2 2 i=1 )¯ )¯ j (xj − x j (xj − x )החלפתי את האינדקס במכנה ל־ ,jכדי למנוע בלבול(. P (xi − x¯)2 uˆi האומד Vdהוא אומד עקיב )לא הוכיחו שהוא חסר ar βˆ1 | x = P (xi − x¯)2 הטיה ,וכנראה שהוא מוטה( .הוא מכונה כשונות רובוסטית. התוכנה stataמחשבת אותו באופן אוטומטי אם מוסיפים את המילה robustלפקודה. בדוגמא ־ האם נשים בכוח העבודה כפונקציה של מספר הילדים ועוד משתנים. האומדים לא משתנים .סטיות התקן וערכי tמשתנים .הנורמה היום היא להשתמש ברובוסטיות ,כיון שבד"כ המדגמים גדולים מספיק .בעבר היו בודקים באיזה מבחן כדאי להשתמש .המבחנים גם הם מותאמים לפי הרגרסיה האחרונה. למדנו לחשב את fתחת הרצות של שתי רגרסיות ־ החישוב לא נכון עבור הטרוסקדסטיות. ניתן להשתמש ב־.test 15 15.1 אנדוגניות ושימוש במשתני עזר סיבות לאנדוגניות של משתנה י"ז סיון תשע"ב )שעור (4 h i הנחות M LR1−M LR4גוררות אומד OLSחסרת הטיה ־ .∀j, E βˆj = βjההנחה הרביעית היא הקריטית .E [u | x0 s] = 0 :מכאן קיבלנו גם עקיבות , p lim βˆj = βj אבל לצורך כך מספיק להניח .cov (xj , u) = 0נרצה לדון מה קורה כשההנחה לא מתקיימת. הגדרה xj 15.1יוגדר כמשתנה אנדוגני אם .cov (xj , u) 6= 0 xjיוגדר כמשתנה אקסוגני אם .cov (xj , u) = 0 9 בכל שימוש ברגרסיה ,צריך לשכנע )את עצמנו ,ואת השומעים( למה המשתנה המסביר הוא אקסוגני. האם ניתן לבדוק האם משתנה הוא אנדוגני? לכאורה לא .הרי אין לנו נתונים על ,u ולכן לא ניתן לבדוק את המדגם .האם ניתן להשתמש בשאריות ˆ uבמקום הטעות? השאריות תמיד לא מתואמות ,cov (xj , uˆ) = 0גם אם המשתנה אנדוגני ,ולכן ברור שלא ניתן להשתמש בהם. צעד מאוד גדול לקראת השכנוע ,הוא הרחבת המודל ע"י הוספת משתנים נוספים .עדיין יכולים להיות דברים ב־ uשהינם מתואמים .מאחר ואין לנו נתונים סטטיסטיים ,מאוד חשוב להבין את הסיבות לאנדוגניות .נדבר על שלוש סיבות מרכזיות. 15.1.1 השמטת משתנה ברגע שמשמיטים משתנה הוא אוטומטית מתווסף לטעות ,ואם הוא מתואם ,גם הטעות תהיה מתואמת .אם במודל y = β0 + β1 x1 + β2 x2 + vמתקיים .E [v | x1 , x2 ] = 0 אבל אם אין לנו נתונים על ,x2או שאפילו לא חשבנו על קיומו ,והרצנו את yרק על ) cov (x1 , x2 ,x1אז .p lim βˆ1∗ = β1 + β2 ) V ar (x1 15.1.2 סימולטניות )פרק (16 נתבונן במודל ,y = β0 + β1 x1 + uלפעמים יש סימולטניות שבה yמשפיע על .x1 למשל x1מספר השוטרים באוכלוסיה ,ו־ yשיעור הפשע .קיימת משוואה גם של .x1 = α0 + α1 y + vמשתי המשוואות נובע כי .cov (x1 , u) 6= 0אם uמשתנה ,זה משנה את ,yואז משנה גם את .x1ניתן גם לפתור את זה אלגברית ע"י הצבת y במשוואה השנייה ,וחילוץ .x1אם x1 ,α1 6= 0משתנה עם .u ]cov (x1 , u) = E [x1 u] − E [x] E [u] = E [x1 u x1 = α0 + α1 (β0 + β1 x1 + u) + v = α0 + α1 β0 + α1 β1 x1 + α1 u + v α0 + α1 β0 α1 1 + u+ v = x1 1 − α1 β1 1 − α1 β1 1 − α1 β1 α1 1 = ]cov (x1 , u) = E [x1 u E u2 + ]E [uv 1 − α 1 β1 1 − α1 β1 α1 1 = σ2 + E [uv] 6= 0 1 − α1 β1 1 − α 1 β1 10 אם ) E [uv] = 0או שונה מהערך שיאפס את המשוואה(. סטיב לויט רצה לפתור את הבעיה שתמיד יש קשר חיובי בין מספר השוטרים למספר הפשעים .הוא פתר את הבעיה ע"י שימוש באומד אחר שנלמד עוד מעט ,ואז מוצאים שהאומד של β1שלילי מובהק. אם משתמשים ברגרסיה לינארית ,אנו יודעים כי ,cov (x1 , u) > 0ואז אנחנו מקבלים הטיה כלפי מעלה של האומד ,ולכן למרות ש־ ,β1 < 0קבלנו .βˆ1 > 0 ניתן לחשוב גם על קשר בין רמת הכנסה לצריכת אלכוהול. 15.1.3 טעויות במדידה של המשתנים המסבירים )פותח ע"י מילטון פרידמן( לא תמיד אנחנו מודדים כמו שצריך .אם בעוד 20שנה נישאל על מספר שנות לימוד ,זה לא פשוט לדעת .כששואלים על תואר ,זה הרבה יותר פשוט .שאלו זוגות של תאומים על כמה שנים הם והתאומים שלהם למדו ,וגילו שיש הבדלים של 10 − 20%במספר השנים .יש טעויות מדידה קלאסיות .יש גם בעיות שהמשתנה שנבחר הוא לא ברור. איך משפיע שער הריבית על השקעות של פירמה ־ איזה שער ריבית למדוד .את זה שהפירמה משלמת בפועל לבנק? אין לנו נתונים עליו .יש לנו ריבית בנק ישראל ,ריבית ממוצעת של פירמות ,וכד'. נשתמש בסימון של x∗1עבור המשתנה האמיתי ,ו־ x1עבור המשתנה הנצפה .נניח שמתקיים ,x1 = x∗1 + εו־ .E [ε] = 0המודל שלנו מקיים y = β0 + β1 x∗1 + vו־ .E [v | x∗1 ] = 0מה יגרום המעבר לשימוש ב־ ?x1במשוואה .y = β0 + β1 x1 + v − β1 ε נסמן את הטעות .u = v − β1 εודאי ש־ εמתואם עם ,x1כי הוא חלק מהמרכיבים של .x1 מה אם .E [ε] = aאזי )x1 = x∗! + ε = a + x∗1 + (ε − a y = β0 + β1 (x1 − a = ε˜) + v ˜= β0 − β1 a + β1 x1 + v − β1 ε ועדיין יש לנו תיאום של x1עם ˜ .v − β1 εבאופן כללי )cov (x1 , u) = cov (x∗1 + ε, v − β1 ε) = cov (x∗1 , v) − β1 cov (x∗1 , ε) + cov (ε, v) − β1 cov (ε, ε )= −β1 cov (x1 , ε) + cov (ε, v) − β1 V ar (ε 11 "מקובל" להניח כי E [ε | x∗1 ] = 0וכן ,cov (ε, v) = 0ואז אנחנו מקבלים )cov (x1 , u) = −β1 V ar (ε )cov (x1 , u )V ar (ε ˆ p lim β1 = β1 + = β1 1 − ) V ar (x1 ) V ar (x1 לכן כשיש טעות במדידה ,האומד המתקבל מוטה כלפי אפס. מילטון דן האם ההכנסה הפרמננטית היא המודל הנכון או המודל הקיינסיאני )נש"צ(. כשהריצו רגרסיה של תצרוכת כנגד הכנסה גילו שיש קשר .פרידמן אמר שצריך למדוד את ההכנסה הפרמננטית ,לא את הנוכחית .אם הנוכחית היא שונה קצת מהקבועה ,זה תלוי עד כמה השונות של εגדולה. 15.2 הטיפול במשתנה אנדוגני 15.2.1 שימוש במשתנה העזר נניח כי אנו רוצים למדוד את האפקט .x1 → yאם היתה לנו מעבדה ,היינו מודדים את yעל x1במעבדה .מאחר שיש לנו גם ,uשהם גורמים חיצוניים ,שמשפיע על ,y ובנוסף מושפע דרך .x1אין לנו דרך להבדיל בין ההשפעה של x1דרך uלזו הישירה. = |) .|corr (x1 , uיש ל־ x1מרכיבים שמתואמים עם ,uומרכיבים שאינם נניח כי 6 1 מתואמים .נניח שקיים z1שמשפיע על x1ללא קשר ל־ .uנקרא לו instrumental variableאו .I.V.הזזה של zתזיז את ,x1ותזיז את yבאופן שלא מושפע מ־.u יש לזה מחיר ־ אנחנו צריכים למצוא את z1הזה ,ולקבל נתונים עליו .במצב זה cov (z1 , u) = 0אבל .cov (z1 , x1 ) 6= 0 דוגמא ראשונה שאנשים השתמשו בה ,אבל לא טובה .במודל של הכנסה והשכלה, משתנה עזר צריך להיות מתואם עם ההשכלה ,אבל לא עם היכולת .אנשים נטו להסתכל על הקשר החזק בין השכלת האב להשכלה .אבל קשה להגן על ההנחה שהשכלת האב לא מתואמת עם היכולת .כאן בא חלק גדול של אמונה ושכנוע. דוגמא נוספת ־ מספר ת.ז .של הפרט סביר להניח שאינה מתואמת עם היכולת ,אבל גם לא מתואמת עם ההשכלה. 1 born in Q1 = ) z1האם הפרט נולד ברבעון דוגמא קלאסית היא המשתנה הבא: 0 o.w. הראשון של השנה( .זה לא אמור להשפיע על היכולת של האדם .האם זה מתואם עם שנות השכלה? אפשר לבדוק את זה סטטיסטית ,ויש גרף יפה שמראה את זה .חוק 12 חינוך חובה מחייב ללמוד עד גיל 16ויום .אנשים שרוצים לעזוב את בית הספר יעזבו בגיל 16ויום .רוב האנשים ממשיכים ומסיימים ,אבל יש קבוצה שנושרת .ככל שנולדים מאוחר יותר בשנה ,לומדים כמה חודשים יותר .זה יוצר מתאם שלילי בין אלו שנולדים בתחילת השנה לרמת ההשכלה שלהם .הבעיה היא שהקשר הוא מאוד חלש .מסתבר שע"מ שלאומד תהיה תכונות סטטיסטיות טובות ,דרוש קשר מאוד חזק .התפתח נושא שדן מה קורה כשמשתני העזר חלשים. נגדיר אומד ,IVונאמוד אותו בשיטת המומנטים y = β0 + β1 x1 + u .כאשר .cov (x1 , u) 6= 0, E [u] = 0נניח שקיים z1כך ש־ ,cov (z1 , x1 ) 6= 0ו־cov (z1 , u) = 0 אזי OLS .E [z1 u] = 0בוסס על E [x1 u] = 0שלא היה נכון .אבל אם E [z1 u] = 0 מאפשר לי להשתמש בשיטת המומנטים: E [z (y − β0 − β1 x1 )] = 0 i IV IV 1 Xh ˆ ˆ zi1 y1 − β0 − β1 xi1 = 0 n IV IV 1X y1 − βˆ0 − βˆ1 xi1 = 0 n ⇓ IV IV βˆ0 = y¯ − βˆ1 x1 P IV (zi1 − z1 ) yi p ˆ β1 = P −−−→ β1 ∞→(zi1 − z1 ) (xi1 − x1 ) n כשהאומד עקיב אפילו כאשר .cov (x1 , u) 6= 0בשיעור הבא נראה כי האומד אכן עקיב. כ"א סיון תשע"ב )שעור (5 נראה היום בנוסחאות פורמליות את האינטואיציה בשימוש במשתנה עזר .אח"כ ניתן כמה הערות על האומד. P 1 (zi1 − z1 ) ui (z − z ) y 1 i i1 n βˆ1 = P = β1 + 1 P ) (zi1 − z1 ) (xi1 − x1 ) (zi1 − z1 ) (xi1 − x1 n IV )cov (z1 , u p lim βˆ1 = β1 + )= β1 (cov (z1 , u) = 0, cov (z1 , x1 ) 6= 0 ) cov (z1 , x1 1X 1X p = (zi − z) ui ]zi ui − zu −−−→ E [zi ui ] − E [z] E [u ∞→n n n לכן האומד שלנו הוא עקיב .מה לגבי הטיה? P h IV i ] (zi1 − z1 ) E [ui | x1 , z1 ˆ E β1 | x1 , z1 = β1 + P ) (zi1 − z1 ) (xi1 − x1 P 13 IV לכן השאלה הגדולה היא האם .E [ui | x1 , z1 ] = 0האם ניתן להניח זאת? לא .מאחר ו־ ,E [u | x1 ] 6= 0לכן האומד IVהוא מוטה. לכן אם רוצים להשתמש באומד הזה ,צריך להשתמש במספרים גדולים )לא כמה עשרות תצפיות(. IV βˆ1לא מתקבל מלהחליף את x1ב־ .z1 הערה 15.2 הערה 15.3אומד IVעקיב גם כאשר x1אקסוגני OLS .גם הוא עקיב במצב זה. במה נבחר במצב זה? אם x1אקסוגני ,אז OLSהוא מקרה פרטי של ,IVע"י בחירת .z1 = x1 הערה 15.4התנאי cov (z1 , x1 ) 6= 0ניתן לבדיקה ,ורצוי לבצע זאת .ניתן ע"י הרצת הרגרסיה .x1 = π0 + π1 z1 + v1 נשים לב שתמיד ניתן להריץ רגרסיה כזו ,ולקבל טעות המקיימת .cov (z1 , v1 ) = 0כך גם נוכל לדעת עד כמה יש קשר ביניהם ,ולבדוק את ההשערה .H0 : π1 = 0הקשר לא יכול להיות חזק מדי ,כי אז לא נוכל לקבל .cov (z1 , u) = 0 IV מה הקשר בין הנוסחא של βˆ1והאינטואיציה של הזזה ב־ x1דרך z1כדי לאמוד את ?β1 נחשוב על x1כמתואם בחלקו עם ,uובחלק לא .ניתן גם לחשוב עליו כעל x1 = π0 + π1 z1 + v1 החלק π0 +π1 z1אינו מתואם עם ,uולכן החלק המתואם הוא דרך .v1לפי האינטואיציה צריך להסתכל על החלק של x1שמתואם עם .uאם הייתי יודע את ,π0 , π1הייתי יכול ˆ. להשתמש בהם .אני לא יודע ,אבל אני יכול לאמוד אותם ,ולקבל את x = πˆ0 + πˆ1 z1 האומד הזה הוא החלק של x1שלא מתואם עם .u טענה 15.5רגרסית OLSשל yעל xˆ1נותן את אומד IV 14 הוכחה: P xˆi − xˆ yi 2 ˆxˆi − x = πˆ0 + πˆ1 zi1 + vˆi1 P = γˆ1 OLS xi1 x1 = πˆ0 + πˆ1 z1 + 0 xi1 − x1 = πˆ1 (zi1 − z1 ) + vˆi1 X X X (zi1 − z1 ) (xi1 − x1 ) = πˆ1 (zi1 − z1 )2 + (zi1 − z1 ) vˆi1 = πˆ1 (zi1 − z1 )2 i i X i xˆi = πˆ0 + πˆ1 zi1 xˆ = πˆ0 + πˆ1 z 1 = x1 ) xˆi − xˆ = πˆ1 (zi1 − z1 P P IV (zi1 − z1 ) yi πˆ1 (zi1 − z1 ) yi ˆ β1 = P = 2P = ) (zi1 − z1 ) (xi1 − x1 πˆ1 (zi1 − z1 )2 P xˆi − xˆ yi OLS = P ˆ2 = βy,ˆ x ˆxˆi − x בדוגמא אנו רואים כיצד ניתן לקבל את אותו אומד ,אבל סטיות התקן שונות .זו אחת הסיבות שבעבר קראו לזה רגרסיה דו־שלבית. עבודה מלפני 20שנה דנה בקשר בין רבעון לידה להשכלה .לקחו נתונים מבוססים על מפקדים ,ובדקו ממוצע שנות לימוד לכל רבעון .בשנות ה 30יש מגמת עלייה בהשכלה על פני עשור .חוץ מזה ,מי שנולד בתחילת השנה תמיד לומד קצת פחות .הפער הוא בכמה חודשים .הסבה להבדלים המובהקים הוא מתופעת הנשירה בתום חוק חינוך חובה .מתברר שהאומד הזה תופס בדיוק את החלק הזה של האוכלוסיה ,ולא ניתן להשתמש בו למדידה כללית. הממצאים :האומד טיפה יותר קטן ,וטעות התקן הרבה יותר גדולה .נחזור לזה בהמשך. דוגמא נוספת :פשיעה ומשטרה .הראינו איך מנגנון הסימולטניות מטה את האומד. סטיב לויט חיפש משתנה עזר שישפיע על מספר השוטרים ,אבל לא על רמת הפשע .הוא השתמש בשאלה האם באותה שנה יש בחירות .מסתבר שכאשר יש כלכלת בחירות, המושלים מוציאים עוד כסף על שוטרים ,כאשר מצד שני אנשים לא בוחרים בפשע בגלל בחירות. הממצאים :בשנות בחירות השינויים במספר השוטרים גדולים יותר .כשמריצים את 15 המודל ריבועים פחותים מקבלים קשר חיובי מובהק ,אבל קטן .כשמתקנים את זה עם משתנה עזר ,מקבלים אומד שלילי ומובהק ,אבל עם סטיית תקן הרבה יותר גדולה. דוגמא grade = β0 + β1 skipped + u :־ האם החסרת שיעורים משפיעה על הציון. הבעיה skipped :אנדוגני ,כי יש הרבה דברים שמשפיעים על הציון ,ומתואמים עם .skippedלמשל ,יכולת ,רקע בחומר הלימוד )יכול להשפיע בשני הכיוונים ־ מי שמבין בלי השיעור ,לא יבוא לשיעור ,ומי שלא מבין גם אתו ־ גם לא יבוא(. נשתמש במשתנה עזר z1של המרחק מהר הצופים )גיאוגרפי \ זמן הגעה( .סביר להניח שיש קשר בין z1ל .skippedהאם יש ל־ z1תיאום עם ?uזה יכול להיות מתואם עם הכנסה או הכנסת הורים .יש מחקרים שהכנסה משפיעה על הציונים .לכן אם יש לנו נתונים על הכנסה ,והיינו מוסיפים אותם למשוואה z1 ,הוא כבר משתנה עזר סביר יותר. הכל תלוי בקונטקסט הספציפי ,ולא תמיד נדע אם הוא אכן כזה ,אלא נצטרך לקוות. דוגמא נוספת :איך משפיעה השתתפות במלחמת ויאטנם על השכר .חלק מהמשרתים התנדבו ,והיתה סלקציה בגיוס .לכן השתמשו במספרי ההגרלה ) (draftשל האנשים. יש קשר בין ההגרלה לשירות ,אבל לא באופן מלא ,וההגרלה היא אקראית ,ולכן לא מתואמת לפי ההגדרה. כדי לבדוק השערות נשתמש באותם מושגים של מבחני .t, fנשאר רק לחשב את השונות: P IV ) (zi1 − z1 ) V ar (ui | x1 , z1 = P V ar βˆ1 ( (zi1 − z1 ) (xi1 − x1 ))2 ואם מניחים שונות קבועה V ar (ui | x1 , z1 ) = σ 2נקבל P (zi1 − z1 ) σ 2 V ar βˆ1 = P ( (zi1 − z1 ) (xi1 − x1 ))2 P ˆIV 2 1 כאשר משתמשים ב־ ui n−k−1 למה סטיית התקן ברגרסיה דו־שלבית נותנת תוצאה שונה? כי לא משתמשים באותה ˆ( .לכן חשוב להשתמש ב־ ivregבמקום רגרסיה דו־שלבית. הגדרה )משתמשים ב־x 2 σ ניתן לראות במקרה של הטרוסטדסטיות כי סטיית התקן שווה ל־ .P (xi1 − x1 )2 Rx2 1 z1 נניח ו־ xהוא אקסוגני ,יש משמעות להשוואת השונויות .למה OLSיותר טוב? כי ה R2 של xעם עצמו הוא ,1לכן השונות תהיה קטנה יותר. = σˆ2ו־= xi1 IV − βˆ1 IV .uˆi IV = yi − βˆ0 ברוב המקרים לאומדי IVיש שונות גדולה יותר ,וזה מאוד בולט בעבודות אמפיריות, וזה משקף את עוצמת הקשר בין x1ל־ .z1 16 כ"ד סיון תשע"ב )שעור (6 ראינו כי עבור ,y = β0 + β1 x1 + uאם cov (x1 , u) 6= 0אז OLSמוטה ולא עקיב. אבל אם קיים z1כך ש־ ,cov (z1 , u) = 0ו־ cov (z1 , x1 ) 6= 0אומד IVעקיב ל־ β1 )אבל מוטה(. את החלק cov (z1 , x) 6= 0ניתן לבדוק ע"י בדיקת ההשערה π1 = 0ברגרסיה .x1 = π0 + π1 z1 + v1את ההנחה cov (z1 , u) = 0אי אפשר לבדוק ,צריך לשכנע. IV V ar βˆ1תחת הומוסקדסטיות והטרוסקדסטיות ,מומלץ ניתן לאמוד את השונות ישירות דרך הפקודה .ivreg כדי לדחות את ,H0 : π1 = 0צריך מתאם בין z1ל־ .x1 σ2 במקרה של הומוסקדסטיות ,אנו מקבלים (xi1 − x1 )2 Rx2 1 z1 יהיה לנו R2חלש בקשר בין ,z1 , x1נקבל שונות גבוהה יותר .זה גם גורם לכך שלאומדי IVיש שונות גבוהה יותר .ניתן לחלץ מתוך הפער בשונות את עוצמת הקשר .במחקר שהשתמש ברבעון הלידה ,יש R2של פחות מ־ .0.001עדיין הצליחו להגיע לתוצאות מובהקות. IV cov (z , )u 1 אבל זו לא הבעיה העיקרית .הבעיה המרכזית היא .p lim βˆ1 = β1 + ) cov (z1 , x1 אין לנו בטחון כי .cov (z1 , u) = 0אנחנו יכולים לומר כי הוא מאוד נמוך ,אבל אם גם ) cov (z1 , x1נמוך ,שוב אנו עשויים להגיע להטיה. IV .V ar βˆ1אם =P לא נוח לדבר על covשהוא משתנה לפי היחידות ,לכן נדבר על מתאם: s IV ρ )V ar (u z u p lim βˆ1 = β1 + 1 ) ρz1 x1 V ar (x1 הסטייה לא תהיה קטנה אם המתאם ρz1 x1קטן באותו סדר גודל של .ρz1 u 15.3 יציאה מהמודל הבסיסי 15.3.1 הוספת משתנים מסבירים נסתכל על המודל .y1 = β0 + β1 y2 + β2 z1 + . . . + βk zk−1 + u1 נניח כי y1 , y2אנדוגנים ,cov (y1 , u1 ) , cov (y2 , u1 ) 6= 0וכי z1 , . . . , zkאקסוגניים. .∀i ∈ [k − 1] , cov (zi , u1 ) = 0 השאלה המעניינת היא :אם אנו מניחים ש ziאקסוגניים ,האם הם עצמם יכולים לשמש כמשתני עזר? 17 התשובה היא לא .ל־ z1יש אפקט ישיר על ,y1גם לא דרך .y2יש לנו בעצם מולטיקוליניאריות מושלמת .לא ניתן לאמוד את β1 , β2ביחד .נראה בצורה יותר מדויקת בהמשך. אנחנו צריכים zkשיקיים ,cov (zk , u) = 0וגם .cov (zk , y2 | z1 , . . . , zk−1 ) 6= 0 כעת בשלב ראשון נבצע רגרסיה .y2 = π0 + π1 z1 + . . . + πk zk + vנוודא שאנו דוחים את .H0 : πk = 0 במקרה של משתנים מרובים יש נוסחא מתאימה לאומד .IVבסטאטה רושמים ivreg .y1 (y2 = zk) z1 z2 ... zk-1 גם במקרה הזה לאומד IVתהיה שונות גבוהה יותר. 15.3.2 הוספת משתני עזר נסתכל במודל .y1 = β0 + β1 y2 + β2 z1 + uכאשר y2אנדוגני z1 ,אקסוגני. נניח שיש לנו שני משתני עזר z2 , z3שיקיימו ,cov (z2 , y2 ) , cov (z3 , y2 ) 6= 0וגם .cov (z2 , u1 ) , cov (z3 , u1 ) = 0 גם כל צירוף לינארי של z2 , z3יכולים להיות טובים .במה נבחר? הפתרון הוא להשתמש ב yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2 + πˆ3 z3מתוך הרגרסיה .y2 = π0 + π1 z1 + π2 z2 + π3 z3 כאשר אנחנו משתמשים גם במשתנים המסבירים החיצוניים. בצורה הזו אנחנו מצמצמים את הבעיה מריבוי משתני עזר שאיננו יודעים להחליט ביניהם ,למשתנה יחיד להשתמש בו .זה גם סבה נוספת לשם .T SLS בשלב שני מריצים OLSשל y1על yˆ2ו .z1 הוכחנו אלגברית שבצורה הפשוטה אנחנו מקבלים בדיוק את .IVכאן לא נוכיח אלגברית ,אבל נראה שזו אותו אומדן. מה המשמעות של הרגרסיה הזו? מה קורה כשאנחנו מחליפים את y2ב־ ?yˆ2 y1 = β0 + β1 y2 + β2 z1 + u = β0 + β1 yˆ2 + β2 z1 + u1 + β1 vˆ2 נרצה לדעת האם האומד הזה עקיב ,ואם הוא זהה לאומד .IV למה האומד עקיב .כדי שהאומד יהיה עקיב אנחנו דורשים שכל אחד מהמשתנים המסבירים ברגרסיה החדשה לא מתואם עם הטעות החדשה z1 .לא מתואם עם u1 מההנחה ,ולא עם vˆ2כי הוא השתתף בחיזוי של yˆ2 .yˆ2לא מתואם עם u1כי הוא צ"ל של .ziהוא לא מתואם עם vˆ2כי הערך החזוי לא מתואם עם השארית. 18 לכן האומד יהיה עקיב ,אבל זה לא אומר שהוא זהה לאומד .IVלא נוכיח את זה, אבל נראה דוגמא. יש פער בשאריות :כשמחשבים את השאריות בצורה הידנית β2 vˆ2 ,נכנסים לשאריות, ולכן חישוב השונות משתנה .לכן עדיף להשתמש ב־.ivreg R2שונה גם הוא .כאשר מניחים שאין מתאם בין ,x, uניתן לחשב ,R2אבל כאשר יש מתאם ,אין טעם לחשב את ,R2ולכן למרות שהוא מדווח ,לא מסתכלים עליו. 15.4 סיכום כ"ח סיון תשע"ב )שעור 7־ קבוצה אחרת( 15.4.1 המודל הפשוט y2 .y1 = β0 + β1 y2 + w1אנדוגני .קיים z1כך ש־ cov (z1 , w1 ) = 0אבל .cov (z1 , y2 ) 6= 0במקרה זה P IV (zi1 − z1 ) yi1 p βˆ1 = P −−−→ β1 ∞→n ) (zi1 − z1 ) (yi2 − y2 הוכחנו כי IVשקול ל־ OLSשל y1על ,yˆ2כאשר ) yˆ2 = πˆ0 + πˆ1 z1החלק הלא־מתואם של .(y2 15.4.2 הוספת משתני עזר אותו מודל ,y1 = β0 + β1 y2 + w1 ,אבל z1 , z2משתני עזר .הקומבינציה האופטימלית לאומד IVעם השונות הקטנה ביותר הוא .yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2בעצם P y ˆ y ˆ − yi1 IV 2 i2 βˆ1 = P ) yˆi2 − yˆ2 (yi2 − y2 15.4.3 הוספת משתנים מסבירים אקסוגניים המודל .y1 = β0 + β1 y2 + β2 z1 + . . . + βk zk−1 + u1אי אפשר להשתמש ב־ z1 . . . zk−1כמשתני עזר ,כי זה יוצר מולטיקולינאריות מושלמת .צריך משתנה עזר חיצוני .y2 = π0 + π1 z1 + . . . + πk−1 zk−1 + πk zk + v2 .אם לא היינו משתמשים 19 ב ,zkהשלב הראשון היה נותן לנו yˆ2שהוא צירוף ליניארי של ,z1 . . . , zk−1ובשלב השני של הרגרסיה ,היה לנו מולטיקוליניאריות .כדי להשתמש ב zkאנחנו צריכים לדחות את ) H0 : πk = 0אם משתמשים בכמה ,צריך לשער על כולם( .עכשיו אנו משתמשים ב T SLSומקבלים: ) y1 = β0 + β1 yˆ2 + β2 z1 + . . . + βk zk−1 + (u1 + β1 vˆ2 yˆ2 = πˆ0 + πˆ1 z1 + . . . + πk−1 ˆ zk−1 + πˆk zk הערה zk 15.6שובר את המולטיקוליניאריות בהנחה סטנדרטית ש־ zkלא מולטיקוליניארי עם .z1 , . . . , zk−1 15.4.4 הוספת משתנים מסבירים אנדוגניים .y1 = β0 + β1 y2 + β2 y3 + β3 z1 (+ . . . + βk zk−1 ) + u1זה לא קורה הרבה ,אבל יכול לקרות ,ויותר מזה לא עושים )משקרים לעצמנו ואומרים ש"אנחנו מתעניינים בתוצאה של β1בלבד ,כל השאר הם לצורך ביקורת"( .זו לא ההנחה הכי סבירה ,אבל זה מה שעושים במציאות. נניח כי z2משתנה עזר )מתואם עם y2 , y3אבל לא עם .(u1כעת ניתן לחשב את yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2 yˆ3 = δˆ0 + δˆ1 z1 + δˆ2 z2 y1 = β0 + β1 yˆ2 + β2 yˆ3 + β3 z1 + u1 + β1 vˆ2 + β2 vˆ3 אבל במשוואה יש מולטיקוליניאריות מושלמת ,אפשר לחלץ את z2כפונקציה של ,z1 , yˆ3 ואז yˆ2הוא גם פונקציה של .z1 , yˆ3לכן חייבים משתנה עזר נוסף .נקבל yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2 + πˆ3 z3 yˆ3 = δˆ0 + δˆ1 z1 + δˆ2 z2 + δˆ3 z3 y1 = β0 + β1 yˆ2 + β2 yˆ3 + β3 z1 + u1 + β1 vˆ2 + β2 vˆ3 וכעת נפטרנו מהמולטיקולינאריות. 20 16 16.1 סימולטניות משוואות ביקוש והיצע המסגרת הטבעית לדבר על סימולטניות היא כשאנו עוסקים באמידת פונקציות ביקוש והיצע .זה די דומה למה שעשינו על שוטרים וגנבים. נדבר על ביקוש לשעות עבודה ע"י פירמות z1 .hd = β0 + β1 w + β2 z1 + u1 .יכול להיות גודל הפירמה \ שטח חקלאי למשל .אנחנו נצפה ל β1שלילי ,כאשר לפירמות שונות יש תזוזה בעקומת הביקוש לפי .z1נניח כי z1אקסוגני .נניח שיש לנו מדגם i.i.d.של .hi , wi , zi1האם ניתן להריץ רגרסית OLSולקבל אומדים עקיבים? זה ייתכן רק תחת ההנחה .cov (w, u) = 0נניח כי u1הם גורמים אקראיים )מזג אויר, מכונות מתקלקלות( ,שמשפיעים על הביקוש לשעות עבודה .ממה שאנחנו יודעים על שיווי משקל ,אנחנו נקבל כי גם wיעלה. אנחנו מניחים שאנו עוסקים בתצפיות של שיווי משקל ,וכי היצע העבודה אינו גמיש לחלוטין. אנחנו צריכים למצוא משתנה עזר ,שיזיז את השכר ,אבל לא את הביקוש .לכן נחשוב על היצע שעות העבודה ע"י הפרטים .עקומת היצע הפוכה inverse supply function של .w = α0 + α1 hs + α2 z2 + u2ההיצע מורכב מהשכר ,ועוד גורמים נוספים ,וניתן לחלץ משם את השכר .תנאי לשיווי משקל הוא .h = hs = hdנניח ,Eu2 = 0 ו־ .E (z2 u2 ) = 0על מנת להשתמש ב z2כמשתנה עזר ל־ wבפונקצית הביקוש ,צריך להניח ,cov (z2 , u1 ) = 0כלומר שינויים ב־ ,z2לא מזיזים את עקומת הביקוש. ניתן לחשב את ) ,E (wu1ולחשב ע"י הצבות )לראות בסיכומים( כי ) E (u1 u2 α1 V ar (u1 ) + = ) ,E (wu1וזה חיובי. 1 − α 1 β1 1 − α1 β1 גם בדוגמא של לויט אפשר לחשוב על זה כעל שתי משוואות עם קשר סימולטני .בתור כלכלן הוא הבין שיש כאן קשר סימולטני כמו ביקוש והיצע. זיהוי: אמרנו קודם שעבור משתנה אנדוגני יחיד צריך משתנה עזר נוסף ,ולשנים צריך שנים. הגדרה 16.1נאמר שיש לנו זיהוי מדויק ) (just-identicationכאשר מספר משתני העזר החיצוניים שווה למספר המשתנים האנדוגניים. נגדיר זיהוי יתר ) (over-identicationכאשר יש יותר משתני עזר ,וזיהוי חסר )under- (identicationכאשר יש קצת מדי משתני עזר. 21 למשל עבור דוגמא אחת )עמ' (9יש זיהוי חסר ,לדוגמא 2זיהוי מדויק ,ודוגמא 3זיהוי יתר. כאשר יש לי זיהוי יתר ,עקרונית כאשר משתמשים בשני המשתנים ,מקבלים שהשאריות לא מתואמות עם ,u1אבל אם נשתמש בחלק ,ניתן אח"כ לבדוק את השאריות כדי לבחון )הנסן( האם השאריות מתואמות עם המשתנה השני או לא .זה לא מספיק כדי להצדיק את השימוש במשתנה ,אלא להסביר למה אין מנגנון שיוצר מתאם בין הטעויות. ר"ח תמוז תשע"ב )שעור (8 סיכום 17 ראינו את מודל הרגרסיה הליניארית ,שהתבסס על אוסף הנחות ,ואיך לאמוד אותו על סמך נתונים .אח"כ דברנו על הסקה סטטיסטית ובדיקת השערות ,ואז עברנו להתרת ההנחות של המודל .מה עושים כשהנחה ספציפית לא מתקיימת? 17.1 מודל הרגרסיה הלינארית המודל מבוסס על ההנחות הבאות: .y = β0 + β1 x1 + . . . + βn xn + u .1 .2מדגם מקרי. .3חוסר מולטיקוליניאריות מושלמת בין ה־xים )הנחה טכנית( .הדגש הוא על קשר מושלם .אם הקשר לא מושלם ניתן לטפל בו. .4אקסוגניות .E [u | x] = 0 ) .5מכאן הנחות ניתנות להסרה בקלות( הומוסקדסטיות. .6נורמליות של .y | x 17.2 שיטות אמידה כאשר יש לנו נוסחא ,יש לנו כמה שיטות לאמוד .ראינו את האומדים: OLS .1 22 IV .2 יש גם אומדים אחרים כמו מהירות מקסימלית .דרך אחת היא להסביר את העקרון בבחירת המודל )מומנטים ,מזעור ריבועים( ,אבל מה שמעניין אותנו אלו התכונות. התמקדנו גם במה מוביל אותנו אל האומד. 17.2.1 תכונות האומדים יש כמה סוגים של תכונות. • תכונות סטטיסטיות :חוסר הטיה ) ,(1 − 4עקיבות ),(1 − 4 or 1-3 and cov (xj , u) = 0 יעילות )"שונות קטנה" ,גאוס מרקוב() ,(1 − 5התפלגות )נותן לנו את בדיקת ההשערות יחד עם הקודמים( .התכונות תלויות בהנחות. • תכונות אלגבריות) :תמיד מתקיימות ב־(OLS X uˆi = 0 X xij uˆi = 0 X yˆi uˆi = 0 מה לגבי אומד ?IVאי אפשר להוכיח חוסר הטיה IV .עקיב תחת הנחות 1 − 3וזה שמשתני העזר לא מתואמים עם ,uאבל מתואמים עם המשתנים האנדוגניים .עקיבות היא התכונה המרכזית שאנו מחפשים. מהי השונות של ?IVהאם יש טענה דומה לגאוס־מרקוב? יש רמז לכך :בין כל האומדים העקיבים שמשתשמשים באותם משתני עזר ,אומד IVשהוצג הוא הטוב ביותר. קל לחשוב על אומדים עם שונות קטנה יותר ,אבל הם עשויים להיות מוטים .למשל האומד β˜1 = 0.17הוא אומד עם שונות אפס. בהינתן ,x, zייתכן ו־ yיתנהג בצורה נורמלית. 17.3 בדיקת השערות גם הבדיקה מתבצעת על ידי האומדים ,אבל יש שני דברים בבדיקת השערות: 23 .1צריך לעבור מהשערה מילולית להשערה מתמטית שנכתבת למחשב. .2איך בודקים. הדבר הקריטי לצורך בדיקת השערות הוא לדעת מה ההתפלגות של האומד .בלי זה אי אפשר להתקדם .איך נדע האם 0.69קרוב ל־ ,0.7או ?0.6אם ידועה השונות ,ניתן לחשב את הסטטיסטי ,ולהשוות אותו מול טבלת ההתפלגות .זה מה ש M LR6נותנת לנו. בד"כ נרצה לדעת עד כמה הסטטיסטי שונה מאפס ,לפי ההתפלגות של ) tכי לסטטיסטי יש התפלגות .(tתמיד אפשר לבנות את הסטטיסטי ,אבל הם לא יתפלגו לפי ההתפלגות בלי ההנחות. 17.4 התרת ההנחות כל מה שדברנו על הוספת x2או ,log xזה קשור להנחה ,1הפונקציונלית של המודל. ככה אנחנו מאפשרים קשרים לא־ליניאריים במשוואה .שימוש במשתני דמי מאפשר למודל להבדיל בין קבוצות שונות באוכלוסיה .אם מריצים על המדגמים בנפרד ,אנחנו כופים את זה שכל המקדמים יהיו שונים .במשתנה דמי אנחנו בוחרים אלו מקדמים יכולים להיות שונים ,ולבדוק האם ההפרש מובהק. במחצית השניה של הקורס התחלנו להסיר את ההנחות. 17.4.1 הנחת הנורמליות הנחת הנורמליות נחוצה לצורך בדיקת השערות ,אבל הראינו שאם המדגם מספיק גדול, לפי משפט הגבול המרכזי עדיין הסטטיסטי tיתפלג .tn−kהאומד לא מתפלג נורמלית, אלא ההתפלגות הנורמלית היא קירוב טוב להתפלגות האמיתית של האומד )התפלגות אסימפטוטית(. 17.4.2 הומוסקדסטיות ההנחה לא מאוד נחוצה ,והיא לא מציאותית .זה עוזר לחישוב הנוסחא של השונות ,אבל השונות קיימת גם כשאין הומוסקדסטיות .נכון שהנוסחא קצת מסובכת ,אבל עדיין ניתנת לחישוב .הדבר היחיד שנעלם עם ההנחה זה .BLUEשתי ההנחות לא משפיעות על חוסר ההטיה והעקיבות של האומדים .כש M LR5לא מתקיים ,צריך לחשב את s.e. ע"י נוסחת אמידה הטרוסקדסטית .ב stataע"י .robust 24 17.4.3 אקסוגניות מאוד קשה להסביר את ההנחה ,והיא קריטית לעקיבות .מה שעשינו זה עקפנו את הבעיה .הראינו 3סיבות: .1השמטת משתנה רלוונטי .2סימולטניות .3טעויות במדידת המשתנים למה לא להריץ רגרסיה של צריכת דלק לפי מיסים בלבד? אנחנו נשים משתנים נוספים כדי להקטין את הטעות ,ואז הסיכוי לתיאום הולך וקטן. גם כשנוסיף משתנים ,זה לא פותר את שתי הבעיות האחרות .אבל יש לנו פתרון בצורת משתנה עזר שמתואם עם xולא עם .uאבל צריך להניח שהוא עצמו לא מתואם עם .u לפעמים זה פשוט ,אבל לא באמת עוזר )רבעון לידה למשל( .מאז משתמשים במספרי הגרלות .בארה"ב ,האם אנשים בוחרים ללכת לבי"ס פרטי .האם זה ישפיע על ציוני התלמידים? הבעיה היא כלכלית .המציאו משתנה של האם יש נהר בעיר .לא משפיע על הציונים ,אבל משפיע על ההחלטה .לפעמים המציאו את המשתנה ,ואח"כ סביבו את הבעיה. אם משתנה העזר הוא חלש ,עשויה להיות הטיה. 18 שימוש בנתוני פאנל )לא למבחן( משתנה העזר צורך שכנוע שהוא מתאים .נרצה לראות דרך אחרת לעקוף את האנדוגניות. המודל בנתוני פאנל הוא ,yit = β0 + β1 xit + uitכאשר iהוא אינדקס הפרט ,ו־ tהוא אינדקס השנה. נניח שאנו רוצים לבדוק את התגובה לשינויים במחירי הדלק .לא נוכל לתפוס את זה בתצפית בודדת .אבל אם יש לנו נתונים עד ,2015נוכל לראות האם יש לנו נתונים. הכל תלוי באופק השנים .קיום של נתוני פאנל פותרת את בעיית האנדוגניות .יש לנו בעיה אם uמתואם עם .x אם מבצעים ) ,OLS (pooledהוא לא יהיה עקיב אם xמתואם עם .u 25 נניח שניתן לכתוב .uit = vi + εitהטעות מפורקת לטעות קבועה על פני הפרט )אפקט אינדיבידואלי ־ למשל מרכיב היכולת בשכר( ,ולתנודה זמנית .אם מניחים שהמתאם בין uל־ xנובע מ־) vכלומר ε, xלא מתואמים( ,ניתן לפתור את הבעיה .אפשר להשתמש במודל yit − yi(t−1) = β1 (xit − xit−1 ) + εit − εit−1 כדי שהמודל יהיה עקיב ,צריך ש xלא יהיה מתואם עם εמשנה ליד .לאומד הזה נקרא .F.D.אומד מפורסם יותר הוא yit − y = β1 (xit − xi ) + εit − εi ריבועים פחותים ייתן אומד עקיב אם xלא מתואם עם .εit , εנקרא אומד .F ixed Ef f ect est. היום עם התפתחות הנתונים עוברים להשתמש בנתוני פאנל. הרבה פעמים השימוש הוא אנדוגני ,אבל החוק הוא אקסוגני )?( ניתן להראות שאף שנומרית יש הבדל בין שני האומדים ,אין צורך לחשב את הסטיות ,xit − xiאלא להוסיף משתני דמי לכל פרט למודל המקורי ,וזה נותן תוצאות כמו .F.E. הרבה פעמים x, yהם בלוגריתם .זה נקרא שיעור השינוי .כשאומדים בצורה כזו, אומדים השפעה של שיעור שינוי על שיעור שינוי .האומדים שלנו עובדים בד"כ על רמות .אם יש לנו לוגריתמים ,זה גמישות .אם אנחנו מדברים על האינפרטציה ,זה יותר פשוט במודל הבסיסי. יש בסטאטה את כל הפקודות ,כולל שילוב ביניהם. הרבה פעמים יש לנו את המיסוי בשנים קודמות ,וניתן לעמוד עליהם לאורך זמן. האם ההנחה uit = vi + εitתקפה? אם אין פקטורים ,viנקבל ,vi = 0ו־ .uit = εit יכול להיות שיש נתונים קבועים לאורך כל התקופה ,אבל סט הפקטורים הקבועים הולך וקטן ככל שהתקופה גדלה .לכן המודלים עובדים טוב על פני תקופה של 10־ 5שנים. ... 26