Kapitel 4 4.1 Konsistenz von OLS (unter GM1,
Transcription
Kapitel 4 4.1 Konsistenz von OLS (unter GM1,
KONSISTENZ VON OLS 38 4.1 Konsistenz von OLS (unter GM1,. . .,GM4) ˆ = β, ist eine Minimalforderung (ber¨ • Konsistenz eines Sch¨atzers, plimN →∞ β uhmtes N Zitat: ‘If you can’t get it right as N → ∞, you should not be in this business’) • Unter den gleichen Annahmen wie diejenigen, die Erwartungstreue garantieren (siehe Kapitel 2), ist die OLS-Sch¨atzung konsistent Kapitel 4 Inferenz bei OLS-Sch¨ atzung II (large sample, unter GM1, . . ., GM5) • Die im letzten Kapitel behandelten ‘exakten’ Hypothesentests beruhen ganz wesentlich auf der Annahme GM6, normalverteilte St¨orterme. Diese Annahme ist durchaus einschr¨ankend. • Wir wollen sie nun fallenlassen und stattdessen ‘asymptotische’ Aussagen treffen, ˆ =β ˆ N bei wachsendem Stichprobedie sich auf das Verhalten des OLS-Sch¨atzers β numfang N → ∞ beziehen (d.h. in der Praxis: die Stichprobe ist ‘gen¨ ugend groß’). ˆN = β • Konsistenz des Sch¨atzers meint ‘asymptotische Unverzerrtheit’: plimN →∞ β ur Zufalls• Was heißt dabei plimN →∞ ? Es handelt sich um einen Konvergenzbegriff f¨ ˆ ), der sich auf die Konvergenz gegen eine Konstante (β) bezieht. variablen (die β N ur verUm ihn zu erfassen, stellen wir uns Verteilung(sdicht)en von einem der βˆj f¨ schiedene Stichprobengr¨oßen N vor (bei gleichem N sehr oft neue Stichproben, dann N → ∞). Bei Konsistenz entsteht ein Bild wie das folgende: Wktsverteilung von Žŝ j für verschiedene N (N1 < N2< N3) N3 N2 • Die ben¨otigten Annahmen sind GM1, . . ., GM4, d.h. insbesondere die Exogenit¨at der Regressoren, aber nicht die Homoskedastie (GM5). (Sehr) Heuristische Herleitung der Konsistenz unter GM1,. . .,GM4 • Wie bei der Erwartungstreue schreiben wir ˆ = (X X)−1 X y = (X X)−1 X (Xβ + u) = β + (X X)−1 X u β ˆ X und u setzen, unterdr¨ ucken das aber) (wir m¨ussten jetzt eigentlch einen Index N bei β, • Es folgen zwei Tricks: ˆ (mit einer Konstanten) ist invariant unter einer Zentrie1 Die OLS-Sch¨atzung β rung der Regressoren, d.h. anstatt X k¨onnen wir auch die Matrix Xc verwen¯ j ersetzt sind. den, in der die Spalten xj durch xcj = xj − x 2 Wir ‘erweitern den Quotienten’ (X X)−1 X mit N1 : −1 1 (X X)−1 X = (Xc Xc )−1 Xc = N1 Xc Xc X N c • Wir haben also ˆ = β+ β 1 N Xc Xc −1 1 N Xc u und die Bildung des plim liefert (mit einigen ‘Stetigkeitsargumenten’) −1 ˆ = β + plim 1 X Xc plim β · plim N1 Xc u N c N →∞ N →∞ N →∞ • Die beiden plim’s auf der rechten Seite haben klare statistische Interpretationen: Nach dem Gesetz der großen Zahlen ist 1 Xc Xc N →∞ N plim = Var(X), 1 Xc u N →∞ N plim = cov(X, u) wobei Var(X) die K × K-Varianzmatrix der Regressoren x1 , . . . , xK ist und der KVektor cov(X, u) = (cov(x1 , u), . . . , cov(xK , u)) deren Kovarianzen mit u enth¨alt. • Im Ergebnis entsteht also: N1 ˆ = β + Var(X) −1 cov(X, u) plim β N →∞ Žj Žŝ j F¨ ur N → ∞ kollabieren die Verteilungen in einer Punktverteilung beim wahren βj . • Formale Definition von plim θˆN = θ: lim P (|θˆN − θ| ≥ ε) = 0 f¨ ur jedes ε > 0. N →∞ N →∞ 37 −1 Der ’asymptotische Bias’ Var(X) cov(X, u) ist 0 und OLS damit konsistent, falls – Die Varianzmatrix der Regressoren, Var(X), regul¨ar ist – dies ist die Annahme GM3 der linearen Unabh¨ angigkeit der Regressoren in der Population ur alle j – die Regressoren nicht mit den St¨ortermen korrelieren, cov(xj , u) = 0 f¨ – dies ist die Exogenit¨ atsannahme GM4 auf Populationsniveau K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 4.2 39 Asymptotische Normalit¨ at unter GM1, ... ,GM5 • Die Hypothesentests des letzten Kapitels beruhen auf der Annahme normalverteilter St¨orterme (GM6). • In viele F¨allen kann man jedoch nicht von normalverteilten St¨ortermen ausgehen; dann sind weder die βˆj perfekt normalverteilt, noch ist die t-Statistik unter der Nullhypothese exakt t-verteilt, noch ist die F -Statistik exakt F -verteilt usw. • M¨ ussen wir deswegen f¨ ur jede von der Normalverteilung abweichende Verteilung der St¨orterme die Verteilung der Teststatistiken neu ermitteln? • Zum Gl¨ uck nicht, wenn der Stichprobenumfang N gen¨ ugend groß ist. Auch bei nicht-normaler Verteilung der St¨orterme unterscheiden sich die kritischen Werte der Teststatistiken bei großem N n¨amlich kaum von denen bei Normalverteilung. • Theoretischer Hintergrund daf¨ ur ist der zentrale Grenzwertsatz: Sei (YN ) eine Folge von i.i.d. Zufallsvariablen mit Erw.Wert μ und Varianz σ 2 . Dann ist Y¯N − μ √ ZN = ←− auf E[ZN ] = 0, Var(ZN ) = 1 standardisiertes Y N σ/ N ¨ VON OLS ASYMPTOTISCHE NORMALITAT 40 • Der Beweis des Satzes ist eine recht technische Anwendung des ZGWS; der Nachweis √ der N -Konsistenz in i) beruht auf folgender Darstellung des Fehlers der OLSSch¨atzung: √ √ ˆ − β) = 1 X X −1 N 1 X u N β N N ZGWS Dabei entspricht Komponente von 1 X u N 1 X u N der Differenz Y¯N − μ im ZGWS (betrachte z.B. die erste ¯ − 0) in einem Modell mit Konstante: sie lautet N1 i ui = u • Die praktische Konsequenz des Satzes besteht darin, dass man – selbst bei nichtnormalverteilten St¨ortermen – die gleichen Teststatistiken und kritischen Werte wie bei unterstellter Normalverteilung verwenden kann, sofern N gen¨ ugend groß ist. Beispiel zur √ N -Konsistenz: Geburtsgewicht (bwght) regressiert auf cigs und faminc • Auf Basis der N = 1388 Datens¨atze in BWGHT liefert die OLS-Sch¨atzung: = bwght 116.97 − 0.46 cigs + 0.093 faminc (1.05) (0.09) (0.029) N = 1388, R2 = 0.03 a asymptotisch standard normalverteilt – geschrieben ZN ∼ N (0, 1) – d.h. es gilt: z 1 2 1 Φ(z) := √ e− 2 z˜ d˜ z lim P (ZN ≤ z) = Φ(z) ∀ z ∈ R, N →∞ 2π −∞ a d Anstatt ZN ∼ N (0, 1) schreibt man auch ZN −→ N (0, 1) (‘Konverg. in Verteilung’) • Wird f¨ ur die Sch¨atzung nur die (erste) H¨alfte der Datens¨atze verwendet (N = 694), ergibt sich: = bwght 116.95 − 0.52 cigs + 0.094 faminc (1.54) (0.14) (0.042) N = 694, R2 = 0.03 • Der zentr. Grenzw.satz dr¨ uckt die Wurzel-N -Konsistenz von Y¯N als Sch¨atzer f¨ ur μ aus: √ d N (Y¯N − μ) −→ N (0, σ 2 ) Das ist informativer als die reine Konsistenz (plimN →∞ Y¯N = μ), da man sieht, dass – die Sch¨atzung Y¯N asymptotisch normalverteilt√ist um den Erw.Wert μ = plimN →∞ Y¯N , – wobei der Standardfehler sd(Y¯N − μ) wie 1/ N f¨ ur N → ∞ abklingt. Aufgrund der Wurzel-N -Konsistenz erwarten √ wir, dass die Standardfehler sich bei einer Halbierung von N um den Faktor 2 ≈ 1.41 erh¨ohen. In der Tat ist √ die Relation der Standardfehler bei allen drei Regressoren n¨aherungsweise gleich 2: ˆ = β ˆ : • Eine analoge Aussage gilt f¨ ur die OLS-Sch¨atzung β N (Erwartungsgem¨aß sind die gesch¨atzten Regressionskoeffizienten aber fast unver¨andert.) ˆ Satz: Unter den GM-Annahmen 1 bis 5 gilt f¨ ur die OLS-Sch¨atzung β: ˆ ist Wurzel-N -konsistent f¨ i) β ur β und asymptotisch normalverteilt, √ a ˆ − β) ∼ N (0, σ 2 V ) (mit V = plim 1 (X X)−1 ???) N (β N N →∞ ii) F¨ ur jedes j gilt: βˆj − βj a ∼ N (0, 1) se(βˆj ) iii) Die kritischen Werte der t- und F -Statistik konvergieren f¨ ur N → ∞ gegen diejenigen, die sich bei unterstellter Normalverteilung der St¨orterme ergeben. 1.54 ÷ 1.05 = 1.47, 0.14 ÷ 0.09 = 1.56 und 0.042 ÷ 0.029 = 1.45 . ¨ • ‘Subsampling’ in E-Views: Entweder vor dem Offnen der Gl. smpl 1 694 in die Befehlszeile eingeben oder beim Sch¨atzen der Gl. unter ‘Sample’ 1 694 eingeben. Es ist auch m¨oglich, eine Bedingung einzugeben, z.B. smpl if cigs > 0. R¨ uckkehr zum vollen Sample mit smpl @all. K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 41 Prinzipien fu ¨ r asymptot. Tests (Wald, LR, LM)∗ 4.3 4.3.1 Maximum Likelihood Methode Eine allgemeines Konzept zum Sch¨atzen der Parameter eines Modells auf Basis einer Stichprobe ist das Maximum Likelihood Prinzip: F¨ ur die Parameter werden diejenigen Werte als Sch¨atzer genommen, f¨ ur die die Wahrscheinlichkeit (die Likelihood ) maximal wird, genau die beobachtete Stichprobe zu realisieren. Das Prinzip l¨asst sich am einfachsten im Fall einer Zufallsstichprobe x1 , . . . , xN (unabh¨angige Beobachtungen) erl¨autern: Ist p(x, θ) die individuelle Likelihood, d.h. die Wahrscheinlichkeit, den Wert x in der Stichprobe zu beobachten, wenn θ der wahre Parameter ist, so bildet man die Likelihood-Funktion: L(x1 , . . . , xN ; θ) = N p(xi , θ); i=1 sie gibt die Wahrscheinlichkeit an, die beobachtete Stichprobe (x1 , . . . , xN ) zu realisieren, wenn der wahre Parameter θ ist. (Wenn xi stetig verteilt ist, verwendet man anstatt p(x, θ) die Dichte f (x, θ) zur Bildung der Likelihood-Funktion, da sonst L = 0 w¨are) Die Likelihood-Funktion wird als Funktion von θ – bei gegebenem x1 , . . . , xN – maximiert. Aus rechentechnischen Gr¨ unden f¨ uhrt man die Maximierung meistens mit dem Logarithmus der Likelihood, der sog. log-Likelihood logL, durch: logL(x1 , . . . , xN ; θ) = log N N p(xi , θ) = log p(xi , θ) i=1 i=1 ! Die Bedingung erster Ordnung f¨ ur ein Maximum von logL, 0 = ∂ logL(x1 ,...,xN ; θ) , ∂θ lautet: N ∂ log p(xi , θ) 0 = ˆ ∂θ θ=θ i=1 ˆ Er Die Aufl¨osung dieser Gleichung nach θ liefert den Maximum-Likelihood-Sch¨atzer θ. maximiert die (log)-Likelihood-Funktion, sofern N ˆ ∂ 2 log p(xi , θ) ∂ 2 logL(x1 , . . . xN ; θ) = ˆ ∂θ2 ∂θ2 θ=θ i=1 negativ ist. 42 ¨ ASYMPTOT. TESTS ML-METHODE, PRINZIPIEN FUR Beispiel: ML-Sch¨ atzung einer unbekannten Wahrscheinlichkeit In einer Urne befinden sich rote und schwarze Kugeln und wir m¨ochten den Anteil θ der roten Kugeln auf Basis einer Stichprobe, bei der N Kugeln mit Zur¨ ucklegen gezogen werden, ermitteln. Wir beschreiben unsere Stichprobe durch xi = 1, falls im i-ten Zug eine rote Kugel wurde, und xi = 0 falls nicht. Dann ist p(xi , θ) = θxi (1 − θ)1−xi ⇒ log p(xi , θ) = xi log(θ) + (1 − xi ) log(1 − θ) ∂ log p(xi , θ) xi 1 − xi = − ⇒ ∂θ θ 1−θ Die Bedingung 1. Ordnung zur Maximierung von logL f¨ uhrt also auf die Gleichung xi 1 − xi N1 N − N1 0 = = − − , θ 1 − θ θ=θˆ θˆ 1 − θˆ i wobei N1 die Anzahl roter Kugeln in der Stichprobe ist. Die Aufl¨osung dieser Gleichung nach θˆ zeigt, dass der Maximum-Likelihood-Sch¨atzer hier den StandardSch¨atzer f¨ ur θ reproduziert: θˆ = N1 /N OLS als Maximum-Likelihood-Sch¨ atzung Auch die OLS-Sch¨atzung eines linearen Regressionsmodells (unter dem vollen Satz der GM-Annahmen GM1, ..., GM6) l¨asst sich als Maximum-Likelihood-Sch¨atzung interpretieren. Dabei ist zu beachten, dass der Parametervektor θ hier nicht nur die Regressionskoeffizienten, sondern auch σ 2 umfasst: θ = (β1 , . . . , βK , σ 2 ) . Der individuellen Likelihood p(xi , θ) entspricht hier die Dichte (der Normalverteilung) 1 (y − x ˜ i β)2 1 i ˜ i ; β, σ 2 ) = √ f (yi , x exp − 2 2 σ2 2πσ ˜ i β)2 1 1 (yi − x ˜ i ; β, σ 2 ) = − log(2π σ 2 ) − ⇒ log f (yi , x 2 2 2 σ ˜ i ; β, σ 2 ) ∂ log f (yi , x ˜ i β yi − x ˜i = −0 + x ⇒ ∂β σ2 2 ˜ i ; β, σ ) ∂ log f (yi , x ˜ i β)2 1 1 (yi − x = − 2 + 2 ∂σ 2σ 2 σ4 Nullsetzen der summierten Ableitungen nach β liefert – abgesehen vom Faktor 1 – genau die Normalengleichungen der OLS-Sch¨atzung, d.h. der ML-Sch¨ atzer σ2 stimmt in Bezug auf β mit dem OLS-Sch¨ atzer u ¨ berein: N N N −1 ˜ i β yi − x ! ˆ = β ˆ ML = ˜i ˜ ˜ ˜ i yi = 0 ⇒ β x x x x i i ˆ σ2 β=β i=1 i=1 i=1 Die Maximum-Likelihood-Sch¨atzung von σ 2 ergibt sich aus N N ˜ i β)2 1 (yi − x 1 N ! 2 2 ˆ )2 ˜β = 0 ⇒ σ ˆ = σ ˆ = (yi − x − 2+ M L ˆ σ 2 =ˆ 2σ 2 i=1 σ4 N i=1 i β=β, σ2 =ˆ ui K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 43 Sie unterscheidet sich von der (im Kapitel 2 angegebenen, unverzerrten) Sch¨atzung von σ 2 nur dadurch, dass keine Freiheitsgradkorrektur stattfindet (N statt N − K). ˆ σ Anmerkung: Die gesamte log-Likelihood (in β, ˆ 2 ) ergibt sich hier als N ˆ 2 ˜ i β) 1 (yi − x N |ˆ u|2 N ˆ σ logL(y, X; β, ˆ 2 ) = − log(2πˆ = − log(2πˆ σ2) − σ2) − 2 2 2 2 i=1 σ ˆ 2 2ˆ σ Dieser Wert wird z.B. in E-Views standardm¨aßig im Regressionsoutput angezeigt. Asymptotische Effizienz der Maximum-Likelihood-Sch¨ atzung Der ML-Sch¨atzer hat einige vorteilhafte Eigenschaften gegen¨ uber anderen Sch¨atzern – insbesondere ist er asymptotisch effizient. Diese Eigenschaften, wie auch die folgenden, auf ML-Sch¨atzung beruhenden Testprinzipien, sind auch f¨ ur die OLS-Sch¨atzung relevant, da OLS – wie gesehen – als Maximum-Likelihood-Sch¨atzung interpretiert werden kann (n¨amlich in der speziellen Situation linearer Regressionsmodelle unter GM1, ..., GM6). Unter schwachen Regularit¨atsbedingungen gilt f¨ ur jeden Maximum-Likelihood-Sch¨atzer: ˆ=θ • Der Maximum-Likelihood-Sch¨atzer ist konsistent, plimN →∞ θ √ • Der Maximum-Likelihood-Sch¨atzer ist asymptotisch normal verteilt (und N konsistent): √ d ˆ − θ) −→ N (θ N (0, V ) wobei V die asymptotische Varianzmatrix ist. • Der Maximum-Likelihood-Sch¨atzer ist asymptotisch effizient (d.h. die asymptotische Varianzmatrix V der Maximum-Likelihood-Sch¨atzung ist die ‘kleinste’ unter allen konsistenten, asymptotisch normalen Sch¨atzern von θ) Asymptotisch effiziente Varianzmatrix V als Inverse der Informationsmatrix Der (negative) Erwartungswert der Hesse-Matrix der individuellen Log-Likelihood wird als Fisher’sche Informationsmatrix I(θ) bezeichnet: N ∂ 2 log p(x, θ) ∂ 2 logp(xi , θ) := − 1 ) ( ≈ I(θ) I(θ) := −E N i=1 ∂θ∂θ ∂θ∂θ ˆ Die asymptotisch effiziente Varianzmatrix V der ML-Sch¨atzung θ ist (wiederum unter geeigneten Regularit¨atsbedingungen) durch die Inverse der Informationsmatrix gegeben: −1 V = I(θ) Den (asymptot.) Standardfehler der ML-Sch¨atzung kann man also folgendermaßen sch¨atzen: ˆ gesch¨atzt (z.B. wie oben angedeutet): I( ˆ – Zun¨achst wird die Informationsmatrix (in θ) θ) −1 ˆ ˆ berechnet. – und dann wird deren Inverse I(θ) als gesch¨atzte Varianzmatrix Vˆ von θ Anmerkung: Die Inverse der Informationsmatrix stellt also eine untere Schranke f¨ ur die asymptotische Varianzmatrix jedes asymptotisch normalen Sch¨atzers dar, die oft als die untere Cramer-Rao-Schranke bezeichnet wird. Die asymptotische Effizienz der MLSch¨atzung wird daher oft auch folgendermaßen formuliert: Der ML-Sch¨atzer nimmt die untere Cramer-Rao-Schranke an. ¨ ASYMPTOT. TESTS ML-METHODE, PRINZIPIEN FUR 44 4.3.2 Asymptot. Tests im Zusammenhang mit der ML-Sch¨ atzung Im Zusammenhang mit der ML-Sch¨atzung kann man – ganz generell – Tests von linearen Restriktionen Rθ = r (als Nullhypothese) entwerfen. R bezeichne dabei wieder eine J ×KMatrix mit Rang J. Man kann zwischen drei verschiedenen Prinzipien zur Definition der Teststatistik unterscheiden; allen drei Teststatistiken ist gemein, dass sie asymptotisch χ2 -verteilt sind mit J Freiheitsgraden (ihre small-sample Eigenschaften sind aber viel komplizierter, weswegen in der Praxis ausschließlich die asymptotische Version verwendet wird, d.h. f¨ ur die kritischen Werte werden diejenigen der χ2J -Verteilung eingesetzt). ˆ u ) und • Wald-Test: Nur das unrestringierte Modell wird (per ML) gesch¨atzt (→ θ ˆ := Rθ ˆ u − r, sich signifikant von 0 u uft, ob der ‘Defekt’ in der Restriktion, d ¨berpr¨ unterscheidet; als (asymptotisch χ2J -verteilte) Teststatistik wird ˆ −1 d ˆ Var(d) ˆ ˆ = R Var(θ ˆ u ) R ) W = d (wobei Var(d) ˆ u ) kann durch eine geeignete Sch¨atzung ersetzt werden, s. oben. verwendet; Var(θ • Likelihood-Ratio Test: Das Modell wird zweimal gesch¨atzt, einmal ohne die Reˆ r ; es gilt also Rθ ˆ r = r). ˆ u ) und einmal mit der Restriktion (→ θ striktion (→ θ ˆr ˆ u signifikant gr¨oßer als die in θ Dann wird u uft, ob die (log-) Likelihood in θ ¨berpr¨ ist. Dazu wird folgende (wieder asymptot. χ2J verteilte) Teststatistik verwendet: ˆ u ) − logL(θ ˆ r )) ˆ u )/L(θ ˆr) ) LR = 2 (logL(θ (= 2 log L(θ • Lagrange-Multiplikator Test: Nur das restringierte Modell wird gesch¨atzt (→ ˆ r ). Es wird u uft, ob die Ableitung der logLikelihood-Funktion nach θ (die θ ¨berpr¨ ˆ r einen Wert nahe bei 0 aufweist. (Wenn die Restriktionen sog. score-Funktion) in θ zutreffen, so sollte die Bedingung 1. Ordnung – Ableitung der logLikelihood nach θ ˆ r angen¨ahert erf¨ ullt sein.) ist 0 – auch in θ Lagr.-Mult. Test f¨ ur Exklusionsrestriktionen bei linearen Regressionsmodellen Im Fall eines OLS-gesch¨atzten Regressionsmodells l¨asst sich der Lagrange-Multiplikator¨ Test zur Uberpr¨ ufung von J Exklusionsrestriktionen (Nullhypothese: βJ−K+1 = 0 ∧ . . . ∧ βK = 0) folgendermaßen implementieren: 1) Regressiere y auf den restringierten Satz an erkl¨arenden Variablen (x1 , . . . , xK−J ) ˆr und speichere die Residuen u ˆ r auf den vollen Satz an erkl¨arenden Variablen (x1 , . . . , xK ); 2) Regressiere u 2 2 das R2 dieser Regression sei mit Ru ˆ bezeichnet (um es vom R der Regression von y auf x1 , . . . , xK zu unterscheiden – diese Regression wird beim LM-Test nicht 2 signalisiert, dass die Variablengruppe Einfluss auf y hat. durchgef¨ uhrt!). Ein großes Ru ˆ 2 3) Berechne die Lagrange-Multiplikator-Statistik LM = N Ru ˆ 4) Vergleiche LM mit dem kritischen Wert c(α) einer χ2J -Verteilung (α = Signifikanzniveau). Falls LM > c(α) wird die Nullhypothese (die Exklusionsrestriktionen gelten, d.h. die Variablengruppe hat keinen Einfluss auf y) abgelehnt. K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG 4.4 45 Anhang: Schiefe, Kurtosis und Jarque-Bera-Test • Zwar ist Normalverteilung der St¨orterme keine notwendige Bedingung f¨ ur Konsistenz und asymptot. Normalit¨at der OLS-Sch¨atzung, dennoch soll hier ein einfacher Test auf Normalverteilung (der Residuen, statt der St¨orterme) pr¨asentiert werden. • Der Jarque-Bera-Test u uft die Normalverteilung anhand der Abweichung zwei¨berpr¨ er zentrierter Momente, der Schiefe (Grad an Asymmetrie) und der Kurtosis (W¨olbung). • Die ersten vier zentrierten Momente einer Zufallsvariable U mit Erw.Wert μ und Std.Abweichung σ sind: Erwartungswert = Varianz = E[U ] = μ E[(U − μ)2 ] = σ 2 (U − μ)3 Schiefekoeffizient := E (= 0 bei Normalverteilung) σ3 (U − μ)4 Kurtosis := E (= 3 bei Normalverteilung) σ4 Bei einer normalverteilen ZV ist die Schiefe 0 u. die Kurtosis betr¨ agt 3. • Ist die Schiefe > 0 spricht man von einer rechtsschiefen (= links steileren) Verteilung: rechtsschiefe Verteilung (Schiefe > 0) Normalverteilung ¨ ASYMPTOT. TESTS ML-METHODE, PRINZIPIEN FUR 46 Sch¨ atzung von Kurtosis und Schiefe; Jarque-Bera-Test • Gegeben eine Stichprobe (x1 , . . . , xN ) einer Variable X. • Die Kurtosis von X kann folgendermaßen gesch¨atzt werden: 1 (xi − μ ˆ)4 kˆ := N i 4 , wobei μ ˆ = N1 i xi , σ ˆ2 = σ ˆ 1 N i (xi −μ ˆ)2 • Zum Test, ob die Kurtosis von X signifikant von der einer Normalverteilung (Nullhypothese) abweicht, vergleicht man kˆ mit dem Wert 3; kˆ ist unter H0 asymptot. normalverteilt mit Erw.Wert 3 und Var. 24 N • Eine Ablehnung der Nullhypothese auf dem Signifikanzviveau α erfolgt dementsprechend, wenn kˆ − 3 > z(α) 24/N wobei z(α) den zum Niveau α geh¨origen krit. Wert der Normalvertlg. bezeichnet. (zum 5%-Niveau geh¨orender kritischer Wert ist: z(5%) = 1.96 ≈ 2.) • Entsprechend kann man die Schiefe sch¨atzen durch 1 6 (xi − μ ˆ)3 a sˆ := N i 3 ∼ N 0, , σ ˆ N was ebenfalls asymptotisch normalverteilt ist, mit Erw.Wert 0 und Varianz 6/N . Anmerkung: gleiches μ u. σ • Der Jarque-Bera Test, ob die Verteilung von X signifikant von der einer Normalverteilung abweicht, u uft Symmetrie und Kurtosis gleichzeitig. Die Teststatistik ¨berpr¨ 1 ˆ (k − 3)2 JB = N · 16 sˆ2 + 24 ist unter der Nullhypothese (Normalverteilung liegt vor) asymptotisch χ2 -verteilt mit 2 Freiheitsgraden. • Ein h¨aufiges Ph¨anomen (insbesondere bei Finanzmarktgr¨oßen) ist Leptokurtosis: Die Kurtosis ist gr¨oßer als 3. Bei Leptokurtosis liegt mehr Wkt. in den extremen Flanken (man hat fat tails“) und nahe beim Erw.wert als bei Normalverteilung: ” Leptokurtische Verteilung (Kurtosis > 3) Normalverteilung Anmerkung: gleiches μ u. σ Hinweise zu EViews • Sowohl die Kurtosis- und Schiefe-Sch¨atzung als auch den Jarque-Bera Test auf Normalverteilung der Residuen (statt der St¨orterme) erreicht man unter EViews am einfachsten vom Regressionsoutput aus unter View - Residual Tests - Histogram Normality Test. • Das Verteilungshistogramm sowie grundlegende Statistiken einer Variable, wie die Jarque-Bera Statistik, werden auch angezeigt, indem man die betreffende series anklickt und dann View - Descriptive Stats & Tests - Histogram and Stats ¨offnet.