Kapitel 4 4.1 Konsistenz von OLS (unter GM1,

Transcription

Kapitel 4 4.1 Konsistenz von OLS (unter GM1,
KONSISTENZ VON OLS
38
4.1
Konsistenz von OLS (unter GM1,. . .,GM4)
ˆ = β, ist eine Minimalforderung (ber¨
• Konsistenz eines Sch¨atzers, plimN →∞ β
uhmtes
N
Zitat: ‘If you can’t get it right as N → ∞, you should not be in this business’)
• Unter den gleichen Annahmen wie diejenigen, die Erwartungstreue garantieren (siehe Kapitel 2), ist die OLS-Sch¨atzung konsistent
Kapitel 4
Inferenz bei OLS-Sch¨
atzung II
(large sample, unter GM1, . . ., GM5)
• Die im letzten Kapitel behandelten ‘exakten’ Hypothesentests beruhen ganz wesentlich auf der Annahme GM6, normalverteilte St¨orterme.
Diese Annahme ist durchaus einschr¨ankend.
• Wir wollen sie nun fallenlassen und stattdessen ‘asymptotische’ Aussagen treffen,
ˆ =β
ˆ N bei wachsendem Stichprobedie sich auf das Verhalten des OLS-Sch¨atzers β
numfang N → ∞ beziehen (d.h. in der Praxis: die Stichprobe ist ‘gen¨
ugend groß’).
ˆN = β
• Konsistenz des Sch¨atzers meint ‘asymptotische Unverzerrtheit’: plimN →∞ β
ur Zufalls• Was heißt dabei plimN →∞ ? Es handelt sich um einen Konvergenzbegriff f¨
ˆ ), der sich auf die Konvergenz gegen eine Konstante (β) bezieht.
variablen (die β
N
ur verUm ihn zu erfassen, stellen wir uns Verteilung(sdicht)en von einem der βˆj f¨
schiedene Stichprobengr¨oßen N vor (bei gleichem N sehr oft neue Stichproben, dann
N → ∞). Bei Konsistenz entsteht ein Bild wie das folgende:
Wktsverteilung von Žŝ j
für verschiedene N
(N1 < N2< N3)
N3
N2
• Die ben¨otigten Annahmen sind GM1, . . ., GM4, d.h. insbesondere die Exogenit¨at
der Regressoren, aber nicht die Homoskedastie (GM5).
(Sehr) Heuristische Herleitung der Konsistenz unter GM1,. . .,GM4
• Wie bei der Erwartungstreue schreiben wir
ˆ = (X X)−1 X y = (X X)−1 X (Xβ + u) = β + (X X)−1 X u
β
ˆ X und u setzen, unterdr¨
ucken das aber)
(wir m¨ussten jetzt eigentlch einen Index N bei β,
• Es folgen zwei Tricks:
ˆ (mit einer Konstanten) ist invariant unter einer Zentrie1 Die OLS-Sch¨atzung β
rung der Regressoren, d.h. anstatt X k¨onnen wir auch die Matrix Xc verwen¯ j ersetzt sind.
den, in der die Spalten xj durch xcj = xj − x
2 Wir ‘erweitern den Quotienten’ (X X)−1 X mit N1 :
−1 1 (X X)−1 X = (Xc Xc )−1 Xc = N1 Xc Xc
X
N c
• Wir haben also
ˆ = β+
β
1
N
Xc Xc
−1 1
N
Xc u
und die Bildung des plim liefert (mit einigen ‘Stetigkeitsargumenten’)
−1 ˆ = β + plim 1 X Xc
plim β
· plim N1 Xc u
N c
N →∞
N →∞
N →∞
• Die beiden plim’s auf der rechten Seite haben klare statistische Interpretationen:
Nach dem Gesetz der großen Zahlen ist
1
Xc Xc
N →∞ N
plim
= Var(X),
1
Xc u
N →∞ N
plim
= cov(X, u)
wobei Var(X) die K × K-Varianzmatrix der Regressoren x1 , . . . , xK ist und der KVektor cov(X, u) = (cov(x1 , u), . . . , cov(xK , u)) deren Kovarianzen mit u enth¨alt.
• Im Ergebnis entsteht also:
N1
ˆ = β + Var(X) −1 cov(X, u)
plim β
N →∞
Žj
Žŝ j
F¨
ur N → ∞ kollabieren die Verteilungen in einer Punktverteilung beim wahren βj .
• Formale Definition von plim θˆN = θ: lim P (|θˆN − θ| ≥ ε) = 0 f¨
ur jedes ε > 0.
N →∞
N →∞
37
−1
Der ’asymptotische Bias’ Var(X)
cov(X, u) ist 0 und OLS damit konsistent, falls
– Die Varianzmatrix der Regressoren, Var(X), regul¨ar ist – dies ist die Annahme
GM3 der linearen Unabh¨
angigkeit der Regressoren in der Population
ur alle j
– die Regressoren nicht mit den St¨ortermen korrelieren, cov(xj , u) = 0 f¨
– dies ist die Exogenit¨
atsannahme GM4 auf Populationsniveau
K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG
4.2
39
Asymptotische Normalit¨
at unter GM1, ... ,GM5
• Die Hypothesentests des letzten Kapitels beruhen auf der Annahme normalverteilter
St¨orterme (GM6).
• In viele F¨allen kann man jedoch nicht von normalverteilten St¨ortermen ausgehen;
dann sind weder die βˆj perfekt normalverteilt, noch ist die t-Statistik unter der
Nullhypothese exakt t-verteilt, noch ist die F -Statistik exakt F -verteilt usw.
• M¨
ussen wir deswegen f¨
ur jede von der Normalverteilung abweichende Verteilung der
St¨orterme die Verteilung der Teststatistiken neu ermitteln?
• Zum Gl¨
uck nicht, wenn der Stichprobenumfang N gen¨
ugend groß ist. Auch bei
nicht-normaler Verteilung der St¨orterme unterscheiden sich die kritischen Werte der
Teststatistiken bei großem N n¨amlich kaum von denen bei Normalverteilung.
• Theoretischer Hintergrund daf¨
ur ist der zentrale Grenzwertsatz: Sei (YN ) eine
Folge von i.i.d. Zufallsvariablen mit Erw.Wert μ und Varianz σ 2 . Dann ist
Y¯N − μ
√
ZN =
←− auf E[ZN ] = 0, Var(ZN ) = 1 standardisiertes Y N
σ/ N
¨ VON OLS
ASYMPTOTISCHE NORMALITAT
40
• Der Beweis
des Satzes ist eine recht technische Anwendung des ZGWS; der Nachweis
√
der N -Konsistenz in i) beruht auf folgender Darstellung des Fehlers der OLSSch¨atzung:
√ √ ˆ − β) = 1 X X −1 N 1 X u
N β
N
N
ZGWS
Dabei entspricht
Komponente von
1
X u
N
1
X
u
N
der Differenz Y¯N − μ im ZGWS (betrachte
z.B. die erste
¯ − 0)
in einem Modell mit Konstante: sie lautet N1 i ui = u
• Die praktische Konsequenz des Satzes besteht darin, dass man – selbst bei nichtnormalverteilten St¨ortermen – die gleichen Teststatistiken und kritischen Werte wie
bei unterstellter Normalverteilung verwenden kann, sofern N gen¨
ugend groß ist.
Beispiel zur
√
N -Konsistenz: Geburtsgewicht (bwght) regressiert auf cigs und faminc
• Auf Basis der N = 1388 Datens¨atze in BWGHT liefert die OLS-Sch¨atzung:
=
bwght
116.97
−
0.46
cigs + 0.093 faminc
(1.05)
(0.09)
(0.029)
N = 1388,
R2 = 0.03
a
asymptotisch standard normalverteilt – geschrieben ZN ∼ N (0, 1) – d.h. es gilt:
z
1 2
1
Φ(z) := √
e− 2 z˜ d˜
z
lim P (ZN ≤ z) = Φ(z) ∀ z ∈ R,
N →∞
2π −∞
a
d
Anstatt ZN ∼ N (0, 1) schreibt man auch ZN −→ N (0, 1) (‘Konverg. in Verteilung’)
• Wird f¨
ur die Sch¨atzung nur die (erste) H¨alfte der Datens¨atze verwendet (N = 694),
ergibt sich:
=
bwght
116.95 −
0.52
cigs + 0.094 faminc
(1.54)
(0.14)
(0.042)
N = 694,
R2 = 0.03
• Der zentr. Grenzw.satz dr¨
uckt die Wurzel-N -Konsistenz von Y¯N als Sch¨atzer f¨
ur
μ aus:
√
d
N (Y¯N − μ) −→ N (0, σ 2 )
Das ist informativer als die reine Konsistenz (plimN →∞ Y¯N = μ), da man sieht, dass
– die Sch¨atzung Y¯N asymptotisch normalverteilt√ist um den Erw.Wert μ = plimN →∞ Y¯N ,
– wobei der Standardfehler sd(Y¯N − μ) wie 1/ N f¨
ur N → ∞ abklingt.
Aufgrund der Wurzel-N -Konsistenz erwarten
√ wir, dass die Standardfehler sich bei
einer Halbierung von N um den Faktor 2 ≈ 1.41 erh¨ohen. In der Tat ist
√ die
Relation der Standardfehler bei allen drei Regressoren n¨aherungsweise gleich 2:
ˆ = β
ˆ :
• Eine analoge Aussage gilt f¨
ur die OLS-Sch¨atzung β
N
(Erwartungsgem¨aß sind die gesch¨atzten Regressionskoeffizienten aber fast unver¨andert.)
ˆ
Satz: Unter den GM-Annahmen 1 bis 5 gilt f¨
ur die OLS-Sch¨atzung β:
ˆ ist Wurzel-N -konsistent f¨
i) β
ur β und asymptotisch normalverteilt,
√
a
ˆ − β) ∼ N (0, σ 2 V ) (mit V = plim 1 (X X)−1 ???)
N (β
N
N →∞
ii) F¨
ur jedes j gilt:
βˆj − βj a
∼ N (0, 1)
se(βˆj )
iii) Die kritischen Werte der t- und F -Statistik konvergieren f¨
ur N → ∞ gegen diejenigen, die sich bei unterstellter Normalverteilung der St¨orterme ergeben.
1.54 ÷ 1.05 = 1.47,
0.14 ÷ 0.09 = 1.56 und 0.042 ÷ 0.029 = 1.45 .
¨
• ‘Subsampling’ in E-Views: Entweder vor dem Offnen
der Gl. smpl 1 694 in die
Befehlszeile eingeben oder beim Sch¨atzen der Gl. unter ‘Sample’ 1 694 eingeben.
Es ist auch m¨oglich, eine Bedingung einzugeben, z.B. smpl if cigs > 0. R¨
uckkehr
zum vollen Sample mit smpl @all.
K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG
41
Prinzipien fu
¨ r asymptot. Tests (Wald, LR, LM)∗
4.3
4.3.1
Maximum Likelihood Methode
Eine allgemeines Konzept zum Sch¨atzen der Parameter eines Modells auf Basis einer
Stichprobe ist das Maximum Likelihood Prinzip:
F¨
ur die Parameter werden diejenigen Werte als Sch¨atzer genommen, f¨
ur die
die Wahrscheinlichkeit (die Likelihood ) maximal wird, genau die beobachtete
Stichprobe zu realisieren.
Das Prinzip l¨asst sich am einfachsten im Fall einer Zufallsstichprobe x1 , . . . , xN (unabh¨angige Beobachtungen) erl¨autern: Ist p(x, θ) die individuelle Likelihood, d.h. die Wahrscheinlichkeit, den Wert x in der Stichprobe zu beobachten, wenn θ der wahre Parameter
ist, so bildet man die Likelihood-Funktion:
L(x1 , . . . , xN ; θ) =
N
p(xi , θ);
i=1
sie gibt die Wahrscheinlichkeit an, die beobachtete Stichprobe (x1 , . . . , xN ) zu realisieren,
wenn der wahre Parameter θ ist. (Wenn xi stetig verteilt ist, verwendet man anstatt
p(x, θ) die Dichte f (x, θ) zur Bildung der Likelihood-Funktion, da sonst L = 0 w¨are)
Die Likelihood-Funktion wird als Funktion von θ – bei gegebenem x1 , . . . , xN – maximiert.
Aus rechentechnischen Gr¨
unden f¨
uhrt man die Maximierung meistens mit dem Logarithmus der Likelihood, der sog. log-Likelihood logL, durch:
logL(x1 , . . . , xN ; θ) = log
N
N
p(xi , θ) =
log p(xi , θ)
i=1
i=1
!
Die Bedingung erster Ordnung f¨
ur ein Maximum von logL, 0 =
∂ logL(x1 ,...,xN ; θ)
,
∂θ
lautet:
N
∂ log p(xi , θ) 0 =
ˆ
∂θ
θ=θ
i=1
ˆ Er
Die Aufl¨osung dieser Gleichung nach θ liefert den Maximum-Likelihood-Sch¨atzer θ.
maximiert die (log)-Likelihood-Funktion, sofern
N
ˆ
∂ 2 log p(xi , θ) ∂ 2 logL(x1 , . . . xN ; θ)
=
ˆ
∂θ2
∂θ2
θ=θ
i=1
negativ ist.
42
¨ ASYMPTOT. TESTS
ML-METHODE, PRINZIPIEN FUR
Beispiel: ML-Sch¨
atzung einer unbekannten Wahrscheinlichkeit
In einer Urne befinden sich rote und schwarze Kugeln und wir m¨ochten den Anteil
θ der roten Kugeln auf Basis einer Stichprobe, bei der N Kugeln mit Zur¨
ucklegen
gezogen werden, ermitteln. Wir beschreiben unsere Stichprobe durch xi = 1, falls
im i-ten Zug eine rote Kugel wurde, und xi = 0 falls nicht. Dann ist
p(xi , θ) = θxi (1 − θ)1−xi
⇒ log p(xi , θ) = xi log(θ) + (1 − xi ) log(1 − θ)
∂ log p(xi , θ)
xi 1 − xi
=
−
⇒
∂θ
θ
1−θ
Die Bedingung 1. Ordnung zur Maximierung von logL f¨
uhrt also auf die Gleichung
xi 1 − xi N1 N − N1
0 =
=
−
−
,
θ
1 − θ θ=θˆ
θˆ
1 − θˆ
i
wobei N1 die Anzahl roter Kugeln in der Stichprobe ist. Die Au߬osung dieser
Gleichung nach θˆ zeigt, dass der Maximum-Likelihood-Sch¨atzer hier den StandardSch¨atzer f¨
ur θ reproduziert:
θˆ = N1 /N
OLS als Maximum-Likelihood-Sch¨
atzung
Auch die OLS-Sch¨atzung eines linearen Regressionsmodells (unter dem vollen Satz
der GM-Annahmen GM1, ..., GM6) l¨asst sich als Maximum-Likelihood-Sch¨atzung
interpretieren. Dabei ist zu beachten, dass der Parametervektor θ hier nicht nur
die Regressionskoeffizienten, sondern auch σ 2 umfasst: θ = (β1 , . . . , βK , σ 2 ) . Der
individuellen Likelihood p(xi , θ) entspricht hier die Dichte (der Normalverteilung)
1 (y − x
˜ i β)2 1
i
˜ i ; β, σ 2 ) = √
f (yi , x
exp −
2
2
σ2
2πσ
˜ i β)2
1
1 (yi − x
˜ i ; β, σ 2 ) = − log(2π σ 2 ) −
⇒ log f (yi , x
2
2
2
σ
˜ i ; β, σ 2 )
∂ log f (yi , x
˜ i β
yi − x
˜i
=
−0
+ x
⇒
∂β
σ2
2
˜ i ; β, σ )
∂ log f (yi , x
˜ i β)2
1
1 (yi − x
=
− 2
+
2
∂σ
2σ
2
σ4
Nullsetzen der summierten Ableitungen nach β liefert – abgesehen vom Faktor
1
– genau die Normalengleichungen der OLS-Sch¨atzung, d.h. der ML-Sch¨
atzer
σ2
stimmt in Bezug auf β mit dem OLS-Sch¨
atzer u
¨ berein:
N
N
N
−1 ˜ i β yi − x
!
ˆ = β
ˆ ML =
˜i
˜
˜
˜ i yi
=
0
⇒
β
x
x
x
x
i
i
ˆ
σ2
β=β
i=1
i=1
i=1
Die Maximum-Likelihood-Sch¨atzung von σ 2 ergibt sich aus
N
N
˜ i β)2 1 (yi − x
1 N
!
2
2
ˆ )2
˜β
=
0
⇒
σ
ˆ
=
σ
ˆ
=
(yi − x
− 2+
M
L
ˆ σ 2 =ˆ
2σ
2 i=1
σ4
N i=1 i β=β,
σ2
=ˆ
ui
K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG
43
Sie unterscheidet sich von der (im Kapitel 2 angegebenen, unverzerrten) Sch¨atzung
von σ 2 nur dadurch, dass keine Freiheitsgradkorrektur stattfindet (N statt N − K).
ˆ σ
Anmerkung: Die gesamte log-Likelihood (in β,
ˆ 2 ) ergibt sich hier als
N
ˆ 2
˜ i β)
1 (yi − x
N
|ˆ
u|2
N
ˆ σ
logL(y, X; β,
ˆ 2 ) = − log(2πˆ
= − log(2πˆ
σ2) −
σ2) − 2
2
2
2 i=1
σ
ˆ
2
2ˆ
σ
Dieser Wert wird z.B. in E-Views standardm¨aßig im Regressionsoutput angezeigt.
Asymptotische Effizienz der Maximum-Likelihood-Sch¨
atzung
Der ML-Sch¨atzer hat einige vorteilhafte Eigenschaften gegen¨
uber anderen Sch¨atzern –
insbesondere ist er asymptotisch effizient. Diese Eigenschaften, wie auch die folgenden,
auf ML-Sch¨atzung beruhenden Testprinzipien, sind auch f¨
ur die OLS-Sch¨atzung relevant,
da OLS – wie gesehen – als Maximum-Likelihood-Sch¨atzung interpretiert werden kann
(n¨amlich in der speziellen Situation linearer Regressionsmodelle unter GM1, ..., GM6).
Unter schwachen Regularit¨atsbedingungen gilt f¨
ur jeden Maximum-Likelihood-Sch¨atzer:
ˆ=θ
• Der Maximum-Likelihood-Sch¨atzer ist konsistent, plimN →∞ θ
√
• Der Maximum-Likelihood-Sch¨atzer ist asymptotisch normal verteilt (und N konsistent):
√
d
ˆ − θ) −→
N (θ
N (0, V )
wobei V die asymptotische Varianzmatrix ist.
• Der Maximum-Likelihood-Sch¨atzer ist asymptotisch effizient (d.h. die asymptotische Varianzmatrix V der Maximum-Likelihood-Sch¨atzung ist die ‘kleinste’ unter
allen konsistenten, asymptotisch normalen Sch¨atzern von θ)
Asymptotisch effiziente Varianzmatrix V als Inverse der Informationsmatrix
Der (negative) Erwartungswert der Hesse-Matrix der individuellen Log-Likelihood wird
als Fisher’sche Informationsmatrix I(θ) bezeichnet:
N
∂ 2 log p(x, θ) ∂ 2 logp(xi , θ)
:= − 1
)
( ≈ I(θ)
I(θ) := −E
N i=1
∂θ∂θ
∂θ∂θ ˆ
Die asymptotisch effiziente Varianzmatrix V der ML-Sch¨atzung θ ist (wiederum unter
geeigneten Regularit¨atsbedingungen) durch die Inverse der Informationsmatrix gegeben:
−1
V = I(θ)
Den (asymptot.) Standardfehler der ML-Sch¨atzung kann man also folgendermaßen sch¨atzen:
ˆ gesch¨atzt (z.B. wie oben angedeutet): I(
ˆ
– Zun¨achst wird die Informationsmatrix (in θ)
θ)
−1
ˆ
ˆ berechnet.
– und dann wird deren Inverse I(θ)
als gesch¨atzte Varianzmatrix Vˆ von θ
Anmerkung: Die Inverse der Informationsmatrix stellt also eine untere Schranke f¨
ur
die asymptotische Varianzmatrix jedes asymptotisch normalen Sch¨atzers dar, die oft als
die untere Cramer-Rao-Schranke bezeichnet wird. Die asymptotische Effizienz der MLSch¨atzung wird daher oft auch folgendermaßen formuliert: Der ML-Sch¨atzer nimmt die
untere Cramer-Rao-Schranke an.
¨ ASYMPTOT. TESTS
ML-METHODE, PRINZIPIEN FUR
44
4.3.2
Asymptot. Tests im Zusammenhang mit der ML-Sch¨
atzung
Im Zusammenhang mit der ML-Sch¨atzung kann man – ganz generell – Tests von linearen
Restriktionen Rθ = r (als Nullhypothese) entwerfen. R bezeichne dabei wieder eine J ×KMatrix mit Rang J.
Man kann zwischen drei verschiedenen Prinzipien zur Definition der Teststatistik unterscheiden; allen drei Teststatistiken ist gemein, dass sie asymptotisch χ2 -verteilt sind mit
J Freiheitsgraden (ihre small-sample Eigenschaften sind aber viel komplizierter, weswegen in der Praxis ausschließlich die asymptotische Version verwendet wird, d.h. f¨
ur die
kritischen Werte werden diejenigen der χ2J -Verteilung eingesetzt).
ˆ u ) und
• Wald-Test: Nur das unrestringierte Modell wird (per ML) gesch¨atzt (→ θ
ˆ := Rθ
ˆ u − r, sich signifikant von 0
u
uft, ob der ‘Defekt’ in der Restriktion, d
¨berpr¨
unterscheidet; als (asymptotisch χ2J -verteilte) Teststatistik wird
ˆ −1 d
ˆ Var(d)
ˆ
ˆ = R Var(θ
ˆ u ) R )
W = d
(wobei Var(d)
ˆ u ) kann durch eine geeignete Sch¨atzung ersetzt werden, s. oben.
verwendet; Var(θ
• Likelihood-Ratio Test: Das Modell wird zweimal gesch¨atzt, einmal ohne die Reˆ r ; es gilt also Rθ
ˆ r = r).
ˆ u ) und einmal mit der Restriktion (→ θ
striktion (→ θ
ˆr
ˆ u signifikant gr¨oßer als die in θ
Dann wird u
uft, ob die (log-) Likelihood in θ
¨berpr¨
ist. Dazu wird folgende (wieder asymptot. χ2J verteilte) Teststatistik verwendet:
ˆ u ) − logL(θ
ˆ r ))
ˆ u )/L(θ
ˆr) )
LR = 2 (logL(θ
(= 2 log L(θ
• Lagrange-Multiplikator Test: Nur das restringierte Modell wird gesch¨atzt (→
ˆ r ). Es wird u
uft, ob die Ableitung der logLikelihood-Funktion nach θ (die
θ
¨berpr¨
ˆ r einen Wert nahe bei 0 aufweist. (Wenn die Restriktionen
sog. score-Funktion) in θ
zutreffen, so sollte die Bedingung 1. Ordnung – Ableitung der logLikelihood nach θ
ˆ r angen¨ahert erf¨
ullt sein.)
ist 0 – auch in θ
Lagr.-Mult. Test f¨
ur Exklusionsrestriktionen bei linearen Regressionsmodellen
Im Fall eines OLS-gesch¨atzten Regressionsmodells l¨asst sich der Lagrange-Multiplikator¨
Test zur Uberpr¨
ufung von J Exklusionsrestriktionen (Nullhypothese: βJ−K+1 = 0 ∧ . . . ∧
βK = 0) folgendermaßen implementieren:
1) Regressiere y auf den restringierten Satz an erkl¨arenden Variablen (x1 , . . . , xK−J )
ˆr
und speichere die Residuen u
ˆ r auf den vollen Satz an erkl¨arenden Variablen (x1 , . . . , xK );
2) Regressiere u
2
2
das R2 dieser Regression sei mit Ru
ˆ bezeichnet (um es vom R der Regression von
y auf x1 , . . . , xK zu unterscheiden – diese Regression wird beim LM-Test nicht
2 signalisiert, dass die Variablengruppe Einfluss auf y hat.
durchgef¨
uhrt!). Ein großes Ru
ˆ
2
3) Berechne die Lagrange-Multiplikator-Statistik LM = N Ru
ˆ
4) Vergleiche LM mit dem kritischen Wert c(α) einer χ2J -Verteilung (α = Signifikanzniveau). Falls LM > c(α) wird die Nullhypothese (die Exklusionsrestriktionen gelten,
d.h. die Variablengruppe hat keinen Einfluss auf y) abgelehnt.
K.H. SCHILD, ABT. STATISTIK, FB WIWI, UNI MARBURG
4.4
45
Anhang: Schiefe, Kurtosis und Jarque-Bera-Test
• Zwar ist Normalverteilung der St¨orterme keine notwendige Bedingung f¨
ur Konsistenz und asymptot. Normalit¨at der OLS-Sch¨atzung, dennoch soll hier ein einfacher
Test auf Normalverteilung (der Residuen, statt der St¨orterme) pr¨asentiert werden.
• Der Jarque-Bera-Test u
uft die Normalverteilung anhand der Abweichung zwei¨berpr¨
er zentrierter Momente, der Schiefe (Grad an Asymmetrie) und der Kurtosis (W¨olbung).
• Die ersten vier zentrierten Momente einer Zufallsvariable U mit Erw.Wert μ und
Std.Abweichung σ sind:
Erwartungswert =
Varianz =
E[U ]
= μ
E[(U − μ)2 ] = σ 2
(U − μ)3 Schiefekoeffizient := E
(= 0 bei Normalverteilung)
σ3
(U − μ)4 Kurtosis := E
(= 3 bei Normalverteilung)
σ4
Bei einer normalverteilen ZV ist die Schiefe 0 u. die Kurtosis betr¨
agt 3.
• Ist die Schiefe > 0 spricht man von einer rechtsschiefen (= links steileren) Verteilung:
rechtsschiefe Verteilung
(Schiefe > 0)
Normalverteilung
¨ ASYMPTOT. TESTS
ML-METHODE, PRINZIPIEN FUR
46
Sch¨
atzung von Kurtosis und Schiefe; Jarque-Bera-Test
• Gegeben eine Stichprobe (x1 , . . . , xN ) einer Variable X.
• Die Kurtosis von X kann folgendermaßen gesch¨atzt werden:
1
(xi − μ
ˆ)4
kˆ := N i 4
,
wobei μ
ˆ = N1 i xi , σ
ˆ2 =
σ
ˆ
1
N
i (xi
−μ
ˆ)2
• Zum Test, ob die Kurtosis von X signifikant von der einer Normalverteilung (Nullhypothese) abweicht, vergleicht man kˆ mit dem Wert 3; kˆ ist unter H0 asymptot. normalverteilt mit Erw.Wert 3 und Var. 24
N
• Eine Ablehnung der Nullhypothese auf dem Signifikanzviveau α erfolgt dementsprechend, wenn
kˆ − 3 > z(α)
24/N
wobei z(α) den zum Niveau α geh¨origen krit. Wert der Normalvertlg. bezeichnet.
(zum 5%-Niveau geh¨orender kritischer Wert ist: z(5%) = 1.96 ≈ 2.)
• Entsprechend kann man die Schiefe sch¨atzen durch
1
6
(xi − μ
ˆ)3 a
sˆ := N i 3
∼ N 0,
,
σ
ˆ
N
was ebenfalls asymptotisch normalverteilt ist, mit Erw.Wert 0 und Varianz 6/N .
Anmerkung:
gleiches μ u. σ
• Der Jarque-Bera Test, ob die Verteilung von X signifikant von der einer Normalverteilung abweicht, u
uft Symmetrie und Kurtosis gleichzeitig. Die Teststatistik
¨berpr¨
1 ˆ
(k − 3)2
JB = N · 16 sˆ2 + 24
ist unter der Nullhypothese (Normalverteilung liegt vor) asymptotisch χ2 -verteilt
mit 2 Freiheitsgraden.
• Ein h¨aufiges Ph¨anomen (insbesondere bei Finanzmarktgr¨oßen) ist Leptokurtosis:
Die Kurtosis ist gr¨oßer als 3. Bei Leptokurtosis liegt mehr Wkt. in den extremen
Flanken (man hat fat tails“) und nahe beim Erw.wert als bei Normalverteilung:
”
Leptokurtische
Verteilung
(Kurtosis > 3)
Normalverteilung
Anmerkung:
gleiches μ u. σ
Hinweise zu EViews
• Sowohl die Kurtosis- und Schiefe-Sch¨atzung als auch den Jarque-Bera Test auf
Normalverteilung der Residuen (statt der St¨orterme) erreicht man unter EViews
am einfachsten vom Regressionsoutput aus unter View - Residual Tests - Histogram Normality Test.
• Das Verteilungshistogramm sowie grundlegende Statistiken einer Variable, wie die
Jarque-Bera Statistik, werden auch angezeigt, indem man die betreffende series
anklickt und dann View - Descriptive Stats & Tests - Histogram and Stats
¨offnet.