Kapitel 4 Zensierte (censored ) und gestutzte (truncated ) abh¨ angige Variablen,

Transcription

Kapitel 4 Zensierte (censored ) und gestutzte (truncated ) abh¨ angige Variablen,
Kapitel 4
Zensierte (censored ) und gestutzte
(truncated ) abh¨
angige Variablen,
Sample Selection
In den vorhergehenden Abschnitten haben wir uns mit F¨allen besch¨aftigt, in denen
die abh¨angige Variable y entweder bin¨aren und ordinalen Charakter hatte. In diesem
Abschnitt befassen wir uns mit F¨allen, in denen die abh¨angige Variable u
¨ ber einen
bestimmten Bereich intervallskaliert ist, aber in anderen Bereichen wesentlichen Restriktionen unterliegt (z.B. nicht beobachtbar ist oder nur einen bestimmten Wert
annehmen kann). Man spricht in diesen F¨allen von ‘limited dependent variables’.
Zwei F¨alle sind zu unterscheiden:
• Zensierte Variablen (‘censored variables’ ): Die erkl¨arenden Variablen werden u
¨ ber den gesamten Bereich beobachtet, aber die abh¨angige Variable ist
nur u
¨ ber einen beschr¨ankten Bereich bekannt. Alle Werte der abh¨angigen Variablen u
¨ ber oder unter einem Schwellenwert werden in einen einzigen Wert
transformiert (→ ‘limited dependent variable’ ). Als Merkhilfe kann man sich
einen Zensor vorstellen, der aus Geheimhaltungsgr¨
unden bestimmte Stellen
schwarz u
¨ bermalt (Werte der abh¨angigen Variable, die eine bestimmte Gr¨oße
unter- oder u
¨ berschreiten, einen fixen Wert zuordnet, aber die Werte der erkl¨arenden Variable nicht manipuliert).
Beispiele:
– Einkommen u
¨ ber einer bestimmten Grenze werden in der Statistik aus
Datenschutzgr¨
unden h¨aufig nur aggregiert ausgewiesen, Daten u
¨ ber Alter
etc. der befragten Personen sind aber bekannt.
– Ausgaben f¨
ur dauerhafte Konsumg¨
uter, Urlaub, . . .
– Anzahl von Seitenspr¨
ungen (Fair 1978).
– Anzahl der Stunden, die berufst¨atige Frauen arbeiten.
– Anzahl von Wiederverhaftungen von entlassenen H¨aftlingen.
In all diesen Beispielen nehmen wir an, dass wir die erkl¨arenden Variablen
auch f¨
ur Personen beobachten, dir ein Gut nicht kaufen, bzw. nicht Urlaub
1
2
Empirische Wirtschaftsforschung
fahren, sich auf keinen Seitensprung einlassen, nicht arbeiten, oder nicht wiederverhaftet werden.
• Gestutzte Variablen (truncated variables): Weder die abh¨angige Variable
noch die unabh¨angigen Variablen sind u
¨ ber den gesamten Bereich bekannt.
Zum Beispiel, wenn alle Datens¨atze f¨
ur Personen u
¨ ber einem bestimmten
Schwellenwert verworfen werden (‘Truncation’ ¨andert die Gr¨oße des Datensatzes!).
Das Problem bei OLS-Sch¨atzungen von zensierten (censored ) oder gestutzten (truncated ) abh¨angigen Variablen wird in Abbildung 4.1 verdeutlicht.
y∗
OLS auf latente Variable
5
b
4
b
b
b
b
b
b
b
b
b
b
b
b
b
3
b
b
b
b
2
τ
1
b
b
b
b
b
b
b
b
b
b
b
b
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
x
14
x
y
OLS auf zensierte Daten (Censored Data)
OLS auf gestutzte Daten (Truncated Sample)
Tobit
5
b
b
b
b
4
b
b
b
b
b
b
b
b
b
b
3
b
b
b
b
b
2
τ
1
b
b
b
b
b
0
bc
0
bc
1
bc
2
3
bc
bc
4
5
6
7
8
bc
9
10
11
12
13
Abbildung 4.1: OLS auf latente Variable sowie auf zensierte (‘censored’ ) und gestutzte (‘truncated’ ) Variable. Bei der zensierten Variable wird
jeder Beobachtung mit y ∗ < τ der Wert Null zugewiesen (Kreise
auf der x Achse, bei der gestutzten Variable werden alle Beobachtungen mit y ∗ < τ verworfen.
4.1
Die Verteilung von zensierten und gestutzten
Variablen
Die Verteilung von censored und truncated Variablen wird in 4.2 verdeutlicht.
3
Empirische Wirtschaftsforschung
Dichte
Normal
Censored
Truncated
1 − F (τ )
F (τ )
τ
µ
τ
y∗
µ
τ
y
µ
y|y > τ
Abbildung 4.2: Zensierte (‘censored’ ) & gestutzte (‘truncated’ ) Variablen
• Die linke Grafik in Abbildung 4.2 zeigt die Verteilung (Dichte) einer latenten
Variable y ∗ ∼ N(µ, σ 2 ). Die Dichtefunktion der latenten Variablen ist
"
∗
2 #
1
1 y −µ
√ exp −
f (y ∗| µ, σ) =
2
σ
σ 2π
∗
1
y −µ
=
φ
σ
σ
1
µ − y∗
=
φ
σ
σ
f¨
ur
φ(z) = √
1
∼ N(0, 1)
2πe−0.5z 2
Die Wahrscheinlichkeit, dass eine Beobachtungen in den linken schraffierten
Bereich f¨allt, ist
∗
Pr(y ≤ τ ) = Φ
sodass
y∗ − µ
σ
y∗ − µ
Pr(y > τ ) = 1 − Φ
σ
∗
wobei wir uns zunutze gemacht haben, dass aufgrund der Symmetrie der Normalverteilung um Null gilt
φ(z) = φ(−z)
Φ(z) = 1 − Φ(−z)
• Die rechte Grafik Abbildung 4.2 zeigt die Verteilung einer gestutzten (truncated ) Variable y| y > τ . Da die schraffierte Fl¨ache links von τ nicht ber¨
ucksichtigt werden darf muß die Fl¨ache ‘angepaßt’ werden, damit die Fl¨ache unter der
Dichte Eins bleibt. Dies geschieht, indem die urspr¨
ungliche Verteilung durch
die Fl¨ache rechts von τ dividiert wird.
f (y| y > τ, µ, σ) =
f (y ∗| µ, σ)
Pr(y ∗ > τ )
4
Empirische Wirtschaftsforschung
(die urspr¨
ungliche Verteilung ist zu Vergleichszwecken punktiert eingezeichnet). Unter Verwendung der fr¨
uheren Ergebnisse
y ∗ −µ
1
φ
σ
f (y| y > τ, µ, σ) = σ
1 − Φ τ −µ
σ
Da die Verteilung links abgeschnitten ist liegt der Erwartungswert der gestutzten Variable E(y| y > τ ) rechts vom Erwartungswert der latenten Variable
E(y ∗ ) = µ, oder konkret (siehe Long 1997, S. 194)
φ µ−τ
µ−τ
σ E(y| y > τ ) = µ + σ
= µ + σλ
(4.1)
σ
Φ µ−τ
σ
wobei λ(·) = φ(·)/Φ(·) inverse Mills ratio genannt wird.
Das gestutzte (truncated ) Modell kann mittel Maximum Likelihood gesch¨atzt
werden.
Die Log-Likelihood Funktion f¨
ur das gestutzte Modell ist
n
n
X
n
n
1 X
ln L = − ln(2π) − ln(σ 2 ) − 2
(y − x′i β) −
ln(Φ(x′i β/σ))
2
2
2σ i=1
i=1
Die Koeffizienten des gestutzten Modells geben die marginalen Auswirkungen
einer erkl¨arenden Variable xk auf E(y) in der (nicht gestutzten!) Grundgesamtheit an.
Die marginalen Effekte f¨
ur die gestutzte Stichprobe (d.h. f¨
ur y ∗ > 0) k¨onnen
folgendermaßen berechnet werden (siehe Long 1997, S 208f)
∂ E(y| y ∗ > τ
= βk [1 − δλ(δ) − λ(δ)2 ]
∂xk
wobei λ den inverse Mills ratio bezeichnet und
δi =
x′i β − τ
σ
• Die mittlere Grafik in Abbildung 4.2 zeigt die Verteilung einer zensierten Variable y
(
y ∗ wenn yi∗ > τ,
yi =
0 wenn yi∗ ≤ τ.
mit εi ∼ N(0, σ 2 ). Dies kann auch f¨
ur das Regressionsmodell geschrieben werden als
yi = max(τ, x′i β + εi )
wobei in der Literatur h¨aufig τ = 0 angenommen wird (dies ist keine wesentliche Einschr¨ankung, da dies einfach erreicht werden kann, indem man y
in Abweichungen vom bekannten Schwellenwert τ misst). F¨
ur Abbildung 4.2
bedeutet dies, dass alle Punkte, die im linken Panel im schraffierten Bereich
links von τ liegen, im mittleren Panel genau auf τ liegen.
5
Empirische Wirtschaftsforschung
Die Beobachtungen in der schraffierten Region der linken Grafik liegen alle bei
τ.
Die Wahrscheinlichkeit, dass eine Beobachtung im zensierten Bereich liegt, ist
τ −µ
∗
Pr(Censored) = Pr(y < τ ) = Φ
σ
und die Wahrscheinlichkeit einer Beobachtung im nicht zensierten Bereich ist
µ−τ
τ −µ
Pr(Uncensored) = 1 − Φ
=Φ
σ
σ
Deshalb ist der Erwartungswert einer zensierten Variable y
E(y) = [Pr(Uncensored) × E(y| y > τ )] + [Pr(Censored) × E(y| y = τy )]
µ−τ
µ−τ
τ −µ
=
Φ
µ + σλ
+Φ
τy
σ
σ
σ
wobei τ der Schwellenwert ist, ab dem y ∗ zensiert ist, und τy der Wert ist, der y ∗
zugewiesen wird im Falle der Zensierung. Meist wird τ = τy = 0 angenommen.
4.2
Das Tobit Modell f¨
ur zensierte Variablen
Das einfachste Tobit Modell bezieht sich auf den Fall einer von unten zensierten
abh¨angigen Variablen yi , wobei die latente Variable yi∗ linear in den x ist mit einem
normalverteilten St¨orterm εi , also
yi∗ = x′i β + εi
mit
εi ∼ N(0, σ 2 )
Die beobachtete abh¨angige Variable y nimmt
riable den Schwellenwert τ u
¨ berschreitet, und
(
yi∗ = x′i β + εi
yi =
τy
den Wert y an, wenn die latente Vaden Wert τy , wenn yi∗ ≤ τ , also
wenn yi∗ > τ,
wenn yi∗ ≤ τ
Dieses Modell wurde im Laufe der Zeit in die verschiedensten Richtungen erweitert.
Generell wird f¨
ur eine Tobit Sch¨atzung die Log-Likelihood Funktion einer zensierten
(oder gestutzten) Variable maximiert.
yi = max(τy , x′i β + εi ),
εi ∼ N(0, σ 2 )
Die Wahrscheinlichkeit f¨
ur eine zensierte Beobachtung ist
Pr(zensiert|x′i ) = Pr(yi∗ ≤ τ |x′i ) = Pr(εi ≤ τ − x′i β|x′i )
6
Empirische Wirtschaftsforschung
Da εi ∼ N(0, σ 2 ) ist εi /σ ∼ N(0, 1), deshalb ist
τ − x′i β ′
τ − x′i β
εi
′
≤
:= Φ(−δi )
Pr(Censored|xi ) = Pr
xi = Φ
σ
σ
σ
und f¨
ur nicht zensierte Beobachtungen
′
xi β − τ
τ − x′i β
′
Pr(Uncensored|xi ) = 1 − Φ
=Φ
:= Φ(δi )
σ
σ
f¨
ur
δi :=
x′i β − τ
σ
Erwartungswert
Erinnern wir uns,
yi =
(
yi∗ = x′i β + εi
τy
wenn yi∗ > τ,
wenn yi∗ ≤ τ
F¨
ur den Erwartungswert m¨
ussen wir beide Teil ber¨
ucksichtigen
E(yi |x′i = [Pr(Uncensored|x′i ) × E(yi |yi > τ, x′i )]
+ [Pr(Censored|x′i ) × τy ]
Unter Ber¨
ucksichtigung der vorher berechneten Wahrscheinlichkeiten
E(yi |x′i = [Φ(δi ) × E(yi |yi > τ, x′i )] + [Φ(−δi ) × τy ]
Sehen wir uns E(yi |yi > τ, x′i ) etwas genauer an
E(yi |yi > τ, x′i ) = E(x′i β + εi |yi > τ, x′i )
= x′i β + E(εi |yi > τ, x′i )
Aus Gleichung (4.1) folgt, dass E(εi |yi > τ, x′i ) = σλ(δi ), wobei σ die Standardabweichung von εi ist, δ := (x′i β − τ )/σ, und λ(z) = φ(z)/Φ(z) wieder der ‘inverse
Mills ratio’ ist.
Daraus folgt nach einigen weiteren Vereinfachungen
E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy
Sch¨
atzung
F¨
ur nicht zensierte Beobachtungen ist die log-Likelihood Funktion
X
yi − x′i β
1
2
ln Lu (β, σ ) =
ln φ
σ
σ
Uncensored
F¨
ur zensierte Beobachtungen ist X bekannt und wir wissen, dass y ∗ ≤ τ . Die entsprechende Wahrscheinlichkeit ist
τ − x′i β
∗
′
Pr(yi ≤ τ | xi ) = Φ
σ
7
Empirische Wirtschaftsforschung
Die Likelihood Funktion f¨
ur zensierte Beobachtungen ist also
Y
τ − x′i β
2
Lc (β, σ ) =
Φ
σ
Censored
bzw. die Log-Likelihood Funktion
τ − x′i β
ln Lc (β, σ ) =
ln Φ
σ
Censored
X
2
Die Likelihood Funktion f¨
ur zensierte Beobachtungen und nichtzensierte Beobachtungen ist deshalb
2
ln L(β, σ | y, X) =
X
ln Φ
Censored
τ − x′i β
σ
1
yi − x′i β
+
ln φ
σ
σ
Uncensored
X
Man beachte, dass in diesem Modell β und σ einzeln identifiziert sind.
Das Tobit Modell reagiert sehr empfindlich auf die Verletzung der zugrundeliegenden
Annahmen, wie z.B. auf Heteroskedastizit¨at (siehe z.B. Johnston/DiNardo 1997, S.
440f)!
Interpretation der Parameter
• In Bezug auf die latente Variable y ∗ : wie OLS
∂ E(yi∗| x′i )
= βk
∂xk
• In Bezug auf die zensierte Variable y: Wir haben bereits gesehen, dass
E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy
Daraus folgt der marginale Effekt (siehe Long 1997, S. 209)
∂ E(yi | x′i )
βh
= Φ (deltai ) βh + (τ − τy )φ(δi )
∂xh
σ
H¨aufig ist τ = τy , in diesem Fall vereinfacht sich der Ausdruck zu
∂ E(yi | x′i )
= Φ (δi ) βh
∂xh
• In Bezug auf die gestutzte Variable y > τ : Der Erwartungswert ist
E(y|y > τ, x′i ) = x′i β + σλ(δ)
Die partielle Ableitung nach xh ist
∂ E(yi | y > τ, x′i )
= 1 − δλ(δ) − [λ(δ)]2 βh
∂xh
wobei δ = (x′i β − τ )/σ und λ(·) = φ(·)/Φ(·) wieder der inverse Mills ratio ist.
8
Empirische Wirtschaftsforschung
4.3
Sample Selection
Truncation f¨
uhrt zu einer ‘Selektion’ der Stichprobe (f¨
ur eine ausf¨
uhrliche Diskussion
siehe Wooldridge 2000, Chapter 17, p. 557ff).
Faustregel:
• Erfolgt die Auswahl in Abh¨angigkeit von exogenen Variablen (x) ist die Selektion weitgehend problemlos.
• Erfolgt die Auswahl in Abh¨angigkeit von endogenen Variablen (y) ist OLS
weder erwartungstreu noch konsistent!
cov(xi , εi ) 6= 0, sehr ¨ahnlich wie ommitted variables.
Das einfachste Selektionsmodell ist das bivariate Selektionsmodell (auch Tobit 2
genannt), wobei eine eigene Selektionsgleichung gesch¨atzt wird
(
1 wenn zi∗ > 0,
zi =
0 wenn zi∗ ≤ 0.
und
(
yi∗
yi =
−
wenn zi∗ > 0,
wenn zi∗ ≤ 0.
mit
zi∗ = wi γ + vi
yi∗ = xi β + εi
Meistens wird angenommen
v
0
1 ρ
∼N
,
u
0
ρ σu2
4.3.1
Zweistufige Sample Selection nach Heckman (1976)
Bei der sogenannten Heckit Methode wird der Mechanismus, demzufolge eine Beobachtung zensiert oder nicht zensiert ist, explizit modelliert.
Das eigentliche Modell ist wieder
yi∗ = x′i β + εi
aber die Selektion, ob yi∗ beobachtet wird oder nicht h¨angt nicht von einem τ ab,
sondern von einer zweiten latenten Variable z ∗ mit
zi∗ = wi′ α + vi
9
Empirische Wirtschaftsforschung
mit zi = 1 wenn zi∗ > 0 und Null sonst.
Pr(zi = 1|wi ) = Φ(wi′ α)
Pr(zi = 0|wi ) = 1 − Φ(wi′ α)
y ∗ wird nur beobachtet, wenn z ∗ > 0.
Die Matrizen X und W k¨onnen auch gleiche Variablen enthalten. Wenn X und
W v¨ollig gleich sind (d.h. wenn die Selektionsgleichung und Regression f¨
ur y die
gleichen Variablen enthalten) treten allerdings h¨aufig große Probleme mit der Multikollinearit¨at auf, da der inverse Mills ratio u
¨ ber weite Bereiche ann¨ahernd linear
ist.
Das Grundprinzip bei Heckman’s zweistufigem Vorgehen ist einfach: zuerst wird
ˆ i f¨
auf Grundlage eines Probit Modells der inverse Mills ratio λ
ur jede Beobachtung
berechnet. Auf der zweiten Stufe wird eine OLS-Regression von yi auf alle x′i und den
ˆ i f¨
inverse Mills ratio λ
ur alle selektierten Beobachtungen (d.h. f¨
ur Beobachtungen
mit zi = 1) gerechnet, d.h.
ˆi
y i = x′ β + γ λ
i
wobei nur die Beobachtungen der gestutzten Stichprobe verwendet werden. Die so
berechneten b sind konsistent und ann¨ahernd normalverteilt, aber nicht effizient. Die
Standardfehler der zweiten Stufe sind bei dieser einfachen Vorgangsweise verzerrt
und deshalb nicht anwendbar, da dabei die erste Stufe nicht ber¨
ucksichtigt wird.
Die folgende Vorgangsweise erlaubt die Sch¨atzung konsistenter Standardfehler.
Theorem Momente der gestutzte bivariaten Normalverteilung, siehe
Greene (2003), S. 781:
Wenn y und z bivariat normalverteilt sind mit Erwartungswerten µy und µz , Standardabweichungen σy und σz sowie Korrelation ρ, dan gilt
mit ωz =
a−µz
;
σz
E(y|z > a) = µy + ρσy λ (ωz )
var(y|z > a) = σy2 1 − ρ2 δ (ωz )
λ = φ(ωz )/[1 − Φ(ωz )] und δ (ωz ) = λ (ωz ) [λ (ωz ) − ωz ].
Deshalb gilt (siehe z.B. Greene 2003, 784)
E(yi | zi = 1, xi , zi ) = xi β + ρσu λ(wi′ α)
Sch¨
atzung der Parameter Die Sch¨atzung kann entweder mit Maximum Likelihood oder zweistufig erfolgen. Nach Greene (2003, S. 784f) kann man folgendermaßen vorgehen:
1. Sch¨atze mit einem Probit die Parameter α der Selektionsgleichung.
Berechne f¨
ur jede Beobachtung den inverse Mills ratio
′
ˆ
ˆ i = φ(wi α)
λ
′ˆ
Φ(wi α)
sowie
ˆ i (λ
ˆ i − w ′ α)
δˆi = λ
iˆ
10
Empirische Wirtschaftsforschung
2. Berechne eine Sch¨atzung f¨
ur den Koeffizientenvektor β und βλˆ = ρσu mittels
ˆ
OLS, indem y auf x und λ regressiert wird.
Man kann zeigen, dass
σ
ˆu =
εˆ′ εˆ ˆ¯ 2
− δbλ
n
ein konsistenten Sch¨atzer f¨
ur σu2 ist.
Daraus kann schließlich ein Sch¨atzer f¨
ur ρ berechnet werden
ρˆ =
bλ
σ
ˆu