Kapitel 4 Zensierte (censored ) und gestutzte (truncated ) abh¨ angige Variablen,

Transcription

Kapitel 4
Zensierte (censored ) und gestutzte
(truncated ) abh¨
angige Variablen,
Sample Selection
In den vorhergehenden Abschnitten haben wir uns mit Fällen beschäftigt, in denen
die abhängige Variable y entweder binären und ordinalen Charakter hatte. In diesem
Abschnitt befassen wir uns mit Fällen, in denen die abhängige Variable u
¨ ber einen
bestimmten Bereich intervallskaliert ist, aber in anderen Bereichen wesentlichen Restriktionen unterliegt (z.B. nicht beobachtbar ist oder nur einen bestimmten Wert
annehmen kann). Man spricht in diesen Fällen von ‘limited dependent variables’.
Zwei Fälle sind zu unterscheiden:
• Zensierte Variablen (‘censored variables’ ): Die erklärenden Variablen werden u
¨ ber den gesamten Bereich beobachtet, aber die abhängige Variable ist
nur u
¨ ber einen beschränkten Bereich bekannt. Alle Werte der abhängigen Variablen u
¨ ber oder unter einem Schwellenwert werden in einen einzigen Wert
transformiert (→ ‘limited dependent variable’ ). Als Merkhilfe kann man sich
einen Zensor vorstellen, der aus Geheimhaltungsgr¨
unden bestimmte Stellen
schwarz u
¨ bermalt (Werte der abhängigen Variable, die eine bestimmte Größe
unter- oder u
¨ berschreiten, einen fixen Wert zuordnet, aber die Werte der erklärenden Variable nicht manipuliert).
Beispiele:
– Einkommen u
¨ ber einer bestimmten Grenze werden in der Statistik aus
Datenschutzgr¨
unden häufig nur aggregiert ausgewiesen, Daten u
¨ ber Alter
etc. der befragten Personen sind aber bekannt.
– Ausgaben f¨
ur dauerhafte Konsumg¨
uter, Urlaub, . . .
– Anzahl von Seitenspr¨
ungen (Fair 1978).
– Anzahl der Stunden, die berufstätige Frauen arbeiten.
– Anzahl von Wiederverhaftungen von entlassenen Häftlingen.
In all diesen Beispielen nehmen wir an, dass wir die erklärenden Variablen
auch f¨
ur Personen beobachten, dir ein Gut nicht kaufen, bzw. nicht Urlaub
1
2
Empirische Wirtschaftsforschung
fahren, sich auf keinen Seitensprung einlassen, nicht arbeiten, oder nicht wiederverhaftet werden.
• Gestutzte Variablen (truncated variables): Weder die abhängige Variable
noch die unabhängigen Variablen sind u
¨ ber den gesamten Bereich bekannt.
Zum Beispiel, wenn alle Datensätze f¨
ur Personen u
¨ ber einem bestimmten
Schwellenwert verworfen werden (‘Truncation’ ändert die Größe des Datensatzes!).
Das Problem bei OLS-Schätzungen von zensierten (censored ) oder gestutzten (truncated ) abhängigen Variablen wird in Abbildung 4.1 verdeutlicht.
y∗
OLS auf latente Variable
5
b
4
b
b
b
b
b
b
b
b
b
b
b
b
b
3
b
b
b
b
2
τ
1
b
b
b
b
b
b
b
b
b
b
b
b
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
x
14
x
y
OLS auf zensierte Daten (Censored Data)
OLS auf gestutzte Daten (Truncated Sample)
Tobit
5
b
b
b
b
4
b
b
b
b
b
b
b
b
b
b
3
b
b
b
b
b
2
τ
1
b
b
b
b
b
0
bc
0
bc
1
bc
2
3
bc
bc
4
5
6
7
8
bc
9
10
11
12
13
Abbildung 4.1: OLS auf latente Variable sowie auf zensierte (‘censored’ ) und gestutzte (‘truncated’ ) Variable. Bei der zensierten Variable wird
jeder Beobachtung mit y ∗ < τ der Wert Null zugewiesen (Kreise
auf der x Achse, bei der gestutzten Variable werden alle Beobachtungen mit y ∗ < τ verworfen.
4.1
Die Verteilung von zensierten und gestutzten
Variablen
Die Verteilung von censored und truncated Variablen wird in 4.2 verdeutlicht.
3
Dichte
Normal
Censored
Truncated
1 − F (τ )
F (τ )
τ
µ
τ
y∗
µ
τ
y
µ
y|y > τ
Abbildung 4.2: Zensierte (‘censored’ ) & gestutzte (‘truncated’ ) Variablen
• Die linke Grafik in Abbildung 4.2 zeigt die Verteilung (Dichte) einer latenten
Variable y ∗ ∼ N(µ, σ 2 ). Die Dichtefunktion der latenten Variablen ist
"
∗
2 #
1
1 y −µ
√ exp −
f (y ∗| µ, σ) =
2
σ
σ 2π
∗
1
y −µ
=
φ
σ
σ
1
µ − y∗
=
φ
σ
σ
f¨
ur
φ(z) = √
1
∼ N(0, 1)
2πe−0.5z 2
Die Wahrscheinlichkeit, dass eine Beobachtungen in den linken schraffierten
Bereich fällt, ist
∗
Pr(y ≤ τ ) = Φ
sodass
y∗ − µ
σ
y∗ − µ
Pr(y > τ ) = 1 − Φ
σ
∗
wobei wir uns zunutze gemacht haben, dass aufgrund der Symmetrie der Normalverteilung um Null gilt
φ(z) = φ(−z)
Φ(z) = 1 − Φ(−z)
• Die rechte Grafik Abbildung 4.2 zeigt die Verteilung einer gestutzten (truncated ) Variable y| y > τ . Da die schraffierte Fläche links von τ nicht ber¨
ucksichtigt werden darf muß die Fläche ‘angepaßt’ werden, damit die Fläche unter der
Dichte Eins bleibt. Dies geschieht, indem die urspr¨
ungliche Verteilung durch
die Fläche rechts von τ dividiert wird.
f (y| y > τ, µ, σ) =
f (y ∗| µ, σ)
Pr(y ∗ > τ )
4
(die urspr¨
ungliche Verteilung ist zu Vergleichszwecken punktiert eingezeichnet). Unter Verwendung der fr¨
uheren Ergebnisse
y ∗ −µ
1
φ
σ
f (y| y > τ, µ, σ) = σ
1 − Φ τ −µ
σ
Da die Verteilung links abgeschnitten ist liegt der Erwartungswert der gestutzten Variable E(y| y > τ ) rechts vom Erwartungswert der latenten Variable
E(y ∗ ) = µ, oder konkret (siehe Long 1997, S. 194)
φ µ−τ
µ−τ
σ E(y| y > τ ) = µ + σ
= µ + σλ
(4.1)
σ
Φ µ−τ
σ
wobei λ(·) = φ(·)/Φ(·) inverse Mills ratio genannt wird.
Das gestutzte (truncated ) Modell kann mittel Maximum Likelihood geschätzt
werden.
Die Log-Likelihood Funktion f¨
ur das gestutzte Modell ist
n
n
X
n
n
1 X
ln L = − ln(2π) − ln(σ 2 ) − 2
(y − x′i β) −
ln(Φ(x′i β/σ))
2
2
2σ i=1
i=1
Die Koeffizienten des gestutzten Modells geben die marginalen Auswirkungen
einer erklärenden Variable xk auf E(y) in der (nicht gestutzten!) Grundgesamtheit an.
Die marginalen Effekte f¨
ur die gestutzte Stichprobe (d.h. f¨
ur y ∗ > 0) können
folgendermaßen berechnet werden (siehe Long 1997, S 208f)
∂ E(y| y ∗ > τ
= βk [1 − δλ(δ) − λ(δ)2 ]
∂xk
wobei λ den inverse Mills ratio bezeichnet und
δi =
x′i β − τ
σ
• Die mittlere Grafik in Abbildung 4.2 zeigt die Verteilung einer zensierten Variable y
(
y ∗ wenn yi∗ > τ,
yi =
0 wenn yi∗ ≤ τ.
mit εi ∼ N(0, σ 2 ). Dies kann auch f¨
ur das Regressionsmodell geschrieben werden als
yi = max(τ, x′i β + εi )
wobei in der Literatur häufig τ = 0 angenommen wird (dies ist keine wesentliche Einschränkung, da dies einfach erreicht werden kann, indem man y
in Abweichungen vom bekannten Schwellenwert τ misst). F¨
ur Abbildung 4.2
bedeutet dies, dass alle Punkte, die im linken Panel im schraffierten Bereich
links von τ liegen, im mittleren Panel genau auf τ liegen.
5
Die Beobachtungen in der schraffierten Region der linken Grafik liegen alle bei
τ.
Die Wahrscheinlichkeit, dass eine Beobachtung im zensierten Bereich liegt, ist
τ −µ
∗
Pr(Censored) = Pr(y < τ ) = Φ
σ
und die Wahrscheinlichkeit einer Beobachtung im nicht zensierten Bereich ist
µ−τ
τ −µ
Pr(Uncensored) = 1 − Φ
=Φ
σ
σ
Deshalb ist der Erwartungswert einer zensierten Variable y
E(y) = [Pr(Uncensored) × E(y| y > τ )] + [Pr(Censored) × E(y| y = τy )]
µ−τ
µ−τ
τ −µ
=
Φ
µ + σλ
+Φ
τy
σ
σ
σ
wobei τ der Schwellenwert ist, ab dem y ∗ zensiert ist, und τy der Wert ist, der y ∗
zugewiesen wird im Falle der Zensierung. Meist wird τ = τy = 0 angenommen.
4.2
Das Tobit Modell f¨
ur zensierte Variablen
Das einfachste Tobit Modell bezieht sich auf den Fall einer von unten zensierten
abhängigen Variablen yi , wobei die latente Variable yi∗ linear in den x ist mit einem
normalverteilten Störterm εi , also
yi∗ = x′i β + εi
mit
εi ∼ N(0, σ 2 )
Die beobachtete abhängige Variable y nimmt
riable den Schwellenwert τ u
¨ berschreitet, und
(
yi =
τy
den Wert y an, wenn die latente Vaden Wert τy , wenn yi∗ ≤ τ , also
wenn yi∗ > τ,
wenn yi∗ ≤ τ
Dieses Modell wurde im Laufe der Zeit in die verschiedensten Richtungen erweitert.
Generell wird f¨
ur eine Tobit Schätzung die Log-Likelihood Funktion einer zensierten
(oder gestutzten) Variable maximiert.
yi = max(τy , x′i β + εi ),
εi ∼ N(0, σ 2 )
Die Wahrscheinlichkeit f¨
ur eine zensierte Beobachtung ist
Pr(zensiert|x′i ) = Pr(yi∗ ≤ τ |x′i ) = Pr(εi ≤ τ − x′i β|x′i )
6
Da εi ∼ N(0, σ 2 ) ist εi /σ ∼ N(0, 1), deshalb ist
τ − x′i β ′
τ − x′i β
εi
′
≤
:= Φ(−δi )
Pr(Censored|xi ) = Pr
xi = Φ
σ
σ
σ
und f¨
ur nicht zensierte Beobachtungen
′
xi β − τ
τ − x′i β
′
Pr(Uncensored|xi ) = 1 − Φ
=Φ
:= Φ(δi )
σ
σ
f¨
ur
δi :=
x′i β − τ
σ
Erwartungswert
Erinnern wir uns,
yi =
(
τy
wenn yi∗ > τ,
wenn yi∗ ≤ τ
F¨
ur den Erwartungswert m¨
ussen wir beide Teil ber¨
ucksichtigen
E(yi |x′i = [Pr(Uncensored|x′i ) × E(yi |yi > τ, x′i )]
+ [Pr(Censored|x′i ) × τy ]
Unter Ber¨
ucksichtigung der vorher berechneten Wahrscheinlichkeiten
E(yi |x′i = [Φ(δi ) × E(yi |yi > τ, x′i )] + [Φ(−δi ) × τy ]
Sehen wir uns E(yi |yi > τ, x′i ) etwas genauer an
E(yi |yi > τ, x′i ) = E(x′i β + εi |yi > τ, x′i )
= x′i β + E(εi |yi > τ, x′i )
Aus Gleichung (4.1) folgt, dass E(εi |yi > τ, x′i ) = σλ(δi ), wobei σ die Standardabweichung von εi ist, δ := (x′i β − τ )/σ, und λ(z) = φ(z)/Φ(z) wieder der ‘inverse
Mills ratio’ ist.
Daraus folgt nach einigen weiteren Vereinfachungen
E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy
Sch¨
atzung
F¨
ur nicht zensierte Beobachtungen ist die log-Likelihood Funktion
X
yi − x′i β
1
2
ln Lu (β, σ ) =
ln φ
σ
σ
Uncensored
F¨
ur zensierte Beobachtungen ist X bekannt und wir wissen, dass y ∗ ≤ τ . Die entsprechende Wahrscheinlichkeit ist
τ − x′i β
∗
′
Pr(yi ≤ τ | xi ) = Φ
σ
7
Die Likelihood Funktion f¨
ur zensierte Beobachtungen ist also
Y
τ − x′i β
2
Lc (β, σ ) =
Φ
σ
Censored
bzw. die Log-Likelihood Funktion
τ − x′i β
ln Lc (β, σ ) =
ln Φ
σ
Censored
X
2
Die Likelihood Funktion f¨
ur zensierte Beobachtungen und nichtzensierte Beobachtungen ist deshalb
2
ln L(β, σ | y, X) =
X
ln Φ
Censored
τ − x′i β
σ
1
yi − x′i β
+
ln φ
σ
σ
Uncensored
X
Man beachte, dass in diesem Modell β und σ einzeln identifiziert sind.
Das Tobit Modell reagiert sehr empfindlich auf die Verletzung der zugrundeliegenden
Annahmen, wie z.B. auf Heteroskedastizität (siehe z.B. Johnston/DiNardo 1997, S.
440f)!
Interpretation der Parameter
• In Bezug auf die latente Variable y ∗ : wie OLS
∂ E(yi∗| x′i )
= βk
∂xk
• In Bezug auf die zensierte Variable y: Wir haben bereits gesehen, dass
E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy
Daraus folgt der marginale Effekt (siehe Long 1997, S. 209)
∂ E(yi | x′i )
βh
= Φ (deltai ) βh + (τ − τy )φ(δi )
∂xh
σ
Häufig ist τ = τy , in diesem Fall vereinfacht sich der Ausdruck zu
∂ E(yi | x′i )
= Φ (δi ) βh
∂xh
• In Bezug auf die gestutzte Variable y > τ : Der Erwartungswert ist
E(y|y > τ, x′i ) = x′i β + σλ(δ)
Die partielle Ableitung nach xh ist
∂ E(yi | y > τ, x′i )
= 1 − δλ(δ) − [λ(δ)]2 βh
∂xh
wobei δ = (x′i β − τ )/σ und λ(·) = φ(·)/Φ(·) wieder der inverse Mills ratio ist.
8
4.3
Sample Selection
Truncation f¨
uhrt zu einer ‘Selektion’ der Stichprobe (f¨
ur eine ausf¨
uhrliche Diskussion
siehe Wooldridge 2000, Chapter 17, p. 557ff).
Faustregel:
• Erfolgt die Auswahl in Abhängigkeit von exogenen Variablen (x) ist die Selektion weitgehend problemlos.
• Erfolgt die Auswahl in Abhängigkeit von endogenen Variablen (y) ist OLS
weder erwartungstreu noch konsistent!
cov(xi , εi ) 6= 0, sehr ähnlich wie ommitted variables.
Das einfachste Selektionsmodell ist das bivariate Selektionsmodell (auch Tobit 2
genannt), wobei eine eigene Selektionsgleichung geschätzt wird
(
1 wenn zi∗ > 0,
zi =
0 wenn zi∗ ≤ 0.
und
(
yi∗
yi =
−
wenn zi∗ > 0,
wenn zi∗ ≤ 0.
mit
zi∗ = wi γ + vi
yi∗ = xi β + εi
Meistens wird angenommen
v
0
1 ρ
∼N
,
u
0
ρ σu2
4.3.1
Zweistufige Sample Selection nach Heckman (1976)
Bei der sogenannten Heckit Methode wird der Mechanismus, demzufolge eine Beobachtung zensiert oder nicht zensiert ist, explizit modelliert.
Das eigentliche Modell ist wieder
aber die Selektion, ob yi∗ beobachtet wird oder nicht hängt nicht von einem τ ab,
sondern von einer zweiten latenten Variable z ∗ mit
zi∗ = wi′ α + vi
9
mit zi = 1 wenn zi∗ > 0 und Null sonst.
Pr(zi = 1|wi ) = Φ(wi′ α)
Pr(zi = 0|wi ) = 1 − Φ(wi′ α)
y ∗ wird nur beobachtet, wenn z ∗ > 0.
Die Matrizen X und W können auch gleiche Variablen enthalten. Wenn X und
W völlig gleich sind (d.h. wenn die Selektionsgleichung und Regression f¨
ur y die
gleichen Variablen enthalten) treten allerdings häufig große Probleme mit der Multikollinearität auf, da der inverse Mills ratio u
¨ ber weite Bereiche annähernd linear
ist.
Das Grundprinzip bei Heckman’s zweistufigem Vorgehen ist einfach: zuerst wird
ˆ i f¨
auf Grundlage eines Probit Modells der inverse Mills ratio λ
ur jede Beobachtung
berechnet. Auf der zweiten Stufe wird eine OLS-Regression von yi auf alle x′i und den
ˆ i f¨
inverse Mills ratio λ
ur alle selektierten Beobachtungen (d.h. f¨
ur Beobachtungen
mit zi = 1) gerechnet, d.h.
î
y i = x′ β + γ λ
i
wobei nur die Beobachtungen der gestutzten Stichprobe verwendet werden. Die so
berechneten b sind konsistent und annähernd normalverteilt, aber nicht effizient. Die
Standardfehler der zweiten Stufe sind bei dieser einfachen Vorgangsweise verzerrt
und deshalb nicht anwendbar, da dabei die erste Stufe nicht ber¨
ucksichtigt wird.
Die folgende Vorgangsweise erlaubt die Schätzung konsistenter Standardfehler.
Theorem Momente der gestutzte bivariaten Normalverteilung, siehe
Greene (2003), S. 781:
Wenn y und z bivariat normalverteilt sind mit Erwartungswerten µy und µz , Standardabweichungen σy und σz sowie Korrelation ρ, dan gilt
mit ωz =
a−µz
;
σz
E(y|z > a) = µy + ρσy λ (ωz )
var(y|z > a) = σy2 1 − ρ2 δ (ωz )
λ = φ(ωz )/[1 − Φ(ωz )] und δ (ωz ) = λ (ωz ) [λ (ωz ) − ωz ].
Deshalb gilt (siehe z.B. Greene 2003, 784)
E(yi | zi = 1, xi , zi ) = xi β + ρσu λ(wi′ α)
Sch¨
atzung der Parameter Die Schätzung kann entweder mit Maximum Likelihood oder zweistufig erfolgen. Nach Greene (2003, S. 784f) kann man folgendermaßen vorgehen:
1. Schätze mit einem Probit die Parameter α der Selektionsgleichung.
Berechne f¨
ur jede Beobachtung den inverse Mills ratio
′
ˆ
ˆ i = φ(wi α)
λ
′ˆ
Φ(wi α)
sowie
ˆ i (λ
ˆ i − w ′ α)
δî = λ
iˆ
10
2. Berechne eine Schätzung f¨
ur den Koeffizientenvektor β und βλˆ = ρσu mittels
ˆ
OLS, indem y auf x und λ regressiert wird.
Man kann zeigen, dass
σ
û =
εˆ′ εˆ ˆ¯ 2
− δbλ
n
ein konsistenten Schätzer f¨
ur σu2 ist.
Daraus kann schließlich ein Schätzer f¨
ur ρ berechnet werden
ρˆ =
bλ
σ
û

Kapitel 4 Zensierte (censored ) und gestutzte (truncated ) abh¨ angige Variablen,

Transcription

Similar documents

Blatt 7 - UniversitÃ¤t Basel

Pocketcard SPSS.indd

Anforderungen an DatensÃ¤tze zur statistischen Auswertung

Klausur FestkÃ¶rperphysik II am 26. 03. 2015, Aufgaben und LÃ¶sungen

Die Faktorenanalyse : ein modernes statistisches Hilfsmittel des

Thelonious

Anwendungshinweis IEC60870 Parametrieren aus der

Leitlinien zum Management von Forschungsdaten

IBM SPSS Missing Values 20

BA II PLUS™ BA II PLUS™ PROFESSIONAL Taschenrechner BA II

Das FreeBSD Porter

Ausgestaltung der Vergütungssyteme in Banken

soulfully inspired jewelry