Nichtlineare Regression: flexibler aber auch anspruchsvoller als die

Transcription

VDI/VDE-GMA - Workshop Neue Entwicklungen in der Messunsicherheitsermittlung“
”
6. und 7. April 2006, Berghotel Gabelbach, Ilmenau Thüringen
Nichtlineare Regression: flexibler
aber auch anspruchsvoller als die lineare Regression
Andreas Ruckstuhl
Abstract - Deutsch
Eine nahe liegende Erweiterung der linearen multiplen Regression wird dadurch erreicht,
dass die in den unbekannten Parametern lineare Regressionsfunktion durch eine nichtlineare ersetzt wird. Diese Erweiterung schafft grenzenlose Möglichkeiten. Nur schon für
sigmoide Kurven gibt es unzählige Funktionsfamilien, die sich z.T. aber kaum unterscheiden. In der Praxis sind deshalb jene Ansätze, die sich aus dem Anwendungsgebiet
ableiten lassen, am erfolgreichsten.
Will man nichtlineare Funktionen an Daten anpassen, so geht man analog wie in der
linearen Regressionsrechnung vor. Allerdings stellen sich einige zusätzliche Herausforderungen, weil die Schätzgleichungen nicht mehr explizit gegeben sind: (1) Die Gleichungen
müssen iterativ gelöst werden und es braucht deshalb geeignete Startwerte. (2) Wenn
der Algorithmus nicht konvergiert hat, können die Lösungen grob falsch sein. (3) Die
Vertrauensintervalle sind immer approximativ und je nach Datensatz können sie sogar
unbrauchbar sein, auch wenn der Algorithmus konvergiert hat.
Der Vortrag wird anhand von praktischen Beispielen die erwähnten Problemkreise aufzeigen und Hinweise geben, wie man damit umgehen kann.
Abstract - Englisch
A straightforward extension of the linear regression models can be obtained by replacing
the linear regression function by a function which is non-linear in its unknown parameters. This extension opens a wide range of functions to fit. For example, there are many
functions for describing sigmoid curves some of which are hardly to distinguish however.
Successful fits of non-linear functions are often based on functions which are derived
from the theory in the application area.
Non-linear functions are fitted to data basically in the same way as linear regression
1
functions. However, there are some challenges to cope with: (1) The estimation equations
must be solved iteratively and hence reasonable stating values are needed. (2) If the
algorithm does not converge, the results may be completely invalid. (3) The standard
confidence intervals are always approximations and, depending on the dataset, may be
useless even the algorithm has converged.
In the talk, the addressed challenges are introduced using examples from practice and
some advices are provided to handle them.
1 Das nichtlineare Regressionsmodell
Regression studiert den Zusammenhang zwischen einer Zielgrösse Y und einer oder
mehreren erklärenden (oder Ausgangs-) Variablen x(j) . Das allgemeine Modell
lautet
(1)
(2)
(m)
Yi = h xi , xi , . . . , xi ; θ1 , θ2 , . . . , θp + Ei .
Dabei ist h eine geeignete Funktion, die von den erklärenden Variablen und von Para(1)
(2)
(m)
metern abhängt, die wir zu Vektoren zusammenfassen wollen, x = [xi , xi , . . . , xi ]T
und θ = [θ1 , θ2 , . . . , θp ]T . Die unstrukturierten Abweichungen von der Funktion h werden
durch zufällige Fehler Ei beschrieben. Für die Verteilung dieser zufälligen Fehler wird
die Normalverteilung angenommen, also
Ei ∼ kN 0, σ 2 ,
unabhängig.
In der (multiplen) linearen Regression werden Funktionen h betrachtet, die linear sind
in den Parametern θj ,
(1)
(2)
(m)
(1)
(2)
(p)
h xi , xi , . . . , xi ; θ1 , θ2 , . . . , θp = θ1 xei + θ2 xei + . . . + θp xei ,
wobei die xe(j) beliebige Funktionen der ursprünglichen erklärenden Variablen x(j) sein
können. (Die Parameter werden dort üblicherweise mit βj statt θj bezeichnet.)
In der nichtlinearen Regression werden Funktionen h untersucht, die sich nicht als
lineare Funktionen in den Parametern schreiben lassen. Oft wird eine solche Funktion aus der Theorie abgeleitet. Es bestehen im Prinzip unbeschränkte Möglichkeiten,
den deterministischen Teil des Modells anzusetzen. Wie wir sehen werden, wird diese Flexibilität erkauft durch einen grösseren Aufwand, statistische Aussagen zu gewinnen.
2
Geschwindigkeit
Geschwindigkeit
200
150
100
50
0.0
0.2
0.4
0.6
0.8
1.0
Konzentration
Konzentration
Abbildung 1: Beispiel Puromycin. (a) Daten. • behandeltes Enzym; △ unbehandelt) und (b)
typischer Verlauf der Regressionsfunktion.
⊲ Beispiel Puromycin. Die Geschwindigkeit, mit der eine enzymatische Reaktion abläuft, hängt
von der Konzentration eines Substrates ab. Gemäss den Angaben in [1] wurde untersucht, wie eine
Behandlung des Enzyms mit einer weiteren Substanz namens Puromycin diese Reaktionsgeschwindigkeit beeinflusst. Als Zielvariable wurde die Anfangsgeschwindigkeit der Reaktion gewählt, welche
über Radioaktivität gemessen wird. (Die Einheit der Zielvariablen ist Anzahl/min2 ; die Anzahl Anschläge in einem Geigerzähler pro Zeiteinheit misst ja die Quantität der vorhandenen Substanz,
und die Reaktionsgeschwindigkeit ist proportional zu deren Veränderung pro Zeiteinheit)
Der Zusammenhang der Zielgrösse mit der Substrat-Konzentration x (in ppm) wird beschrieben
durch die Michaelis-Menten-Funktion
h (x; θ) =
θ1 x
.
θ2 + x
Für unendlich grosse Substratkonzentration (x → ∞) ergibt sich die “asymptotische” Geschwindigkeit θ1 . Es wurde vermutet, dass diese Grösse durch das Hinzufügen von Puromycin beeinflusst wird.
Das Experiment wurde deshalb einmal mit dem mit Puromycin behandelten Enzym und einmal
mit dem unbehandelten Enzym durchgeführt. Abbildung 1 zeigt das Resultat. In diesem Abschnitt
werden die Daten des behandelten Enzyms benutzt.
⊲ Beispiel Sauerstoffverbrauch. Um den biochemischen Sauerstoffverbrauch zu bestimmen, werden Flusswasserproben mit gelösten organischen Nährstoffen, mit anorganischen Materialien und
mit gelöstem Sauerstoff angereichert und in verschiedene Flaschen abgefüllt (Marske, 1967, siehe
[1]). Jede Flasche wird dann mit einer Mischkultur von Mikroorganismen geimpft und verschlossen
in eine Klimakammer mit konstanter Temperatur gestellt. Die Flaschen werden periodisch geöffnet
und nach gelöstem Sauerstoffgehalt analysiert. Daraus wird der biochemische Sauerstoffverbrauch
[mg/l] berechnet. Das verwendete Modell, das den kumulierten biochemischen Sauerstoffverbrauch
Y mit der Inkubinationszeit x in Verbindung bringt, basiert auf exponentiellem Abfall der Zuwächse,
3
20
•
•
16
•
•
4
5
Sauerstoffverbrauch
Sauerstoffverbrauch
18
14
12
•
10
8
•
1
2
3
6
7
Tage
Tage
Abbildung 2: Beispiel Sauerstoffverbrauch. (a) Daten und (b) typischer Verlauf der Regressi-
onsfunktion
was zu
h (x, θ) = θ1 1 − e−θ2 x
führt. Abbildung 2 zeigt die Daten und die zu verwendende Regressionsfunktion.
⊲ Beispiel aus der Membrantrenntechnologie [2]. Das Verhältnis von protonierten zu deprotonierten Carboxylgruppen in den Poren von Cellulosemembranen ist vom pH-Wert x der Aussenlösung abhängig. Die Protonierung des Carboxylkohlenstoffatoms kann mit 13 C-NMR erfasst
werden. Wir nehmen an, dass der Zusammenhang mit der erweiterten Henderson-Hasselbach”
Gleichung“ für Polyelektrolyte beschrieben werden kann,
θ1 − y
= θ3 + θ4 x ,
log10
y − θ2
wobei die unbekannten Parameter θ1 , θ2 und θ3 > 0 und θ4 < 0 sind. Auflösung nach y führt zum
Modell
θ1 + θ2 10θ3 +θ4 xi
Yi = h(xi ; θ) + Ei =
+ Ei .
1 + 10θ3 +θ4 xi
Die Regressionsfunktion h(xi , θ) ist für ein willkürlich gewähltes θ in Abbildung 3(b) und die Daten
sind in Abbildung 3(a) dargestellt.
Linearisierbare Regressionsfunktionen. Einige nichtlineare Regressionsfunktionen
lassen sich durch Transformationen der Zielgrösse und der erklärenden Variablen linearisieren.
Beispielsweise lässt sich eine Potenzfunktion,
h (x; θ) = θ1 xθ2
4
162
delta
delta
163
161
160
(a)
2
4
6
8
10
(b)
12
pH
pH
Abbildung 3: Beispiel Membrantrenntechnologie. Links: Daten; rechts: ein typischer Verlauf der
Regressionsfunktion.
zu einer (in den Parametern) linearen Funktion transformieren,
ln (h (x; θ)) = ln (θ1 ) + θ2 ln (x) = β0 + β1 xe ,
wobei β0 = ln (θ1 ), β1 = θ2 und xe = ln (x) ist. Die Regressionsfunktion h nennen wir
linearisierbar, wenn sie durch Transformationen der Argumente und eine monotone
Transformation des Resultats in eine in den (unbekannten) Parametern lineare Funktion
verwandelt werden kann.
Eine lineare Regression mit der linearisierten Regressionsfunktion beruht im genannten
Beispiel auf dem statistisch vollständigen Modell
ln (Yi ) = β0 + β1 xei + Ei ,
wobei die Zufallsfehler Ei alle der gleichen Normalverteilung folgen. Transformieren wir
dieses Modell zurück, so erhalten wir
ei
Yi = θ1 · xθ2 · E
ei = exp (Ei ). Die Fehler E
ei , i = 1, . . . , n wirken nun multiplikativ und sind lognormit E
mal verteilt! Die Annahme über die Zufallsabweichung verändert sich also recht drastisch
gegenüber einem Modell, das direkt auf h beruht,
Yi = θ1 · xθ2 + Ei∗
5
mit Zufallsabweichungen Ei∗ , die wie üblich additiv wirken und einer spezifischen Normalverteilung folgen.
Eine Linearisierung der Regressionsfunktion ist deshalb nur dann angebracht, wenn damit die Annahmen über die Zufallsabweichungen besser befriedigt werden können – im
Beispiel, falls tatsächlich die Fehler eher multiplikativ als additiv wirken und lognormal statt normal verteilt sind. Diese Annahmen müssen mit Residuen-Analyse geprüft
werden.
2 Methodik zur Schätzung der Parameter
Um Schätzungen für die Parameter θ = [θ1 , θ2 , . . ., θp ]T zu erhalten, wenden man, wie
in der linearen Regresionsrechnung, das Prinzip der Kleinsten Quadrate an. Die
Summe der quadrierten Abweichungen
S(θ) :=
n
X
(yi − ηi (θ))2
mit ηi (θ) := h (xi ; θ)
(1)
i=1
soll also minimiert werden. Die Schreibweise, die h (xi ; θ) durch ηi (θ) ersetzt, ist sinnvoll,
weil nach der Messung oder Beobachtung die Daten [xi , yi] gegeben sind und nun die
Parameter θ zu bestimmen bleiben.
Leider lassen sich das Minimum der Quadratsumme und damit die Schätzung nicht wie
in der linearen Regression explizit angeben. Iterative numerische Verfahren helfen
weiter. Die Grundidee, die hinter dem üblichen Algorithmus steckt, soll hier skizziert
werden. Sie bilden auch die Basis für die einfachste Art, Tests und Vertrauensbereiche
herzuleiten.
Geometrischen Veranschaulichung. Die beobachteten Werte Y = [Y1 , Y2, . . . , Yn ]T
legen einen Punkt im n-dimensionalen Raum fest. Das Gleiche gilt für die “Modellwerte”
η (θ) = [η1 (θ) , η2 (θ) , . . . , ηn (θ)]T für gegebenes θ.
Achtung! Die übliche geometrische Veranschaulichung von Daten, die beispielsweise in
der multivariaten Statistik grundlegend ist, betrachtet die Beobachtungen, die durch m
Variable x(j) , j = 1, 2, . . . , m, festgelegt sind, als Punkte im m-dimensionalen Raum.
Hier aber betrachten wir die Y - und η-Werte aller n Beobachtungen als Punkte im
n-dimensionalen Raum.
6
Leider hört unsere Anschauung bei drei Dimensionen, also bei drei Beobachtungen auf.
Versuchen wir es also für eine solche eingeschränkte Situation, zuerst bei der einfachen
linearen Regression. Wie gesagt, die beobachteten Werte Y = [Y1 , Y2, Y3 ]T legen einen
Punkt im 3-dimensionalen Raum fest. Für gegebene Parameter β0 = 5 und β1 = 1
können wir die Modellwerte ηi β = β0 + β1 xi ausrechnen und den entsprechenden Vek
tor η β = β0 1 + β1 x ebenfalls als Punkt darstellen. Nun fragen wir, wo alle Punkte
liegen, die durch Variation der Parameter erreicht werden können. Sie sind die möglichen Linearkombinationen der beiden Vektoren 1 und x und bilden deshalb die Ebene
die “durch 1 und x aufgespannt” wird. Beim Schätzen der Parameter nach dem Prinzip
der Kleinsten Quadrate wird, geometrisch ausgedrückt, der quadrierte Abstand zwischen
Y und η β minimiert. Gesucht ist also der Punkt auf der Ebene, der den kleinsten Abstand zu Y hat. Dieser wird auch die Projektion von Y auf die Ebene genannt. Die
Parameterwerte, die diesem Punkt ηb entsprechen, sind dann die geschätzten Parameterwerte βb = [βb0 , βb1 ]T .
Soll nun eine nichtlineare Funktion, z.B. h (x; θ) = θ1 exp (1 − θ2 x), an die gleichen
drei Beobachtungen angepasst werden. Wir können uns wieder fragen, wo alle Punkte η (θ) liegen, die durch Variation der Parameter θ1 und θ2 erreicht werden können.
Sie liegen auf einer zweidimensionalen, gekrümmten Fläche (im Folgenden Modellfläche genannt) im dreidimensionalen Raum. Das Schätzproblem besteht wieder darin,
den Punkt ηb auf der Modellfläche zu finden, der Y am nächsten liegt. Die Parameterwerte, die diesem Punkt ηb entsprechen, sind dann die geschätzten Parameterwerte
θb = [θb1 , θb2 ]T .
Die Hauptidee des üblichen Algorithums’ zur Minimierung der Summe der quadrierten
Abweichungen (vgl. (1)) läuft wie folgt: Wenn ein vorläufig bester Wert θ(ℓ) vorliegt,
approximiert man die Modellfläche durch die Ebene, die die Fläche im Punkt η θ(ℓ) =
h x; θ(ℓ) berührt. Nun sucht man den Punkt in dieser Ebene, der am nächsten bei Y
liegt. Das läuft auf die Schätzung in einem linearen Regressionsproblem hinaus. Dieser
neue Punkt liegt auf der Ebene, aber nicht auf der Fläche, die dem nicht-linearen Problem
entspricht. Er legt aber einen Parametervektor θ(ℓ+1) fest, und mit diesem geht man in
die nächste Iterations-Runde.
Um die approximierende Ebene zu bestimmen, brauchen wir die partiellen Ableitungen
∂ηi (θ)
(j)
Ai (θ) :=
,
∂θj
7
die wir zu einer n×p-Matrix A zusammenfassen können. Die Approximation der Modellfläche η (θ) durch die Tangentialebene“ in einem Parameterwert θ∗ lautet
”
(1)
(p)
ηi (θ) ≈ ηi (θ ∗ ) + Ai (θ∗ ) (θ1 − θ1∗ ) + ... + Ai (θ∗ ) (θp − θp∗ )
oder, in Matrixschreibweise,
η (θ) ≈ η (θ ∗ ) + A (θ∗ ) (θ − θ∗ ) .
(2)
Wenn wir nun den Zufallsfehler wieder hinzufügen, erhalten wir ein lineares Regressionsmodell
Y − η (θ ∗ ) = A (θ ∗ ) β + E
(3)
mit den vorläufigen Residuen“ Yi −ηi (θ∗ ) als Zielgrösse, den Spalten von A als Regresso”
ren und den Koeffizienten βj = θj −θj∗ (ein Modell ohne Achsenabschnitt β0 ).
Der Gauss-Newton-Algorithmus besteht darin, ausgehend von einem Startwert θ(0)
für θ das gerade eingeführte lineare Regressionsproblem für θ∗ = θ (0) zu lösen, um eine Korrektur β und daraus einen verbesserten Wert θ(1) = θ(0) + β zu erhalten. Für
diesen wird wieder das approximierende Modell ausgerechnet, also die vorläufigen Resi”
duen“ Y − η θ(1) und die partiellen Ableitungen A θ(1) bestimmt, und daraus ergibt
sich θ2 . Mit diesem Iterationsschritt wird so lange weitergefahren, bis die Korrektur β
vernachlässigbar wird. (Weitere Details finden Sie in [1].)
Es kann nicht garantiert werden, dass dieses Verfahren tatsächlich das Minimum
der Quadratsumme findet. Die Chancen dafür stehen besser, je besser sich die pdimensionale Modellfläche im Minimum θb = (θb1 , . . . , θbp )T durch eine p-dimensinale
Ebene“ lokal approximieren lässt, und je näher der Startwert θ (0) zur gesuchten Lösung
”
ist.
Komfortable Algorithmen bestimmen die Ableitungsmatrix A numerisch. In komplexeren Problemen kann die numerische Näherung ungenügend sein und Konvergenzprobleme verursachen. Dann ist es von Vorteil, wenn analytische Ausdrücke für die ersten partiellen Ableitungen angegeben werden können. Damit kann die Ableitungsmatrix numerisch zuverlässiger bestimmt werden und das Verfahren konvergiert eher.
Ein iteratives Verfahren benötigt Startwerte, damit es überhaupt angewandt werden
kann. Gute Startwerte helfen, dass das iterative Verfahren schneller und sicherer die
Lösung findet. Einige Möglichkeiten, diese mehr oder weniger einfach zu gewinnen, werden hier kurz vorgestellt.
8
•
Geschwindigkeit
1/Geschwindigkeit
0.015
•
•
•
0.010
0.005
•••
0
••
•
•
150
•
•
•
•
100
•
•
•
50
10
•
•
•
•
200
0.020
20
30
40
50
•
0.0
1/Konzentration
0.2
0.4
0.6
0.8
1.0
Konzentration
Abbildung 4: Beispiel Puromycin. Links: Regressionsgerade im linearisierten Problem. Rechts:
Regressionsfunktion h (x; θ) für die Startwerte θ = θ(0) (
Schätzung θ = θb (——–).
) und für die Kleinste-Quadrate-
Wie schon in der Einleitung bemerkt, stammen die nichtlinearen Modelle vielfach aus
theoretischen Überlegungen im jeweiligen Anwendungsgebietes. Bestehen schon Vorkenntnisse aus ähnlichen Experimenten, so können diese verwendet werden, um Startwerte zu gewinnen. Um sicher zu gehen, dass der gewählte Startwert passt, ist es ratsam,
die Regressionsfunktion h (x; θ) für verschiedene mögliche Startwerte θ = θ 0 graphisch
mit den Daten zusammen darzustellen (z.B. so wie in Abbildung 4, rechts).
Manchmal ist man wegen der Verteilung der Fehler gezwungen, in Modellen mit linearisierbaren Regressionsfunktionen bei der nichtlinearen Form zu verbleiben. Das linearisierte Modell kann aber Startwerte liefern.
⊲ Beispiel Puromycin. In diesem Beispiel ist die Regressionsfunktion linearisierbar: Die Kehrwerte
der beiden Variablen erfüllen
1
1
θ2 1
1
ye = ≈
=
+
= β0 + β1 xe .
y
h (x; θ)
θ1
θ1 x
Die Kleinste-Quadrate-Lösung für dieses modifizierte Problem ist βb = [βb0 , βb1 ]T = (0.00511, 0.000247)T
(Abbildung 4 (a)). Das liefert die Startwerte
(0)
(0)
θ1 = 1/βb0 = 196 ,
θ2 = βb1 /βb0 = 0.048 .
Oft ist es hilfreich, die analytischen Besonderheiten der Regressionsfunktion zu
untersuchen. Wertet man z.B. die Funktion h (xi ; θ) = θ1 + θ2 exp (−θ3 x), θ3 > 0, an der
Stelle x = 0 aus, so erhält man h (0; θ) = θ1 +θ2 . Damit ist eine visuelle Schätzung des yWertes für x = 0 ein guter Startwert für θ1 +θ2 . Da für x → ∞ die Funktion h (x; θ) → θ1
9
2
(a)
163
1
δ
y
162
0
161
−1
160
(b)
−2
2
4
6
8
10
12
2
pH
4
6
8
10
12
pH
Abbildung 5: Beispiel aus der Membrantrenn-Technologie. (a) Regressionsgerade, die zur Be-
stimmung der Startwerte für θ3 und θ4 gebraucht wird. (b) Regressionsfunktion h (x; θ) für die
) und für die der Kleinste-Quadrate-Schätzung θ = θb (——–).
Startwerte θ = θ (0) (
geht, kann der an der maximalen x-Stelle beobachtete y-Wert als Startwert für θ1 benützt
werden. Beides zusammen ergibt dann einen Startwert für θ2 .
⊲ Beispiel Im Beispiel Puromycin können wir auch auf eine andere Art zu Startwerten gelangen:
θ1 ist der y-Wert für x = ∞. Da die Regressionsfunktion monoton steigend ist, können wir den
maximalen yi -Wert oder einen visuell bestimmten “asymptotischen Wert” θ10 = 207 als Startwert
für θ1 benützen. Der Parameter θ2 ist der x-Wert, bei dem ydie Hälfte des asymptotischen Wertes
θ1 erreicht. Das ergibt θ20 = 0.06.
⊲ Beispiel aus der Membrantrenn-Technologie. Lassen wir im Beispiel aus der MembrantrennTechnologie x → ∞ gehen, so geht h (x; θ) → θ1 (da θ4 < 0); für x → −∞ geht h (x; θ) → θ2 .
Aus Abbildung 3(a) und den Daten geht hervor, dass θ1 ≈ 163.7 und θ2 ≈ 159.5 ist. Sind θ1 und
θ2 bekannt, so kann man die Regressionsfunktion linearisieren durch
!
(0)
θ1 − y
= θ3 + θ4 x .
ye := log10
(0)
y − θ2
Man spricht von einer bedingt linearisierbaren Funktion. Die lineare Regression führt zu den
(0)
(0)
Startwerten θ3 = 1.83 und θ4 = −0.36.
b
b
b
Mit diesen Startwerten konvergiert der Algorithmus
zur
Lösung θ1 = 163.7, θ2 = 159.8, θ3 = 2.67
(0)
b
b
und θ 4 = −0.512. Die Funktionen h ·; θ
und h ·; θ sind in Abbildung 5(b) eingezeichnet.
Die Eigenschaft der bedingten Linearität von Funktionen kann auch dazu benutzt werden, einen dieser Situation speziell angepassten Algorithmus zu entwickeln (siehe z.B.
[1]).
10
3 Genäherte Vertrauensintervalle
Die Schätzung θb liefert den Wert von θ, der optimal zu den Daten passt. Nun fragen wir,
welche Parameterwerte θ mit den Beobachtungen verträglich sind. Der Vertrauensbereich ist die Menge all dieser Werte. Für einen einzelnen Parameter θj wird der Vertrauensbereich zum Vertrauensintervall oder Konfidenzintervall.
Die Resultate, die nun folgen, beruhen darauf, dass die Schätzung θb asymptotisch multivariat normalverteilt ist. Für einen einzelnen Parameter führt das zu einem “z-Test” und
zum entsprechenden Vertrauensintervall; für mehrere Parameter kommt der entsprechende Chiquadrat-Test zum Zug und liefert elliptische Vertrauensbereiche.
Die asymptotischen Eigenschaften der Schätzung können aus der linearen Approximation hergeleitet werden. Das Problem der nichtlinearen Regression ist ja näherungsweise gleich dem in (3) erwähnten linearen Regressionsproblem, wenn der Parametervektor θ∗ , der für die Linearisierung verwendet wird, nahe bei der Lösung liegt. Im
Lösungspunkt θb ist die Lösung für β im linearen Problem exakt = 0 – sonst wäre es
nicht die Lösung. Die Standardfehler der Koeffizienten β – und allgemeiner die Kovarianzmatrix von βb – geben aber näherungsweise die entsprechenden Grössen für θb
wieder.
Etwas genauer: Die Standardfehler geben ja die Unsicherheiten wieder, die durch die
Zufallsschwankungen der Daten erzeugt werden. Die vorliegenden Daten haben zum
Schätzwert θb geführt. Wären die Daten etwas anders ausgefallen, dann wäre θb immer
noch ungefähr richtig, also – so nehmen wir an – gut genug für die Linearisierung. Die
Schätzung von β für den neuen Datensatz würde also so weit vom Schätzwert für den
vorliegenden Daten weg liegen, wie es der Verteilung der Parameter im linearisierten
Problem entspricht.
Aus dieser Überlegung folgt: Asymptotisch ist die Kleinste-Quadrate-Schätzung θb konsistent und normalverteilt,
V (θ)
a
b
θ ∼ N θ,
,
n
mit asymptotischer Kovarianzmatrix V (θ) = σ 2 (A (θ)T A (θ))−1 , wobei A (θ) die n × p
Matrix der partiellen Ableitungen ist (vgl. (2)). Um die Kovarianzmatrix V (θ) explizit
zu bestimmen, wird A (θ) an der Stelle θb statt an der unbekannten Stelle θ berechnet,
11
und für die Fehlervarianz σ 2 wird die übliche Schätzung eingesetzt,
−1
T
2
[
b
V (θ) = σb A θ
A θb
mit
n
2
1
1 X
b
σb =
S θ =
yi − ηi θb
.
n−p
n − p i=1
2
Damit ist die Verteilung der geschätzten Parameter näherungsweise bestimmt, und daraus lassen sich wie in der linearen Regression Standardfehler und Vertrauensintervalle
herleiten, ebenso Vertrauens-Ellipsen (oder -Ellipsoide), wenn mehrere Parameter gemeinsam betrachtet werden.
Der Nenner n − p in σb2 wurde in der linearen Regression eingeführt, um die Schätzung
erwartungstreu zu machen. Tests und Vertrauensintervalle wurden nicht mit der Normalund Chiquadrat-Verteilung bestimmt, sondern mit der t- und F-Verteilung. Damit
wurde berücksichtigt, dass die Schätzung von σ 2 eine zusätzliche Zufallsschwankung bewirkt. Auch wenn die Verteilungen nicht mehr exakt gelten, so werden die Näherungen
doch genauer, wenn man dies bei der nichtlinearen Regression ebenfalls tut. Asymptotisch geht der Unterschied gegen null.
⊲ Beispiel aus der Membrantrenntechnologie. Eine Computer-Ausgabe für das Beispiel aus der
Membrantrenn-Technologie zeigt Tabelle 1. Die Schätzungen der Parameter stehen in der Kolonne
“Value”, gefolgt von den geschätzten approximativen Standardfehler und den Teststatistiken (“t
value”), die approximativ tn−p -verteilt sind. In der letzten Zeile wird die geschätzte Standardabweichung σb der Zufallsfehler Ei angegeben.
Aus diesen Angaben können wie in der linearen Regression die Vertrauensintervalle für die Parameter bestimmt werden: Das approximative 95%-Vertrauensintervall für den Parameter θ1 ist
t35
163.706 ± q0.975
· 0.1262 = 163.706 ± 0.256 .
⊲ Beispiel Puromycin. Zur Überprüfung eines Einflusses der Behandlung des Enzyms mit Puromycin von der postulierten Form kann ein gemeinsames Modell für die Daten mit und ohne Behandlung
folgendermassen formuliert werden:
Yi =
(θ1 + θ3 zi )xi
+ Ei .
θ2 + θ4 zi + xi
Dabei ist z die Indikatorenvariable für die Behandlung (zi = 1, wenn behandelt, sonst =0).
Tabelle 2 zeigt, dass der Parameter θ4 nicht signifikant von 0 verschieden ist, denn der t-Wert von
t19
1.44 ist kleiner als die kritische Grenze q0.975
= 2.09. Die Behandlung hat aber einen eindeutigen
12
Parameters:
Value
θ1 163.706
θ2 159.784
θ3
2.675
θ4
-0.512
Std. Error
0.1262
0.1595
0.3813
0.0703
t value
1297.21
1002.03
7.02
-7.28
Residual standard error: 0.293137 on 35 degrees of freedom
Tabelle 1: Computer-Ausgabe für das Beispiel aus der Membrantrenn-Technologie
Einfluss, der sich durch θ3 ausdrückt; das 95% Vertrauensintervall überdeckt den Bereich 52.398 ±
9.5513 · 2.09 = [32.4, 72.4].
Parameters:
Value
θ1 160.286
θ2
0.048
θ3
52.398
θ4
0.016
Std. Error
6.8964
0.0083
9.5513
0.0114
t value
23.24
5.76
5.49
1.44
Residual standard error: 10.4 on 19 degrees of freedom
Tabelle 2: Computer-Ausgabe für das Beispiel Puromycin
Neben den Parametern ist oft der Funktionswert h (x0 , θ) für ein beliebiges x0 von In
teresse. In der linearen Regression wird der Funktionswert h x0 , β = xT0 β durch xT0 βb
geschätzt, und das (1 − α)-Vertrauensintervall dafür ist
q
tn−p
Tb
xo β ± σb xTo (X T X)−1 xo q1−α/2
.
Durch analoge Überlegungen und asymptotische Näherung kann man Vertrauensintervalle für den Funktionswerte h (x0 ; θ) für nicht lineare h angeben. Wird die Funktion
η0 (θ) := h (x0 , θ) an der Stelle θ linear approximiert, so erhält man
∂h (xo , θ)
ηo θb ≈ ηo (θ) + aTo (θb − θ) mit ao =
.
∂θ
(Wenn x0 gleich einem beobachteten xi ist, dann ist a0 gleich der entsprechenden Zeile
der Matrix A aus (2).) Das Vertrauensintervall für den Funktionswert h (x0 , θ) ist dann
approximativ
r −1
T
t
n−p
T
b
b
h xo , θ ± q
σbx
mit σbx = σb ab A θ
A θb
abo .
(4)
1−α/2
o
o
13
o
•
•• •
2
•
•
•
1
0
•
•
•
•
••
•
•
•
•
•
•
30
•
• •
Sauerstoffverbrauch
log(PCB Konzentration)
3
•
•
• •
20
•
•
•
15
•
•
10
•
5
•
•
1.0
25
0
1.2
1.4
1.6 1.8
Jahre^(1/3)
2.0
2.2
0
2
4
Tage
6
8
Abbildung 6: Links: Vertrauensband für eine geschätzte Gerade bei einem linearen Problem.
Rechts: Vertrauensband für die geschätzte Kurve h (x, θ) im Beispiel Sauerstoffgehalt.
In dieser Formel wurden wieder die unbekannten Grössen durch ihre Schätzungen ersetzt.
Der Ausdruck für das (1 − α)-Vertrauensintervall für ηo (θ) := h (xo , θ) gilt für beliebiges
xo . Es ist wie in der linearen Regression nahe liegend, die Grenzen dieses Intervalls
als Funktion von xo als “Vertrauensband” aufzuzeichnen, wie dies Abbildung 6 für die
beiden Beispiele Puromycin und Sauerstoffverbrauch zeigt.
Vertrauensbänder für lineare und nichtlineare Regressionsfunktionen verhalten sich verschieden: Bei linearen Funktionen ist das Vertrauensband beim Schwerpunkt der Ausgangs-Variablen am engsten und wird gegen aussen allmählich breiter (vgl. Abbildung
6, links). Im nichtlinearen Fall können die Bänder beliebiger sein. Weil die Funktionen in
den Beispielen durch den Nullpunkt gehen müssen, schrumpft dort das Intervall zu einem
Punkt. Beide Modelle haben eine horizontale Asymptote und deshalb wird das Band für
grosse x eine konstante Breite erreichen(vgl. Abbildung 6, rechts) .
14
4 Genauere Vertrauensintervalle
Die Qualität der approximativen Vertrauensbereiche ist stark von der Qualität der linearen Approximation abhängig. Ebenfalls werden die Konvergenzeigenschaften der Optimierungsalgorithmen durch die Qualität der linearen Approximation beeinflusst. Mit
etwas grösserem Rechenaufwand lässt sich die Linearität grafisch überprüfen, und gleichzeitig erhält man genauere Vertrauensintervalle.
Um eine Nullhypothese θ = θ∗ für den ganzen Parametervektor oder auch θj = θj∗ für eine einzelne Komponente zu testen, kann man, wie in der linearen Regression, den F-Test
zum Vergleich von Modellen verwenden. Man vergleicht dabei die Quadratsumme
∗
S (θ ), die sich unter der Nullhypothese ergibt, mit der Quadratsumme S θb . (Für n →
∞ stimmt der F-Test mit dem so genannten Likelihood-Quotienten-Test überein, und die
Quadratsumme ist, bis auf eine Konstante, gleich der Log-Likelihood.)
Zunächst wollen wir eine Nullhypothese θ = θ∗ für den ganzen Parametervektor betrachten. Die Teststatistik ist
∗
)
−
S
θb a
S
(θ
n−p
T =
∼ Fp,n−p .
p
S θb
Daraus erhält man als Vertrauensbereich
n θ S (θ) ≤ S θb 1 +
F
p
n−p
q
o
p,n−p
wobei q = q1−α
das (1 − α)-Quantil der F-Verteilung mit p und n − p Freiheitsgraden
ist.
In der linearen Regression erhält man genau den gleichen Vertrauensbereich, wenn man
die (multivariate) Normalverteilung der Schätzung βb benützt. Im nichtlinearen Fall sind
die Ergebnisse verschieden. Der Bereich, der auf dem F-Test beruht, stützt sich nicht auf
die lineare Approximation in (2) ab und ist deshalb (viel) exakter.
Falls p = 2 ist, können wir den exakten Vertrauensbereich finden, indem wir S (θ)
auf einem Gitter von θ-Werten berechnen und durch Interpolation die Grenzen dieses
Bereichs bestimmen wie das für Kontur-Plots geläufig ist. In Abbildung 7 sind die Konturen zusammen mit den elliptischen Bereichen, die sich aus der linearen Approximation
ergeben, für die Beispiele Puromycin (links) und Sauerstoffverbrauch (rechts) wiedergegeben.
15
0.10
10
0.09
8
0.08
6
θ2
θ2
0.07
4
0.06
2
0.05
0.04
0
190
200
210
220
230
240
0
10
θ1
20
30
40
50
60
θ1
Abbildung 7: Nominale 80 und 95% Likelihood-Konturen (——) und die Vertrauensellipsen aus
der asymptotischen Approximation (– – – –). + bezeichnet die Kleinste-Quadrate Lösung. Im
Beispiel Pyromycin (links) ist die Übereinstimmung gut und im Beispiel Sauerstoffverbrauch
(rechts) schlecht.
Für p > 2 gibt es keine Kontur-Plots. Grafische Hilfsmittel, die auch für höhere Dimensionen funktionieren, beruhen auf den folgenden Überlegungen.
Es soll geprüft werden, ob ein einzelner Parameter θk gleich einem bestimmten Wert
θk∗ sein kann. Über die übrigen Parameter macht eine solche Nullhypothese keine Aussage. Das Modell, das der Nullhypothese entspricht und am besten zu den Daten passt, ist
durch eine Kleinste-Quadrate-Schätzung der übrigen Parameter bei festem θk = θk∗ bestimmt. Es wird also S (θ1 , . . . , θk∗ , . . . , θp ) minimiert in Bezug auf alle θj , j 6= k. Das Minimum bezeichnen wir mit Sek und die Werte θj , die zu ihm führen, mit θej . Beide Grössen
hängen von θk∗ ab. Wir schreiben deshalb Sek (θk∗ ) und θej (θk∗ ).
Die F-Teststatistik für den Test “θk = θk∗ ” ist
Sek (θk∗ ) − S θb
Tek = (n − p)
.
S θb
Sie hat (genähert) eine F1,n−p -Verteilung.
F1,n−p
Ein Vertrauensintervall erhält man daraus, indem man die Gleichung Tek = q0.95
nu∗
merisch nach θk auflöst.Sie hat eine Lösung, die kleiner als θbk ist, und eine, die grösser
ist.
16
In der linearen Regression und im vorhergehenden Kapitel haben wir Tests und Vertrauensintervalle aus einer Testgrösse ausgerechnet, die einer t-Verteilung folgt (t-Test für
die Koeffizienten). Ist das ein anderer Test?
Es stellt sich heraus, dass die Teststatistik des t-Tests in der linearen Regression in
die Teststatistik des F-Tests übergeht, wenn man sie quadriert, und die beiden Tests
sind äquivalent. In der nichtlinearen Regression ist der F-Test nicht äquivalent mit dem
im letzten Kapitel besprochenen t-Test. Aber wir können den F-Test in einen t-Test
verwandeln, der genauer ist als der des letzten Kapitels:
Aus der Teststatistik des F-Tests ziehen wir die Wurzel und versehen diese mit dem
Vorzeichen von θbk − θk∗ ,
r
∗
e
S
(θ
)
−
S
θb
k
k
∗
∗
b
Tk (θk ) := sign θ k − θk
.
(5)
σb
(sign (a) bezeichnet das Vorzeichen von a, und es ist σb2 = S θb /(n − p).) Diese Teststatistik ist (genähert) tn−p -verteilt.
Im linearen Regressionsmodell ist Tk , wie erwähnt, gleich der Teststatistik des üblichen
t-Tests,
θbk − θ∗
Tk (θk∗ ) = k .
se θbk
Wir können mit dieser Technik auch Vertrauensintervalle für einen Funktionswert
an einer Stelle xo bestimmen. Dazu reparametrisieren wir das ursprüngliche Problem so,
dass ein Parameter, sagen wir φ1 , den Funktionswert h (xo ) repräsentiert und gehen dann
wie besprochen vor.
Die grafischen Hilfsmittel zur Überprüfung der linearen Approximation beruhen auf dem
gerade besprochenen t-Test, der ja eben diese Näherung nicht benützt. Wir betrachten
die Teststatistik Tk (5) als Funktion ihres Argumentes θk und nennen sie Profil-tFunktion (im letzten Kapitel war das Argument jeweils mit θk∗ bezeichnet, nun lassen wir das ∗ einfachheitshalber weg). Für die lineare Regression erhält man, wie aus
(4) ersichtlich, eine Gerade, während für die nichtlineare Regression eine monoton steigende Funktion herauskommt. Den grafischen Vergleich von Tk (θk ) mit einer Geraden
ermöglicht der so genannte Profil-t-Plot. Es ist üblich, auf der horizontalen Achse
17
θ1
190
210
θ1
230
20
40
60
80
100
0.99
4
4
0.99
0.0
0.80
0.80
0.0
0
0.80
-2
-4
-2
0.99
Niveau
0
T1 (θ1 )
0.80
Niveau
T1 (θ1 )
2
2
0.99
-6
-4
-4
-2
0
δ (θ1 )
2
4
0
10
δ (θ1 )
20
30
Abbildung 8: Profil-t-Plot für jeweils den ersten Parameter in den Beispielen Puromycin und
Sauerstoffverbrauch. Die gestrichelte Linien zeigen die verwendete lineare Approximation und
die gepunktete Linie die Konstruktion des 99% Vertrauensintervalls mit Hilfe von T1 (θ1 ).
nicht θk , sondern die auf Grund der linearen Approximation bestimmte standardisierte
Version
θk − θbk
δk (θk ) := se (θbk )
zu verwenden. Die Vergleichsgerade wird dann die Diagonale“, also die Gerade mit
”
Steigung 1 und Achsenabschnitt 0.
Je stärker die Profil-t-Funktion gekrümmt ist, desto stärker ist die Nichtlinearität in einer
Umgebung von θk . Folglich zeigt diese Darstellung, wie gut die lineare Approximation
in einer Umgebung von θbk ist. (Die Umgebung, die für die Statistik wichtig ist, ist etwa
durch |δk (θk ) | ≤ 2.5 bestimmt.)
In Abbildung 8 zeigt sich, dass im Beispiel Puromycin die Nichtlinearität minim, im
Beispiel Sauerstoffverbrauch dagegen gross ist. Aus den Darstellungen kann man die
Vertrauensintervalle gemäss (5) ablesen. Der Bequemlichkeit halber sind auf der rechten
vertikalen Achse die Wahrscheinlichkeiten P (Tk ≤ t) gemäss der t-Verteilung markiert.
Im Beispiel des Sauerstoff-Verbrauchs ergibt sich ein Vertrauensintervall ohne obere
Grenze!
18
•
••
•
•••
Gewicht
800
••
•••
••••
••
•
600
Gewicht
1000
••
••
•
400
••
•••
•
200
0
1
2
3
4
Konzentration
Konzentration
Abbildung 9: Beispiel Kresse. Links: Darstellung der Daten. Rechts : Ein typischer Verlauf
der zu verwendenden Regressionsfunktion.
5 Prognose und Eichung
Neben der Frage, welche Parameter für ein Modell bezüglich gegebener Daten plausibel
sind, ist oft die Frage, in welchem Bereich künftige Beobachtungen zu liegen kommen,
von zentralem Interesse. Wir gehen davon aus, dass der unbekannte Parameter θ aus
vorgegebenen Daten mit der Kleinste Quadrate Methode geschätzt wird. (Wenn Sie
wollen, können Sie diesen Datensatz Trainingsdatensatz nennen.) Was können wir nun
mit Hilfe unseres Modells über eine zukünftige Beobachtung Yo an einer vorgegebener
Stelle xo aussagen?
⊲ Beispiel Kresse. Die Konzentration eines agrochemischen Stoffes in Erdproben kann durch das
Wachstumsverhalten einer bestimmten Kressesorte (Nasturtium) studiert werden. Es wurden je 6
Messungen der Zielgrösse Y an 7 Erdproben mit vorgegebenen (oder mit grösst möglicher Präzision gemessenen) Konzentrationen x gemacht. In jedem Fall tun wir so, als ob die x-Werte keinen
Messfehler aufweisen. Die Zielgrösse ist das Gewicht der Kresse pro Flächeneinheit nach 3 Wochen. Ein “logit-log” Modell wurde verwendet, um den Zusammenhang zwischen Konzentration
und Gewicht zu beschreiben:

θ
if x = 0
1
h (x, θ) =
θ1

if x > 0.
1+exp(θ2 +θ3 ln(x))
(Die Daten und die Funktion h (·) sind in Abbildung 9 graphisch dargestellt.) Wir können uns jetzt
fragen, welche Gewichtswerte sind bei einer Konzentration von z.B. x0 = 3 zu erwarten?
19
Wir können
den
Erwartungswert E (Yo ) = h (xo , θ) der Zielvariablen Y an der Stelle xo
b
durch h xo , θ schätzen. Wollen wir zusätzlich einen Bereich angeben, wo eine zukünftige Beobachtung höchst wahrscheinlich
zu liegen kommt, dann müssen wir nicht nur die
Streuung der Schätzung h xo , θb berücksichtigen sondern auch den zufälligen Fehler
Eo . Analog zur linearen Regression lässt sich ein zumindest genähertes (1 − α/2)Prognoseintervall durch
tn−p
b
h xo , θ ± σbv qα/2
(6)
angeben. Dabei ist σb2v die Summe der Fehlervarianz und der Varianz der Funktionsschätzung bei xo :
σb2v = σb2 + σb2xo .
Die Berechnung von σb2xo finden Sie in (4).
Falls die Stichprobengrösse n im Trainingsdatensatz sehr gross ist, wird die geschätzte
Varianz σb2v durch die Fehlervarianz σb2 dominiert. Das bedeutet, dass die Unsicherheit in
der Prognose dann vor allem durch die Beobachtungsfehler bestimmt wird. Der zweite
Summand im Ausdruck von σb2v wiedergibt die Unsicherheit, die durch die Schätzung von
θ verursacht wird.
Es ist daher klar, dass das Prognose-Intervall breiter ist als das Vertrauensintervall für
den Erwartungswert, da ja noch die zufällige Streuung der Beobachtung berücksichtigt werden musste. Die Endpunkte solcher Intervalle für xo -Werte in einem ausgewählten Bereich wurden in Abbildung 10 links miteinander verbunden und als Band dargestellt.
Die Bestimmung des Prognoseintervalls in (6) beruht auf den gleichen Näherungen wie
sie in Kapitel 3 verwendet wurden. Die Qualität der Näherung kann wieder mit dem
Profil-t-Plot untersucht werden.
Das eigentliche Ziel des Experimentes im Beispiel Kresse ist, aus dem Gewicht der
Kresse die Konzentration des agrochemischen Stoffes zu schätzen. Folglich möchte man
die Regressionsbeziehung in der “falschen” Richtung verwenden. Daraus ergeben sich
Probleme bei der Inferenz. Trotzdem ist ein solches Vorgehen häufig erwünscht, um eine
Mess-Methode zu eichen oder um aus dem Resultat einer (billigen) Mess-Methode das
Resultat einer anderen (teuren) zu schätzen. Die Regressions-Kurve wird in diesem Zusammenhang oft Eich-Kurve genannt. – Die Behandlung dieses Problems findet man in
Englisch unter den Stichwörtern inverse regression und calibration.
20
Wir wollen hier eine einfache Behandlung vorstellen, die ein brauchbares Resultat ergibt,
wenn vereinfachende Annahmen zutreffen.
Wir nehmen an, dass die x-Werte keinen Messfehler aufweisen. Das erreicht man, indem
man im Beispiel die Konzentration des agrochemischen Stoffes sehr sorgfältig bestimmt.
Für mehrere solche Erdproben mit möglichst unterschiedlichen Konzentrationen führt
man jeweils mehrere (möglichst) unabhängige Messungen der Grösse Y durch. Das ergibt
dann einen Trainings-Datensatz, mit dem die unbekannten Parameter geschätzt und die
Standardfehler der Schätzungen bestimmt werden können.
Wenn nun für eine zu messende Probe der Wert yo abgelesen wird, ist es nahe liegend,
den zugehöriger xo -Wert folgendermassen zu bestimmen:
xbo = h−1 yo , θb .
Dabei bezeichnet h−1 die Umkehrfunktion von h. Dieses Vorgehen ist allerdings nur dann
korrekt, wenn h (·) monoton wachsend oder fallend ist. Diese Voraussetzung ist jedoch
bei Eichproblemen meistens erfüllt.
Anschliessend an diese Rechnung stellt sich die Frage, wie genau dieser Wert eigentlich
ist. Diese Problemstellung sieht ähnlich aus wie das Prognoseproblem am Anfang dieses Kapitels. Im Gegensatz zum Prognose-Problem wird jedoch yo beobachtet und der
entsprechende Wert xo muss geschätzt werden.
Die Antwort lässt sich formulieren, indem wir xo als Parameter ansehen, für den ein
Vertrauensintervall gesucht ist. Ein solches Intervall ergibt sich (wie immer) aus einem
Test. Nehmen wir als Nullhypothese xo = xH an! Wie wir in (6) gesehen haben, liegt Y
mit Wahrscheinlichkeit 0.95 im Prognose-Intervall
q
q
tn−p
tn−p
2
2
b
b T A)
b −1 ao ,
h xo , θ ± bxo mit bxo = q0.975 σb + σbxo = q0.975 σb 1 + aTo (A
das in Abbildung 10 – gleich für alle möglichen xo in einem vorgegebenen Bereich – für
das Beispiel Kresse dargestellt ist. Das Intervall bildet deshalb ein Annahmeintervall
für die Grösse Yo (die hier die Rolle einer Test-Statistik spielt) unter der Nullhypothese
xo = xH .
Die Abbildung 10 rechts veranschaulicht nun den weiteren Gedankengang am Beispiel
Kresse: Messwerte yo sind mit Parameterwerten xo vereinbar im Sinne des Tests, wenn
der Punkt [xo , yo ] zwischen den eingezeichneten Kurven liegt. In der Abbildung kann
man deshalb ohne Schwierigkeiten die Menge der xo -Werte bestimmen, die mit der Beobachtung yo verträglich sind. Sie bilden das eingezeichnete Intervall, welches auch durch
21
Gewicht
800
••
••
••• •
•• •
• ••
600
1000
800
••
•
••
Gewicht
1000
••
•
400
••
200
•••
•
••
••
••• •
•• •
• ••
600
••
•
••
••
•
400
••
200
0
•••
•
0
0
1
2
3
4
5
0
1
Konzentration
2
3
4
5
Konzentration
Abbildung 10: Beispiel Kresse. Links: Vertrauensband für die geschätzte Regressionskurve
(gestrichelt) und Prognoseband (ausgezogen). Rechts: Schematische Darstellung, wie ein Kalibrationsintervall bestimmt wird, an den Stellen y0 = 650 und y0 = 350. Die resultierenden
Intervalle sind [0.4, 1.22] respektive [1.73, 4.34].
die Menge
n
o
p
tn−p
x : |y0 − h x, θb | ≤ σb2 + σb2x q1−α/2
.
beschrieben werden kann. Dieses Intervall ist nun das gesuchte Vertrauensintervall (oder
Kalibrationsintervall) für xo .
Falls wir m Werte haben, um yo zu bestimmen, so wenden wir das obige Verfahren auf
P
ȳo = m
j=0 yoj /m an:
(
b
x : |ȳo − h x, θ | ≤
r
σb2
m
t
n−p
+ σb2x q1−α/2
)
.
6 Schlussbemerkungen
⊲ Beispiel Sauerstoffverbrauch. Warum haben wir so viele Schwierigkeiten mit dem Beispiel
Sauerstoffverbrauch? Betrachten wir die Abbildung 2 und erinnern uns, dass der Parameter θ1 den
erwarteten Sauerstoffverbrauch bei unendlicher Inkubinationszeit repräsentiert, so ist klar, dass
θ1 schwierig zu schätzen ist, weil die horizontale Asymptote durch die Daten schlecht bestimmt
ist. Hätten wir noch weitere Beobachtungen mit längeren Inkubinationszeiten, so hätten wir die
Schwierigkeiten mit der Qualität des Vertrauensintervalles von θ vermeiden können.
22
Gerade auch bei nichtlinearen Modellen ist eine gute (statistische) Versuchsplanung
(experimental design) unerlässlich. Der Informationsgehalt der Daten wird durch die
Wahl der Versuchsbedingungen festgelegt, und kein (statistisches) Verfahren ist in der
Lage, Informationen über das Modell zu liefern, welche in den Daten nicht enthalten
sind.
Neben der Profil-t-Funktion sind die Likelihood-Profilspuren (likelihood profile traces) weitere nützliche Hilfsmittel zurÜberprüfung der Approximation. Eine geeignete
Darstellung der Likelihood-Profilspuren zeigt jedoch nicht nur Nichtlinearitäten, sie
enthält auch nützliche Hinweise, wie sich die Parameter gegenseitig beeinflussen, und welche Effekte diesbezüglich Parametertransformationen haben. Mehr darüber
finden Sie in meinen Unterlagen für den Nachdiplomkurs in angewandter Statistik [3]
oder im Buch von Bates und Watts [1].
Diese Unterlagen beruhen auf Unterlagen für den Nachdiplomkurs in angewandter Statistik [3] und dem Buch von Bates und Watts [1]. Eine mathematischere Diskussion über
die statistischen und numerischen Methoden in der nichtlinearen Regression findet sich
in Seber und Wild [4]. Das Buch von Ratkowsky [5] zählt zahlreiche mögliche nichtlineare Funktionen h (·) auf, die vor allem in biologischen Bereichen ihre Anwendung
finden.
Seit einiger Zeit wird zur Bestimmung von Vertrauensbereichen auch der Bootstrap
benutzt (siehe [6]). In diesem Buch wird auch der Fall mit nichtkonstanter Varianz
(heteroskedastic models) besprochen. Dazu lohnt auch ein Blick in das Buch von Carrol
and Ruppert [7].
Heutzutage enthalten die meisten Statistik-Pakete eine Prozedur, welche nichtlineare
Modelle anpassen und asymptotische Vertrauensintervalle für die Parameter berechnen
kann. Prinzipiell ist es dann auch möglich, t-Profile“ (und Likelihood-Profilspuren) zu
”
berechnen, weil sie auch auf dem Anpassen von nichtlinearen Modellen, jedoch mit einem
Parameter weniger, beruhen.
In den beiden Implementationen S-Plus und R der Statistik-Sprache S sind die Funktionen nls und profile verfügbar, die auf der Arbeit von Bates und Watts [1] basieren.
Zusammenfassungen der Methode finden sich deshalb in Kapitel 10 von [8], in den SPlus-Manuals oder in [9]. Die Library“ nlme enthält S-Funktionen, die nichtlineare
”
Regressionsmodelle mit korrelierten Fehlern (gnls) und zufälligen Effekten (nlme) an
Daten anpassen können. Diese Implementationen basieren auf dem Buch “Mixed Effects
Models in S and S-Plus” von [10].
23
Literatur
[1] D. M. Bates and D. G. Watts, Nonlinear Regression Analysis & Its Applications.
John Wiley & Sons, 1988.
[2] I. Rapold-Nydegger, Untersuchungen zum Diffusionsverhalten von Anionen in carboxylierten Cellulosemembranen. PhD thesis, ETH Zurich, 1994.
[3] A. Ruckstuhl, “Einführung in die nichtlineare Regression.” Unterlagen für den NDK
in angewandter Statistik der ETH Zürich, 2006.
[4] G. Seber and C. Wild, Nonlinear regression. Wiley, New York, 1989.
[5] D. A. Ratkowsky, Handbook of Nonlinear Regression Models. Marcel Dekker, New
York, 1989.
[6] S. Huet, A. Bouvier, M.-A. Gruet, and E. Jolivet, Statistical Tools for Nonlinear
Regression: A Practical Guide with S-Plus Examples. Springer-Verlag, New York,
1996.
[7] R. Carroll and D. Ruppert, Transformation and Weighting in Regression. Wiley,
New York, 1988.
[8] J. M. Chambers and T. J. Hastie, Statistical Models in S.
Brooks/Cole, Pacific Grove, California, 1992.
Wadsworth &
[9] W. N. Venables and B. Ripley, Modern Applied Statistics with S. Statistics and
Computing, Springer-Verlag, New York, fourth ed., 2002.
[10] J. C. Pinheiro and D. M. Bates, Mixed-Effects Models in S and S-PLUS. Statistics
and Computing, Springer, 2000.
Autorenangabe
Prof. Dr. Andreas Ruckstuhl
Institut für Datenanalyse und Prozessdesign
Zürcher Hochschule Winterthur
Jägerstrasse 2
Postfach 805
CH-8401 Winterthur
Tel.: +41 (0)52 267 78 12
Fax: +41 (0)52 268 78 12
E-mail: [email protected]
24

Nichtlineare Regression: flexibler aber auch anspruchsvoller als die

Transcription

Similar documents

Analysis II - Mathematik

Relationale Algebra

Was ist PSA-Alert?

Argumente für barrierefreies Webdesign

Prüfbericht zum Test nach BITV 2.0