Nichtlineare Regression: flexibler aber auch anspruchsvoller als die

Transcription

Nichtlineare Regression: flexibler aber auch anspruchsvoller als die
VDI/VDE-GMA - Workshop Neue Entwicklungen in der Messunsicherheitsermittlung“
”
6. und 7. April 2006, Berghotel Gabelbach, Ilmenau Thüringen
Nichtlineare Regression: flexibler
aber auch anspruchsvoller als die lineare Regression
Andreas Ruckstuhl
Abstract - Deutsch
Eine nahe liegende Erweiterung der linearen multiplen Regression wird dadurch erreicht,
dass die in den unbekannten Parametern lineare Regressionsfunktion durch eine nichtlineare ersetzt wird. Diese Erweiterung schafft grenzenlose Möglichkeiten. Nur schon für
sigmoide Kurven gibt es unzählige Funktionsfamilien, die sich z.T. aber kaum unterscheiden. In der Praxis sind deshalb jene Ansätze, die sich aus dem Anwendungsgebiet
ableiten lassen, am erfolgreichsten.
Will man nichtlineare Funktionen an Daten anpassen, so geht man analog wie in der
linearen Regressionsrechnung vor. Allerdings stellen sich einige zusätzliche Herausforderungen, weil die Schätzgleichungen nicht mehr explizit gegeben sind: (1) Die Gleichungen
müssen iterativ gelöst werden und es braucht deshalb geeignete Startwerte. (2) Wenn
der Algorithmus nicht konvergiert hat, können die Lösungen grob falsch sein. (3) Die
Vertrauensintervalle sind immer approximativ und je nach Datensatz können sie sogar
unbrauchbar sein, auch wenn der Algorithmus konvergiert hat.
Der Vortrag wird anhand von praktischen Beispielen die erwähnten Problemkreise aufzeigen und Hinweise geben, wie man damit umgehen kann.
Abstract - Englisch
A straightforward extension of the linear regression models can be obtained by replacing
the linear regression function by a function which is non-linear in its unknown parameters. This extension opens a wide range of functions to fit. For example, there are many
functions for describing sigmoid curves some of which are hardly to distinguish however.
Successful fits of non-linear functions are often based on functions which are derived
from the theory in the application area.
Non-linear functions are fitted to data basically in the same way as linear regression
1
functions. However, there are some challenges to cope with: (1) The estimation equations
must be solved iteratively and hence reasonable stating values are needed. (2) If the
algorithm does not converge, the results may be completely invalid. (3) The standard
confidence intervals are always approximations and, depending on the dataset, may be
useless even the algorithm has converged.
In the talk, the addressed challenges are introduced using examples from practice and
some advices are provided to handle them.
1 Das nichtlineare Regressionsmodell
Regression studiert den Zusammenhang zwischen einer Zielgrösse Y und einer oder
mehreren erklärenden (oder Ausgangs-) Variablen x(j) . Das allgemeine Modell
lautet
(1)
(2)
(m)
Yi = h xi , xi , . . . , xi ; θ1 , θ2 , . . . , θp + Ei .
Dabei ist h eine geeignete Funktion, die von den erklärenden Variablen und von Para(1)
(2)
(m)
metern abhängt, die wir zu Vektoren zusammenfassen wollen, x = [xi , xi , . . . , xi ]T
und θ = [θ1 , θ2 , . . . , θp ]T . Die unstrukturierten Abweichungen von der Funktion h werden
durch zufällige Fehler Ei beschrieben. Für die Verteilung dieser zufälligen Fehler wird
die Normalverteilung angenommen, also
Ei ∼ kN 0, σ 2 ,
unabhängig.
In der (multiplen) linearen Regression werden Funktionen h betrachtet, die linear sind
in den Parametern θj ,
(1)
(2)
(m)
(1)
(2)
(p)
h xi , xi , . . . , xi ; θ1 , θ2 , . . . , θp = θ1 xei + θ2 xei + . . . + θp xei ,
wobei die xe(j) beliebige Funktionen der ursprünglichen erklärenden Variablen x(j) sein
können. (Die Parameter werden dort üblicherweise mit βj statt θj bezeichnet.)
In der nichtlinearen Regression werden Funktionen h untersucht, die sich nicht als
lineare Funktionen in den Parametern schreiben lassen. Oft wird eine solche Funktion aus der Theorie abgeleitet. Es bestehen im Prinzip unbeschränkte Möglichkeiten,
den deterministischen Teil des Modells anzusetzen. Wie wir sehen werden, wird diese Flexibilität erkauft durch einen grösseren Aufwand, statistische Aussagen zu gewinnen.
2
Geschwindigkeit
Geschwindigkeit
200
150
100
50
0.0
0.2
0.4
0.6
0.8
1.0
Konzentration
Konzentration
Abbildung 1: Beispiel Puromycin. (a) Daten. • behandeltes Enzym; △ unbehandelt) und (b)
typischer Verlauf der Regressionsfunktion.
⊲ Beispiel Puromycin. Die Geschwindigkeit, mit der eine enzymatische Reaktion abläuft, hängt
von der Konzentration eines Substrates ab. Gemäss den Angaben in [1] wurde untersucht, wie eine
Behandlung des Enzyms mit einer weiteren Substanz namens Puromycin diese Reaktionsgeschwindigkeit beeinflusst. Als Zielvariable wurde die Anfangsgeschwindigkeit der Reaktion gewählt, welche
über Radioaktivität gemessen wird. (Die Einheit der Zielvariablen ist Anzahl/min2 ; die Anzahl Anschläge in einem Geigerzähler pro Zeiteinheit misst ja die Quantität der vorhandenen Substanz,
und die Reaktionsgeschwindigkeit ist proportional zu deren Veränderung pro Zeiteinheit)
Der Zusammenhang der Zielgrösse mit der Substrat-Konzentration x (in ppm) wird beschrieben
durch die Michaelis-Menten-Funktion
h (x; θ) =
θ1 x
.
θ2 + x
Für unendlich grosse Substratkonzentration (x → ∞) ergibt sich die “asymptotische” Geschwindigkeit θ1 . Es wurde vermutet, dass diese Grösse durch das Hinzufügen von Puromycin beeinflusst wird.
Das Experiment wurde deshalb einmal mit dem mit Puromycin behandelten Enzym und einmal
mit dem unbehandelten Enzym durchgeführt. Abbildung 1 zeigt das Resultat. In diesem Abschnitt
werden die Daten des behandelten Enzyms benutzt.
⊲ Beispiel Sauerstoffverbrauch. Um den biochemischen Sauerstoffverbrauch zu bestimmen, werden Flusswasserproben mit gelösten organischen Nährstoffen, mit anorganischen Materialien und
mit gelöstem Sauerstoff angereichert und in verschiedene Flaschen abgefüllt (Marske, 1967, siehe
[1]). Jede Flasche wird dann mit einer Mischkultur von Mikroorganismen geimpft und verschlossen
in eine Klimakammer mit konstanter Temperatur gestellt. Die Flaschen werden periodisch geöffnet
und nach gelöstem Sauerstoffgehalt analysiert. Daraus wird der biochemische Sauerstoffverbrauch
[mg/l] berechnet. Das verwendete Modell, das den kumulierten biochemischen Sauerstoffverbrauch
Y mit der Inkubinationszeit x in Verbindung bringt, basiert auf exponentiellem Abfall der Zuwächse,
3
20
•
•
16
•
•
4
5
Sauerstoffverbrauch
Sauerstoffverbrauch
18
14
12
•
10
8
•
1
2
3
6
7
Tage
Tage
Abbildung 2: Beispiel Sauerstoffverbrauch. (a) Daten und (b) typischer Verlauf der Regressi-
onsfunktion
was zu
h (x, θ) = θ1 1 − e−θ2 x
führt. Abbildung 2 zeigt die Daten und die zu verwendende Regressionsfunktion.
⊲ Beispiel aus der Membrantrenntechnologie [2]. Das Verhältnis von protonierten zu deprotonierten Carboxylgruppen in den Poren von Cellulosemembranen ist vom pH-Wert x der Aussenlösung abhängig. Die Protonierung des Carboxylkohlenstoffatoms kann mit 13 C-NMR erfasst
werden. Wir nehmen an, dass der Zusammenhang mit der erweiterten Henderson-Hasselbach”
Gleichung“ für Polyelektrolyte beschrieben werden kann,
θ1 − y
= θ3 + θ4 x ,
log10
y − θ2
wobei die unbekannten Parameter θ1 , θ2 und θ3 > 0 und θ4 < 0 sind. Auflösung nach y führt zum
Modell
θ1 + θ2 10θ3 +θ4 xi
Yi = h(xi ; θ) + Ei =
+ Ei .
1 + 10θ3 +θ4 xi
Die Regressionsfunktion h(xi , θ) ist für ein willkürlich gewähltes θ in Abbildung 3(b) und die Daten
sind in Abbildung 3(a) dargestellt.
Linearisierbare Regressionsfunktionen. Einige nichtlineare Regressionsfunktionen
lassen sich durch Transformationen der Zielgrösse und der erklärenden Variablen linearisieren.
Beispielsweise lässt sich eine Potenzfunktion,
h (x; θ) = θ1 xθ2
4
162
delta
delta
163
161
160
(a)
2
4
6
8
10
(b)
12
pH
pH
Abbildung 3: Beispiel Membrantrenntechnologie. Links: Daten; rechts: ein typischer Verlauf der
Regressionsfunktion.
zu einer (in den Parametern) linearen Funktion transformieren,
ln (h (x; θ)) = ln (θ1 ) + θ2 ln (x) = β0 + β1 xe ,
wobei β0 = ln (θ1 ), β1 = θ2 und xe = ln (x) ist. Die Regressionsfunktion h nennen wir
linearisierbar, wenn sie durch Transformationen der Argumente und eine monotone
Transformation des Resultats in eine in den (unbekannten) Parametern lineare Funktion
verwandelt werden kann.
Eine lineare Regression mit der linearisierten Regressionsfunktion beruht im genannten
Beispiel auf dem statistisch vollständigen Modell
ln (Yi ) = β0 + β1 xei + Ei ,
wobei die Zufallsfehler Ei alle der gleichen Normalverteilung folgen. Transformieren wir
dieses Modell zurück, so erhalten wir
ei
Yi = θ1 · xθ2 · E
ei = exp (Ei ). Die Fehler E
ei , i = 1, . . . , n wirken nun multiplikativ und sind lognormit E
mal verteilt! Die Annahme über die Zufallsabweichung verändert sich also recht drastisch
gegenüber einem Modell, das direkt auf h beruht,
Yi = θ1 · xθ2 + Ei∗
5
mit Zufallsabweichungen Ei∗ , die wie üblich additiv wirken und einer spezifischen Normalverteilung folgen.
Eine Linearisierung der Regressionsfunktion ist deshalb nur dann angebracht, wenn damit die Annahmen über die Zufallsabweichungen besser befriedigt werden können – im
Beispiel, falls tatsächlich die Fehler eher multiplikativ als additiv wirken und lognormal statt normal verteilt sind. Diese Annahmen müssen mit Residuen-Analyse geprüft
werden.
2 Methodik zur Schätzung der Parameter
Um Schätzungen für die Parameter θ = [θ1 , θ2 , . . ., θp ]T zu erhalten, wenden man, wie
in der linearen Regresionsrechnung, das Prinzip der Kleinsten Quadrate an. Die
Summe der quadrierten Abweichungen
S(θ) :=
n
X
(yi − ηi (θ))2
mit ηi (θ) := h (xi ; θ)
(1)
i=1
soll also minimiert werden. Die Schreibweise, die h (xi ; θ) durch ηi (θ) ersetzt, ist sinnvoll,
weil nach der Messung oder Beobachtung die Daten [xi , yi] gegeben sind und nun die
Parameter θ zu bestimmen bleiben.
Leider lassen sich das Minimum der Quadratsumme und damit die Schätzung nicht wie
in der linearen Regression explizit angeben. Iterative numerische Verfahren helfen
weiter. Die Grundidee, die hinter dem üblichen Algorithmus steckt, soll hier skizziert
werden. Sie bilden auch die Basis für die einfachste Art, Tests und Vertrauensbereiche
herzuleiten.
Geometrischen Veranschaulichung. Die beobachteten Werte Y = [Y1 , Y2, . . . , Yn ]T
legen einen Punkt im n-dimensionalen Raum fest. Das Gleiche gilt für die “Modellwerte”
η (θ) = [η1 (θ) , η2 (θ) , . . . , ηn (θ)]T für gegebenes θ.
Achtung! Die übliche geometrische Veranschaulichung von Daten, die beispielsweise in
der multivariaten Statistik grundlegend ist, betrachtet die Beobachtungen, die durch m
Variable x(j) , j = 1, 2, . . . , m, festgelegt sind, als Punkte im m-dimensionalen Raum.
Hier aber betrachten wir die Y - und η-Werte aller n Beobachtungen als Punkte im
n-dimensionalen Raum.
6
Leider hört unsere Anschauung bei drei Dimensionen, also bei drei Beobachtungen auf.
Versuchen wir es also für eine solche eingeschränkte Situation, zuerst bei der einfachen
linearen Regression. Wie gesagt, die beobachteten Werte Y = [Y1 , Y2, Y3 ]T legen einen
Punkt im 3-dimensionalen Raum fest. Für gegebene Parameter β0 = 5 und β1 = 1
können wir die Modellwerte ηi β = β0 + β1 xi ausrechnen und den entsprechenden Vek
tor η β = β0 1 + β1 x ebenfalls als Punkt darstellen. Nun fragen wir, wo alle Punkte
liegen, die durch Variation der Parameter erreicht werden können. Sie sind die möglichen Linearkombinationen der beiden Vektoren 1 und x und bilden deshalb die Ebene
die “durch 1 und x aufgespannt” wird. Beim Schätzen der Parameter nach dem Prinzip
der Kleinsten Quadrate wird, geometrisch ausgedrückt, der quadrierte Abstand zwischen
Y und η β minimiert. Gesucht ist also der Punkt auf der Ebene, der den kleinsten Abstand zu Y hat. Dieser wird auch die Projektion von Y auf die Ebene genannt. Die
Parameterwerte, die diesem Punkt ηb entsprechen, sind dann die geschätzten Parameterwerte βb = [βb0 , βb1 ]T .
Soll nun eine nichtlineare Funktion, z.B. h (x; θ) = θ1 exp (1 − θ2 x), an die gleichen
drei Beobachtungen angepasst werden. Wir können uns wieder fragen, wo alle Punkte η (θ) liegen, die durch Variation der Parameter θ1 und θ2 erreicht werden können.
Sie liegen auf einer zweidimensionalen, gekrümmten Fläche (im Folgenden Modellfläche genannt) im dreidimensionalen Raum. Das Schätzproblem besteht wieder darin,
den Punkt ηb auf der Modellfläche zu finden, der Y am nächsten liegt. Die Parameterwerte, die diesem Punkt ηb entsprechen, sind dann die geschätzten Parameterwerte
θb = [θb1 , θb2 ]T .
Die Hauptidee des üblichen Algorithums’ zur Minimierung der Summe der quadrierten
Abweichungen (vgl. (1)) läuft wie folgt: Wenn ein vorläufig bester Wert θ(ℓ) vorliegt,
approximiert man die Modellfläche durch die Ebene, die die Fläche im Punkt η θ(ℓ) =
h x; θ(ℓ) berührt. Nun sucht man den Punkt in dieser Ebene, der am nächsten bei Y
liegt. Das läuft auf die Schätzung in einem linearen Regressionsproblem hinaus. Dieser
neue Punkt liegt auf der Ebene, aber nicht auf der Fläche, die dem nicht-linearen Problem
entspricht. Er legt aber einen Parametervektor θ(ℓ+1) fest, und mit diesem geht man in
die nächste Iterations-Runde.
Um die approximierende Ebene zu bestimmen, brauchen wir die partiellen Ableitungen
∂ηi (θ)
(j)
Ai (θ) :=
,
∂θj
7
die wir zu einer n×p-Matrix A zusammenfassen können. Die Approximation der Modellfläche η (θ) durch die Tangentialebene“ in einem Parameterwert θ∗ lautet
”
(1)
(p)
ηi (θ) ≈ ηi (θ ∗ ) + Ai (θ∗ ) (θ1 − θ1∗ ) + ... + Ai (θ∗ ) (θp − θp∗ )
oder, in Matrixschreibweise,
η (θ) ≈ η (θ ∗ ) + A (θ∗ ) (θ − θ∗ ) .
(2)
Wenn wir nun den Zufallsfehler wieder hinzufügen, erhalten wir ein lineares Regressionsmodell
Y − η (θ ∗ ) = A (θ ∗ ) β + E
(3)
mit den vorläufigen Residuen“ Yi −ηi (θ∗ ) als Zielgrösse, den Spalten von A als Regresso”
ren und den Koeffizienten βj = θj −θj∗ (ein Modell ohne Achsenabschnitt β0 ).
Der Gauss-Newton-Algorithmus besteht darin, ausgehend von einem Startwert θ(0)
für θ das gerade eingeführte lineare Regressionsproblem für θ∗ = θ (0) zu lösen, um eine Korrektur β und daraus einen verbesserten Wert θ(1) = θ(0) + β zu erhalten. Für
diesen wird wieder das approximierende Modell ausgerechnet, also die vorläufigen Resi”
duen“ Y − η θ(1) und die partiellen Ableitungen A θ(1) bestimmt, und daraus ergibt
sich θ2 . Mit diesem Iterationsschritt wird so lange weitergefahren, bis die Korrektur β
vernachlässigbar wird. (Weitere Details finden Sie in [1].)
Es kann nicht garantiert werden, dass dieses Verfahren tatsächlich das Minimum
der Quadratsumme findet. Die Chancen dafür stehen besser, je besser sich die pdimensionale Modellfläche im Minimum θb = (θb1 , . . . , θbp )T durch eine p-dimensinale
Ebene“ lokal approximieren lässt, und je näher der Startwert θ (0) zur gesuchten Lösung
”
ist.
Komfortable Algorithmen bestimmen die Ableitungsmatrix A numerisch. In komplexeren Problemen kann die numerische Näherung ungenügend sein und Konvergenzprobleme verursachen. Dann ist es von Vorteil, wenn analytische Ausdrücke für die ersten partiellen Ableitungen angegeben werden können. Damit kann die Ableitungsmatrix numerisch zuverlässiger bestimmt werden und das Verfahren konvergiert eher.
Ein iteratives Verfahren benötigt Startwerte, damit es überhaupt angewandt werden
kann. Gute Startwerte helfen, dass das iterative Verfahren schneller und sicherer die
Lösung findet. Einige Möglichkeiten, diese mehr oder weniger einfach zu gewinnen, werden hier kurz vorgestellt.
8
•
Geschwindigkeit
1/Geschwindigkeit
0.015
•
•
•
0.010
0.005
•••
0
••
•
•
150
•
•
•
•
100
•
•
•
50
10
•
•
•
•
200
0.020
20
30
40
50
•
0.0
1/Konzentration
0.2
0.4
0.6
0.8
1.0
Konzentration
Abbildung 4: Beispiel Puromycin. Links: Regressionsgerade im linearisierten Problem. Rechts:
Regressionsfunktion h (x; θ) für die Startwerte θ = θ(0) (
Schätzung θ = θb (——–).
) und für die Kleinste-Quadrate-
Wie schon in der Einleitung bemerkt, stammen die nichtlinearen Modelle vielfach aus
theoretischen Überlegungen im jeweiligen Anwendungsgebietes. Bestehen schon Vorkenntnisse aus ähnlichen Experimenten, so können diese verwendet werden, um Startwerte zu gewinnen. Um sicher zu gehen, dass der gewählte Startwert passt, ist es ratsam,
die Regressionsfunktion h (x; θ) für verschiedene mögliche Startwerte θ = θ 0 graphisch
mit den Daten zusammen darzustellen (z.B. so wie in Abbildung 4, rechts).
Manchmal ist man wegen der Verteilung der Fehler gezwungen, in Modellen mit linearisierbaren Regressionsfunktionen bei der nichtlinearen Form zu verbleiben. Das linearisierte Modell kann aber Startwerte liefern.
⊲ Beispiel Puromycin. In diesem Beispiel ist die Regressionsfunktion linearisierbar: Die Kehrwerte
der beiden Variablen erfüllen
1
1
θ2 1
1
ye = ≈
=
+
= β0 + β1 xe .
y
h (x; θ)
θ1
θ1 x
Die Kleinste-Quadrate-Lösung für dieses modifizierte Problem ist βb = [βb0 , βb1 ]T = (0.00511, 0.000247)T
(Abbildung 4 (a)). Das liefert die Startwerte
(0)
(0)
θ1 = 1/βb0 = 196 ,
θ2 = βb1 /βb0 = 0.048 .
Oft ist es hilfreich, die analytischen Besonderheiten der Regressionsfunktion zu
untersuchen. Wertet man z.B. die Funktion h (xi ; θ) = θ1 + θ2 exp (−θ3 x), θ3 > 0, an der
Stelle x = 0 aus, so erhält man h (0; θ) = θ1 +θ2 . Damit ist eine visuelle Schätzung des yWertes für x = 0 ein guter Startwert für θ1 +θ2 . Da für x → ∞ die Funktion h (x; θ) → θ1
9
2
(a)
163
1
δ
y
162
0
161
−1
160
(b)
−2
2
4
6
8
10
12
2
pH
4
6
8
10
12
pH
Abbildung 5: Beispiel aus der Membrantrenn-Technologie. (a) Regressionsgerade, die zur Be-
stimmung der Startwerte für θ3 und θ4 gebraucht wird. (b) Regressionsfunktion h (x; θ) für die
) und für die der Kleinste-Quadrate-Schätzung θ = θb (——–).
Startwerte θ = θ (0) (
geht, kann der an der maximalen x-Stelle beobachtete y-Wert als Startwert für θ1 benützt
werden. Beides zusammen ergibt dann einen Startwert für θ2 .
⊲ Beispiel Im Beispiel Puromycin können wir auch auf eine andere Art zu Startwerten gelangen:
θ1 ist der y-Wert für x = ∞. Da die Regressionsfunktion monoton steigend ist, können wir den
maximalen yi -Wert oder einen visuell bestimmten “asymptotischen Wert” θ10 = 207 als Startwert
für θ1 benützen. Der Parameter θ2 ist der x-Wert, bei dem ydie Hälfte des asymptotischen Wertes
θ1 erreicht. Das ergibt θ20 = 0.06.
⊲ Beispiel aus der Membrantrenn-Technologie. Lassen wir im Beispiel aus der MembrantrennTechnologie x → ∞ gehen, so geht h (x; θ) → θ1 (da θ4 < 0); für x → −∞ geht h (x; θ) → θ2 .
Aus Abbildung 3(a) und den Daten geht hervor, dass θ1 ≈ 163.7 und θ2 ≈ 159.5 ist. Sind θ1 und
θ2 bekannt, so kann man die Regressionsfunktion linearisieren durch
!
(0)
θ1 − y
= θ3 + θ4 x .
ye := log10
(0)
y − θ2
Man spricht von einer bedingt linearisierbaren Funktion. Die lineare Regression führt zu den
(0)
(0)
Startwerten θ3 = 1.83 und θ4 = −0.36.
b
b
b
Mit diesen Startwerten konvergiert der Algorithmus
zur
Lösung θ1 = 163.7, θ2 = 159.8, θ3 = 2.67
(0)
b
b
und θ 4 = −0.512. Die Funktionen h ·; θ
und h ·; θ sind in Abbildung 5(b) eingezeichnet.
Die Eigenschaft der bedingten Linearität von Funktionen kann auch dazu benutzt werden, einen dieser Situation speziell angepassten Algorithmus zu entwickeln (siehe z.B.
[1]).
10
3 Genäherte Vertrauensintervalle
Die Schätzung θb liefert den Wert von θ, der optimal zu den Daten passt. Nun fragen wir,
welche Parameterwerte θ mit den Beobachtungen verträglich sind. Der Vertrauensbereich ist die Menge all dieser Werte. Für einen einzelnen Parameter θj wird der Vertrauensbereich zum Vertrauensintervall oder Konfidenzintervall.
Die Resultate, die nun folgen, beruhen darauf, dass die Schätzung θb asymptotisch multivariat normalverteilt ist. Für einen einzelnen Parameter führt das zu einem “z-Test” und
zum entsprechenden Vertrauensintervall; für mehrere Parameter kommt der entsprechende Chiquadrat-Test zum Zug und liefert elliptische Vertrauensbereiche.
Die asymptotischen Eigenschaften der Schätzung können aus der linearen Approximation hergeleitet werden. Das Problem der nichtlinearen Regression ist ja näherungsweise gleich dem in (3) erwähnten linearen Regressionsproblem, wenn der Parametervektor θ∗ , der für die Linearisierung verwendet wird, nahe bei der Lösung liegt. Im
Lösungspunkt θb ist die Lösung für β im linearen Problem exakt = 0 – sonst wäre es
nicht die Lösung. Die Standardfehler der Koeffizienten β – und allgemeiner die Kovarianzmatrix von βb – geben aber näherungsweise die entsprechenden Grössen für θb
wieder.
Etwas genauer: Die Standardfehler geben ja die Unsicherheiten wieder, die durch die
Zufallsschwankungen der Daten erzeugt werden. Die vorliegenden Daten haben zum
Schätzwert θb geführt. Wären die Daten etwas anders ausgefallen, dann wäre θb immer
noch ungefähr richtig, also – so nehmen wir an – gut genug für die Linearisierung. Die
Schätzung von β für den neuen Datensatz würde also so weit vom Schätzwert für den
vorliegenden Daten weg liegen, wie es der Verteilung der Parameter im linearisierten
Problem entspricht.
Aus dieser Überlegung folgt: Asymptotisch ist die Kleinste-Quadrate-Schätzung θb konsistent und normalverteilt,
V (θ)
a
b
θ ∼ N θ,
,
n
mit asymptotischer Kovarianzmatrix V (θ) = σ 2 (A (θ)T A (θ))−1 , wobei A (θ) die n × p
Matrix der partiellen Ableitungen ist (vgl. (2)). Um die Kovarianzmatrix V (θ) explizit
zu bestimmen, wird A (θ) an der Stelle θb statt an der unbekannten Stelle θ berechnet,
11
und für die Fehlervarianz σ 2 wird die übliche Schätzung eingesetzt,
−1
T
2
[
b
V (θ) = σb A θ
A θb
mit
n
2
1
1 X
b
σb =
S θ =
yi − ηi θb
.
n−p
n − p i=1
2
Damit ist die Verteilung der geschätzten Parameter näherungsweise bestimmt, und daraus lassen sich wie in der linearen Regression Standardfehler und Vertrauensintervalle
herleiten, ebenso Vertrauens-Ellipsen (oder -Ellipsoide), wenn mehrere Parameter gemeinsam betrachtet werden.
Der Nenner n − p in σb2 wurde in der linearen Regression eingeführt, um die Schätzung
erwartungstreu zu machen. Tests und Vertrauensintervalle wurden nicht mit der Normalund Chiquadrat-Verteilung bestimmt, sondern mit der t- und F-Verteilung. Damit
wurde berücksichtigt, dass die Schätzung von σ 2 eine zusätzliche Zufallsschwankung bewirkt. Auch wenn die Verteilungen nicht mehr exakt gelten, so werden die Näherungen
doch genauer, wenn man dies bei der nichtlinearen Regression ebenfalls tut. Asymptotisch geht der Unterschied gegen null.
⊲ Beispiel aus der Membrantrenntechnologie. Eine Computer-Ausgabe für das Beispiel aus der
Membrantrenn-Technologie zeigt Tabelle 1. Die Schätzungen der Parameter stehen in der Kolonne
“Value”, gefolgt von den geschätzten approximativen Standardfehler und den Teststatistiken (“t
value”), die approximativ tn−p -verteilt sind. In der letzten Zeile wird die geschätzte Standardabweichung σb der Zufallsfehler Ei angegeben.
Aus diesen Angaben können wie in der linearen Regression die Vertrauensintervalle für die Parameter bestimmt werden: Das approximative 95%-Vertrauensintervall für den Parameter θ1 ist
t35
163.706 ± q0.975
· 0.1262 = 163.706 ± 0.256 .
⊲ Beispiel Puromycin. Zur Überprüfung eines Einflusses der Behandlung des Enzyms mit Puromycin von der postulierten Form kann ein gemeinsames Modell für die Daten mit und ohne Behandlung
folgendermassen formuliert werden:
Yi =
(θ1 + θ3 zi )xi
+ Ei .
θ2 + θ4 zi + xi
Dabei ist z die Indikatorenvariable für die Behandlung (zi = 1, wenn behandelt, sonst =0).
Tabelle 2 zeigt, dass der Parameter θ4 nicht signifikant von 0 verschieden ist, denn der t-Wert von
t19
1.44 ist kleiner als die kritische Grenze q0.975
= 2.09. Die Behandlung hat aber einen eindeutigen
12
Parameters:
Value
θ1 163.706
θ2 159.784
θ3
2.675
θ4
-0.512
Std. Error
0.1262
0.1595
0.3813
0.0703
t value
1297.21
1002.03
7.02
-7.28
Residual standard error: 0.293137 on 35 degrees of freedom
Tabelle 1: Computer-Ausgabe für das Beispiel aus der Membrantrenn-Technologie
Einfluss, der sich durch θ3 ausdrückt; das 95% Vertrauensintervall überdeckt den Bereich 52.398 ±
9.5513 · 2.09 = [32.4, 72.4].
Parameters:
Value
θ1 160.286
θ2
0.048
θ3
52.398
θ4
0.016
Std. Error
6.8964
0.0083
9.5513
0.0114
t value
23.24
5.76
5.49
1.44
Residual standard error: 10.4 on 19 degrees of freedom
Tabelle 2: Computer-Ausgabe für das Beispiel Puromycin
Neben den Parametern ist oft der Funktionswert h (x0 , θ) für ein beliebiges x0 von In
teresse. In der linearen Regression wird der Funktionswert h x0 , β = xT0 β durch xT0 βb
geschätzt, und das (1 − α)-Vertrauensintervall dafür ist
q
tn−p
Tb
xo β ± σb xTo (X T X)−1 xo q1−α/2
.
Durch analoge Überlegungen und asymptotische Näherung kann man Vertrauensintervalle für den Funktionswerte h (x0 ; θ) für nicht lineare h angeben. Wird die Funktion
η0 (θ) := h (x0 , θ) an der Stelle θ linear approximiert, so erhält man
∂h (xo , θ)
ηo θb ≈ ηo (θ) + aTo (θb − θ) mit ao =
.
∂θ
(Wenn x0 gleich einem beobachteten xi ist, dann ist a0 gleich der entsprechenden Zeile
der Matrix A aus (2).) Das Vertrauensintervall für den Funktionswert h (x0 , θ) ist dann
approximativ
r −1
T
t
n−p
T
b
b
h xo , θ ± q
σbx
mit σbx = σb ab A θ
A θb
abo .
(4)
1−α/2
o
o
13
o
•
•• •
2
•
•
•
1
0
•
•
•
•
••
•
•
•
•
•
•
30
•
• •
Sauerstoffverbrauch
log(PCB Konzentration)
3
•
•
• •
20
•
•
•
15
•
•
10
•
5
•
•
1.0
25
0
1.2
1.4
1.6 1.8
Jahre^(1/3)
2.0
2.2
0
2
4
Tage
6
8
Abbildung 6: Links: Vertrauensband für eine geschätzte Gerade bei einem linearen Problem.
Rechts: Vertrauensband für die geschätzte Kurve h (x, θ) im Beispiel Sauerstoffgehalt.
In dieser Formel wurden wieder die unbekannten Grössen durch ihre Schätzungen ersetzt.
Der Ausdruck für das (1 − α)-Vertrauensintervall für ηo (θ) := h (xo , θ) gilt für beliebiges
xo . Es ist wie in der linearen Regression nahe liegend, die Grenzen dieses Intervalls
als Funktion von xo als “Vertrauensband” aufzuzeichnen, wie dies Abbildung 6 für die
beiden Beispiele Puromycin und Sauerstoffverbrauch zeigt.
Vertrauensbänder für lineare und nichtlineare Regressionsfunktionen verhalten sich verschieden: Bei linearen Funktionen ist das Vertrauensband beim Schwerpunkt der Ausgangs-Variablen am engsten und wird gegen aussen allmählich breiter (vgl. Abbildung
6, links). Im nichtlinearen Fall können die Bänder beliebiger sein. Weil die Funktionen in
den Beispielen durch den Nullpunkt gehen müssen, schrumpft dort das Intervall zu einem
Punkt. Beide Modelle haben eine horizontale Asymptote und deshalb wird das Band für
grosse x eine konstante Breite erreichen(vgl. Abbildung 6, rechts) .
14
4 Genauere Vertrauensintervalle
Die Qualität der approximativen Vertrauensbereiche ist stark von der Qualität der linearen Approximation abhängig. Ebenfalls werden die Konvergenzeigenschaften der Optimierungsalgorithmen durch die Qualität der linearen Approximation beeinflusst. Mit
etwas grösserem Rechenaufwand lässt sich die Linearität grafisch überprüfen, und gleichzeitig erhält man genauere Vertrauensintervalle.
Um eine Nullhypothese θ = θ∗ für den ganzen Parametervektor oder auch θj = θj∗ für eine einzelne Komponente zu testen, kann man, wie in der linearen Regression, den F-Test
zum Vergleich von Modellen verwenden. Man vergleicht dabei die Quadratsumme
∗
S (θ ), die sich unter der Nullhypothese ergibt, mit der Quadratsumme S θb . (Für n →
∞ stimmt der F-Test mit dem so genannten Likelihood-Quotienten-Test überein, und die
Quadratsumme ist, bis auf eine Konstante, gleich der Log-Likelihood.)
Zunächst wollen wir eine Nullhypothese θ = θ∗ für den ganzen Parametervektor betrachten. Die Teststatistik ist
∗
)
−
S
θb a
S
(θ
n−p
T =
∼ Fp,n−p .
p
S θb
Daraus erhält man als Vertrauensbereich
n θ S (θ) ≤ S θb 1 +
F
p
n−p
q
o
p,n−p
wobei q = q1−α
das (1 − α)-Quantil der F-Verteilung mit p und n − p Freiheitsgraden
ist.
In der linearen Regression erhält man genau den gleichen Vertrauensbereich, wenn man
die (multivariate) Normalverteilung der Schätzung βb benützt. Im nichtlinearen Fall sind
die Ergebnisse verschieden. Der Bereich, der auf dem F-Test beruht, stützt sich nicht auf
die lineare Approximation in (2) ab und ist deshalb (viel) exakter.
Falls p = 2 ist, können wir den exakten Vertrauensbereich finden, indem wir S (θ)
auf einem Gitter von θ-Werten berechnen und durch Interpolation die Grenzen dieses
Bereichs bestimmen wie das für Kontur-Plots geläufig ist. In Abbildung 7 sind die Konturen zusammen mit den elliptischen Bereichen, die sich aus der linearen Approximation
ergeben, für die Beispiele Puromycin (links) und Sauerstoffverbrauch (rechts) wiedergegeben.
15
0.10
10
0.09
8
0.08
6
θ2
θ2
0.07
4
0.06
2
0.05
0.04
0
190
200
210
220
230
240
0
10
θ1
20
30
40
50
60
θ1
Abbildung 7: Nominale 80 und 95% Likelihood-Konturen (——) und die Vertrauensellipsen aus
der asymptotischen Approximation (– – – –). + bezeichnet die Kleinste-Quadrate Lösung. Im
Beispiel Pyromycin (links) ist die Übereinstimmung gut und im Beispiel Sauerstoffverbrauch
(rechts) schlecht.
Für p > 2 gibt es keine Kontur-Plots. Grafische Hilfsmittel, die auch für höhere Dimensionen funktionieren, beruhen auf den folgenden Überlegungen.
Es soll geprüft werden, ob ein einzelner Parameter θk gleich einem bestimmten Wert
θk∗ sein kann. Über die übrigen Parameter macht eine solche Nullhypothese keine Aussage. Das Modell, das der Nullhypothese entspricht und am besten zu den Daten passt, ist
durch eine Kleinste-Quadrate-Schätzung der übrigen Parameter bei festem θk = θk∗ bestimmt. Es wird also S (θ1 , . . . , θk∗ , . . . , θp ) minimiert in Bezug auf alle θj , j 6= k. Das Minimum bezeichnen wir mit Sek und die Werte θj , die zu ihm führen, mit θej . Beide Grössen
hängen von θk∗ ab. Wir schreiben deshalb Sek (θk∗ ) und θej (θk∗ ).
Die F-Teststatistik für den Test “θk = θk∗ ” ist
Sek (θk∗ ) − S θb
Tek = (n − p)
.
S θb
Sie hat (genähert) eine F1,n−p -Verteilung.
F1,n−p
Ein Vertrauensintervall erhält man daraus, indem man die Gleichung Tek = q0.95
nu∗
merisch nach θk auflöst.Sie hat eine Lösung, die kleiner als θbk ist, und eine, die grösser
ist.
16
In der linearen Regression und im vorhergehenden Kapitel haben wir Tests und Vertrauensintervalle aus einer Testgrösse ausgerechnet, die einer t-Verteilung folgt (t-Test für
die Koeffizienten). Ist das ein anderer Test?
Es stellt sich heraus, dass die Teststatistik des t-Tests in der linearen Regression in
die Teststatistik des F-Tests übergeht, wenn man sie quadriert, und die beiden Tests
sind äquivalent. In der nichtlinearen Regression ist der F-Test nicht äquivalent mit dem
im letzten Kapitel besprochenen t-Test. Aber wir können den F-Test in einen t-Test
verwandeln, der genauer ist als der des letzten Kapitels:
Aus der Teststatistik des F-Tests ziehen wir die Wurzel und versehen diese mit dem
Vorzeichen von θbk − θk∗ ,
r
∗
e
S
(θ
)
−
S
θb
k
k
∗
∗
b
Tk (θk ) := sign θ k − θk
.
(5)
σb
(sign (a) bezeichnet das Vorzeichen von a, und es ist σb2 = S θb /(n − p).) Diese Teststatistik ist (genähert) tn−p -verteilt.
Im linearen Regressionsmodell ist Tk , wie erwähnt, gleich der Teststatistik des üblichen
t-Tests,
θbk − θ∗
Tk (θk∗ ) = k .
se θbk
Wir können mit dieser Technik auch Vertrauensintervalle für einen Funktionswert
an einer Stelle xo bestimmen. Dazu reparametrisieren wir das ursprüngliche Problem so,
dass ein Parameter, sagen wir φ1 , den Funktionswert h (xo ) repräsentiert und gehen dann
wie besprochen vor.
Die grafischen Hilfsmittel zur Überprüfung der linearen Approximation beruhen auf dem
gerade besprochenen t-Test, der ja eben diese Näherung nicht benützt. Wir betrachten
die Teststatistik Tk (5) als Funktion ihres Argumentes θk und nennen sie Profil-tFunktion (im letzten Kapitel war das Argument jeweils mit θk∗ bezeichnet, nun lassen wir das ∗ einfachheitshalber weg). Für die lineare Regression erhält man, wie aus
(4) ersichtlich, eine Gerade, während für die nichtlineare Regression eine monoton steigende Funktion herauskommt. Den grafischen Vergleich von Tk (θk ) mit einer Geraden
ermöglicht der so genannte Profil-t-Plot. Es ist üblich, auf der horizontalen Achse
17
θ1
190
210
θ1
230
20
40
60
80
100
0.99
4
4
0.99
0.0
0.80
0.80
0.0
0
0.80
-2
-4
-2
0.99
Niveau
0
T1 (θ1 )
0.80
Niveau
T1 (θ1 )
2
2
0.99
-6
-4
-4
-2
0
δ (θ1 )
2
4
0
10
δ (θ1 )
20
30
Abbildung 8: Profil-t-Plot für jeweils den ersten Parameter in den Beispielen Puromycin und
Sauerstoffverbrauch. Die gestrichelte Linien zeigen die verwendete lineare Approximation und
die gepunktete Linie die Konstruktion des 99% Vertrauensintervalls mit Hilfe von T1 (θ1 ).
nicht θk , sondern die auf Grund der linearen Approximation bestimmte standardisierte
Version
θk − θbk
δk (θk ) := se (θbk )
zu verwenden. Die Vergleichsgerade wird dann die Diagonale“, also die Gerade mit
”
Steigung 1 und Achsenabschnitt 0.
Je stärker die Profil-t-Funktion gekrümmt ist, desto stärker ist die Nichtlinearität in einer
Umgebung von θk . Folglich zeigt diese Darstellung, wie gut die lineare Approximation
in einer Umgebung von θbk ist. (Die Umgebung, die für die Statistik wichtig ist, ist etwa
durch |δk (θk ) | ≤ 2.5 bestimmt.)
In Abbildung 8 zeigt sich, dass im Beispiel Puromycin die Nichtlinearität minim, im
Beispiel Sauerstoffverbrauch dagegen gross ist. Aus den Darstellungen kann man die
Vertrauensintervalle gemäss (5) ablesen. Der Bequemlichkeit halber sind auf der rechten
vertikalen Achse die Wahrscheinlichkeiten P (Tk ≤ t) gemäss der t-Verteilung markiert.
Im Beispiel des Sauerstoff-Verbrauchs ergibt sich ein Vertrauensintervall ohne obere
Grenze!
18
•
••
•
•••
Gewicht
800
••
•••
••••
••
•
600
Gewicht
1000
••
••
•
400
••
•••
•
200
0
1
2
3
4
Konzentration
Konzentration
Abbildung 9: Beispiel Kresse. Links: Darstellung der Daten. Rechts : Ein typischer Verlauf
der zu verwendenden Regressionsfunktion.
5 Prognose und Eichung
Neben der Frage, welche Parameter für ein Modell bezüglich gegebener Daten plausibel
sind, ist oft die Frage, in welchem Bereich künftige Beobachtungen zu liegen kommen,
von zentralem Interesse. Wir gehen davon aus, dass der unbekannte Parameter θ aus
vorgegebenen Daten mit der Kleinste Quadrate Methode geschätzt wird. (Wenn Sie
wollen, können Sie diesen Datensatz Trainingsdatensatz nennen.) Was können wir nun
mit Hilfe unseres Modells über eine zukünftige Beobachtung Yo an einer vorgegebener
Stelle xo aussagen?
⊲ Beispiel Kresse. Die Konzentration eines agrochemischen Stoffes in Erdproben kann durch das
Wachstumsverhalten einer bestimmten Kressesorte (Nasturtium) studiert werden. Es wurden je 6
Messungen der Zielgrösse Y an 7 Erdproben mit vorgegebenen (oder mit grösst möglicher Präzision gemessenen) Konzentrationen x gemacht. In jedem Fall tun wir so, als ob die x-Werte keinen
Messfehler aufweisen. Die Zielgrösse ist das Gewicht der Kresse pro Flächeneinheit nach 3 Wochen. Ein “logit-log” Modell wurde verwendet, um den Zusammenhang zwischen Konzentration
und Gewicht zu beschreiben:

θ
if x = 0
1
h (x, θ) =
θ1

if x > 0.
1+exp(θ2 +θ3 ln(x))
(Die Daten und die Funktion h (·) sind in Abbildung 9 graphisch dargestellt.) Wir können uns jetzt
fragen, welche Gewichtswerte sind bei einer Konzentration von z.B. x0 = 3 zu erwarten?
19
Wir können
den
Erwartungswert E (Yo ) = h (xo , θ) der Zielvariablen Y an der Stelle xo
b
durch h xo , θ schätzen. Wollen wir zusätzlich einen Bereich angeben, wo eine zukünftige Beobachtung höchst wahrscheinlich
zu liegen kommt, dann müssen wir nicht nur die
Streuung der Schätzung h xo , θb berücksichtigen sondern auch den zufälligen Fehler
Eo . Analog zur linearen Regression lässt sich ein zumindest genähertes (1 − α/2)Prognoseintervall durch
tn−p
b
h xo , θ ± σbv qα/2
(6)
angeben. Dabei ist σb2v die Summe der Fehlervarianz und der Varianz der Funktionsschätzung bei xo :
σb2v = σb2 + σb2xo .
Die Berechnung von σb2xo finden Sie in (4).
Falls die Stichprobengrösse n im Trainingsdatensatz sehr gross ist, wird die geschätzte
Varianz σb2v durch die Fehlervarianz σb2 dominiert. Das bedeutet, dass die Unsicherheit in
der Prognose dann vor allem durch die Beobachtungsfehler bestimmt wird. Der zweite
Summand im Ausdruck von σb2v wiedergibt die Unsicherheit, die durch die Schätzung von
θ verursacht wird.
Es ist daher klar, dass das Prognose-Intervall breiter ist als das Vertrauensintervall für
den Erwartungswert, da ja noch die zufällige Streuung der Beobachtung berücksichtigt werden musste. Die Endpunkte solcher Intervalle für xo -Werte in einem ausgewählten Bereich wurden in Abbildung 10 links miteinander verbunden und als Band dargestellt.
Die Bestimmung des Prognoseintervalls in (6) beruht auf den gleichen Näherungen wie
sie in Kapitel 3 verwendet wurden. Die Qualität der Näherung kann wieder mit dem
Profil-t-Plot untersucht werden.
Das eigentliche Ziel des Experimentes im Beispiel Kresse ist, aus dem Gewicht der
Kresse die Konzentration des agrochemischen Stoffes zu schätzen. Folglich möchte man
die Regressionsbeziehung in der “falschen” Richtung verwenden. Daraus ergeben sich
Probleme bei der Inferenz. Trotzdem ist ein solches Vorgehen häufig erwünscht, um eine
Mess-Methode zu eichen oder um aus dem Resultat einer (billigen) Mess-Methode das
Resultat einer anderen (teuren) zu schätzen. Die Regressions-Kurve wird in diesem Zusammenhang oft Eich-Kurve genannt. – Die Behandlung dieses Problems findet man in
Englisch unter den Stichwörtern inverse regression und calibration.
20
Wir wollen hier eine einfache Behandlung vorstellen, die ein brauchbares Resultat ergibt,
wenn vereinfachende Annahmen zutreffen.
Wir nehmen an, dass die x-Werte keinen Messfehler aufweisen. Das erreicht man, indem
man im Beispiel die Konzentration des agrochemischen Stoffes sehr sorgfältig bestimmt.
Für mehrere solche Erdproben mit möglichst unterschiedlichen Konzentrationen führt
man jeweils mehrere (möglichst) unabhängige Messungen der Grösse Y durch. Das ergibt
dann einen Trainings-Datensatz, mit dem die unbekannten Parameter geschätzt und die
Standardfehler der Schätzungen bestimmt werden können.
Wenn nun für eine zu messende Probe der Wert yo abgelesen wird, ist es nahe liegend,
den zugehöriger xo -Wert folgendermassen zu bestimmen:
xbo = h−1 yo , θb .
Dabei bezeichnet h−1 die Umkehrfunktion von h. Dieses Vorgehen ist allerdings nur dann
korrekt, wenn h (·) monoton wachsend oder fallend ist. Diese Voraussetzung ist jedoch
bei Eichproblemen meistens erfüllt.
Anschliessend an diese Rechnung stellt sich die Frage, wie genau dieser Wert eigentlich
ist. Diese Problemstellung sieht ähnlich aus wie das Prognoseproblem am Anfang dieses Kapitels. Im Gegensatz zum Prognose-Problem wird jedoch yo beobachtet und der
entsprechende Wert xo muss geschätzt werden.
Die Antwort lässt sich formulieren, indem wir xo als Parameter ansehen, für den ein
Vertrauensintervall gesucht ist. Ein solches Intervall ergibt sich (wie immer) aus einem
Test. Nehmen wir als Nullhypothese xo = xH an! Wie wir in (6) gesehen haben, liegt Y
mit Wahrscheinlichkeit 0.95 im Prognose-Intervall
q
q
tn−p
tn−p
2
2
b
b T A)
b −1 ao ,
h xo , θ ± bxo mit bxo = q0.975 σb + σbxo = q0.975 σb 1 + aTo (A
das in Abbildung 10 – gleich für alle möglichen xo in einem vorgegebenen Bereich – für
das Beispiel Kresse dargestellt ist. Das Intervall bildet deshalb ein Annahmeintervall
für die Grösse Yo (die hier die Rolle einer Test-Statistik spielt) unter der Nullhypothese
xo = xH .
Die Abbildung 10 rechts veranschaulicht nun den weiteren Gedankengang am Beispiel
Kresse: Messwerte yo sind mit Parameterwerten xo vereinbar im Sinne des Tests, wenn
der Punkt [xo , yo ] zwischen den eingezeichneten Kurven liegt. In der Abbildung kann
man deshalb ohne Schwierigkeiten die Menge der xo -Werte bestimmen, die mit der Beobachtung yo verträglich sind. Sie bilden das eingezeichnete Intervall, welches auch durch
21
Gewicht
800
••
••
••• •
•• •
• ••
600
1000
800
••
•
••
Gewicht
1000
••
•
400
••
200
•••
•
••
••
••• •
•• •
• ••
600
••
•
••
••
•
400
••
200
0
•••
•
0
0
1
2
3
4
5
0
1
Konzentration
2
3
4
5
Konzentration
Abbildung 10: Beispiel Kresse. Links: Vertrauensband für die geschätzte Regressionskurve
(gestrichelt) und Prognoseband (ausgezogen). Rechts: Schematische Darstellung, wie ein Kalibrationsintervall bestimmt wird, an den Stellen y0 = 650 und y0 = 350. Die resultierenden
Intervalle sind [0.4, 1.22] respektive [1.73, 4.34].
die Menge
n
o
p
tn−p
x : |y0 − h x, θb | ≤ σb2 + σb2x q1−α/2
.
beschrieben werden kann. Dieses Intervall ist nun das gesuchte Vertrauensintervall (oder
Kalibrationsintervall) für xo .
Falls wir m Werte haben, um yo zu bestimmen, so wenden wir das obige Verfahren auf
P
ȳo = m
j=0 yoj /m an:
(
b
x : |ȳo − h x, θ | ≤
r
σb2
m
t
n−p
+ σb2x q1−α/2
)
.
6 Schlussbemerkungen
⊲ Beispiel Sauerstoffverbrauch. Warum haben wir so viele Schwierigkeiten mit dem Beispiel
Sauerstoffverbrauch? Betrachten wir die Abbildung 2 und erinnern uns, dass der Parameter θ1 den
erwarteten Sauerstoffverbrauch bei unendlicher Inkubinationszeit repräsentiert, so ist klar, dass
θ1 schwierig zu schätzen ist, weil die horizontale Asymptote durch die Daten schlecht bestimmt
ist. Hätten wir noch weitere Beobachtungen mit längeren Inkubinationszeiten, so hätten wir die
Schwierigkeiten mit der Qualität des Vertrauensintervalles von θ vermeiden können.
22
Gerade auch bei nichtlinearen Modellen ist eine gute (statistische) Versuchsplanung
(experimental design) unerlässlich. Der Informationsgehalt der Daten wird durch die
Wahl der Versuchsbedingungen festgelegt, und kein (statistisches) Verfahren ist in der
Lage, Informationen über das Modell zu liefern, welche in den Daten nicht enthalten
sind.
Neben der Profil-t-Funktion sind die Likelihood-Profilspuren (likelihood profile traces) weitere nützliche Hilfsmittel zurÜberprüfung der Approximation. Eine geeignete
Darstellung der Likelihood-Profilspuren zeigt jedoch nicht nur Nichtlinearitäten, sie
enthält auch nützliche Hinweise, wie sich die Parameter gegenseitig beeinflussen, und welche Effekte diesbezüglich Parametertransformationen haben. Mehr darüber
finden Sie in meinen Unterlagen für den Nachdiplomkurs in angewandter Statistik [3]
oder im Buch von Bates und Watts [1].
Diese Unterlagen beruhen auf Unterlagen für den Nachdiplomkurs in angewandter Statistik [3] und dem Buch von Bates und Watts [1]. Eine mathematischere Diskussion über
die statistischen und numerischen Methoden in der nichtlinearen Regression findet sich
in Seber und Wild [4]. Das Buch von Ratkowsky [5] zählt zahlreiche mögliche nichtlineare Funktionen h (·) auf, die vor allem in biologischen Bereichen ihre Anwendung
finden.
Seit einiger Zeit wird zur Bestimmung von Vertrauensbereichen auch der Bootstrap
benutzt (siehe [6]). In diesem Buch wird auch der Fall mit nichtkonstanter Varianz
(heteroskedastic models) besprochen. Dazu lohnt auch ein Blick in das Buch von Carrol
and Ruppert [7].
Heutzutage enthalten die meisten Statistik-Pakete eine Prozedur, welche nichtlineare
Modelle anpassen und asymptotische Vertrauensintervalle für die Parameter berechnen
kann. Prinzipiell ist es dann auch möglich, t-Profile“ (und Likelihood-Profilspuren) zu
”
berechnen, weil sie auch auf dem Anpassen von nichtlinearen Modellen, jedoch mit einem
Parameter weniger, beruhen.
In den beiden Implementationen S-Plus und R der Statistik-Sprache S sind die Funktionen nls und profile verfügbar, die auf der Arbeit von Bates und Watts [1] basieren.
Zusammenfassungen der Methode finden sich deshalb in Kapitel 10 von [8], in den SPlus-Manuals oder in [9]. Die Library“ nlme enthält S-Funktionen, die nichtlineare
”
Regressionsmodelle mit korrelierten Fehlern (gnls) und zufälligen Effekten (nlme) an
Daten anpassen können. Diese Implementationen basieren auf dem Buch “Mixed Effects
Models in S and S-Plus” von [10].
23
Literatur
[1] D. M. Bates and D. G. Watts, Nonlinear Regression Analysis & Its Applications.
John Wiley & Sons, 1988.
[2] I. Rapold-Nydegger, Untersuchungen zum Diffusionsverhalten von Anionen in carboxylierten Cellulosemembranen. PhD thesis, ETH Zurich, 1994.
[3] A. Ruckstuhl, “Einführung in die nichtlineare Regression.” Unterlagen für den NDK
in angewandter Statistik der ETH Zürich, 2006.
[4] G. Seber and C. Wild, Nonlinear regression. Wiley, New York, 1989.
[5] D. A. Ratkowsky, Handbook of Nonlinear Regression Models. Marcel Dekker, New
York, 1989.
[6] S. Huet, A. Bouvier, M.-A. Gruet, and E. Jolivet, Statistical Tools for Nonlinear
Regression: A Practical Guide with S-Plus Examples. Springer-Verlag, New York,
1996.
[7] R. Carroll and D. Ruppert, Transformation and Weighting in Regression. Wiley,
New York, 1988.
[8] J. M. Chambers and T. J. Hastie, Statistical Models in S.
Brooks/Cole, Pacific Grove, California, 1992.
Wadsworth &
[9] W. N. Venables and B. Ripley, Modern Applied Statistics with S. Statistics and
Computing, Springer-Verlag, New York, fourth ed., 2002.
[10] J. C. Pinheiro and D. M. Bates, Mixed-Effects Models in S and S-PLUS. Statistics
and Computing, Springer, 2000.
Autorenangabe
Prof. Dr. Andreas Ruckstuhl
Institut für Datenanalyse und Prozessdesign
Zürcher Hochschule Winterthur
Jägerstrasse 2
Postfach 805
CH-8401 Winterthur
Tel.: +41 (0)52 267 78 12
Fax: +41 (0)52 268 78 12
E-mail: [email protected]
24