Statistik - Regression (20.04.08)

Transcription

Blockkurs „Geowissenschaftliches Modellieren“ SS08
- Aufgabenstellung -
Statistik – Regression (STATGRAPHICS)
Blockkurs „Geowissenschaftliches Modellieren“ (19./20.4.08 & 26./27.4.08)
Statistik - Regression (20.04.08)
- Aufgabenstellung Im Rahmen dieser Übung sollen einfache stochastisch-statistische Modelle betrachtet werden,
um ein Grundverständnis für deren Anwendung zur Bewertung von geochemischen Analysen zu
entwickeln.
Hintergrund:
Nach der Erfassung und Speicherung hydrogeochemischer Daten erfolgt ein Datencheck. Dabei
müssen bei hydrochemischen Daten Bestimmungs- und Nachweisgrenzen festgelegt werden.
Außerdem ist es für viele geostatistische Verfahren unumgänglich, Werte kleiner der
Nachweisgrenze zu ersetzen und fehlende Messwerte zu berücksichtigen. Fehlende Messwerte
können beispielsweise durch (lineare) Regression ermittelt werden. Allerdings mach das nur
Sinn, wenn die Parameter oder Variablen mit einander korrelieren. Sehr häufig wird die
Regression für die Kalibrierung analytischer Verfahren und der anschließenden Berechnung
gemessener Konzentrationen eingesetzt. Gerade bei der Kalibrierung kann die Anpassung mit
verschiedenen Regressionsmodellen zu sehr unterschiedlichen Ergebnissen führen. Das
Auftreten von so genannten „Ausreißern“ in Datensätzen ist neben der Wahl des
Regressionsmodells auch ein Kriterium, was es bei der Analyse der Daten zu beachten gilt. Aus
diesem Grund muss der Datensatz auf Ausreißer geprüft werden und diese ggf. bei einer
Regressionsanalyse nicht mit berücksichtig werden.
Aufgabe 1:
Multiple lineare Regression
Mit Hilfe der multiplen linearen Regression wird der Zusammenhang zwischen einer Messgröße
Y und mehreren Messgrößen X1, X2 ... Xn untersucht:
Die so genannten Residuen sind die Abweichungen zwischen dem berechneten Y und dem
tatsächlich beobachteten Y. Neben dem Korrelationskoeffizienten und dem zugehörigen
Signifikanzniveau (p-value) ist eine Analyse der Residuen ein wichtiges Kriterium für die Güte
der multiplen linearen Regression.
Gegeben ist ein Datensatz bestehend aus 21 Wasseranalysen, der alle Hauptinhaltsstoffe und die
spezifische elektrische Leitfähigkeit enthält (Wasseranalyse.xls). Weiterhin ist der gleiche
Datensatz mit produzierten Fehlstellen gegeben - einige Werte wurden gelöscht und mit -999
(„missing values“) ersetzt.
Mit Hilfe multipler linearer Regression (STATGRAPHICS) sollen die „missing values“ für
Natrium berechnet werden. Vorher müssen aber die Parameter ermittelt werden, die signifikant
miteinander korrelieren. Für diese Parameter soll die multiple Regression durchgeführt werden
und anschließend die Residuen betrachtet werden. Ergeben sich Unterschiede zu einer multiplen
Regression in der alle Parameter einbezogen wurden bzw. nur die Parameter Chlor und Sulfat
eingegangen sind?
Daten-File öffnen (Statgraphics):
Æ File/Open/Open StatFolio: Wasseranalyse.spg.
Æ für den Import eines *.csv-Files Æ File/Open/Open Data Source/External Data File oder
Statgraphics Data File *.sf6
Æ für *.csv-Import Trennung per ; aktivieren (File type/delimited by ;), Spaltenüberschrift =
Variablen Namen und „missing values“ definieren durch -999
Für die Korrelation gehen Sie wie folgt vor:
Æ Analyze/Variable Data/Multivariate Methods/Multiple-Variable-Analysis
Æ Daten (außer Probennummer) in das Data-Feld eingeben
Æ Tables (2. Button im Multiple-Variable-Analysis-Fenster) Æ Correlation (normalverteilte
Proben, unabhängig)/Rank correlation (nicht normalverteilt) aktivieren
Æ Speichern: File/SaveÆ StatFolio (Aufgabe 1–Korrelation.spg)/Save Datafile (Aufgabe1.sf6)
Außerdem kann die Analyse im StatReporter als Textdokument gespeichert werden: rechte
Maustaste Æ „Copy Analysis to StatReporter“. Anschließend den StatReporter speichern:
File/Save/Save StatReporter.
Aus den beiden Korrelationen können die Parameter ermittelt werden, die signifikant
korrelieren (p-value < 0.05). Je nach dem, ob die Daten im Datensatz normalverteilt und
unabhängig sind oder nicht, greift man auf die „Product Moment“ oder „Rank Correlation“
zurück.
) Mit welchen Parametern korreliert Natrium?
Um zu überprüfen in wieweit die Daten einer Normalverteilung entsprechen kann man z.B. n-pPlots (Normal Probability Plot), Histogramme oder Tests (Shapiro-Wilk Test) heranziehen. In
STATGRAPHICS werden verschiedene Plots unter Æ SnapStats!!/One Sample Analysis
ausgegeben.
) Sind die Daten für Na und Cl normalverteilt?
Führen Sie nun mit den für Natrium ermittelten Korrelationspartnern eine multiple
Regression durch, um die Fehlstellen für Natrium berechnen zu können. Da häufig natürliche
Werte in Datensätzen nicht normal verteilt sind, greifen wir in dieser Übung auf die Parameter
nach der Rangkorrelation zurück.
Multiple Regression:
Æ Improve/Regression Analysis/Multiple Factors/Multiple Regression
Æ Na (dependent Variable), restliche Parameter (independent Variables)
Im Ergebnisfenster finden Sie alle Eingabeparameter, p-values für die einzelnen Parameter (ggf.
sollten dann Parameter mit p > 0.05 aus der Regression ausgeschlossen werden, um ein besseres
Ergebnis zu produzieren). Die ANOVA Tabelle (Analysis of Variance) gibt die statistische
Signifikanz des Gesamtmodels an, darunter folgen die Korrelationskoeffizienten. Im StatAdvisor
werden die Ergebnisse nach Signifikanzniveau bewertet und die Regressionsgleichung
angeführt.
) Ermitteln Sie die Korrelationskoeffizienten, p-value (ANOVA) und die
Regressionsgleichung für die Regressionen unter Einbezug der Korrelationspartner (1),
aller Parameter (2) und der Parameter Cl- und SO42- (3). Übernehmen Sie die
Regressionsparameter und die Residuenplots in das Excel-File Wasseranalyse.xls und in
Ihren Bericht.
) Berechnen Sie danach die Konzentrationen für Natrium. Wie können die Ergebnisse
bewertet werden?
) Welche Unterschiede ergeben sich und wie stehen die berechneten Werte im Vergleich zu
den Originalwerten?
) Welches Model würden Sie bevorzugen und warum?
Aufgabe 2:
In Bergbauwässern sollen die Arsengehalte mittels AAS (Atomabsorptionsspektroskopie)
bestimmt werden. Es wurde eine Kalibrierung durchgeführt, um aus den, mittels AAS ermittelten
Peakflächen, die Konzentrationen in den Wässern zu bestimmen.
Gegeben ist der Datensatz mit den Kalibrierwerten, d.h. Standardkonzentration und den
dazugehörigen Peakflächen (Kalibrierung-AAS.xls / Kalibrierung-AAS.spg). Wie erwartet ist
ein signifikanter Zusammenhang zwischen Peakfläche und der Standardkonzentration gegeben
(p-value Rank- und Produkt moment correlation < 0.001).
Ziel der Übung ist die Durchführung von linearer und nicht linearer Anpassung (exponentiell
und logarithmisch) in STATGRAPHICS, um damit für eine Liste von Messwerte die
Konzentration zu berechnen. Außerdem sollen die Residuen für die verschiedenen
Anpassungen betrachtet werden.
) Welche Unterschiede ergeben sich bei den einzelnen Anpassungen (Einschätzung der
Regression nach dem p-value (Signifikanzniveau 95 %, d.h. p < 0.05!!!) und dem
Korrelationskoeffizient?
) Wie sieht die Verteilung der Residuen aus (Graphik dem Protokoll beifügen)?
) Berechnen Sie die Arsenkonzentrationen für die im File Kalibrierung-AAS.xls
angegebenen Messwerte (Arbeitsblatt Sample_List).
) Wie wirken sich die Anpassungen auf die Ergebnisse aus? Welche Variante würden Sie
für die Berechnung Ihrer Messwerte bevorzugen und warum?
Vorgehen in STATGRAPHICS:
Datei öffnen: File/Open Data Source/Kalibrierung-As.spg
Regressionsanalyse: Improve/Regression Analysis/One Factor/Simple Regression
Area_X (Peakfläche) Æ x
Concentration_Y (Konzentration) Æ y
Regressionsmodell : Analysis options (rechte Maustaste oder Icon)…linear/exponential/
logarithmic_X
Plots:
Plot of Fitted Model / Button Graphs (3. Button über dem Analyse
Fenster)
Æ umso kleiner die Residuen (Verteilung um Null), desto besser ist die
Anpassung durch das Regressionsmodell
Æsind die Residuen normal verteilt, dann besteht wahrscheinlich ein
quadratischer Zusammenhang
Ausgabeoptionen:
Save Results Æ Residuals
Plots kopieren (PlotÆ rechte Maustaste\Copy) oder Save Graph
im Fenster Simple Regression Æ Koeffizienten, Regressionsgleichung, pvalue, durch „Copy Analysis to StatReporter“ als Text-File abspeicherbar
Weitere Berechnungen:
Übertragen Sie die Regressionsgleichungen, den p-value und die Korrelationskoeffizienten in
das Excel-File (Arbeitsblatt Regressionsgleichungen_Modelle) und berechnen Sie die
Konzentrationen der Proben nach den verschiedenen Modellen (Sample_List).
Für eine lineare Regression wird der generelle Zusammenhang als Geradengleichung dargestellt:
Y = mX + B
m … Anstieg, B … Achsenabschnitt
Je nach dem, ob man eine Variable A als unabhängig (X) oder abhängig (Y) definiert,
unterscheiden sich die Parameter m und B der Regressionsgleichung. Durch Vertauschen der
Variablen wird keine einfache Umkehrung der Regressionsberechnung erreicht. Deshalb können
sich durch einfaches Umstellen der ermittelten Gleichung und der Berechnung der gewünschten
Werte (z.B. Konzentration) erhebliche Fehler ergeben (mit Ausnahme, dass alle Punkte auf
genau einer Geraden liegen).
Für die gegebene Arsen-Kalibrierung wurde bereits eine lineare Regression mit Konzentration
auf der x-Achse und der Peakfläche auf der y-Achse durchgeführt und folgende Parameter
ermittelt:
Fit
Regressionsgleichung
p-Wert
linear
Area = 0.0755346 + 0.00355526*Conc 0.0009
Korrelationskoeffizient
0.99
) Berechnen Sie mit der gegebenen Gleichung die Proben- und Standardkonzentrationen
(Gleichung umstellen, da aus der Peakfläche die Probenkonzentrationen ermittelt werden
sollen.)
) Was fällt Ihnen auf (Berechnung dem Arbeitsblatt Sample_List anfügen)?
Für den gegebenen Datensatz wurde aus den Blindwertkonzentrationen die Nachweisgrenze für
die Bestimmung von Arsen mittels AAS von 0.95 µg/L (3-Sigma-Kriterium: NWG = 3*SD)
ermittelt (Arbeitsblatt Kalibrierung_AAS).
) Prüfen Sie für Ihr gewähltes Modell mit der besten Anpassung die aus der Regression
ermittelten Konzentrationen kritisch (Vergleich mit NWG, wie passen die Werte zu den
Standardkonzentrationen) und passen Sie den Datensatz ggf. an.
Werte kleiner der Nachweisgrenze können u.a. durch den Wert 0.5*NWG, 0.33*NWG oder
Zufallszahl (0…1)*NWG ersetzt werden.
Aufgabe 3: Ausreißer
Ausreißer können den Zusammenhang einer Regression verfälschen. Allerdings bedeutet
Ausreißer nicht, dass es sich um falsche oder fehlerhafte Werte handelt (beispielsweise wurden
niedrige Ozon Werte in der Stratosphäre über ein Jahrzehnt von der NASA nicht erkannt, da
geglaubt wurde, dass es sich hierbei um Ausreißer im Sinne fehlerhafter Werte handelt). Im
Gegenteil häufig sind Ausreißer sogar besondere oder außergewöhnliche Werte, die man mit
Hilfe von Ausreißertests bestimmen kann. Ausreißertests werden allerdings unter der Annahme
gemacht, dass die Daten normalverteilt sind, was aber bei Naturdaten eher selten der Fall ist.
In STATGRAPHICS kann man unter: Analyze/Variable Data/Outliner Identification auf
Ausreißer testen. Im File Ausreißer.spg wurde als Beispiel bereits ein solcher Ausreißer-Test für
den modifizierten Datensatz Ausreiser.xls (mit x=18, y=90) dargestellt, wonach das Wertpaar
(18, 90) als Ausreißer identifiziert wurde.
In dieser Aufgabe soll die Wirkung von „Ausreißern“ auf die mittels Regression ermittelten
Zusammenhänge näher betrachtet werden. Gegeben ist eine Messreihe (Ausreisser.xls) mit zwei
Variablen X und Y, für die ein linearer Zusammenhang aus dem Scatterplot angenommen wird.
) In Excel soll die Ausgleichsgerade (Geradengleichung Y = mX + B, R²) für den gegebenen
Datensatz bestimmt und dargestellt werden.
Neben dem Korrelationskoeffizienten R² ist vor allem der p-value entscheidend, ob der lineare
Zusammenhang signifikant ist. Für die Datensätze wurde die Regressionsanlyse bereits in
STATGRAPHICS durchgeführt, wonach die linearen Zusammenhänge für alle 3 Varianten
signifikant (d.h. p-value < 0.05) sind.
) Wie verändert sich der Zusammenhang, wenn Sie den Y-Wert bei X=18 durch 90 bzw.
durch 25 ersetzen?
- Abgabe des Berichtes und Literatur -
Anfertigen des Berichts und Abgabe:
Die Abgabe des Protokolls zum Modul “Statistik“ soll in Berichtform bis zum 28.04.2008 per
E-Mail an: [email protected] erfolgen. Im Protokoll einen kurzen Abriss der
Aufgabenstellung und des prinzipiellen Vorgehens geben. Die Ergebnisse können zusammen mit
der Diskussion dargestellt werden. Geben Sie dabei aber alle Berechnungen bzw. Beispiele an
und begründen Sie Ihre Aussagen. Bitte hängen Sie auch alle Datenfiles an Ihren Bericht an.
Sobald Sie Angaben aus fremder Literatur verwenden, dann vergessen Sie nicht diese zu
kennzeichnen und im Literaturverzeichnis anzugeben. Die erfolgreiche Teilnahme für diesen
Kurs wird nur nach erfolgter Anwesenheit sowie Anerkennung des Protokolls für jedes Modul
ausgestellt.
Literatur:
Merkel, B., Planer-Freidrich, B. (2002): Integrierte Datenauswertung Hydrogeologie, Freiberg
Online Geology – FOG, Vol.7, TU Bergakademie Freiberg, Freiberg, 61 p.
URL: http://www.geo.tu-freiberg.de/fog/FOG_Vol_7.pdf (04/2008)
(mit weiteren relevanten Literaturangaben!)
Schatten, A. (1999): Statistik für Chemiker – Ein „Kochbuch“, unpublished data, 103 p.
URL: http://www.schatten.info/info/statistik/statistik_fuer_chemiker.pdf (04/2008)
Stoyan, D., Stoyan, H., Jansen, U. (1997): Umweltstatistik, B.G. Teubner Verlagsgesellschaft
Stuttgart – Leipzig, 348 p.

Statistik - Regression (20.04.08)

Transcription

Similar documents

Ground Truth – Ohne Datenqualität kein Machine Learning

Bestellinformation Gerät(e), auf dem/denen das cobas c pack/die

A4 Format zum Ausdrucken

IgA-2 - Roche

Präzision in der Gelelektrophorese für die Pharmazeutische

HTG-Förderpreis für Wissenschaftler der BAW