Statistik - Carl-Engler
Transcription
Statistik - Carl-Engler
Statistik Statistik Inhaltsverzeichnis 1 2 Teilgebiete der Statistik ........................................................................................3 Kenngrößen der beschreibenden Statistik ...................................................................4 2.1 Stichproben .................................................................................................4 2.2 Lagemaße ...................................................................................................4 2.3 2.3Streumaße ..............................................................................................5 2.4 Standardfehler des Mittelwerts .........................................................................5 2.5 Häufigkeiten ................................................................................................5 2.6 Histogramm .................................................................................................6 2.7 Statistik-Übung: Augensumme ..........................................................................6 2.8 Statistik mit dem Kugelkasten (Kombinatorik) .......................................................7 2.8.1 Grundlagen ..............................................................................................7 2.8.2 Binomialverteilung .....................................................................................8 2.8.3 Hypergeometrische Verteilung: ......................................................................8 2.8.4 Geometrische Verteilung ..............................................................................8 2.9 Aufgaben zu Stichproben-Kenngrößen .................................................................8 2.9.1 Stabilisierung der relativen Häufigkeit .............................................................9 2.9.2 Verteilung der Häufigkeiten ..........................................................................9 2.10 Aufgaben zur Kombinatorik ..............................................................................9 2.10.1 Reihenfolgen ............................................................................................9 2.10.2 Lotto ......................................................................................................9 2.10.3 Binomialverteilung .....................................................................................9 2.10.4 Hypergeometrische Verteilung .......................................................................9 2.10.5 Geometrische Verteilung ..............................................................................9 2.11 Aufgaben zum Häufigkeitsdiagramm ................................................................. 11 3 Normalverteilung ............................................................................................... 12 3.1 Problemstellung ......................................................................................... 12 3.2 Mathematische Beschreibung.......................................................................... 12 3.3 Dichte- und Verteilungsfunktion ...................................................................... 12 3.4 Berechnung von Wahrscheinlichkeiten .............................................................. 13 3.5 Wahrscheinlichkeits-Skalierung ....................................................................... 13 3.6 Aufgabe zur Normalverteilung ........................................................................ 13 3.7 Aufgabe zum Wahrscheinlichkeitsnetz ............................................................... 14 4 Konfidenzintervalle ............................................................................................ 15 4.1 Standardfehler (Standardunsicherheit) des Mittelwerts .......................................... 15 4.2 Konfidenzintervall des Mittelwertes ................................................................. 15 4.3 Beispiel zum Konfidenzintervall ...................................................................... 16 4.4 Aufgaben zum Konfidenzintervall .................................................................... 16 5 Ausreißertest nach Grubbs ................................................................................... 17 statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 1 Statistik 5.1 Ziel des Tests ............................................................................................. 17 5.2 Durchführung des Tests................................................................................. 17 5.3 Bemerkungen ............................................................................................. 17 6 Chi-Quadrat-Anpassungstest ................................................................................. 18 6.1 Problemstellung ......................................................................................... 18 6.2 Hypothese und Irrtumswahrscheinlichkeit .......................................................... 18 6.3 Durchführung des Tests................................................................................. 19 6.4 Achtung Fußangeln ...................................................................................... 19 6.5 Funktionen in EXCEL .................................................................................... 19 6.6 Aufgabe zum CHI-Quadrat-Anpassungstest.......................................................... 20 7 Trendtest nach Neumann ..................................................................................... 20 7.1 Zweck des Tests ......................................................................................... 20 7.2 Durchführung ............................................................................................. 20 7.3 Beispiel zum Trendtest ................................................................................. 20 8 Linearitätstest .................................................................................................. 21 8.1 Zweck des Tests ......................................................................................... 21 8.2 Durchführung ............................................................................................. 21 8.3 Beispiel zum Linearitätstest ........................................................................... 22 9 Signifikanz- und Kontingenztest ............................................................................. 23 9.1 Problemstellung ......................................................................................... 23 9.2 Zwei typische Fälle ...................................................................................... 23 9.2.1 Signifikanztest (t-Test für den Vergleich der Gruppen-Mittelwerte) ........................ 23 9.2.2 Signifikanztest (t-Test für einen Gruppen-Mittelwert gegen festen Mittelwert) .......... 24 9.3 Kontingenztest (Vierfeldertafel, Kontingenztafel) ................................................ 24 9.4 Ergänzungen .............................................................................................. 25 10 Sequenzanalyse ................................................................................................. 26 10.1 Problemstellung ......................................................................................... 26 10.2 Durchführung ............................................................................................. 26 10.3 Beispiel .................................................................................................... 26 11 Varianzanalyse (ANOVA) ...................................................................................... 28 11.1 Problemstellung ......................................................................................... 28 11.2 Verfahren ................................................................................................. 28 11.3 Beispiel zur Varianzanalyse (Ringversuch) .......................................................... 28 12 Statistische Versuchsplanung SVP ........................................................................... 30 12.1 Ziele ....................................................................................................... 30 12.2 Erforderlicher Umfang der Stichprobe ............................................................... 30 12.3 Beziehungen zwischen Einflussfaktoren ............................................................. 30 13 Anhang ........................................................................................................... 31 13.1 Simulation von Zufallszahlen .......................................................................... 31 13.2 EXCEL-Mappen ........................................................................................... 31 statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 2 Statistik Die Größen, Methoden, Rechenverfahren und Darstellungsmöglichkeiten aus der Statistik spielen eine immer größere Rolle bei der Verarbeitung von Daten, die im Bereich von Labor und Produktion anfallen. Es sind besonders die Verfahren zur Bewertung und Sicherung von Qualität, bei deren Anwendung und Interpretation detaillierte Kenntnisse aus der Statistik erforderlich sind. Im Rahmen der Berufsausbildungen und -fortbildungen an unserer Schule werden jeweils Teile dieses Scripts erarbeitet und mit Hilfe einer Tabellenkalkulation geübt und veranschaulicht. Berufsschule Physiklaborant Berufsschule Chemielaborant Berufskolleg Chemisch-Technischer Assistent Fachschule für Technik (Chemietechnik) Das Script erhebt keinen Anspruch auf Vollständigkeit. Es gibt einen großen Umfang an Literatur zu den Grundlagen und zur Vertiefung. Die Inhalte dieses Scripts nehmen mit Formeln, Beispielen und Aufgaben Bezug auf die Möglichkeiten einer Tabellenkalkulation. Namen, Formelzeichen und Zahlenangaben von Größen sind an manchen Stellen der Literatur nicht einheitlich verwendet, besonders bei der Angabe von Größen mit Wahrscheinlichkeitsaussagen. 1 Teilgebiete der Statistik Die Statistik ist ein Themengebiet der Mathematik und lässt sich in (mindestens) fünf große Teilgebiete (Bereiche) einteilen: Die Wahrscheinlichkeitstheorie bildet die Grundlage. Sie ist eine mathematische Theorie, mit der Gesetzmäßigkeiten und Rechenverfahren entwickelt und begründet werden können. Da man bei Vorhersagen nicht sicher sein kann, ob sie tatsächlich eintreten werden, es auf der anderen Seite verschiedene Niveaus von Sicherheiten gibt, ist der Begriff der Wahrscheinlichkeit der zentrale Begriff der Statistik. Die Wahrscheinlichkeit p wird durch einen Zahlenwert zwischen Null (unmöglich) und Eins (sicher) angegeben. Die Beschreibende Statistik (auch deskriptive Statistik) stellt Verfahren zur Verfügung, mit denen aus Stichproben Kennwerte (z.B. Mittelwerte, Streuwerte) bestimmt werden, so dass sich Stichproben miteinander vergleichen lassen. Die Parameterschätzung schließt aus den Kennwerten der Stichprobe auf die Kennwerte der Grundgesamtheit. Zur beschreibenden Statistik gehört auch die Bestimmung von Konfidenzintervallen (Intervall, in dem der richtige Wert mit einer angebbaren Sicherheit liegt). Die Beurteilende Statistik (auch induktive Statistik) stellt Verfahren zur Verfügung, mit denen sich Entscheidungen treffen lassen. Man nennt diese auch Testverfahren. Typische Tests sind der Grubbs-Test (Ausreißertest), der Trendtest nach Neumann oder der Chi^2Anpassungstest. Für einen Test wird eine Hypothese (Vermutung) formuliert und aus den Daten eine Prüfgröße berechnet. Diese wird mit einer Vergleichsgröße (aus einer Tabelle oder nach einer Formel) verglichen. Ziel ist es, die aufgestellte Hypothese zu widerlegen. Die Statistische Analyse (auch explorative Statistik) ermittelt, welche Beziehungen und Abhängigkeiten zwischen Datengruppen vorhanden sind. Die Werkzeuge hierzu sind sog. Multivariate Verfahren und die Vorgehensweise wird Data Mining genannt. Die zugehörige Mathematik ist nicht leicht und die Rechenverfahren sind meist aufwändig. Sie werden in der Praxis mit speziellen Programmen ausgeführt. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 3 Statistik Die Versuchsplanung (DoE: Design of Experiments) ermittelt, unter welchen Bedingungen ein Experiment Ergebnisse einer festgelegten Genauigkeit und Sicherheit liefert. So lassen sich neben den zu erfassenden Merkmalsgrößen z.B. die Zeitintervalle bestimmen, nach denen jeweils eine neue Stichprobe gezogen werden muss und der Umfang der Stichproben, der eine zuverlässige Aussage ermöglicht. In der Praxis sind oft viele Verfahren kombiniert, so dass die obige Aufteilung nicht sofort erkannt wird (z.B. bei der Bestimmung des Vertrauensbandes an einer Kalibriergeraden). Auch hier lassen sich die meisten Statistik-Verfahren nur mit Hilfe eines Computers ausführen. Der Anwender ist oft nicht in der Lage, die von den Programmen ausgeführten Schritte nachzuvollziehen oder zu überprüfen. Es ist jedoch hilfreich für die Auswahl von Alternativen und Parametern, wenn Zweck und Idee eines Verfahrens bekannt sind und Ergebnisse auf Plausibilität geprüft werden können. 2 Kenngrößen der beschreibenden Statistik 2.1 Stichproben Jede Messreihe die aus Werten besteht, die unter gleichen Bedingungen erfasst wurden, ist eine Stichprobe. Von den (endlich oder unendlich) vielen Messungen, die man sich vorstellen kann (dies ist die Grundgesamtheit), wurden n Stück (Messungen) durchgeführt. Die Anzahl n der Merkmalswerte (der Merkmalsgröße) nennt man auch den Umfang n der Stichprobe. Die ursprüngliche, unveränderte Werteliste heißt Urliste. Im Beispiel soll der Wurf mit zwei Würfeln simuliert werden. Die Augensumme stellt einen Messwert dar. In der Statistik sagt man dazu Merkmalswert. Die Merkmalswerte sind hier ganze Zahlen zwischen zwei und zwölf. Jeder Würfel wird in der Tabellenkalkulation simuliert mit der Formel: =GANZZAHL(6*ZUFALLSZAHL()+1) In der ersten Spalte wird der erste und in der zweiten Spalte der zweite Würfel simuliert. Die dritte Spalte enthält die Augensumme AS. Der Bereich in der Tabelle mit Platz für mindestens 100 Werte für die Augensumme erhält den Namen "werte". Bei jedem Eintrag in eine Zelle werden alle Zufallszahlen neu berechnet. Diese Automatik lässt sich unter Extras - Optionen ausschalten, so dass eine Neuberechnung nur noch mit der Funktionstaste F9 gestartet wird. Die Zahlen im Bereich "werte" sind unsere Stichprobe. Von ihr sollen verschiedene Kennwerte berechnet werden. Der erste ist der Umfang n, der in der Tabellenkalkulation automatisch ermittelt wird mit der Funktion: =ANZAHL(werte) 2.2 Lagemaße Der arithmetische Mittelwert (oder Durchschnitt oder 1. Moment) ist der gebräuchlichste Wert, um die Lage der Stichprobenwerte anzugeben. In der Tabellenkalkulation wird er berechnet mit dem Befehl: =MITTELWERT(werte) Zieht man mehrere gleichartige Stichproben (d.h. macht mehrere gleichartige Messungen), erhält man jeweils etwas unterschiedliche Mittelwerte. Der Standardfehler des Mittelwerts beschreibt diese Schwankung. Er lässt sich aus der Standardabweichung berechnen, indem man diese durch die Wurzel aus dem Umfang n der Stichprobe dividiert. Weitere Lagemaße sind der Median, das statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 4 Statistik harmonische Mittel, das gewogene Mittel oder das gestutzte Mittel (siehe Funktionsassistent der Tabellenkalkulation). 2.3 Streumaße Die Streumaße beschreiben Intervalle (Bereiche) um das Lagemaß, in denen die Werte der Stichprobe anzutreffen sind. Die Differenz aus Maximum und Minimum ergibt die Spanne (oder Spannweite): =MIN(werte) =MAX(werte) =MAX(werte) - MIN(werte) Eine automatische Markierung von Minimum und Maximum lässt sich über Format - bedingte Formatierung einrichten. Da ein Ausreißer die Spanne sehr vergrößert, wäre ein durchschnittlicher Abstand zum Mittelwert sinnvoll. Aus theoretischen Gründen (Normalverteilung) wird hierfür jedoch meist die Varianz verwendet (mittlere quadratische Abweichung). Da sie aber die quadrierte Maßeinheit der Stichprobenwerte hat, verwendet man auch die anschaulichere Standardabweichung. Die Standardabweichung ist die (Quadrat-)Wurzel aus der Varianz. =VARIANZ(werte) =STABW(werte) Der Variationskoeffizient V (auch relative Standardabweichung) ergibt sich aus dem Quotienten Standardabweichung/Mittelwert und wird als Dezimalzahl oder als Prozentzahl angegeben. Die Angabe ist nur brauchbar, wenn die Streuung deutlich kleiner ist als die vorkommenden Merkmalswerte. Die Quartile geben an, an welchen Stellen das 1., 2. bzw. 3.Viertel der Datenmenge endet. =Quartile(werte;quartil) 0: Minimum 1: 1.Quartil 2: 2.Quartil (Median) 3: 3.Quartil 4: Maximum 2.4 Standardfehler des Mittelwerts Untersucht man mehrere Stichproben aus derselben Grundgesamtheit, wird man unterschiedliche Mittelwerte erhalten. Trotz großer Standardabweichung in den Stichproben werden die Mittelwerte nahe beieinander liegen. Die Abstände zwischen diesen Mittelwerten sind umso kleiner, je größer der Umfang der Stichproben ist. Dies wird durch den Standardfehler des Mittelwertes angegeben. Er wird berechnet, indem man die Standardabweichung der Stichprobe durch die Wurzel aus N (Umfang) dividiert. Er wird auch mit SEM: Standard Error Mean bezeichnet. Mit Hilfe des Standardfehlers des Mittelwerts (und Werten aus der t-Verteilung) lassen sich Konfidenzintervalle (Vertrauensintervalle) um den Mittelwert bestimmen (siehe Kap. 4). 2.5 Häufigkeiten Sortiert man die Urliste nach den Merkmalswerten über Daten - Sortieren, dann kann man leicht abzählen, wie oft ein bestimmter Wert (bzw. ein Wert innerhalb eines festgelegten Intervalls) vorgekommen ist. Man erhält die absoluten Häufigkeiten. Dieses Abzählen lässt sich auch ohne Sortieren automatisch durchführen. Die zugehörige Funktion ist eine Matrix-Funktion und muss auf besondere Weise eingegeben werden. In einem Bereich (Name "klassen") werden die Klassenobergrenzen angegeben. Für die spätere Diagramm-Darstellung bleibt eine Spalte noch frei. Dann wird der Bereich für die Häufigkeitswerte markiert. Bei bestehender Markierung wird die Formel eingetragen: =HÄUFIGKEIT(werte;klassen) Dabei ist auf das eingestellte Trennzeichen, hier ";" zu achten. Die Übernahme erfolgt mit der Tastenkombination <shift><strg><enter>. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 5 Statistik Die Häufigkeiten sind von den Grenzen der Klassen abhängig. Die Anzahl m der Klassen sollte so gewählt werden, dass es mindestens eine Häufigkeit größer als zwei gibt. Mehr als 20 Klassen sind oft nicht sinnvoll. Dazwischen kann m gleich Wurzel aus n gelten. 2.6 Histogramm Die Häufigkeiten lassen sich absolut oder relativ schön in einem Histogramm (auch Stabdiagramm) darstellen (Balken: waagrechte Stäbe; Säulen: senkrechte Stäbe). Sollen statt der Klassenobergrenze zur Beschriftung die Klassenmitten verwendet werden, dann können diese in der noch frei gehaltenen Spalte eingetragen oder berechnet werden. Häufigkeiten sind von der Klasseneinteilung abhängig 2.7 Statistik-Übung: Augensumme Beim Würfeln mit drei Würfeln zeigt jeder Würfel eine Augenzahl. Die Summe davon ist die Augensumme AS. Manche Werte von AS kommen seltener, andere häufiger vor. Durch die Simulation in einem Tabellenblatt lassen sich diese Eigenschaften untersuchen. Die Grundgesamtheit ist die Menge aller durchführbaren Würfe. Die Ausführung von n Würfen stellt eine Stichprobe vom Umfang n dar, mit dem Merkmal Augenzahl und Merkmalswerten im Bereich von 3 bis 18. Ein Wurf eines einzelnen Würfels wird mit =GANZZAHL(6*ZUFALLSZAHL())+1 simuliert. Zufallszahlen liegen zwischen 0 und 1 und werden nach jeder Eingabe in die Tabelle (oder F9) neu berechnet. Durch geeignetes Kopieren kann schnell eine Tabelle mit vielen Würfen mit drei Würfeln erzeugt werden. Mit Funktionen, die von der Tabellenkalkulation bereitgestellt werden, lassen sich viele Kenngrößen der beschreibenden Statistik berechnen (siehe Formelsammlung). Eine Vereinfachung ergibt sich auch, wenn der gesamte Bereich der Augensumme mit einem Namen (z.B. AS) belegt wird. Beobachtet man eine Zelle aus AS und aktualisiert ständig (mit F9), erhält man Werte über den gesamten zulässigen Bereich. Beobachtet man dagegen der arithmetischen Mittelwert, ändert sich dieser vergleichsweise wenig. Er zeigt eine geringere Streuung. Es ist also zu unterscheiden zwischen der Streuung der Stichprobenwerte und der Streuung des Mittelwertes (siehe 2.4 Standardfehler des Mittelwertes). Man stellt auch fest, dass die mittleren Werte bei der Augensumme häufiger vorkommen. Durch die Einteilung des Merkmalbereichs in Klassen und die Bestimmung der absoluten bzw. relativen Häufigkeiten lässt sich diese Beobachtung grafisch in einem Säulendiagramm darstellen. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 6 Statistik Man kann jetzt vermuten, dass die Daten normalverteilt sind und zum Vergleich eine Normalverteilung dazu zeichnen. Ifür das Diagramm der absoluten Häufigkeiten muss die StandardNormalverteilung mit der Klassenbreite und dem Umfang der Stichprobe multipliziert werden. =NORM.VERT(klassenmitte;mittelwert;standardabweichung;FALSCH) * klassenbreite * umfang Mit einem CHI-Quadrat-Test (beurteilende Statistik) lässt sich prüfen und entscheiden, ob die vorhandenen Unterschiede gegen eine Normalverteilung sprechen. 2.8 Statistik mit dem Kugelkasten (Kombinatorik) 2.8.1 Grundlagen Oft ist es nicht möglich, oder zu aufwändig, alles zu messen oder zu zählen, was eigentlich interessant und wichtig wäre. Man beschränkt sich daher auf eine Stichprobe und schließt daraus auf die Eigenschaften der Grundgesamtheit. Viele Begriffe, Formeln und Verfahren lassen sich dazu mit dem sog. Kugelkasten (früher nannte man es Urne) erklären und simulieren. In einem Kasten befinden sich z.B. N=10000 Kugeln (Grundgesamtheit oder bei der Qualitätssicherung Losumfang). Diese haben bestimmte Merkmale (z.B. weiß, rot, schwarz, grün). Aus dem Kasten wird blind eine Kugel herausgenommen, die Farbe notiert und wieder in den Kasten zurückgelegt. Man zieht nacheinander z.B. eine Anzahl von n=200 Kugeln (Ziehung einer Stichprobe). Die Stichprobe hat einen Umfang von n=200. Hat man dabei z.B. k=18 rote Kugeln erwischt, ist die absolute Häufigkeit h(rot)=18, die relative Häufigkeit r(rot)=h(rot)/n=18/200=0,09 (oder 9%). Man wird jetzt vermuten, dass im Kugelkasten etwa 9% der Kugeln rot sind, was aber nicht ganz sicher ist und nicht genau stimmen muss. Bei jeder Ziehung kann ein anderes Ergebnis herauskommen. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 7 Statistik Man wird sagen, dass die Wahrscheinlichkeit für das Ziehen einer roten Kugel p(rot)=9% beträgt. Bei der Untersuchung des gesamten Inhalts hat sich allerdings ergeben, dass von 10000 Kugeln 800 Kugeln rot sind. Ein wichtiger Satz in der Statistik ist die Annahme, dass die relative Häufigkeit umso weniger schwankt und damit die Aussagen umso sicherer werden, je größer der Umfang der Stichprobe ist. Mit dem Kugelkasten lassen sich verschiedene Modelle aus der Statistik durchspielen. Im Kugelkasten befinden sich N Kugeln von denen M Stück rot sind. Für die Berechnungen werden die Binomialkoeffizienten benötigt, die über folgende Formel definiert sind: ( ) ( ) Sie gibt die Anzahl der möglichen unsortierten Kombinationen bei der Auswahl von k aus n Elementen an. Die Fakultät n! Wird berechnet durch n!=1*2*3* ... (n-1)*n mit 0!=1 n unterschiedliche Objekte lassen sich in n! verschiedenen Reihenfolgen anordnen. 2.8.2 Binomialverteilung Es wird nacheinander eine feste Anzahl n von Kugeln gezogen und die Farbe notiert. Jede Kugel wird sofort wieder in den Kasten zurückgelegt. Die Anzahl k der gezogenen roten Kugeln (von n gezogenen Kugeln) wird für die Auswertung notiert. Die Wahrscheinlichkeit für das Ereignis „es sind k rote Kugeln gezogen“ ist: ( ) ( ( ) )( ) Das Zurücklegen lässt den Anteil roter Kugeln im Kasten konstant und entspricht damit einem Kugelkasten mit unendlich viele Kugeln. 2.8.3 Hypergeometrische Verteilung: Man verfährt wie im vorhergehenden Fall, legt die gezogenen Kugeln jedoch nicht wieder zurück. Es ist das Gleiche, wie wenn man alle n Kugeln auf einmal entnimmt. Die Wahrscheinlichkeit für das Ereignis „es sind k rote Kugeln gezogen“ ist: ( ) ( ( ) ) ( ) 2.8.4 Geometrische Verteilung Es wird nacheinander jeweils eine Kugel entnommen und wieder zurück gelegt, bis eine rote Kugel gezogen wird. Die Anzahl k der gezogenen Kugeln (mit der roten) wird notiert. Die Wahrscheinlichkeit für das Ereignis „es wurden k Kugeln gezogen“ ist: ( ) ( )( ) 2.9 Aufgaben zu Stichproben-Kenngrößen Prüfen Sie an einem Stichproben-Beispiel vom Umfang n=6, ob sich nach allen Formeln der gleiche Wert für die Varianz ergibt. ( ) ∑ statistik.docx ( ̅) © W. Müller ( ) ∑ ̅ ( ) (∑ htttp://www.ces.karlsruhe.de/culm ̅ ) Seite 8 Statistik 2.9.1 Stabilisierung der relativen Häufigkeit Simulieren Sie in der Tabellenkalkulation das Werfen einer Münze mit den möglichen Ereignissen Kopf (0) oder Zahl (1) durch entsprechende Zufallszahlen. Führen Sie etwa m=100 Ziehungen (Würfe) durch. Summiert man die Ergebnisse, erhält man die Anzahl der Ereignisse „Zahl“. Berechnen Sie für jeden Wurf die relative Häufigkeit von „Zahl“ bei den bisherigen Würfen und stellen den Verlauf dieser Werte in einem Diagramm dar. Interpretieren Sie das Diagramm. 2.9.2 Verteilung der Häufigkeiten Laden Sie das Tabellenblatt kugelkasten.xls und simulieren Sie jeweils eine Ziehung durch Drücken der Taste F9. Wählen Sie eine Wahrscheinlichkeit für Rot von p=0,1. Der Stichprobenumfang liegt bei n=60. Bestimmen Sie die absoluten Häufigkeiten der einzelnen Ergebnisse (rot), indem Sie eine Strichliste erstellen. Stellen Sie die Häufigkeitsverteilung in einem Säulendiagramm dar. Skalieren Sie sowohl in absoluten als auch in relativen Häufigkeiten. Berechnen Sie Mittelwert und Standardabweichung und markieren Sie den dadurch festgelegten Streubereich auf der Merkmalsachse (x-Achse) des Diagramms. Schätzen oder berechnen Sie den Anteil der Würfe, die innerhalb bzw. außerhalb dieses Bereichs liegen. 2.10 Aufgaben zur Kombinatorik 2.10.1 Reihenfolgen In einer Arztpraxis warten 6 Patienten. Wie viele Möglichkeiten der Einteilung zur Behandlung hat die Arzthelferin (alles Kassenpatienten)? 2.10.2 Lotto Wie viele verschiedene Spiele gibt es beim Lotto? 2.10.3 Binomialverteilung Von 50 Spritzen einer Packung für die Gaschromatografie sind 3 undicht. Wie groß ist die Wahrscheinlichkeit, dass von 4 entnommenen Spritzen mehr als eine undicht ist? 2.10.4 Hypergeometrische Verteilung Die Wahrscheinlichkeit für eine fehlgeschlagene Analyse an einem Analyseautomaten ist p=0,01. Pro Tag werden 120 Analysen durchgeführt. Stellen Sie die erwarteten Häufigkeiten an fehlgeschlagenen Analysen pro Tag in einem Säulendiagramm dar. Wie groß ist die Wahrscheinlichkeit, mehr als drei Fehlanalysen an einem Tag zu erhalten? 2.10.5 Geometrische Verteilung Von den Spritzen für die Gaschromatografie sind im Schnitt 6% undicht. Wie groß ist die Wahrscheinlichkeit, dass die ersten fünf entnommenen Spritzen dicht sind? statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 9 Statistik statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 10 Statistik 2.11 Aufgaben zum Häufigkeitsdiagramm In einer Produktionshalle wird die Temperatur (Auflösung 0,1K) zwischen 8.00Uhr und 17.00Uhr im 10-Minutentakt gemessen und gespeichert (erste Messung um 8.05 Uhr). Zur Auswertung wird ein Häufigkeitsdiagramm mit den Klassenobergrenzen 17°C, 19°C, 21°C ... 35°C erstellt. Zeichnen Sie die erwarteten Häufigkeitsdiagramme. a) Die Temperatur wird von der Klimaanalage auf 22,2°C gehalten. b) Die Temperatur wird von der Klimaanalage (schwankend) zwischen 22,0°C und 24,0°C gehalten. c) Bis 13.00Uhr beträgt die Temperatur 26°C, dann fällt sie rasch wegen geöffneter Tore auf 22°C. d) Die Temperatur steigt bis 12.30Uhr gleichmäßig von 19,1°C auf 30,9°C und fällt am Nachmittag ebenso gleichmäßig wieder auf 19,1°C zurück. e) Die Temperatur steigt bis 10.00Uhr gleichmäßig von 19,1°C auf 30,9°C und fällt anschließend bis 17.00Uhr gleichmäßig wieder auf 19,1°C zurück. f) Die Temperatur steigt bis 11.00Uhr gleichmäßig von 19,1°C auf 30,9°C, liegt zwischen 11.00Uhr und 13.00Uhr bei 30,9°C und fällt am Nachmittag gleichmäßig von 30,9°C auf 25,1°C zurück. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 11 Statistik 3 Normalverteilung 3.1 Problemstellung Die Merkmalswerte einer Stichprobe zeigen eine Streuung. In bestimmten Fällen, z.B. beim Würfeln, sollten alle Merkmalswerte etwa mit gleicher Häufigkeit vorkommen. In diesem Fall liegt eine Gleichverteilung vor. Sind die Merkmalswerte von mehreren Faktoren zufällig beeinflusst, werden die Merkmalswerte in der Nähe des Mittelwerts häufiger vorkommen, als weiter entfernte. Bei großem Stichprobenumfang lässt sich die erwartete Verteilung durch die Formel der Normalverteilung oder Gaußverteilung beschreiben. 3.2 Mathematische Beschreibung Für einen gegebenen Mittelwert und eine gegebene Standardabweichung wird mit der folgender Formel die sog. Dichtefunktion (Glockenkurve) berechnet: ( ) ( ̅) √ Die um den Mittelwert symmetrische Form drückt die nach außen abnehmende erwartete Häufigkeit aus. Die Funktionswerte sagen jedoch nur wenig aus. Die verwertbaren Ausssagen sind in der Fläche zwischen Kurve und x-Achse enthalten (Integration). Durch den Faktor (vor der e-Funktion) wird die Gesamtfläche auf den Wert 1 (100%) normiert. Die zu einen Intervall (auf der x-Achse) gehörende Teilfläche gibt die Wahrscheinlichkeit für einen Wert innerhalb dieses Intervalls an. 3.3 Dichte- und Verteilungsfunktion Für die Integration benötigt man die Stammfunktion. Sie heißt Verteilungsfunktion der Normalverteilung (NV) oder auch Summenkurve der NV. Diese Funktion kann nicht in einer geschlossenen Formel angegeben werden, aber sie existiert. Es gibt dazu jedoch (beliebig genaue) Näherungsfunktionen. In Tabellenkalkulationen oder StatistikProgrammen sind sie verfügbar, in Tabellenwerken liegen ihre Funktionswerte tabelliert vor. Die Integrationskonstante ist dabei immer so gewählt, dass sich beim Mittelwert der Funktionswert 0.50 statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 12 Statistik ergibt. bzw. das Integral von -unendlich bis +unendlich den Wert 1 erhält. Diese spezielle Stammfunktion ist die Verteilungsfunktion (Summenkurve) der Normalverteilung. In einer Tabellenkalkulation lassen sich die Funktionswerte der Dichtefunktion und der Verteilungsfunktion auch mit der vorbereiteten Funktion =NORM.VERT(...) berechnen. 3.4 Berechnung von Wahrscheinlichkeiten Für Wahrscheinlichkeitsberechnungen wird die Verteilungsfunktion verwendet. In der Standardform wird die unabhängige Variable in Vielfachen der Standardabweichung angegeben. Die Differenz zweier Funktionswerte gibt die erwartete Häufigkeit eines Merkmalswertes im zugehörigen Intervall (der x-Achse) an. So lässt sich ermitteln, dass im Bereich bis zu einer Entfernung von einer Standardabweichung vom Mittelwert 68.269% der Werte zu erwarten sind. Weitere häufig verwendete Intervalle sind in der Tabelle angegeben. Intervall (in Standardabweichungen) Flächenanteil (Wahrscheinlichkeit) µ-1σ< µ < µ+1σ 0.68269 µ-2σ< µ < µ+2σ 0.95450 µ-3σ< µ < µ+3σ 0.99730 µ-1.65σ< µ < µ+1.65σ 0.900 µ-1.96σ< µ < µ+1.96σ 0.950 µ-2.58σ< µ < µ+2.58σ 0.990 Üblicherweise werden Größen der Grundgesamtheit mit griechischen Buchstaben, die der Stichprobe mit lateinischen Buchstaben bezeichnet. 3.5 Wahrscheinlichkeits-Skalierung Durch eine geeignete Verzerrung der Skalierung der y-Achse (Wahrscheinlichkeitspapier), lässt sich die Verteilungsfunktion der Normalverteilung als Gerade darstellen (probability plot). Abweichungen von der Normalverteilung führen zu einer Abweichung von der Geraden. Zur Darstellung werden die Stichprobenwerte in eine aufsteigende Reihenfolge gebracht und von i=1 bis n durchnummeriert. Über jedem Merkmalswert wird der Prozentwert Y im Wahrscheinlichkeitsnetz aufgetragen. Bei einem sehr großen Umfang der Stichprobe wird in der Regel in Klassen eingeteilt. Die relativen Häufigkeiten werden schrittweise zu Y aufsummiert und über der Klassenmitte im Wahrscheinlichkeitsnetz aufgetragen. 3.6 Aufgabe zur Normalverteilung In einer Abfüllanlage für ein Pulver streut die Abfüllmasse mit einer Standardabweichung von 3g. Es sollen Packungen mit m=60g abgefüllt werden. Höchstens 5% der Packungen dürfen eine Masse von weniger als 60g haben. a) Auf welchen Mittelwert ist die Anlage einzustellen? b) Wie groß ist die Materialeinsparung, wenn eine neue Anlage eingesetzt wird, die nur noch eine Standardabweichung von 1g aufweist? statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 13 Statistik 3.7 Aufgabe zum Wahrscheinlichkeitsnetz Stellen Sie die Summenkurve für folgende Messreihe im obigen Wahrscheinlichkeitsnetz grafisch dar: 6; 4; 10; 8; 6; 9; 8; 7; 5; 7 Es ergibt sich hier eine Treppenfunktion (Stufen), die durch eine Gerade auszugleichen ist. a) Bestimmen Sie den Mittelwert und die Standardabweichung rechnerisch und aus dem Diagramm. Wählen Sie eine geeignete Skalierung der Merkmalsachse. b) Stellen Sie eine Normalverteilung mit einem Mittelwert von 9 und einer Standardabweichung von 3 als Gerade dar. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 14 Statistik 4 Konfidenzintervalle 4.1 Standardfehler (Standardunsicherheit) des Mittelwerts Untersucht man das Merkmal einer Stichprobe, dann wird der Mittelwert der Stichprobe in der Regel nicht genau mit dem Mittelwert der Grundgesamtheit übereinstimmen. Zieht man mehrere Stichproben aus der Grundgesamtheit, so lässt sich die Standardabweichung der einzelnen Mittelwerte berechnen. Diese nennt man den Standardfehler des Mittelwerts. Er ist immer kleiner als der Mittelwert der einzelnen Standardabweichungen. In den Begriffen aus dem Bereich der Qualitätssicherung spricht man besser (bei unveränderter Bedeutung) von der Standardunsicherheit als vom Standardfehler. Der Standardfehler des Mittelwerts lässt sich aus einer einzelnen Stichprobe abschätzen durch: ̅ √ In diesem damit beschriebenen Intervall ist der Mittelwert der Grundgesamtheit mit 68%-iger Wahrscheinlichkeit zu finden. Intervalle, die den Mittelwert der Grundgesamtheit auch mit einer anderen Wahrscheinlichkeit α einschließen, nennt man Konfidenzintervalle zum Signifikanzniveau α. Die Formel geht von der Standardabweichung der Grundgesamtheit aus. Da sie hier jedoch nur durch die Stichprobe geschätzt wird, ist eine Korrektur (durch die t-Verteilung) erforderlich. 4.2 Konfidenzintervall des Mittelwertes Das Konfidenzintervall gibt einen meist symmetrischen Bereich um den Mittelwert der Stichprobe an, innerhalb dessen der Mittelwert der Grundgesamtheit mit einer festgelegten Sicherheit zu erwarten ist. Verwendete Bezeichnungen sind: n Umfang der Stichprobe x( i ) Merkmalswert x Abstand zur Intervallgrenze s Standardabweichung Irrtumswahrscheinlichkeit t Quantil der t-Verteilung Je größer die Sicherheit bzw. je kleiner die Irrtumswahrscheinlichkeit sein soll, desto weiter werden die Intervallgrenzen vom Stichproben-Mittelwert entfernt sein. Die Größe des Konfidenzintervalls hängt also vom Stichprobenumfang, von der Varianz und der noch akzeptierten Irrtumswahrscheinlichkeit ab. Der Stichprobenumfang geht nur mit der Wurzel in die Berechnung ein, so dass z.B. bei vierfachem Umfang die Intervallbreite nur halbiert wird. Sinnvoller als eine Erhöhung der Anzahl der Messungen ist es also, wenige Messungen sorgfältig und genau auszuführen. Kleine Irrtumswahrscheinlichkeiten führen zu sehr großen Konfidenzintervallen (Achtung!). Der Zusammenhang wird durch eine besondere mathematische Funktion, die t-Verteilung (auch StudentVerteilung genannt) beschrieben. Deren Werte sind tabelliert oder können von Computerprogrammen berechnet werden. Das Verfahren geht davon aus, dass die Grundgesamtheit normalverteilt ist (prüfbar z.B. mit CHIQuadrattest). Diese Bedingung ist in der messtechnischen Praxis häufig erfüllt. Außerdem wird davon ausgegangen, dass die Varianz der Grundgesamtheit nicht genau bekannt ist, denn sie wird ja nur aus der Varianz der Stichprobe geschätzt. Der t-Faktor hängt damit auch von n ab. Dies wird bei der Berechnung des t-Faktors mit der Größe Freiheitsgrad f berücksichtigt, die in diesem Fall dann den Wert (n-1) besitzt. Der Erwartungswert für x mit dem Konfidenzintervall ergibt sich somit nach der Formel: ̅ √ Die zugehörige Quantile der t-Verteilung lässt sich in einer Tabellenkalkulation berechnen mit der Funktion =TINV(α;f) Sie liefert z.B. für =TINV(0,05;4) den Wert 2,7765. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 15 Statistik 4.3 Beispiel zum Konfidenzintervall Die Datenreihe 22; 24; 29; 22; 23 hat einen Umfang von n=5, einen Mittelwert von xm=24 und eine Standardabweichung von s= 2,92. Bei einer Irrtumswahrscheinlichkeit von p=5% (Signifikanzniveau 95%) und dem Freiheitsgrad n-1=4 ist der t-Faktor t=2,78. Der Grenzabstand vom Mittelwert beträgt damit (t*s)/√(n)=1,24*s=3,62. In der folgenden Tabelle ist der Grenzabstand in Standardabweichungen ausgedrückt und das Konfidenzintervall ist beispielhaft für einen Mittelwert von 5 angegeben. Für den Fall bekannter Varianz stammt der entsprechende Faktor aus der Normalverteilung (und nicht aus der t-Verteilung) und hängt selbst nicht mehr von n ab. Für das Sicherheitsniveau von 95% hat er den Wert 1.96. Bei großem Stichprobenumfang gleichen sich die Werte an (bereits durch √(n) dividiert). Z.B.: für n=5 ( 95%) Faktor 0.880 (Normalverteilung) statt t=1.240 (t-Verteilung) für n=25 (95%) Faktor 0.390 (Normalverteilung) statt t=0.413 (t-Verteilung) für n=100 (95%) Faktor 0.196 (Normalverteilung) statt t=0.198 (t-Verteilung) Das Verfahren zur Bestimmung des Konfidenzintervalls des Mittelwerts einer Stichprobe bei unbekannter Varianz lässt sich übertragen auf die Bestimmung von Konfidenzintervallen anderer Kennwerte der Beschreibenden Statistik wie z.B.: Konfidenzintervall der Standardabweichung Konfidenintervall des Medians Konfidenzintervall der Steigung einer Ausgleichsgeraden 4.4 Aufgaben zum Konfidenzintervall a) Bestimmen Sie für die folgende Datenreihe das Konfidenzintervall für den Mittelwert auf einem Signifikanzniveau von 95% bzw. von 99%: 8; 5, 0; 6; 9; 4; 4, 5; 7; 3 b) Bestimmen Sie für jeden x-Wert aus den zugehörigen y-Werten den Mittelwert und die Standardabweichung, sowie das t-Quantil zur Irrtumswahrscheinlichkeit von 5% und dem Freiheitsgrad (hier) f=4. Berechnen Sie zu jedem x-Wert die Halbbreite des Konfidenzintervalls. Stellen Sie in der Tabellenkalkulation die y-Mittelwerte als Funktion von x mit den jeweiligen Konfidenzintervallen als Fehlerbalken grafisch dar. x-werte statistik.docx y1-werte y2-werte y3-werte y4-werte y5-werte 1 18 17 20 17 16 3 12 15 9 10 11 5 7 6 6 8 7 8 14 13 14 11 14 © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 16 Statistik 5 Ausreißertest nach Grubbs 5.1 Ziel des Tests In einer Datenreihe kann es einzelne Werte geben, die viel weiter vom Mittelwert entfernt sind, als die übrigen Werte (möglicherweise ist bei der Erfassung ein Fehler unterlaufen). Man nennt sie Ausreißer (outliner). Als Ausreißer kommen jeweils Minimum und Maximum der Datenreihe in Betracht. Für einen verdächtigen Wert wird eine Prüfgröße PG berechnet, die den Abstand vom Mittelwert bewertet. Beim Grubbs-Test gibt die Prüfgröße PG an, wie viele Standardabweichungen der zu testende Wert xi vom Mittelwert entfernt ist. Ist die Entfernung "zu groß", wird der Wert als Ausreißer betrachtet. Welche Abstände noch akzeptabel sind, ist in der Tabelle der GrubbsVerteilung festgelegt. Ein gefundener Ausreißer wird in der Tabelle markiert und nicht mehr in die Berechnung einbezogen. Die neuen Minimum- und Maximumwerte werden einem erneuten Test unterzogen. Der Test kann nur auf normalverteilte Daten angewendet werden. In kritischen Fällen muss dies durch einen eigenen Test geprüft werden. 5.2 Durchführung des Tests Die Schritte des Tests sind: Das Signifikanzniveau (z.B. 95%) ist festzulegen. Von der Datenreihe sind Minimum und Maximum zu ermitteln. Von der Datenreihe sind Mittelwert ̅ und Standardabweichung s (n-1-gewichtet) zu berechnen. Der ausreißerverdächtige Wert (Testwert xi) ist jeweils in die Berechnung einbezogen. | | Die Prüfgröße PG wird nach der Formel für den ausreißerverdächtigen Wert berechnet. Die Vergleichsgröße VG (für das gewählte Signifikanzniveau und den vorliegenden Umfang n) wird aus der Tabelle abgelesen. Das Testergebnis wird ermittelt: Bei PG>VG wird der Wert als Ausreißer betrachtet und aus der Datenliste gestrichen (d.h. nicht mehr in die weitere Auswertung einbezogen). Er sollte als eliminierter Wert sichtbar bleiben. Der Ausreißertest wird mit dem nächsten, verdächtigen Wert wiederholt. Dabei ergeben sich neue Mittelwerte und Standardabweichungen. Der Test ist zu Ende, wenn keine weiteren Ausreißer gefunden werden. Er wird üblicherweise auf dem 95%-Signifikanzniveau ausgeführt. 5.3 Bemerkungen Der Grubbs-Test kann als Ausreißertest (in DIN 32645, auch in DIN 38402) bei der Kalibrierung von Analyseverfahren verwendet werden. Andere Ausreißer-Tests sind bei kleinem Stichproben-Umfang Q-Test, W-Test und Test nach Dixon und Dean, bei groß em Stichproben-Umfang kann das Chauvenetsche Kriterium oder der Test nach Graf und Henning verwendet werden. Da der Mittelwert und die Standardabweichung sehr stark vom Ausreißer bestimmt sind, wird auch der Ausreißertest nach Hampel angewendet. Dabei wird statt des arithmetischen Mittelwerts der Median und statt der Standardabweichung der Median der Abweichungen verwendet. Auch hier wird eine Normalverteilng der Stichprobenwerte vorausgesetzt. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 17 Statistik Der Test entscheidet nur die Hypothese H:„x* ist ein Ausreißer“. Er kann nicht nachweisen, dass kein Ausreißer in der Datenreihe ist. Das Gegenteil von „x ist Ausreißer“ heißt nicht „x ist kein Ausreißer“, sondern „ich weiß nicht, ob x ein Ausreißer ist“. Ein Signifikanzniveau von 95% ist gleichbedeutend mit einer Irrtumswahrscheinlichkeit von 5%. Das heißt, dass dann, wenn der Test einen Ausreißer identifiziert, er mit einer Wahrscheinlichkeit von 5% doch noch regulär zur Datenreihe gehören kann. 6 Chi-Quadrat-Anpassungstest 6.1 Problemstellung Lassen sich Stichprobenwerte in Klassen einteilen, enthält jede Klasse eine bestimmte Anzahl von Stichprobenwerten, die Klassenhäufigkeit. Die gesamte Stichprobe zeigt eine Häufigkeitsverteilung. Beim Würfeln ist die Augenzahl eines Würfels (hoffentlich) gleichverteilt. Die Augensumme zweier Würfel ist in einer Dreiecksform verteilt. Messwerte sind meist normalverteilt. Der Anpassungstest prüft die Verträglichkeit experimenteller Daten mit einer erwarteten Verteilungsform. Die in einem statistischen Experiment ermittelte Häufigkeitsverteilung einer Größe x stimmt in der Regel nicht genau mit der nach einem Wahrscheinlichkeitsmodell erwarteten Häufigkeitsverteilung überein. Der Test soll entscheiden, ob die Abweichungen rein statistischer Natur sind, oder ob das Experiment vom Statistik-Modell nicht richtig beschrieben wird. Ein Test kann eine Aussage (Hypothese) mit einer bestimmten Wahrscheinlichkeit widerlegen, sie aber nicht bestätigen oder gar beweisen. Beim Test wird die gesamte Abweichung (Prüfgröße) berechnet und mit dem Wert einer mathematischen Funktion (Vergleichsgröße) verglichen. Liegt die Prüfgröße über der Vergleichsgröße, kann die Hypothese als widerlegt betrachtet werden. 6.2 Hypothese und Irrtumswahrscheinlichkeit Im Beispiel werden n=100-mal drei Zahlen (zwischen 0 und 8) eines Zufallsgenerators addiert und in 13 Klassen der Breite 2 eingeteilt. Von einem Maximum im mittleren Bereich fällt die Verteilung nach außen hin ab, in der größten Klasse ist die Häufigkeit gleich Null. Sind die Werte normalverteilt? Hypothese: Die Werte stammen aus einer normalverteilten Grundgesamtheit. Da die Antwort nicht mit absoluter Sicherheit gegeben werden kann, muss angegeben werden, welche Irrtumswahrscheinlichkeit (Signifikanzzahl) α beim Testergebnis noch akzeptiert wird. Das Gegenstück ist das Signifikanzniveau (1-α) z.B.: Irrtumswahrscheinlichkeit (Signifikanzzahl) α =5% Dies heißt, dass ein Risiko von 5% besteht, dass die Hypothese abgelehnt wird, obwohl sie richtig ist (Fehler 1. Art). Beim Fehler 2. Art wird die Hypothese akzeptiert, obwohl sie falsch ist. Das Testergebnis ist eine von zwei möglichen Antworten: Ergebnis 1 (Verwerfung der Hypothese): Die Grundgesamtheit ist nicht normalverteilt. Ergebnis 2 (Annahme der Hypothese): Es spricht nichts gegen eine Normalverteilung der Grundgesamtheit Gelingt die Widerlegung der Hypothese nicht, dann können die Abweichungen auch auf zufällige Schwankungen zurückgeführt werden. Ein Beweis für eine normalverteilte Grundgesamtheit ist damit aber nicht erbracht. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 18 Statistik 6.3 Durchführung des Tests Eine feste Schrittfolge sollte eingehalten werden: Aufnahme der Daten (Urliste) Festlegung des Signifikanzniveaus (oder der Irrtumswahrscheinlichkeit) Berechnung von Umfang (Anzahl), Mittelwert und Standardabweichung (n-1)-gewichtet Festlegung der k Klassen(-ober)grenzen Bestimmung der absoluten Häufigkeiten h(i) Berechnung der erwarteten absoluten Häufigkeiten e(i) (hier nach der Normalverteilung) Berechnung von CHI-Quadrat Χ² = SUMME( [ (h(i) - e(i))^2 ] / e(i) ) Bestimmung der Vergleichsgröße (Berechnung oder Tabellenwert) Entscheidung über die Hypothese: Χ²< = c : Hypothese annehmen Χ² > c : Hypothese verwerfen 6.4 Achtung Fußangeln Klasseneinteilung: Der Merkmalsbereich wird in Klassen eingeteilt. Ist der Umfang der Stichprobe kleiner als 40, wählt man etwa m=anz/6 Klassen. Andernfalls wählt man etwa m=Wurzel(anz), wobei m=20 aber normalerweise nicht überschritten werden muss. Ist der Umfang anz<40, dann variiert man die Klassenobergrenzen so, dass die erwartete absolute Häufigkeit für jede Klasse mindestens 5 beträgt, da sonst die Aussagekraft des Tests eingeschränkt ist. Im anderen Fall dürfen in den Randklassen auch Werte <5 stehen. Die Klassenbreiten müssen nicht gleich groß sein. Freiheitsgrad: Die Anzahl k der Klassen stellt den Freiheitsgrad f dar. Allerdings wird für jede berechnete Statistik-Größe ein Freiheitsgrad "verbraucht". Die Prüfgröße "verbraucht" also immer einen Freiheitsgrad, also f=k-1. In unserem Beispiel werden aber auch die Standardabweichung und der Mittelwert berechnet (aus der Stichprobe ermittelt), also gilt hier f=k-3. Der Mittelwert muss aber hier gleich 12 sein, so dass er auch fest vorgegeben werden kann; es gilt dann f=k-2. vorgefertigte Testfunktionen: In Programmpaketen zur Statistik wird der Chi^2-Test manchmal als fertige Funktion angeboten, in die nur die gemessenen und erwarteten Häufigkeiten eingetragen werden müssen. Hier wird von einer bereits geeigneten Klasseneinteilung, sowie von sicherem Mittelwert und sicherer Standardabweichung ausgegangen. 6.5 Funktionen in EXCEL In EXCEL gibt es die fertige Testfunktion =CHITEST(gemessen;erwartet) mit den oben genannten Einschränkungen. Die Prüfgröße lässt sich berechnen mit der Funktion: =CHIINV(wahrscheinlichkeit;freiheitsgrad) z.B. CHIINV(0,05;2) = 5,99 Achtung: In EXCEL ist die Irrtumswahrscheinlichkeit (Signifikanzzahl) einzutragen, nicht das Sicherheitsniveau. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 19 Statistik 6.6 Aufgabe zum CHI-Quadrat-Anpassungstest Prüfen Sie mit dem CHI-Quadrat-Test, ob die Datenreihe mit den folgenden Werten bei einer Klassenbreite von 2 auf dem 5%-Niveau als normalverteilt akzeptiert werden kann: 8 6 7 6 2 5 4 5 6 5 4 7 6 8 5 5 5 4 5 6 Anmerkung Für kleinere Stichprobenumfänge (5≤n≤50) eignet sich besser der Shapiro-Wilk-Test, der allerdings nur auf „Normalverteilung“ prüfen kann. Üblich ist dabei eine Irrtumswahrscheinlichkeit von α=5%. Eine vorbereitete Online-Version des Tests findet sich auf http://dittami.gmxhome.de/shapiro/ . 7 Trendtest nach Neumann 7.1 Zweck des Tests Lassen sich die Werte einer Stichprobe in Reihenfolge bringen (z.B. zeitlich, örtlich), wird ein Trendtest sinnvoll. Beim Vorliegen eines Trends erhält man eine große Standardabweichung und möglicherweise verlieren dann weitere Auswerteverfahren ihren Sinn. Beim Vorliegen eines Trends sind die Abweichungen benachbarter Werte voneinander im Schnitt geringer als vom Mittelwert. Die Prüfgröße PG ergibt sich aus der Summe der quadrierten Nachbarschaftsabstände Δ2 dividiert durch die Varianz s2. Die Vergleichsgröße VG liegt für verschiedene Signifikanzniveaus tabelliert vor. Literatur: Sachs, Angewandte Statistik, Springer Berlin, 7.Auflage, S.481ff 7.2 Durchführung Die Reihenfolge der Stichprobenwerte darf nicht verändert werden. Aus den Differenzen benachbarter Stichprobenwerte ist die Prüfgröße PG zu berechnen. Das gewünschte Signifikanzniveau (z.B 1%) bzw. das Sicherheitsniveau (z.B. 99%) werden festgelegt. Die Vergleichsgröße VG wird aus der Tabelle abgelesen. Für PG<VG kann von einem vorliegenden Trend ausgegangen werden. Für PG>VG kann nicht von einem vorliegenden Trend ausgegangen werden. Der Test ist erst ab einem Stichprobenumfang von n=4 sinnvoll. Auch wenn sich innerhalb der Stichprobe Trends verschiedener Richtung zeigen, spricht der Test an. Es gibt aber auch Fälle (z.B. Verklumpung), bei denen der Test fälschlich einen Trend anzeigt. Die Nullhypothese heißt: Ein Trend ist nicht erkennbar. Der Test kann diese Hypothese widerlegen, aber nicht beweisen. Ein Signifikanzniveau von z.B.1% besagt, dass nur in 1% der Tests, bei denen die Hypothese widerlegt wurde, doch kein Trend in der Grundgesamtheit vorliegt. 7.3 Beispiel zum Trendtest Im vorliegenden Beispiel wird der Test in der Tabellenkalkulation durch eine Prozedur automatisch nach jeder Eingabe oder nach Tastendruck ausgeführt. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 20 Statistik 8 Linearitätstest 8.1 Zweck des Tests Ergibt die Darstellung der Abhängigkeit zweier Größen voneinander in einem Diagramm näherungsweise eine Gerade (Lineare Funktion), dann ist zu prüfen, ob die Daten nicht besser durch eine andere Funktion angepasst werden sollten. Normalerweise wird als Alternative eine Parabel (quadratische Funktion) verwendet. Zu jeder der bereits optimierten Funktionen werden die Residuen (die Reste), als die Abstände der Punkte von der zugehörigen Kurve, berechnet, quadriert und aufsummiert (²: Chi-Quadrat). Ist dieser Wert für die Gerade deutlich größer als für die Parabel, ist die Gerade nicht geeignet, der Zusammenhang also nichtlinear. Die Prüfgröße PG wird wieder aus den Daten, die Vergleichsgröße VG mit Hilfe der F-Verteilung bestimmt. Die selbe VG erhält man auch bei Verwendung der um den Faktor n-1 kleineren Varianzen s² (n: Anzahl der Datenpunkte). Zwei verschiedene Linearitätstests (F-Test nach Fisher bzw. Linearitätstest nach Mandel) liefern lassen sich anwenden. Der Linearitätstest nach Mandel spricht etwas früher an als der Fisher-Test. 8.2 Durchführung Berechnung der Größe G² bzw. sG² für die Lineare Ausgleichsfunktion (Gerade) Freiheitsgrad fG=n-2 Berechnung der Größe P² bzw. sP² für die Quadratische Ausgleichsfunktion (Parabel) statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 21 Statistik Freiheitsgrad fP=n-3 Nullhypothese: Die beiden Varianzen sG²und sP² unterscheiden sich nicht signifikant F-Test nach Fisher: Prüfgröße PG = sG²/ sP² = G²/ P² oder Linearitätstest nach Mandel: Prüfgröße PG = [(n-2)* sG² - (n-3)*sP²]/ sP² in beiden Fällen (Signifikanzniveau ): Vergleichsgröße VG = Fn-2,n-3, Bei PG>VG wird die Hypothese abgelehnt, d.h. es gibt keine Linearität der Abhängigkeit. 8.3 Beispiel zum Linearitätstest Das vorliegende Beispiel prüft die Linearität der Abhängigkeit der Signalgröße von der Merkmalsgröße bei einer Kalibrierung. In der Tabellenkalkulation werden die Parameter der quadratischen Funktion nur im Diagramm, nicht aber in der Tabelle ausgegeben. Daher werden sie separat durch Lösung eines Linearen Gleichungssystems LGS berechnet. Die erforderlichen Größen lassen sich schrittweise berechnen. Die Vergleichsgröße VG kann einer Tabelle entnommen werden oder lässt sich in der Tabellenkalkulation berechnen mit der Formel =FINV(;fG;fP). Dabei ist die Irrtumswahrscheinlichkeit (nicht das Signifikanzniveau) und liegt zwischen Null und Eins. Das Beispiel ist so augewählt, dass die beiden Testmöglichkeiten bei gleichem Signifikanzniveau unterschiedliche Ergebnisse liefern. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 22 Statistik 9 Signifikanz- und Kontingenztest 9.1 Problemstellung Was ist gemeint, wenn man sagt, die Konzentration zweier Lösungen unterscheide sich signifikant? Ab welchem Unterschied kann man ihn als signifikant bezeichnen? Zur Entscheidung über die Hypothese „Beide Stichproben haben den selben Mittelwert“ wird die Wahrscheinlichkeit berechnet, mit der die eine Stichprobe nur zufällig vom Mittelwert der anderen Stichprobe abweicht. Ist diese Wahrscheinlichkeit klein, z.B. kleiner als 1%, geht man davon aus, dass sich die beiden Mittelwerte signifikant voneinander unterscheiden. Die oben genannte Hypothese gilt dann (auf dem 1%-Niveau, bzw. 99%-Niveau) als widerlegt. Zur Entscheidung wird eine aus den Daten berechnete Prüfgröße PG mit einer theoretisch bestimmten Vergleichsgröße VG verglichen. Kann die Hypothese nicht auf dem 95%-Niveau widerlegt werden, ist der Unterschied nicht signifikant. Kann sie zwar auf dem 95%Niveau, nicht aber auf dem 99%-Niveau widerlegt werden, ist die Aussage indifferent und man sollte weitere Daten hinzunehmen. Oberhalb des 99%-Niveaus ist das Ergebnis signifikant und oberhalb des 99,9%-Niveaus sogar hochsignifikant. Es gibt viele unterschiedliche Fragestellungen, für die jeweils eine andere Berechnung erforderlich ist. Statistik-Programme können mit all diesen Fällen korrekt umgehen. 9.2 Zwei typische Fälle 9.2.1 Signifikanztest (t-Test für den Vergleich der Gruppen-Mittelwerte) Die Ausführungen hier beziehen sich auf die arithmetischen Mittelwerte zweier normalverteilter Stichproben mit beliebigem Umfang und mit als gleich anzunehmender Standardabweichung. Weder für die Mittelwerte noch für die Standardabweichung sind theoretische Werte bekannt. Es liegen also nur die Kenngrößen der beiden Stichproben vor. Getestet wird, ob sie bezüglich der Mittelwerte aus der gleichen Grundgesamtheit stammen. Die Prüfgröße PG wird nach der folgender Formel berechnet. √ ( ) ̅ √( ) ̅ ( ) Die Vergleichsgröße VG stammt aus der t-Verteilung mit dem Freiheitsgrad f=(n1+n2-2) Von einer Lösung wurden 14 Proben gezogen und jeweils 7 an einem Analysengerät untersucht. Die Hypothese „Beide Geräte liefern den gleichen Mittelwert“ soll getestet werden. Die Analysen liefern Massenkonzentrationen w in mg/L. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 23 Statistik 9.2.2 Signifikanztest (t-Test für einen Gruppen-Mittelwert gegen festen Mittelwert) Will man testen, ob eine Stichprobe aus einer Grundgesamtheit stammen kann, deren Mittelwert bekannt ist, wird die Prüfgröße PG aus Mittelwert und Standardabweichung der Stichprobe nach folgender Formel berechnet: √ ̅ Die Vergleichsgröße VG stammt aus der t-Verteilung mit dem Freiheitsgrad f=(n-1) Für eine Stichprobe vom Umfang n=7 soll die Hypothese „Die Grundgesamtheit hat den Mittelwert w=78mg/L“ geprüft werden. Praktisch bedeutet das die Prüfung, ob ein vorliegendes Gebinde mit der vorgeschriebenen Massenkonzentration von w=78mg/L verträglich ist. Die wiederholte Berechnung für unterschiedliche Signifikanzniveaus lässt Aussage „hochsignifikanter Unterschied“ zu. 9.3 Kontingenztest (Vierfeldertafel, Kontingenztafel) Der Test wird bei sog. kategorialen Daten angewendet (Stichprobe zerfällt in zwei Klassen, in den Zellen müssen Zählwerte stehen). Es wird gezählt, wie viele Elemente in die eine bzw. in die andere Kategorie fallen. Verglichen wird mit den Häufigkeiten einer anderen Untersuchung oder mit theoretisch ermittelten Häufigkeiten. In einer Tabelle mit vier Feldern lässt sich die Berechnung einfach durchführen (Kontingenz = zufälliges Zusammentreffen). Beispiel: Die Hypothese "20% der Bevölkerung sind Linkshänder" wird in einer Gruppe mit 30 Personen getestet. Man findet nur einen Linkshänder. Ist damit die Hypothese widerlegt, oder liegt das Ergebnis im Bereich zufälliger Schwankungen? Bei Ablehnung der Hypothese darf die Irrtumswahrscheinlichkeit nur α=5% betragen (Signifikanzniveau 95%). Linkshänder Rechtshänder Summe gezählt a b a+b erwartet c d c+d Summe a+c b+d a+b+c+d Linkshänder Rechtshänder Summe gezählt 1 29 30 erwartet 6 24 30 Summe 7 53 60 statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 24 Statistik Die Prüfgröße Χ2 wird errechnet nach der Formel: ( ( )( )( ) )( ) Χ2 = 60(24-174)2 / [30*30*7*53] = 4.043 (Prüfgröße PG) Die zugehörige Vergleichsgröße der Χ2-Verteilung ist VG=3.84 bei einem Signifikanzniveau von 95% für einen Freiheitsgrad von f=1 (die Vierfeldertafel hat immer den Freiheitsgrad f=1). Die zugehörige Tabellenfunktion ist =CHIINV(0,05;1). Da PG>VG gilt die Hypothese auf dem 95%-Niveau als widerlegt. In EXCEL gibt es hierfür die Funktion CHITEST. Liegen die vier Felder z.B. in den Zellen B2:C3, dann lautet die Formel =CHITEST(B2:C2;B3:C3) und liefert den Wert 0,0225. Die Wahrscheinlichkeit für eine so große Abweichung ist 2.25%. Da dieser Wert kleiner als die vorher festgelegte Irrtumswahrscheinlichkeit von 5% ist, gilt die Hypothese als widerlegt. 9.4 Ergänzungen Weitere Hypothesen können z.B. sein: H0: Der Mittelwert der Grundgesamtheit liegt zwischen 37 und 39. Die Standardabweichung ist 3. H0: Der Mittelwert der Grundgesamtheit liegt zwischen 37 und 39. Die Standardabweichung ist unbekannt. H0: Die Varianz der Grundgesamtheit ist 6. H0: Die Varianzen der beiden Grundgesamtheiten sind gleich groß. Abhängig von der Fragestellung sind verschiedene Verteilungsfunktionen zu verwenden und die Prüfgrößen nach unterschiedlichen Formeln zu berechnen. Die Berechnung ist in der Mappe signifikanz.xls ausgeführt. Achtung: In Tabellen bzw. Rechenfunktionen muss darauf geachtet werden, ob die Werte für einseitige oder zweiseitige Fragestellungen bereit gestellt werden. Aufgaben Testen Sie mit geeigneten unabhängigen Stichproben die Hypothesen: a) Die Körpergrößen von Jungen und Mädchen sind gleich. b) Das Durchschnittsalter der Physiker des 20. Jahrhunderts beträgt 69 Jahre. c) 10% der Münzen tragen das Prägezeichen G (Karlsruhe) Vermeiden Sie eine Vorauswahl vor dem Test, da sonst jedes beliebige Ergebnis erzielt werden kann. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 25 Statistik 10 Sequenzanalyse 10.1 Problemstellung Bei der Prüfung, ob eine statistisch erfasste Größe innerhalb eines vorgegebenen Intervalls liegt, lassen sich vier Fälle unterscheiden: eine Entscheidung ist nicht möglich, da die Daten zu unsicher sind der Wert liegt unterhalb der unteren Intervallgrenze der Wert liegt oberhalb der oberen Intervallgrenze der Wert liegt innerhalb der Intervallgrenzen Eine statistische Aussage kann nicht mit absoluter Sicherheit gemacht werden. Daher ist die Festlegung einer maximalen Irrtumswahrscheinlichkeit (typisch sind 5%) erforderlich. Die Messungen liefern einen Schätzwert für den Mittelwert und die Standardabweichung (der Grundgesamtheit). Die zugehörige Streuung wird durch die t-Verteilung beschrieben, die umso schmaler wird, je grösser die Irrtumswahrscheinlichkeit und je grösser der Umfang der Stichprobe ist. Bei der Sequenzanalyse wird der Umfang der Stichprobe so lange schrittweise erhöht, bis sich eine sichere Aussage machen lässt. Dann muss der Test beendet werden. Neben der Prüfung von Variablen (Messwerte) kann dieses Verfahren auch auf Attributprüfungen (brauchbar - unbrauchbar) übertragen werden. 10.2 Durchführung Als Erstes erfolgt die Festlegung der Prüfgrenzen und einer Irrtumswahrscheinlichkeit α, bzw. eines Signifikanzniveaus 1-α. Für den ersten Messwert können noch keine Berechnungen durchgeführt werden. Ab dem zweiten Messwert werden Mittelwert und Standardabweichung berechnet und daraus über die t-Verteilung der Grenzabstand des Konfidenzintervalls für den Mittelwert ermittelt. So lange das Konfidenzintervall eine Prüfgrenze berührt, ist eine Entscheidung noch nicht möglich. Im anderen Fall ist einer der drei möglichen Versuchsausgänge (kleiner als Untergrenze, im Intervall, grösser als Obergrenze) erreicht. Es dürfen dann keine weiteren Werte eingegeben werden. Voraussetzung ist, dass die Messwerte einer unendlich großen, normalverteilten Grundgesamtheit entstammen. Es darf kein zeitlicher Trend vorhanden sein. Bei Stichproben aus einer endlichen Grundgesamtheit muss ein Korrekturfaktor berücksichtigt werden. 10.3 Beispiel Ein möglicher Verlauf, dargestellt und automatisch berechnet, ist in diesem Tabellenblatt zu sehen. Der aktuelle Mittelwert mit seinem Vertrauensbereich wird jeweils angezeigt. Der Test ist beendet, wenn der Vertrauensbereich keine Prüfgrenze mehr enthält. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 26 Statistik statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 27 Statistik 11 Varianzanalyse (ANOVA) 11.1 Problemstellung Bei der Varianzanalyse (ANOVA: ANalysis Of VAriance) wird die Gleichheit von mehreren Mittelwerten (oder auch anderen Lageparametern) getestet. Dazu werden die Varianzen von Datengruppen miteinander verglichen. Bei einer typischen Fragestellung wird geklärt, ob Gruppen von Daten bezüglich des Mittelwertes aus derselben Grundgesamtheit stammen, oder die Gruppe einen Einfluss auf den Mittelwert hat. 11.2 Verfahren Von jeder Gruppe wird die Varianz bezüglich ihres Gruppenmittelwertes bestimmt und die Varianzen (mit dem Gruppenumfang gewichtet) addiert. Dieser Wert wird verglichen mit der Varianz der (gewichteten) Gruppenmittelwerte bezüglich des Mittelwerts aller Werte. Als Testverteilung dient die F-Verteilung. 11.3 Beispiel zur Varianzanalyse (Ringversuch) Für eine einfache Varianzanalyse wird eine einzige Größe (z.B. die Viskosität eines Motoröls) in vier verschiedenen Labors nach dem gleichen Verfahren (z.B. Höppler-Viskosimeter) jeweils fünfmal ermittelt. Normalerweise ergibt jede Messung einen etwas anderen Wert und jedes Labor bestimmt aus seinen Messwerten einen Mittelwert als Laborergebnis. Die Hypothese: "Es gibt keinen signifikanten Unterschied zwischen den Laborergebnissen." soll getestet werden. statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 28 Statistik Wenn die Messwerte eines jeden Labors (innerhalb der Gruppe) schon stark streuen, können die Unterschiede in den Laborergebnissen (zwischen den Gruppen) zufällig sein. Es werden die Streuungen der zwischen den Gruppen mit denen innerhalb der Gruppen verglichen. Da keine statistische Aussage ganz sicher ist, wird ein Signifikanzniveau (hier 5%) festgelegt. Programme zur Datenanalyse (z.B. EXCEL - Extras - Analysefunktionen) sind für diese Form der Varianzanalyse bereits vorbereitet. In dem Verfahren wird die Anzahl der Messungen eines Labors durch die t-Verteilung berücksichtigt. Aus den eingegebenen Daten wird eine Prüfgröße berechnet. Ist sie größer als die Vergleichsgröße (hier. kritischer F-Wert), dann gilt die Hypothese als widerlegt. In unserem Fall sind damit also signifikante Unterschiede zwischen den Labors nachgewiesen. Es ist also von systematischen Unterschieden auszugehen. Der P-Wert im Beispiel gibt an, dass bei gleichen Varianzen ein so großer F-Wert nur in 1,11% der Fälle zu erwarten ist. Folgende Voraussetzungen müssen für die Analyse erfüllt sein (sonst wird die Rechnung komplizierter): o in jedem Labor werden gleich viele Messungen durchgeführt (nicht notwendig, aber günstig) o die Messwerte sind normalverteilt o es sind keine Ausreißer enthalten o in jedem Labor erhält man etwa die gleiche Streuung der Messwerte (Varianz) Jede der Bedingungen muss überprüft werden (Anpassungstest, Ausreißertest, Varianzenhomogenitätstest). Zum Test der Varianzengleichheit gibt es mehrere Verfahren. Der Test nach Hartley bildet den Quotienten aus dem Maximum und dem Minimum der Varianzen als Prüfgröße. Die Vergleichsgröße liegt tabelliert vor und liefert für den Fall des Beispiels einen zulässigen Wert von 20,6 bei einer Prüfgröße von 1,54. (Sachs, Angewandte Statistik, Springer 1992, S.614) statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 29 Statistik 12 Statistische Versuchsplanung SVP 12.1 Ziele Die statistische Versuchsplanung SVP (DoE: Design of Experiments) beschreibt Verfahren, die dabei helfen, den Aufwand für einen Versuch zu reduzieren. Versuche mit Statistik-Auswertung werden in Labor und Produktion z.B. für folgende Ziele eingesetzt: Prozesse (eingesetzte Mittel, Zeit, Lagerplatz) verbessern Produktqualität verbessern Robuste Prozesse / Produkte planen Produktqualität testen Um aussagekräftige Ergebnisse zu erhalten, sollte einerseits ein großer Datenumfang vorliegen und andererseits Beziehungen zwischen Einflussfaktoren deutlich werden. Zur Planung und Auswertung gibt es spezielle Programme, die auch helfen, typische Fehler zu vermeiden. Zwei einfache Probleme sind als Beispiele dargestellt. 12.2 Erforderlicher Umfang der Stichprobe Zwei Produktionsverfahren sollen mit Hilfe des t-Tests für zwei Stichproben-Mittelwerte miteinander verglichen werden (siehe 9.2.1). Aus jedem Verfahren soll eine Stichprobe vom Umfang n entnommen werden. Ist n zu klein, kann der Test die Hypothese „Die Mittelwerte sind gleich“ nicht widerlegen, auch wenn sie unterschiedlich sind. Was man als unterschiedliche Mittelwerte betrachtet, wird durch den Ausdruck () beschrieben, den Quotienten aus der (gleichen) Standardabweichung der Produktionen und dem Abstand der Mittelwerte. Die SVP liefert folgende Regel: erforderlicher Versuchsumfang zum t-Test für zwei Stichproben-Mittelwerte gegeneinander N=2*n=60*()^2 (wenn sich N<40 ergibt, sollte man den Umfang vergrößern) (mit der angegebenen Formel liefert der Test auf dem 99%-Niveau in 90% der Fälle das richtige Ergebnis) Beispiel: Für einen Abstand der Mittelwerte von =2 bei einer Standardabweichung von =3 ergibt sich so ein erforderlicher Stichprobenumfang (je Produktionsverfahren) von n=68. 12.3 Beziehungen zwischen Einflussfaktoren Neben den Verfahren „Regressionsanalyse“, „Korrelationsanalyse“ und „Varianzanalyse“ zählen hierzu die „Screening-Versuchspläne“ als „vollständiger faktorieller Versuchsplan“ und „fraktioneller faktorieller Versuchsplan“, die „Taguchi-Verfahren“ und weitere. Beispiel: Um in einem Produktionsprozess die Einflüsse von Druck (A), Temperatur (B) und pH-Wert (C) auf die Produktqualität zu untersuchen, muss jede Größe mindestens zwei unterschiedliche Werte (Stufen -,+) annehmen. Daraus ergeben sich bereits 8 Kombinationen, für die jeweils eine eigene Stichprobe zu erfassen und auszuwerten ist. Durch eine geeignete statistische Kombination der Aussagen erhält man mit nur 4 Kombinationen eine (fast) so sichere Aussage (fraktioneller faktorieller Versuchsplan). statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 30 Statistik vollständiger faktorieller Versuchsplan fraktioneller faktorieller Versuchsplan 13 Anhang 13.1 Simulation von Zufallszahlen In der Tabellenkalkulation (und normalerweise in jeder Programmiersprache) lassen sich gleichverteilte Zufallszahlen zwischen 0 und 1 erzeugen. Zufallszahlen mit 15 Dezimalstellen lassen sich erzeugen mit =ZUFALLSZAHL() Jede Änderung im Tabellenblatt (oder F9) führt zu einer neuen Zufallszahl. Durch Multiplikation bzw. Addition lässt sich der Zufallsbereich erweitern bzw. verschieben. Normalverteilte Zufallszahlen erhält man mit folgendem Befehl, mit dem auch der Mittelwert und die Standardabweichung festgelegt werden können: =NORMINV(ZUFALLSZAHL();mittelwert;standardabweichung) 13.2 EXCEL-Mappen anova.xlsx Varianzanalyse chiquadrattest.xlsx Anpassungstest Chi-Quadrat fuenfwuerfel.xlsx Beschreibende Statistik linearitätstest.xlsx Linearitätstest einer Kalibriergeraden neumann-trendtest.xlsm Trendtest nach Neumann mit VBA-Makro p-papier.xlsx p-skaliertes Diagramm sequenzanalyse.xlsx Sequenzanalyse signifikanz.xlsx Signifikanztest (auch Vierfeldertafel) statistik1.xlsx Beschreibende Statistik statistik.docx © W. Müller htttp://www.ces.karlsruhe.de/culm Seite 31