plabstat - Universität Hohenheim
Transcription
plabstat - Universität Hohenheim
PLABSTAT Ein Computerprogramm zur statistischen Analyse von pflanzenzüchterischen Experimenten Version 3A vom 14. Juni 2011 H.F. Utz Institut für Pflanzenzüchtung, Saatgutforschung und Populationsgenetik Universität Hohenheim, 70593 Stuttgart Email: [email protected] Die wichtigsten Änderungen der Version3 im Vergleich zur Version2 1. Primes, mit denen Befehlsnamen in Version2 eingefasst wurden, entfallen. 2. Kommentare werden durch ! markiert bzw. alles was nach einem Ausrufezeichen kommt, wird als Kommentar angesehen. 3. Um alte Dateien mit Version2-Befehlen weiter verarbeiten zu können, werden diese von der Version3 automatisch umgeformt und weiterhin verrechnet. Allerdings sind Kommentare innerhalb Befehlen nicht mehr möglich, etwa ’CALC’ ’’Berechnung von..’’ X1=X1/5 Der Kommentar muss nach hinten, also ’CALC’ X1=X1/5 ’’Berechnung von..’’ Diese Version2-Variante wird akzeptiert. Konform mit Version3 wäre CALC X1=X1/5 ! Berechnung von.. c Copyright 1986, 1991, 2003 H.F. Utz Inhaltsverzeichnis 1 Was PLABSTAT ist 3 2 Ein einfaches Beispiel 4 3 Allgemeine Bedienung 3.1 Schreibregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Allgemeine Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Dateneingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 12 4 Einfache statistische Maßzahlen und Regressionsanalysen 4.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Ausgabe und Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 15 5 Einfache Block- und Gitteranlagen 5.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 16 18 19 6 Mehrfaktorielle Experimente 6.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 26 28 7 Nichtwiederholte Experimente 7.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 31 31 8 Ergänzende Befehle 33 9 Winke, Würmer, Wände 37 10 Literaturverzeichnis 39 ANHANG A Liste der Befehle 42 ANHANG B Beispiele 45 ANHANG C MODEL-Zeilen für einige Versuchsanlagen 46 1 WAS PLABSTAT IST 3 1 Was PLABSTAT ist PLABSTAT kann als Kürzel für ”PLAnt Breeding STATistical program” oder auch als ”PLAnned Block experiments and their STATistical analysis” gelesen werden. Obwohl genügend Statistikpakete auf dem Markt sind, besteht offensichtlich eine Bedarf für ein kompaktes Programm, mit dem die wichtigsten Routineauswertungen des Pflanzenversuchs durchgeführt werden können. Es sollte schneller als die großen Pakete sein, leicht zu bedienen, kompakten Output erzeugen, Ausreißertests oder andere Kontrollen enthalten und wichtige Parameter wie Wiederholbarkeit oder Heritabilität schätzen. Da ein Programm nie fertig ist und auch nicht alle Methoden enthalten kann, ist PLABSTAT so angelegt, dass ein Umsteigen auf größere Pakete leicht möglich ist, etwa auf GENSTAT, das schon vom verwandten Namen her, solches nahe legen soll. Vernachlässigt ist bei PLABSTAT der Input, dieser muß außerhalb des Programms mit einem entsprechenden Editor, etwa mit KEDIT, THE, EMACS, WORD, EXCEL, oder einem Datenbankprogramm erfolgen. Im folgenden seien kurz die rechnerischen Möglichkeiten von PLABSTAT zusammengestellt. Einfache statistische Maßzahlen und multiple Regression Mit PLABSTAT lassen sich einfache statistische Maßzahlen, wie Varianz, Schiefe, Exzeß oder Korrelationskoeffizienten von Variablen, schätzen. Einfache und multiple Regressionsanalysen, einschl. von Pfadkoeffizienten, können berechnet werden. Gitteranlagen PLABSTAT analysiert Gitteranlagen, genauer quadratische, Rechteck- und verallgemeinerte Gitteranlagen (PATTERSON und WILLIAMS, 1976), jeweils ohne Wiederholung des Grundplans. Für Gitteranlagen berechnet es die adjustierten Mittelwerte oder Effekte und gibt eine Liste der unvollständigen Blockeffekte aus. Es prüft die Residuen auf Ausreißer. Desweiteren können partiell wiederholte Anlagen (augmented designs, p-rep designs) analysiert werden. Mehrfaktorielle Experimente PLABSTAT berechnet Varianzanalysen für balancierte Datensätze, wobei fehlende Werte erlaubt sind. Bei vielen fehlenden Werten werden nur die Mittelwerte, berechnet nach der Methode der kleinsten Quadrate, ausgegeben. Das Programm verarbeitet faktorielle und hierarchische Klassifikationen mit fixierten, zufälligen oder gemischten Modellen. Situationen mit nichtorthogonalen Anlagen oder Reihen-Säulen-Anlagen, wie Lat. Quadrat, sind ausgeschlossen, doch können solche Fälle über einen zweiten Durchgang, siehe HARTLEY (1956), verarbeitet werden. Es werden die Varianzanalyse-Tabellen, einschließlich Varianzkomponenten, deren Standardfehler und F-Tests, sowie Mittelwerte mit Standardfehlern und Grenzdifferenzen berechnet. Tabellen von Mittelwerten, Effekten oder Rängen können ausgegeben werden. Residuen und Effekte können auf Ausreißer hin überprüft werden. 2 EIN EINFACHES BEISPIEL 4 Heritabilitäten, genetische Korrelationen oder Kovarianzanalysen lassen sich errechnen. Zweiwegetafeln können nach einem Regressionsmodell varianzanalytisch zerlegt werden. Nichtwiederholte Experimente Experimente ohne Wiederholung lassen sich, wenn Standards vorhanden sind, als Standardanlage auswerten oder über gleitende Mittelwerte analysieren. Weitere Möglichkeiten Korrelationsdiagramme werden erzeugt. Mittelwerte und unvollständige Blockeffekte können auf eine Datei gegeben werden, um anschließend weitere Analysen damit durchzuführen. Neue Variablen werden berechnet oder vorhandene modifiziert. Beobachtungen lassen sich überprüfen, ob gewisse Grenzen überschritten sind. 2 Ein einfaches Beispiel Die Analyse mit PLABSTAT soll an einem simplen Beispiel demonstriert werden. In einem rekurrenten Selektionsprogramm ist der Kornertrag während sechs aufeinanderfolgenden Zyklen gemessen worden. Um eine Vorstellung zu erhalten, wie sich die Erträge entwickelt haben, soll ein Diagramm erzeugt werden. Die dazugehörigen Befehle und Daten sind folgende: !! Erträge von Mais in 6 Zyklen ! Kornertrag in kg/ha eingegeben BASIC 6 0 2 2 VARIABLE_NAMES CYCLE YIELD CALCULATE X2=X2/100 ! Ertrag in dt/ha PLOT/2 X2.X1 RUN 1 4758 2 4970 3 5053 4 5376 5 5429 6 5607 EOD STOP Der erste Teil besteht aus den Befehlen, wobei die Befehlsnamen in Großbuchstaben geschrieben sind, und der zweite Teil aus den sechs Datenzeilen mit der Zyklusnummer und dem Ertrag. Alle Befehle und Daten sind in freiem Format gehalten, was bedeutet, dass die einzelnen Größen durch Leerzeichen getrennt werden. Mit ! werden Kommentare eingeleitet, die jeweils bis zum Ende der Zeile überlesen werden. Die erste Zeile wird als als Titel des Experiments interpretiert. Hier wurde doppeltes !! benutzt, um später leichter nach dem Titel des Experiments suchen zu können. 2 EIN EINFACHES BEISPIEL 5 Der Befehl BASIC sagt dem Programm, dass Daten zu lesen sind, nämlich sechs Datenzeilen bestehend aus je zwei Werten. Die zweite Zwei in BASIC zeigt an, dass auch zwei Merkmale oder Variablen zu verrechnen sind. Sollen zusätzliche Variablen berechnet oder Variablen weggelassen werden, dann ist die Zahl der einzulesenden Variablen nicht mehr identisch mit der Zahl der zu verrechnenden Variablen. Die zweite Zahl der BASIC-Zeile, nämlich 0, wird in 4.1.1 erläutert. Mit dem Befehl VARIABLE NAMES werden die Namen der beiden Variablen definiert. Im CALCULATE wird Variable 2 mit 100 dividiert, um die Erträge in dt/ha anzugeben. PLABSTAT VERSION 3A of 2003-08-16 INSTITUT FUER PFLANZENZUECHTUNG, UNIVERSITAET HOHENHEIM At 2003/08/19 17h 54m 10s !! Erträge von Mais in 6 Zyklen ! Kornertrag in kg/ha eingegeben BASIC 6 0 2 2 VARIABLE_NAMES CYCLE YIELD CALCULATE X2=X2/100 ! Ertrag in dt/ha PLOT/2 X2.X1 RUN MIN MAX CYCLE 1.00 6.00 YIELD 47.58 56.07 SCATTER PLOT Erträge von Mais in 6 Zyklen 2003/08/16 12h 09m YIELD I 6 / I I I I 5 I I 4 I I I I M I I I I 3 I I 2 I I I I / 1 -------------------M-------------------CYCLE YIELD: Min 47.6 CYCLE: 1.0 Max 56.1 6.0 Mean 52.0 3.5 s.d. 3.2 1.9 b(Y.X) 1.6986 b(X.Y) 0.5728 Corr. 0.986 EOD STOP Mit PLOT wird dann das hier interessierende Diagramm erzeugt, indem der Ertrag gegen die Zyklusnummer geplottet wird. Im einzelnen wird durch PLOT/2 mit dem 3 ALLGEMEINE BEDIENUNG 6 Qualifier 2 nach dem Schrägstrich vermerkt, dass eine besondere Ausgabe gewünscht wird, nämlich dass das Diagramm kleiner gedruckt wird, so dass gerade zwei solche Diagramme auf eine Seite gehen. Mit der RUN-Zeile sind die PLABSTAT-Befehle abgeschlossen, es folgen die Daten. Das Ende der Daten wird mit EOD angezeigt, der Abkürzung für End Of Data. Durch den STOP-Befehl weiß PLABSTAT, dass kein weiterer Rechenjob folgt und der Job zu Ende ist. Nun sei der Output zu unserem kleinen Beispiel angeschaut, wobei er nicht vollständig hier wiedergegeben werden soll. Die Befehlszeilen werden anfangs zu Kontrollzwecken gelistet. Nach der RUN-Zeile werden die Befehle ausgeführt. Wenn PLABSTAT einen Fehler beim Lesen der Befehle entdeckt, so gibt es eine Meldung aus. Etwa wenn Sie fälschlich BASIC 6 0 K 2 eingegeben haben, dann meldet sich das System an der Stelle, wo es den Befehl nicht mehr interpretieren kann, mit: BASIC *** 6 WRONG 0 K 2 | PARAMETER VALUE So können Sie leicht die Zeile verbessern und den korrekten Wert 2 anstelle von K einsetzen. Die beiden Ausgabezeilen, beginnend mit MIN und MAX, geben für jede Variable den kleinsten und größten Wert. Im Diagramm sind die Mittelwerte auf beiden Achsen mit dem Buchstaben M symbolisiert. Mit zwei Schrägstrichen ist der Anfangs- und Endpunkt der linearen Regressionsgerade markiert, so dass sie leicht von Hand nachgezogen werden kann. Die Punkte sind aufsteigend durchgezählt wie die Daten, so dass der Experimentator auffallende Punkte identifizieren kann. Unterhalb des Diagramms finden sich einige anderen Schätzwerte der beiden Variablen, wie Mittelwert, Standardabweichung, beide Regressionskoeffizienten und der Korrelationskoeffizient. 3 Allgemeine Bedienung PLABSTAT arbeitet mit ungefähr dreißig Befehlen. In diesem Kapitel soll kurz dargestellt werden, wie die PLABSTAT-Befehle formal zu schreiben, wie die allgemeinen Befehle definiert und wie Daten einzugeben sind. 3.1 Schreibregeln 3.1.1 Der Name eines PLABSTAT-Befehls muß in Großbuchstaben eingegeben werden. Befehlszeilen und ebenso Datenzeilen können bis zu 255 Zeichen lang sein. 3.1.2 PLABSTAT benutzt nur die ersten drei Buchstaben eines Befehlsnamens zur Identifikation. Die anderen Zeichen in einem Befehlsnamen sind irrelevant. So kann etwa VARIABLE NAMES als VAR oder VARIABLES oder VAR-NAMEN geschrieben 3 ALLGEMEINE BEDIENUNG 7 werden. Für Zwecke der leichteren Lesbarkeit wird empfohlen, Befehle nicht zu sehr abzukürzen. 3.1.3 Jeder Befehl muß in der ersten Spalte beginnen. Wenn mehr als eine Zeile für einen Befehl benötigt wird, so sind die folgenden Zeilen mit mindestens einem Leerzeichen anzufangen, z. B. VARIABLE_NAMES CYCLE YIELD 3.1.4 Befehle können meistenteils in beliebiger Reihenfolge eingegeben werden. Eine Restriktion ist etwa, dass PLOT nur nach einem BASIC, LATTICE oder ANOVA-Befehl gegeben werden kann, da zuerst Daten eingelesen sein müssen. Es wird empfohlen, die Befehle in logischer Ordnung niederzuschreiben. 3.1.5 Auf jeden Fall muß einer der vier Analysenbefehle BASIC, LATTICE , ANOVA oder UNREP in einem PLABSTAT-Lauf gegeben werden, damit überhaupt eine Berechnung erfolgen kann. 3.1.6 Qualifier werden nach einem Schrägstrich eingegeben, z.B. ANOVA/12 . Mit einem Qualifier können Voreinstellungswerte der Analyse oder der Ausgabe verändert werden. Wenn der eingelesene Qualifier aus weniger Stellen als definiert besteht, so wird der restliche Teil mit den Stellen der Voreinstellung aufgefüllt. 3.1.7 Wenn ein Befehl aus Versehen mehr als einmal geschrieben wird, dann wird nur der letzte Befehl für eine Analyse benutzt. 3.2 Allgemeine Befehle 3.2.1 Kommentare nach ! Kommentare werden mit ! eingeleitet und gehen immer bis zum Ende der Zeile. Hiermit lassen sich der Titel und Details des Experiments oder sonstige Erläuterungen festhalten. ! beliebiger TEXT Da die erste Zeile meist den Namen des Experiments enthält, ist zu empfehlen, diesen Kommentar etwa mit zwei !! einzuleiten, so dass er leichter gesucht werden kann. Diese erste Kommentarzeile wird außerdem als Titel für Tabellen und Diagramme benutzt. Kommentare können außerdem am Ende eines Befehls gegeben werden, etwa: CALC X10 = X2/X3*100 ! Standfestigkeit in Prozent ! wobei X2 = Zahl der aufrecht. Pfl. je Parz. ! X3 = Zahl der vorhand. Pfl. je Parz. 3.2.2 Der Befehl INPUT Über den INPUT-Befehl können Variablen in den CALCULATE-, PLOT-, RESTRICT-, FIToder TBT TAB-Befehlen mittels eines Namens angesprochen werden: INPUT Variablenliste 3 ALLGEMEINE BEDIENUNG 8 Wird INPUT nicht eingesetzt, werden Variablen mit X1, X2, X3, ... angesprochen. Variablennamen müssen mit einem Buchstaben beginnen, genauer mit einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Groß- und Kleinbuchstaben werden unterschieden. Nur die ersten fünf Buchstaben sind von Bedeutung. Weitere Zeichen können für Zwecke der Dokumentation angehängt werden, werden jedoch nicht beachtet. Etwa ist Ertrg und Ertrg dt/ha gleichwertig. Reservierte Namen, die innerhalb CALCULATE verwendet werden, können nicht benutzt werden, nämlich NOTE, EXP, LN, SQRT, ARCSINST. Die arithmetischen Sonderzeichen, wie + - * / : ( ) und einige weitere, wie $ ! ? > < = . ; sind in Namen nicht zugelassen. Genauer sind alle ASCII-Zeichen mit Dezimalcode 40-47 und 2 58-63 je einschl. nicht zugelassen. Dagegen können andere Sonderzeichen, wie % [ ] { } für die Namensgebung benutzt werden. 3.2.3 Der Befehl CALCULATE Mit dem Befehl CALCULATE werden Variablen modifiziert, neue berechnet oder die Beobachtungswerte auf gewisse Grenzen hin überprüft. Beachte insbesondere, dass Leerstellen Formeln trennen, siehe (2). (1) Variablen werden mit X1, X2, X3, ... bzw. mit den in INPUT definierten Variablennamen angesprochen. Desweiteren können Hilfsvariablen eingeführt werden, etwa X50, Dummy1 oder Parz Groesse. Alle Rechenoperationen werden im Gleitkommamodus ausgeführt. Ein Beispiel für einen CALCULATE-Befehl ist: CALCULATE X2=X1+X2+X3-100 CALCULATE Parz Groesse=3.5 Ertrag=Gewicht/Parz Groesse CALC TS%=Einwaage/Auswaage*100 (2) Berechnungen werden von links nach rechts vorgenommen. Leerzeichen innerhalb von Ausdrücken sind nicht erlaubt, da Leerzeichen Zuweisungen trennen. So kann eine CALCULATE-Befehlszeile mehrere Zuweisungen enthalten. CALC X2=X6/X7*100.0 X3=X8*X9/X10 (3) Die üblichen Grundrechen-Operationen + - * und / sind möglich, außerdem die ganzzahlige Division : . Etwa berechnet CALC X1=5:3 eine 1. Klammerausdrücke sind erlaubt, nicht dagegen Potenzen. CALC X5=X1/(X2-X3)*(-X4) X5=((-X3+X4)/X1)-X2 . (4) Als Funktionen sind möglich: LN = natürlicher Logarithmus SQRT = Quadratwurzel EXP = Exponentialfunktion ARCSINST = Arcussinus der Wurzel von X (mit 0 < X < 1) wobei die Variablen in Klammer zu setzen sind, etwa: CALC X3=LN(X2) X5=ARCSINST(X5) X3=X1+EXP(-1/X2) 3 ALLGEMEINE BEDIENUNG 9 (5) Mit NOTE kann abgefragt werden, ob in einer Variablen Werte vorkommen, die außerhalb einer bestimmten Grenze liegen. Dabei sind nur Abfragen mit ”größer als” und ”kleiner als” möglich, etwa: CALCULATE NOTE X6<X7 NOTE X7>99.9 (6) Kommentare können am Ende angefügt werden, etwa: CALC X10=X2/X3*100 ! Standfestigk. (7) Potenzen sind nicht erlaubt, dagegen können Klammerausdrücke verwendet werden. Komplexere Formeln sind also in angemessener Weise zu zerlegen, siehe Datenbeispiele PSDLATT-2 und PSDANOV-2 in psdlatt.dat bzw. psdanov.dat CALC Z0=Faktor*(Sollp-VPF)+VPF Z1=LN(2*X1*X1*X1) (8) Auch bedingte Anweisungen können benutzt werden, etwa CALC X15=X1>0.5 X16=X3==100 wobei folgende Vergleichsoperatoren zugelassen sind: < kleiner > größer == gleich <= kleiner oder gleich >= größer oder gleich <> ungleich Bei der Ausführung ergibt sich ein Wert von 1, falls der Vergleich wahr ergibt, bzw. 0, falls nicht wahr zutrifft. Bei fehlenden Werten, ergibt sich ein fehlender Wert. Diese Operatoren können in Ausdrücken weiter verwendet werden, etwa: CALC X21=X14+(X1>=0.5)*10 d.h. es wird immer 10 zu X14 addiert, wenn X1 größer oder gleich 0.5 ist. CALC X22=X14+X1>=0.5*10 d.h. es wird immer 1 zu X14 addiert, wenn X1 größer oder gleich 0.5*10 bzw. 5 ist. Zu beachten ist die Reihenfolge in der Abarbeitung von Ausdrücken, wobei zuerst * und : , dann + und - , abschließend obige Vergleiche durchgeführt werden. Bemerkung zum Rechnen mit Nullen: Eine Division mit Null oder ein natürlicher Logarithmus von Null wird ergebnismäßig als Null dargestellt. Wenn der Qualifier MISS=0 zugrunde liegt, also Nullen nicht als fehlende Werte behandelt werden, dann ergibt etwa 100 + 0 = 100. Hingegen, wenn MISS=1, dann ergibt sich bei Rechenoperationen mit Null ein fehlender Wert als Ergebnis. 3.2.4 Der Befehl VARIABLE NAMES Mit diesem Befehl werden die Namen von Variablen spezifiziert. Diese Namen werden dann in Tabellenüberschriften verwendet. 3 ALLGEMEINE BEDIENUNG 10 VARIABLE NAMES Variablenliste Die Zahl der Namen muß mit NVAR, der Zahl der zu analysierenden Variablen, übereinstimmen. Nur die ersten 5 Zeichen jeden Namens werden benutzt. Zu Dokumentationszwecken können die Namen verlängert werden, etwa von Ertrg auf Ertrg dt/ha. Variablennamen müssen mit einem Buchstaben beginnen, genauer mit einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Die Namen werden durch ein oder mehrere Leerzeichen getrennt. Gleichheits- und Ausrufezeichen können innerhalb von Namen nicht benutzt werden. Ein Beispiel mit drei Variablen ist VARIABLES Ertrag Standfestigkeit TS% (Trockensubst.Proz.) Wurde der Befehl INPUT eingesetzt, werden mit VARIABLE NAMES die zu verrechnenden Variablen und deren Reihenfolge bei der Analyse festgelegt. Natürlich müssen die Variablennamen dann mit den in INPUT und CALCULATE definierten Namen übereinstimmen, siehe auch 3.2.2. 3.2.5 Der Befehl NAMES OF TREATMENTS Mit diesem Befehl werden Namen von Prüfgliedern eingelesen: NAMES OF TREATMENTS/Q Liste von TEXTen Die Zahl der Namen muß mit der Zahl der Prüfglieder übereinstimmen. Ohne Qualifier werden nur die ersten 5 Zeichen eines jeden Namens benutzt. Werden mehr Zeichen eingegeben, werden diese überlesen. Wenn weniger als 5 Zeichen geschrieben werden, wird der Name bis zum Ende mit Leerzeichen aufgefüllt. Nur die ersten vier NAMES-Zeilen werden im späteren Ausdruck gelistet. Gleichheitszeichen dürfen nicht innerhalb eines Namens benutzt werden. Mit dem Qualifier Q kann erwirkt werden, dass mehr als 5 Zeichen für Namen verwendet werden. Als Q wird dann die maximale Zahl der Zeichen in den Namen eingegeben. Beachte dabei, dass die Namenlänge beim ersten NAMES-Aufruf zu ändern ist. Bei ANOVA muß mit einem weiteren Zeichen im Qualifier das Symbol desjenigen Faktors vermerkt werden, auf den sich die Namen beziehen (siehe FACTOR-Befehl 6.1.2). Beispiele hierfür sind: NAMES_OF_TREATMENTS D1 D2 D3 NAMES E1*D2_(EMMA.LENA)*(DORA.ROSA) M1*O2_(MARY.LENA)*(ORA_.ROSA) NAMES/T9 Manchuria Svansota Velvet Natürlich wird beim zweiten Beispiel nur E1*D2 und M1*O2 von PLABSTAT benutzt. 3.2.6 Der Befehl CHECKS Damit werden die Standard- oder Kontrollprüfglieder festgelegt und eine zusätzliche Tabelle von Prozentwerten ausgegeben, nämlich relative Prüfgliedmittelwerte in Prozent vom Mittelwert der Standardprüfglieder. CHECKS/Q Liste von Prüfgliedbezeichnern Prüfgliedbezeichner sind die Nummern oder Namen der Standards. Wird ein Stern * benutzt, wird auf den Versuchsmittelwert bezogen. Bei ANOVA muß als Qualifier das 3 ALLGEMEINE BEDIENUNG 11 Symbol desjenigen Faktors vermerkt werden, dem die Standardprüfglieder als Stufen angehören (siehe FACTOR-Befehl 6.1.2). Bei LATTICE entfällt der Qualifier Q. Etwa CHECKS 10 20 30 (bei LATTICE) CHECKS/T 24 25 (bei ANOVA) Um Serien von Experimenten, in denen oft zusätzliche lokale Standards zugelassen sind, verrechnen zu können, wird der Qualifier +n benutzt. Dabei werden nur die ersten n Standardprüfglieder zur Berechnung der Relativwerte herangezogen, etwa CHECKS/+2 TASSILO SYMPHONY DUMMY1 DUMMY2 DUMMY3 Die nachgeordneten lokalen Standards, hier DUMMY1 bis DUMMY3, können in einzelnen Experimenten fehlen. Im Korrelationsdiagramm werden die ersten n Standards zuerst mit ihren Nummern angezeigt, anschließend die eigentlich zu testenden Prüfglieder und zum Schluß die lokal angefügten Standardsorten. In mehrfaktoriellen Versuchen, etwa in Serien von Tester×Linien gehen die Standardprüfglieder von CHECK/+ oder CHECK/+n nicht in die ANOVA ein, sie werden nur in Korrelationsdiagrammen eingefügt. 3.2.7 Der Befehl CSV Damit lassen sich csv-Dateien (comma separated values) erzeugen, die von Datenbanken leichter zu lesen sind. Es werden insgesamt vier csv-Dateien produziert: *_mean.csv mit den Prüfgliedmittelwerten, *_perc.csv mit den Relativwerten als Prozente vom Standardmittel, *_anov.csv mit Parametern aus den Varianzanalysen (etwa Freiheitsgrade, Abweichungsquadrate, Varianzkomponenten, F-Werte) und *_corr.csv mit der Korrelationsmatrix der Prüfgliedmittelwerte. Übrigens ist auch die *.mnv-Datei ene Art von csv-Datei, wobei das Leerzeichen als Trenner und der Dezimalpunkt benutzt wird. In den *_mean.csv und *_perc.csv können unter Benutzung des ANOVA-Befehls ein- und zweifaktorielle Mittelwerttafeln ausgegeben werden, sofern diese im TBT_TAB-Befehl aufgerufen werden. Es kann deutsches oder englisches Format für die csv-Dateien gewählt werden. CSV/Q Liste von fünf Identifikatoren oder CSV/Q Calculation_ID,Crop,Trial,Year,Location Mit dem Qualifier E bzw. ohne Qualifier wird englisches Format mit Dezimalpunkt und Komma als Trenner benutzt. Mit dem Qualifier G wird deutsches Format mit Dezimalkomma und Semikolon als Trenner verwendet. Die fünf Identifikatoren dienen als Kennzeichnung für den Versuch, etwa CSV/E LP1,wheat,17,2009,serie In diesem Falle werden alle erzeugten csv-Dateien mit diesen fünf einleitenden Spalten versehen. An sich sind die fünf Identifikatoren frei wählbar. Ist der erste Identifikator eine Zahl, z.B. CSV/G 123,,,, dann werden die Namen der csv-Dateien durch Anhängen an diese Zahl gebildet, also etwa 123_mean.csv, 123_corr.csv, 123_anov.csv, 123_perc.csv. Anderenfalls wird der Datendateiname entsprechend verlängert. 4 EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 12 3.2.8 Der Befehl RUN Beim Aufruf von RUN führt PLABSTAT die vorausgehenden Befehle aus. Es ist möglich, dass dabei weitere Fehler entdeckt werden, welche beim Einlesen der einzelnen Befehlszeilen nicht zu finden waren. So wird etwa geprüft, ob die Zahl der Variablennamen mit der Zahl der zu analysierenden Variablen übereinstimmt. RUN ist ein essentieller Befehl. 3.2.9 Der Befehl EOD Nach dem RUN-Befehl erwartet PLABSTAT einen Datensatz, dessen Struktur durch den gewählten BASIC- , LATTICE- , ANOVA- oder ANOVA-Befehl beschrieben worden ist. Die Datenzeilen werden durch eine Zeile mit EOD abgeschlossen. 3.2.10 Der Befehl STOP Hiermit wird ein PLABSTAT-Job abgeschlossen. Falls erwünscht, können vor dem STOP weitere Jobs mit Befehls- und Datenzeilen gegeben werden. 3.3 Dateneingabe Die Daten sind meistens numerischer Art und können in freiem Format, getrennt durch mindestens ein Leerzeichen, eingegeben werden. Für jede Parzelle oder Versuchseinheit muß eine Datenzeile eingeben werden. Zuweilen ist ein formatierter Input wünschenswert, etwa wenn Daten aus einer Datenbank übernommen werden sollen. In solchen Fällen kann ein FORTRAN-ähnliches Format verwendet werden, näheres siehe 4.1, 5.1 oder 6.1. Für LATTICE and ANOVA können, falls erwünscht, die Daten sortiert werden (5.1.2 und 6.1.11), was mit irgendeinem Sortierprogramm oder mittels des Editors durchgeführt werden kann. Fehlende Werte werden über einen Stern * oder als Null eingegeben. In einer formatierten Eingabe können dazu Leerzeichen oder Nullen verwendet werden. PLABSTAT ersetzt diese fehlenden Werte durch geschätzte Ersatzwerte, wenn LATTICE oder ANOVA durchgeführt wird. Weitere Details finden sich in 5.1.2 und 6.1.11. 4 Einfache statistische Maßzahlen und Regressionsanalysen Mit dem BASIC-Befehl werden einfache statistische Maßzahlen, wie Mittelwert, Varianz, Standardabweichung, Variationskoeffizient, Schiefe oder Exzeß für einzelne Variablen und die Matrix der Korrelationskoeffizienten für einen Satz von Variablen berechnet. Mediane, Quartile und Spearmansche Korrelationskoeffizienten sind wählbar. Mit dem FIT-Befehl läßt sich eine einfache oder multiple Regressionsanalyse durchführen. 4 EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 13 4.1 Befehle 4.1.1 Der Befehl BASIC Mit dem BASIC-Befehl werden Daten eingelesen und einfache statistische Maßzahlen geschätzt: BASIC/Q NROW NIDT NINPT NVAR wobei NROW = Zahl der Einheiten oder Zeilen des Datensatzes NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren NINPT = Zahl der einzulesenden Variablen NVAR = Zahl der zu analysierenden Variablen. Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier, einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF, wobei MISS = 0 1 EXTR = 1 PRIN = 1 2 NEWF = 0 1 Nullen in den Daten nicht als fehl. Werte behandeln Nullen als fehl. Werte behandeln (Voreinstellung) nicht benutzt (Voreinstellung) normale Ausgabe (Voreinstellung) Ausgabe von Spearmanschen Korrelationskoeffizienten Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung) oder 2 transformierte Beobachtungswerte auf sek. Datei sichern. Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann kann an den BASIC-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B. BASIC 16 0 6 6 $F X5, F2.1, 3F3.0, 1X, 2F.2 Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRAN-Beschreibung. Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben. Mit PLOT (8.3) können Korrelationsdiagramme erzeugt werden. 4.1.2 Der Befehl FIT Mit dem FIT-Befehl werden einfache und multiple Regressionsrechnungen durchgeführt, nachdem zuvor mit dem BASIC-Befehl die Daten eingelesen worden sind: FIT/Q Y X1 X2 .... wobei Y = Variablenbezeichner für die abhängige Variable Y X1 = Variablenbezeichner der ersten unabhängigen Variablen 4 EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 14 X2 = Variablenbezeichner der zweiten unabhängigen Variablen usw. Sollen mehrere Regressionsanalysen durchgeführt werden, so muß jeder Variablensatz auf eine Zeile geschrieben werden, z.B.: FIT X5 X1 X2 X3 Ertrg BD KZjeÄ TKG Der Qualifier Q dient zur Steuerung. Er kann oft weggelassen werden. In diesem Fall wird eine bestimmte Voreinstellung (default mit 111) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier besteht aus bis zu 3 Ziffern mit Namen PRIN, RSDL und ICPT wobei PRIN = 0 1 2 RSDL = 0 1 2 ICPT = 0 1 nur Regressionsanalysen ausgeben Kovarianzmatrix der multiplen Regressionskoeffizienten zusätzlich ausgeben (Voreinstellung) Kovarianzmatrix der Variablen zusätzlich ausgeben Residuen nicht ausgeben Test auf Ausreißer (Voreinstellung) gefittete Werte und Residuen auf sekundäre Datei ausgeben Regression ohne y-Achsenabschnitt Regression mit y-Achsenabschnitt (Voreinstellung) 4.1.3 Die Dateneingabe Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben: ID1 ID2 ... X1 X2 ... ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten enthalten. Insgesamt NIDT solche Felder - durch Leerzeichen voneinander getrennt - werden eingelesen, wobei NIDT auch Null sein kann. Diese Identifikatoren sind belanglos für BASIC, so dass Sie beliebige Zeichen dafür wählen können. X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann eventuell durch obiges $F-Format doch eine Eingabe erreicht werden. Beispiele für die Dateneingabe finden sich in Kapitel 2 und auf der Datei psdbasc.dat. Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im Qualifier des BASIC-Befehls gewählt, dann werden Nullen nicht als fehlende Werte behandelt. Beachte: Datenpaare, die einen fehlenden Wert enthalten, werden beim Schätzen einer Kovarianz innerhalb FIT weggelassen. 5 EINFACHE BLOCK- UND GITTERANLAGEN 15 4.2 Ausgabe und Methoden Für jede zu analysierende Variable wird eine Zeile mit der Zahl der festgestellten Beobachtungen (Units) - fehlende Werte sind abgezogen -, mit dem Mittelwert (Mean), der Varianz (Variance), der Standardabweichung (Std.dev), dem Variationskoeffizienten (Coef.var), der Schiefe (Skewness) und dem Exzeß (Kurtosis). Es wird der Schiefekoeffizient g1 ausgegeben, der in einer Normalverteilung 0 ist. Bei positiven Schiefewerten ist die Verteilung rechtsschief, bei negativem linksschief. Falls er signifikant von Null abweicht, wird bei P = 10%, 5% bzw. 1% mittels + , * oder ** eine entsprechende Signifikanz angezeigt. Entsprechendes gilt für den Exzeßschätzwert g2 , der bei einer Normalverteilung 0 ist, bei negativem Wert eine abgeflachtere Verteilung, bei positivem Wert eine spitzgipfligere Verteilung anzeigt. Weiteres siehe SNEDECOR und COCHRAN (1980, S. 79). Treten fehlende Werte bei der Berechnung des Korrelationskoeffizienten zwischen zwei Variablen auf, so wird jeweils das Paar von Beobachtungen ausgeschlossen, in dem ein fehlender Wert enthalten ist. In der multiplen Regressionstabelle findet sich unter der Überschrift Regr.coeff. der y-Achsenabschnitt und die Regressionskoeffizienten. Daneben sind ihre Standardfehler unter Std.error und die t-Werte unter t-value zu finden. Unter Std.regr.coeff. sind die Pfadkoeffizienten oder standardisierten Regressionskoeffizienten als Maße für die relative Bedeutung der einzelnen Regressionsvariablen aufgelistet, siehe auch SNEDECOR und COCHRAN (1980, S. 357). Unter part_r sind die partiellen Korrelationskoeffizienten von Y auf Xi unter Konstanthalten der Xj (alle j 6= i), unter part_SS die partiellen Summen der Abweichungsquadrate und unter SSXY**2/SSX die Reduktionen in der Summe der Abweichungsquadrate durch die Einfachregression von Y auf Xi zu finden. Für jedes Regressionsmodell werden das Bestimmtheitsmaß in % (R^2%), der multiple Korrelationskoeffizient (R) und das korrigierte Akaike Informationskriterium (AICc) zum Vergleich verschiedener Modelle, siehe BURNHAM and ANDERSON (1998), ausgegeben. Ausreißer werden im Verlauf der multiplen Regressionsberechnungen getestet, siehe DRAPER und SMITH (1998). Dabei werden auffallende Restabweichungen und Datenpunkte, welche die Regression stark beeinflussen, aufgelistet. Bei der multiplen Regression sollte beachtet werden, dass die numerischen Kalkulationen instabil werden können, wenn sehr hohe Korrelationskoeffizienten zwischen Variablen, etwa r > 0, 998, auftreten. Ein solcher Nachteil kann vermieden werden, wenn bei einer solchen Variablen über einen CALCULATE-Befehl ein Wert abgezogen wird, der nahe oder auch gleich dem Variablenmittelwert ist, siehe dazu auch SNEDECOR und COCHRAN (1980, S. 400). 5 Einfache Block- und Gitteranlagen Mit dem LATTICE-Befehl werden generalisierte Gitteranlagen (α-designs) und einfache Blockexperimente analysiert. Zusätzlich lassen sich damit erweiterte teilweise wiederholte Anlagen (augmented p-rep designs, augmented designs, WILLIAMS et al. 2011) analysieren, deren Kern eine generalisierte Gitteranlage darstellt. Randomisierte 5 EINFACHE BLOCK- UND GITTERANLAGEN 16 vollständige Blockanlagen (RCB) können auch mit dem ANOVA-Befehl verarbeitet werden. Ein einfacher Blockversuch ist unter LATTICE mit weniger PLABSTAT-Befehlen und geringerem Rechenaufwand zu verrechnen als unter ANOVA, jedoch muß bei der LATTICE-Dateneingabe auf jeden Fall die Blocknummer eingegeben werden. Näheres dazu im Abschnitt 5.1.2. 5.1 Befehle 5.1.1 Der Befehl LATTICE Mit dem LATTICE-Befehl werden Daten eingelesen und Analysen durchgeführt: LATTICE/Q T S K R NINPT NVAR wobei T S K R NINPT NVAR = Zahl der Prüfglieder = Zahl der unvollständigen Blöcke je Wiederholung (falls Blockversuch, S=1 wählen) = Zahl der Parzellen je unvollständigem Block (falls Blockversuch, K=1 wählen) = Zahl der Wiederholungen = Zahl der einzulesenden Variablen = Zahl der zu analysierenden Variablen. Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier, einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF, wobei MISS = 0 1 EXTR = 0 1 PRIN = 0 1 2 3 NEWF = 0 1 2 3 Nullen nicht als fehl. Werte behandeln Nullen als fehl. Werte behandeln (Voreinstellung) kein Test auf extreme Werte bzw. Ausreißer Testen auf extreme Werte (Voreinstellung) keine Ausgabe der Varianzanalyse-Tabelle Ausgabe der Varianzanalyse-Tabelle (Voreinstellung) Ausgabe der adj. Prüfgliedeffekte statt der Prüfgliedmittelwerte Ersatzwerte bei fehlenden Werten auch bei mehr als 15 ausgeben, fehl. Prüfgl. in den Mittelwerttabellen nicht durch Null ersetzen Mittelwerte nicht auf sek. Datei sichern (Voreinstellung) adj. Mittelwerte auf sek. Datei sichern transformierte adj. Parzellenwerte sichern adj. Mittelwerte und adj. Parzellenwerte sichern. Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann kann an den LATTICE-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B. LATT 7 1 1 2 6 3 $F A6, 2I2, 3F3.0, 1X, 3F5.0 5 EINFACHE BLOCK- UND GITTERANLAGEN 17 Das erste Feld mit dem Identifikator muss dabei mit A6, die beiden nächsten Felder (die Block- und die Prüfgliednummer, siehe 5.1.2) müssen mit einem I-Beschreiber und die eigentlichen Meßwerte mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRAN-Beschreibung. Die Effekte der unvollständigen Blöcke (beim Gitter in adjustierter Form und den dazugehörigen Wiederholungseffekt gleich addiert) können auf der sekundären Ausgabedatei gesichert werden, wenn ein $A an den LATTICE-Befehl angehängt wird, etwa: LATT 7 1 1 2 6 3 $An ”Augmented designs” lassen sich damit verrechnen, indem die wiederholten bzw. Standardprüfglieder zuerst eingelesen werden. Die Zahl der angehängten Prüfglieder bzw. Parzellen n wird dabei nach $A vorgegeben. Die dazugehörigen Beobachtungsdaten werden im selben Format wie die Standardprüfglieder, siehe 5.1.2, nach deren Datenzeilen eingegeben. Entsprechend sind Block- und Prüfgliednummern (T+1, T+2, ... T+n) für jede der n Parzellen notwendig. LATTICE kann auch mit nur einer Wiederholung (R=1) ausgeführt werden. Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder. Mit CHECKS (3.2.6) können Relativwerte zu den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes, mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel oder der einzelnen Wiederholungen erzeugt werden und mit TBT TAB (8.1) können formatierte oder sortierte Prüfgliedmittelwertlisten angewählt werden. 5.1.2 Die Dateneingabe Für jede Parzelle oder Versuchseinheit ist eine Datenzeile mit folgender Struktur einzugeben: IDENTIFIKATOR BN TN X1 X2 ... IDENTIFIKATOR ist ein alphanumerisches Feld, welches Experiment, Jahr, Ort, Kulturpflanzenart, u.ä. anzeigt. Wegen des Schreibens von adjustierten Mittelwerten auf die sekundäre Ausgabedatei sollte der Identifikator maximal 6 Zeichen lang sein. BN gibt in Gittern die Nummer des unvollständigen Blocks an, in der die Parzelle sich befindet, sie läuft 1,2, ... R*S. Im Blockversuch wird die Wiederholungsnummer, 1,2, ... R , verwendet. TN ist die Prüfgliednummer mit den möglichen Werten 1, 2, ... T. X1, X2, ... sind die NINPT Beobachtungen je Parzelle, die eingelesen werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann eventuell durch obiges $F-Format doch eine Eingabe erreicht werden. Die Daten können sortiert oder nichtsortiert eingehen. Beispiele finden sich auf der Datei psdlatt.dat. 5 EINFACHE BLOCK- UND GITTERANLAGEN 18 Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im Qualifier des LATTICE-Befehls gewählt, dann werden Nullen nicht als fehlende Werte behandelt. Übrigens können ganze Prüfglieder als fehlend betrachtet werden. In diesem Fall setzt PLABSTAT den Prüfgliedeffekt als Null an und schätzt die fehlende Werte wie gewohnt. Fehlende Prüfglieder werden in den Mittelwert-Tabellen und in der sekundären Ausgabedatei als Null ausgegeben, sofern der LATTICE-Qualifier PRIN nicht auf 3 gesetzt ist. Auch Fälle, in denen in einzelnen Variablen weniger Wiederholungen vorhanden sind, lassen sich analysieren. 5.2 Ausgabe Schätzwerte für die fehlenden Werte werden nur gedruckt, wenn weniger als 15 Werte fehlen. Wird der Qualifier PRIN=3 gesetzt, können auch mehr als 15 angezeigt werden. Der Ausreißertest arbeitet in abgeänderter Form, nach der Methode von ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) und stellt extreme Residuen (Parzellenfehler) fest. Damit mehrfache Ausreißer möglichst gut identifiziert werden, wird zuerst ein robuster Schätzwert für die Fehlervarianz, nämlich der MAD (Median der absoluten Residuen), berechnet. Damit werden die standardisierten (bzw. studentisierten) Residuen, also Residuum dividiert durch die Standardabweichung, berechnet. Wird eine gewisse Grenze, die von der Fehlervarianz und dessen Freiheitsgraden abhängt, überschritten, wird der Beobachtungswert als Ausreißer gemeldet. Da bei der Überprüfung normalverteilte Residuen vorausgesetzt werden, können in manchen Fällen zu viele Extremwerte identifiziert werden. Für jedes Merkmal wird dabei als erste Zeile die Wiederholungsmittelwerte (Replic.means) ausgegeben und darunter die Liste der verdächtigen Ausreißer mit dem studentisierten Residuum (St.Resid) und ihren Beobachtungswerten in jeder Wiederholung. Es wird empfohlen, zuerst die Zeilen mit dem größten studentisierten Residuum zu überprüfen. Wenn Sie sehr große Fehler, etwa Schreibfehler, in Ihrem Experiment korrigieren mußten, dann werden eventuell im zweiten Durchgang weitere Ausreißer durch PLABSTAT ausgegeben. Weiterhin ist eine Tabelle der Effekte der unvollständigen Blöcke zu finden. Diese Effekte, in adjustierter Form geschätzt, spiegeln die Boden- oder sonstige Blockvariabilität wieder. Gradienten, Nester oder andere grobe Einflüsse auf die Daten können damit gegebenfalls erkannt werden. Für jedes Merkmal, sofern es variiert, wird eine Tabelle mit der Varianzanalyse ausgegeben. Im Falle eines Gitters werden die Varianzkomponenten über eine ”IntraBlock-Analyse”, siehe FEDERER (1955) oder UTZ (1969, Bad Nauheim), berechnet. Auf dieser Basis wird auch der F-Test für die Prüfglieder vorgenommen. Die Signifikanztests haben folgende Bedeutung: + * ** signifikant bei 10% Irrtumswahrscheinlichkeit signifikant bei 5% Irrtumswahrscheinlichkeit signifikant bei 1% Irrtumswahrscheinlichkeit Einige andere ausgegebene Parameterschätzwerte sind: SE(tr) = Standardfehler der (adjustierten) Prüfgliedmittelwerte 5 EINFACHE BLOCK- UND GITTERANLAGEN 19 = Standardabweichung der (adjustierten) Prüfgliedmittelwerte = Variationskoeffizient (coefficient of variation), = nämlich die Wurzel aus der effektiven Fehlervarianz dividiert durch das Versuchsmittel mal 100 Repeat1% = Wiederholbarkeit (repeatability) eines einzelnen Parzellenwertes in % = Var.-komp. der Prüfgl. /(Var.-Komp. der Prüfgl. + Eff. Fehlervar.) Effic. = Effizienz des Gitters im Vergleich zum Blockversuch in Prozent my = Wägungsfaktor der Gitteranalyse, siehe COCHRAN und COX (1957) Eff.Err.MS = Effektive Fehlervarianz im Gitter oder Fehlervar. im Blockversuch SD(tr) C.V.% Mit dem Parameter Repeat1% oder der Wiederholbarkeit einer Parzelle können Versuche hinsichtlich ihrer Genauigkeit verglichen werden, und zwar unabhängig von der jeweiligen Zahl der Wiederholungen. Dieser Parameter ist auch dann beachtenswert, wenn die Fehler- und Prüfgliedvarianz korreliert sind. Zeigt dagegen die Fehlervarianz eine Abhängigkeit vom Versuchsmittelwert, dann dürfte der Variationskoeffizient C.V.% als Genauigkeitsmaß vorzuziehen sein. Die Prüfgliedmittelwerte werden beim Gitter in allen Merkmalen adjustiert, in denen die Effizienz mehr als 100% beträgt. Dieses Vorgehen dürfte dem Versuchsansteller die besten Informationen geben und wird daher auch in den meisten Lehrbüchern empfohlen. Am Anfang der Tafel der Prüfgliedmittelwerte finden sich einige weitere Zeilen: = obiger Variationskoeffizient = obige Wiederholbarkeit Repeat1% = Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit = Mittelwert der Standardprüfglieder (falls CHECKS gegeben wurde) = Versuchsmittel oder MwCh = Mittelwert der Nicht-Standard-Prüfglieder (Mean without Checks) C.V. REP1 LSD5 CHEC MEAN Ein Teil obiger Parameter wird auch auf die sekundäre Ausgabedatei geschrieben, wenn der Qualifier NEWF=1 benutzt wird. Wenn CHECKS gegeben wird, wird gleichzeitig eine Tabelle der adjustierten Prüfgliedmittel in Prozenten vom Standardmittel erzeugt. Ferner wird eine Tabelle der Korrelationskoeffizienten zwischen den Merkmalen, berechnet aufgrund der (adjustierten) Prüfgliedmittelwerte, einschl. eines approximativen Signifikanztests ausgegeben. 5.3 Methoden Die Analyse von generalisierten Gitteranlagen wird mittels einer iterativen Methode nach WILLIAMS (1977) durchgeführt. Eingeschlossen sind die Spezialfälle eines quadratischen Gitters oder eines vollständigen Blockversuchs. Fehlende Werte werden iterativ berechnet, indem die Fehlervarianz minimiert wird (YATES, 1933; HEALY und WESTMACOTT, 1956). Die Iteration wird abgebrochen, wenn die vierte Dezimale der Fehlervarianz bei wiederholter Iteration sich nicht mehr ändert. Damit dürften die gegebenen Dezimalstellen in der Varianztabelle auch bei 6 MEHRFAKTORIELLE EXPERIMENTE 20 fehlenden Werten gültig sein. Die Zahl der notwendigen Iterationen wird mit Hilfe eines Tricks von PREECE (1971) reduziert. 6 Mehrfaktorielle Experimente Mit dem ANOVA-Befehl werden balancierte mehrfaktorielle Versuche analysiert und Interaktionen zwischen zwei Faktoren nach einem Regressionsmodell unterteilt, etwa um eine phänotypische Stabilitätsanalyse durchzuführen. 6.1 Befehle 6.1.1 Der Befehl ANOVA Mit dem ANOVA-Befehl werden Daten eingelesen und die dazugehörige Analyse durchgeführt: ANOVA/Q NIDT NINPT NVAR wobei NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren NINPT = Zahl der einzulesenden Variablen NVAR = Zahl der zu analysierenden Variablen. Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier, einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF, wobei MISS = 0 Nullen nicht als fehl. Werte behandeln 1 Nullen als fehl. Werte behandeln (Voreinstellung) EXTR = 0 kein Test auf extreme Werte bzw. Ausreißer 1 Test auf extreme Werte in den Residuen (Voreinstellung) 2 Test auf extreme Werte in den Residuen und Effekten PRIN = 1 normale Ausgabe (Voreinstellung) 3 erweitertes Ausgeben bei fehlenden Werten, nämlich Ausgeben aller errechneten Ersatzwerte, Belassen der Ersatzwerte in Mittelwerttabellen und Ausgeben von Konvergenzkriterien NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung) 1 Mittelwerte auf sekundärer Datei sichern 2 (transformierte) Parzellenwerte auf sek. Datei sichern. Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann kann an den ANOVA-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B. ANOVA 0 6 6 $F 5X, F2.1, 3F3.0, 1X, 3F5.2 Die Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen 6 MEHRFAKTORIELLE EXPERIMENTE 21 oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRANBeschreibung. Die Befehle FACTORS, MODEL und gegebenfalls RANDOM sollten vor den ANOVA-Befehl gestellt werden, da die experimentelle Struktur zuerst definiert sein muß. Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder, so dass Tabellenüberschriften damit beschriftet werden können. Mit CHECKS (3.2.6) können Relativwerte zu den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes und mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel erzeugt werden. Mit TBT TAB (6.1.7 und 8.1) lassen sich Mittelwerttabellen auch formatiert oder sortiert ausgeben. Mit ERROR können Fehlervarianzen, Fehlerfreiheitsgrade u.a. aus Einzelversuchen übernommen werden, wenn mit ANOVA eine zusammenfassende Auswertung über Serien von Experimenten vorgenommen werden soll (siehe 8.5). 6.1.2 Der Befehl FACTORS Dieser Befehl gibt die Faktoren und die Stufenzahl für jeden Faktor: FACTORS TEXT1=N1 TEXT2=N2 TEXT3=N3 .... wobei die ersten 10 Zeichen jeden TEXTes als Faktorname dienen. Nach dem Gleichheitszeichen folgt die Zahl der Stufen N dieses Faktors. Beachte, dass Gleichheitszeichen innerhalb des Faktornamens nicht zugelassen sind. Das erste Zeichen jeden Faktornamens wird als Kurzsymbol in Tabellen und anderen Befehlen, wie etwa MODEL oder MEANS benutzt, so dass die Faktornamen jeweils mit verschiedenem Zeichen beginnen müssen. Folgende zwei Beispiele mögen obiges verdeutlichen: FACTORS T Sorten = 35 B Wiederholungen = 3 FACT VAETER = 178 MUETTER innerhalb Vaetern = 9 PLAETZE = 3 REIHEN in V und M = 2 Der FACTOR-Befehl muß, um die möglichen Faktorsymbole zu definieren, vor den anderen Befehlen, wie MODEL oder RANDOM stehen. Die Reihenfolge der Faktornamen in FACTORS gibt gleichzeitig die Reihenfolge der Daten wieder, nach der diese sortiert sind, sofern die $-Spezifikation in ANOVA nicht benutzt wird. Es ist möglich, mit nur einem Faktor eine Varianzanalyse durchzuführen. 6.1.3 Der Befehl MODEL Dieser Befehl definiert das biometrische Modell für die Varianzanalyse. Der Befehl besteht aus den Effekten, welche durch eine Kombination von Faktorsymbolen symbolisiert und durch Pluszeichen verbunden werden: MODEL EFFEKT1 + EFFEKT2 + EFFEKT3 + ... Haupteffekte werden durch ein einzelnes Faktorsymbol und Interaktionseffekte durch eine Kombination solcher Symbole dargestellt. Eine Dreifachklassifikation mit den Faktorsymbolen A, B und C wird also wie folgt codiert: 6 MEHRFAKTORIELLE EXPERIMENTE 22 MODEL A + B + C + AB + AC + BC + ABC . Hierarchische Effekte werden mit einem Doppelpunkt versehen, wobei die Faktoren, innerhalb denen der hierarchische sich befindet, nach dem Doppelpunkt gegeben wird. Wenn etwa C ein hierarchischer Effekt innerhalb A und B ist, dann schreibt sich das biometrische Modell wie folgt: MODEL A + B + C:AB . Der letzte Effekt wird immer als ein Fehler oder Residuum interpretiert. Wenn weitere Effekte als Fehler interpretiert werden sollen, etwa in Spaltanlagen der Fehler der Großparzellen, so ist nach solchen Effekten ein Schrägstrich zu schreiben, z.B. MODEL W + G + WG/ + K + KG + KGW wobei W der Wiederholungseffekt, G der Effekt des Großteilstücksfaktors, K der Effekt des Kleinteilstücksfaktors, KG der Interaktionseffekt der beiden Faktoren und WG der Fehler der Großteilstücke und KGW der Fehler der Kleinteilstücke darstellt. Nach der Reihenfolge der Effekte in MODEL werden die Zeilen in der Varianzanalysetabelle ausgegeben. Der MODEL-Befehl muß sorgfältig ausgearbeitet werden, da die korrekte Aufteilung der Totalvariabilität und die Richtigkeit der Signifikanztests davon abhängen. Zu diesem Zweck sollten Sie die Faktoren in Ihrem Experiment in faktorielle (kreuzklassifizierte) und hierarchische einteilen. Weiterhin müssen Sie die Randomisation Ihrer Versuchseinheiten nachvollziehen, erst dann haben Sie die Gewähr, das richtige Modell aufgestellt zu haben. Weitere Hinweise sind im Anhang C oder in Büchern, wie SNEDECOR und COCHRAN (1980) oder SEARLE (1971), bzw. im Vorlesungsmanuskript ”Datenverarbeitung in der Angewandten Genetik” zu finden. 6.1.4 Der Befehl RANDOM Mit diesem Befehl werden die zufälligen Faktoren definiert, alle nicht aufgeführten Faktoren werden als fest behandelt: RANDOM Liste von Faktorsymbolen In obigem dreifaktoriellen Beispiel möge A fest, B und C zufällig sein, dann ist zu schreiben: RANDOM B C Meist wird man Blöcke oder Wiederholungen sowie Orte und Jahre als zufällig annehmen, um die in der Pflanzenproduktion üblichen Signifikanztests zu erhalten. Wann ein Effekt als fest oder als zufällig zu gelten hat, besprach SEARLE (1971, S. 376ff). 6.1.5 Die Befehle MEANS, EFFECTS, PERCENTS und RANKS Zwei-Wege-Mittelwerttabellen, einschließlich der Marginalmittelwerte, werden mit MEANS Liste von Zweifaktor-EFFEKTen erzeugt, beispielsweise: MEANS AB AC Durch die Reihenfolge der Faktorsymbole in der Liste wird gleichzeitig der Tabellenaufbau festgelegt, indem der erste Buchstabe den Reihenfaktor und der zweite den 6 MEHRFAKTORIELLE EXPERIMENTE 23 Säulenfaktor bezeichnet. Enstsprechend können für Zweiwegetabellen die Effekte mit EFFECTS Liste von Zweifaktor-EFFEKTen die Prozente (relativ zum Mittelwert der Standardprüfglieder) mit PERCENTS Liste von Zweifaktor-EFFEKTen und die Ränge mit RANKS Liste von Zweifaktor-EFFEKTen angefordert werden. Natürlich sind diese Tabellen nur produzierbar und auch nur sinnvoll, wenn der entsprechende Zweifaktor-Effekt in der MODEL-Zeile erscheint. Beachte, dass RANKS mindestens als RANK abgekürzt wird, da der Befehl sonst nicht von RANDOM zu unterscheiden ist, dass PERCENTS diejenigen Relativwerte bildet, die durch CHECKS definiert werden. Dabei muss CHECKS die Standard-Mittel des Reihenfaktors definieren, also wenn PERCENTS TP ausgegeben werden soll, muss etwa CHECK/T * definiert sein (also nicht CHECK/P * ). Der Import von Standard-Mittelwerten durch die CHEC-Zeile in den Daten ist nur für TBT TAB-Tabellen möglich. dass mit dem Befehl RESTRICT (6.1.10) die Ausgabe obiger Tabellen auf bestimmte Variablen eingeschränkt werden kann. So kann etwa bei der Analyse von Kreuzungsexperimenten mit den Daten für Tester*Linien*Plätze nur für das wichtigste Merkmal detaillierte Zwei-Wege-Tabellen angefordert werden: RESTRICT Ertrag EFFECTS LT (also die gca-sca-Tabelle) RANKS LP (also die Ränge der Linien an den Plätzen) 6.1.6 Der Befehl SUBINT Eine Unterteilung der Wechselwirkungen (SUBdivision of the INTeractions = SUBINT) in einer Zweiwegetafel kann mit diesem Befehl erreicht werden. SUBINT Liste von Zweifaktor-EFFEKTen Ein Beispiel dafür ist SUBINT AB SUBINT produziert eine Korrelationsmatrix der AB-Mittelwerte und berechnet eine Stabilitätsanalyse, was insbesondere für Versuchsserien von Interesse ist. Weiteres im Abschnitt 6.2. Da eine Unterteilung sinnlos ist, wenn einer der beiden Faktoren weniger als drei Stufen besitzt, werden nur Datensätze mit mindestens drei Stufen je Faktor analysiert. Datensätze mit fehlenden Werten werden allerdings nicht optimal behandelt. 6.1.7 Der Befehl TBT TABLE Eine Mittelwerttabelle über die Variablen hinweg (Treatment By Trait TABle = TBT TAB) kann mit diesem Befehl angefordert werden: 6 MEHRFAKTORIELLE EXPERIMENTE 24 TBT TABLE Liste von EFFEKTen beispielsweise TBT TAB AB TBTTAB ABC AB AC B Gleichzeitig werden die in diesem Befehl genannten Mittelwerte auf die sekundäre Ausgabedatei geschrieben oder über PLOT geplottet, falls der entsprechende ANOVAQualifier oder PLOT gegeben worden ist. Wie mit TBT TAB Tabellen formatiert und gleichzeitig absolute und relative Werte ausgegeben werden können, ist in Kap. 8.1 beschrieben. 6.1.8 Der Befehl HERITABILITY Mit diesem Befehl wird für bestimmte Prüfgliedmittelwerte die Heritabilität berechnet: HERIT Faktorsymbol beispielsweise HERIT T HERIT T:C Gleichzeitig wird in runder Klammer das dazugehörige 95%-Konfidenzintervall ausgegeben. 6.1.9 Der Befehl GENOTYPIC CORRELATION MATRIX Damit werden die phänotypische und genotypische Korrelationsmatrix und bei Bedarf auch die ausführlichen Varianz-Kovarianzanalysen berechnet: GENOT EFFEKT Für den Prüfglied-EFFEKT, der in der MODEL-Zeile vertreten sein muß, wird die Korrelationsmatrix berechnet, beispeilsweise GENOT T GENOT T:BC Wird der Qualifier auf 1 gesetzt, werden zusätzlich die Varianz-KovarianzAnalysen ausgegeben: GENOT/1 EFFEKT Wegen Interna werden diese Analysen vor den üblichen PLABSTAT-Analysen ausgegeben (zugegebenerweise, vielleicht etwas unmotiviert). 6.1.10 Der Befehl RESTRICT Hiermit kann die Ausgabe von Zwei-Wege-Tabellen, die mit MEANS, EFFECTS, PERCENTS, RANKS oder SUBINT erzeugt wurden, auf bestimmte Variablen beschränkt werden: RESTRICT Liste von Variablenbezeichnern beispielsweise RESTRICT X1 X5 RESTRICT Ertrag TKG 6 MEHRFAKTORIELLE EXPERIMENTE 25 6.1.11 Die Dateneingabe Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben: ID1 ID2 ... X1 X2 ... ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten anzeigen. Die Felder werden durch ein oder mehrere Leerzeichen voneinander getrennt. Insgesamt NIDT solche Felder werden eingelesen, wobei NIDT auch Null sein kann. Diese Identifikatoren sind, falls die Daten sortiert eingelesen werden, belanglos für ANOVA, so dass Sie beliebige Zeichen dafür wählen können. X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann eventuell durch obiges $F-Format doch eine Eingabe erreicht werden. Falls der Datensatz als sortiert eingelesen werden soll, muß die Reihenfolge der Faktoren im FACTORS-Befehl so gewählt werden, dass sie mit der Sortierfolge übereinstimmt. Etwa wenn wie folgt sortiert ist, A 1 1 2 2 3 3 B 1 2 1 2 1 2 X11 12.3 11.7 13.5 12.8 10.4 12.9 oder B 1 2 1 2 1 2 A 1 1 2 2 3 3 X11 12.3 11.7 13.5 12.8 10.4 12.9 dann muß in beiden Fällen die Reihenfolge in der FACTORS-Zeile lauten: FACTORS A Faktor=3 B Faktor=2 , denn die lexikalische Reihenfolge obiger Daten basiert zuerst auf dem A-Namen, dann auf dem B-Namen. Beispiele für die Dateneingabe finden sich auf der Datei psdanov.dat. Falls die Daten nicht sortiert oder fehlende Datenzeilen vorhanden sind, dann muß der ANOVA-Befehl mit einem Zusatz versehen werden, bei dem nach einem Dollarzeichen vermerkt wird, an welchen Stellen der Datenzeilen die Faktorstufen zu finden sind: ANOVA NIDT NINPT NVAR $ K1 (KS1) K2 (KS2) K3 (KS3) ... Die ganzzahligen Werte K1, K2, ... geben den Beginn derjenigen Spalten in den Datenzeilen an, in denen die Stufenbezeichnungen für die einzelnen Faktoren beginnen. Die ganzzahligen Werte KS1, KS2, ... geben an, wieviele Zeichen die entsprechende Stufenbezeichnung lang ist. Die Reihenfolge dieser Schlüsselzahlen hat in derselben Reihenfolge wie die Faktorbezeichnungen im FACTOR-Befehl zu erfolgen. Die NAMES-Befehle sind in diesem Falle unnötig bzw. die Stufenbezeichnungen in Mittelwerttabellen erfolgt in der Reihenfolge dieser Namen. Ein Beispiel soll das Vorgehen verdeutlichen: FACTOR Sorten = 15 Jahre = 2 Orte = 6 6 MEHRFAKTORIELLE EXPERIMENTE ANOVA 3 8 8 26 $ 12(4) 3(2) 8(3) wobei die dazugehörigen Datenzeilen folgendermaßen aufgebaut sind: 9987 XXP30 LEO 70.3 552 1.3 29.3 43.6 96.0 514 0 ---- --In dieser Beobachtungszeile stellt also ”87” das Jahr, ”P30” den Ort und ”LEO” die Sorte dar. Die Zahl der Identifikatoren ist davon unbeeinflußt und wird durch NIDT wie gewohnt im ANOVA-Befehl angegeben. Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im Qualifier des ANOVA-Befehls gewählt, dann werden Nullen nicht als fehlende Werte behandelt. Übrigens können auch einzelne Stufen oder Faktorkombinationen fehlen. In diesem Fall nimmt PLABSTAT den entsprechenden Effekt als Null an und schätzt die fehlende Werte wie bei der Methode der kleinsten Quadrate (”Fitting constants”) gewohnt. 6.2 Ausgabe Die Ausgabe von ANOVA beginnt mit einer Tafel der Erwartungswerte der Mittleren Abweichungsquadrate. Sie bildet die Basis für die Berechnung der Varianzkomponenten und F-Werte. Diese Tafel ist für den balancierten Fall gültig. In der Varianzanalyse-Tabelle werden neben den Freiheitsgraden (Degrees of Freedom = DF), Summen von Abweichungsquadraten (Sums of Squares = SS) und Mittleren Abweichungsquadraten (Mean Squares = MS) die Varianzkomponenten Var.cp. und ihre Standardfehler s(V.cp.) ausgegeben. Varianzkomponenten werden auch für feste Effekte ausgegeben, obwohl deren Größe dann selten von Interesse ist. Sie können jedoch interpretiert werden, siehe SNEDECOR und COCHRAN (1980, Kap. 13.9). Die F-Werte F mit Signifikanztests, siehe auch 5.2, sowie die dazugehörigen Freiheitsgrade des Zählers DF-NM und des Nenners DF-DN werden ausgegeben. Die Freiheitsgade sind nicht immer ganze Zahlen, da die SATTERTHWAITEsche Approximation in komplizierten Fällen benutzt wird. Für jede Varianzursache oder genauer für die dazugehörigen Mittelwerte ist der Standardfehler dieser Mittelwerte s.e. und die Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit LSD5 in den letzten beiden Spalten zu finden. Die Heritabilität, nämlich der Quotient aus genetischer und phänotypischer Varianz von bestimmten Mittelwerten, und das dazugehörige 95%-Konfidenzintervall erscheint nach Aufruf von HERITAB. Zur Berechnung siehe KNAPP and BRIDGES (1987). Der Ausreißertest wird nach ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) durchgeführt und stellt extreme Residuen (Parzellenfehler) fest. Dieser Test setzt normalverteilte Residuen voraus. Für einen verdächtigen Extremwert wird der Prozentsatz des Residuums zur Testgröße ausgegeben. Zusätzlich können auch Effekte getestet werden, dann wird der verdächtige Effekt mit seinen Stufennummern und dem Schätzwert ausgegeben. Schätzwerte für die fehlenden Werte werden im Standardfall nur bis zu 15 fehlenden ausgegeben. Möchte man diese auch bei höheren Anzahlen gedruckt haben, ist im ANOVA-Qualifier PRIN=3 zu wählen. In den Mittelwerttabellen und in der sekundären 6 MEHRFAKTORIELLE EXPERIMENTE 27 Ausgabedatei werden fehlende Werte als Null ausgegeben, sofern nicht obiger Qualifier auf 3 gesetzt ist. Bei TBT TABLE mit Zweiwegetafel AB werden die Korrelatationskoeffizienten der AB-Mittelwerte auf die marginalen A-Mittelwerte für jede Stufe von B berechnet. Bei weniger als 20 Stufen für den Faktor A fehlt diese Tafel. Diese Korrelationen dürften vor allem beim Analysieren von Serien von Interesse sein. Wenn diese Korrelationskoeffizienten verschieden sind, dürften die Interaktionseffekte unterschiedlich mit den Haupteffekten korreliert sein. Korrelationskoeffizienten nahe Null dürften darauf hinweisen, dass die Werte dieser Stufe im Widerspruch zu denen auf anderen Stufen stehen. Diese Schätzwerte können bei der Interpretation von Zweiwegetafeln Hinweise über Zusammenhänge geben. Eine ausführlichere Analyse liefert ein SUBINT-Aufruf. Die Analyse einer Zweiwegetafel mittels SUBINT produziert zuerst eine zusammenfassende Varianzanalyse. Zur Interpretation siehe bei BLISS (1967), WRIGHT (1971) oder UTZ (1972). Die beiden Unter-Varianzanalysen oder SubANOVAs sind nach YATES und COCHRAN (1938) oder PERKINS und JINKS (1968) berechnet. Für die Stufen der beiden Faktoren werden verschiedene Schätzwerte ausgegeben. Wenn wir die Werte in einer Zweiwegetafel mit xik ansprechen, wobei i der Index für die Reihe und k der Index für die Spalte darstellt, dann erhalten wir für die i-te Stufe: = Mittel xi. , wobei der Punkt darauf hinweist, dass über den Index k gemittelt ist, Corr. = Korrelationskoeffizient zwischen xik und x.k Regr. = dazugehöriger Regressionskoeffizient von xik auf x.k MSdev = Mittleres Abweichungsquadrat der xik von obiger Regression MSentry = einfache Varianz für die i-te Stufe, nämlich var(xik )i MSinteract. = Varianz der Interaktionseffekte var(xik − xi. − x.k + x.. ) , welche mit der Ökovalenz von WRICKE, die als SQ definiert ist, korrespondiert. MSdevXHY = Varianz der Abweichungen vom ”Site Highest Yield”, wie JENSEN (1976) beschrieben hat. Mean Entsprechend sind die Schätzwerte für die k-te Stufe des anderen Faktors definierbar. In den Kovarianzanalyse-Tabellen werden zusätzlich folgende Schätzwerte ausgegeben: In der Spalte V.cp% der ANOVA-Tabellen findet sich für jede Varianzursache das Verhältnis des Schätzwerts der Varianzkomponente zur Varianz der entsprechenden Mittelwerte. In genetischen Situationen ist dieses Verhältnis für die Prüfglieder die Heritabilität. Zu bemerken ist, dass sich diese Spalte nicht zu 100% addieren läßt. Der phänotypische Korrelationskoeffizient r-phen wird für jede Zeile in den ANCOVA-Tabellen berechnet und getestet. Der genotypische Korrelationskoeffizient ist unter r-gen, sein Standardfehler unter s(r-gen) zu finden. Falls der genotypische Korrelationskoeffizient mit seinem absoluten Betrag größer als der einfache Standardfehler ist, wird ein + angehängt, wenn er größer als der zweifache Standardfehler ist, ein ++\verb. 6 MEHRFAKTORIELLE EXPERIMENTE 28 6.3 Methoden Die Variananalyse wird mit Hilfe der Algorithmen AS1, ASR1, AS18 und AS19 berechnet, die in Appl. Statist. Band 17 und 19, siehe auch UTZ (1978), veröffentlicht worden sind. Diese Algorithmen wurden in FORTRAN übersetzt und hinsichtlich der Rechenzeit schneller gemacht. Die Berechnungen werden mit doppelter Genauigkeit ausgeführt und die Summe der Abweichungsquadrate werden über die Effekte berechnet. Die SATTERTHWAITEsche Approximation der F-Werte basiert auf dem Typ F = (MS1 + MS4) / (MS2 + MS3) , also nicht auf dem Typ F = MS1 / (MS2 + MS3 - MS4) , siehe dazu auch COCHRAN (1951) oder SNEDECOR und COCHRAN (1980, Kap. 16.14). Fehlende Werte werden iterativ nach der Methode der kleinsten Quadrate, wie schon unter 5.3 beschrieben, berechnet. Zuweilen fehlt eine Stufe eines Faktors oder eine Faktorkombination völlig, dann gibt PLABSTAT die Meldung aus: MISSING LEVEL(S) IN ... Sollte der Iterationsprozess nicht konvergieren - hoffentlich selten - , dann wird ein entsprechender Vermerk gegeben und die einfachen Mittelwerte berechnet. Bei fehlenden Werten sind die Prüfglied-MQ überschätzt und die F-Werte ergeben zu oft signifikante Resultate. Bei wenigen fehlenden Werten kann dies vernachlässigt werden (COCHRAN und COX, 1957, Kap. 3.7). Eine grobe Grenze für eine nicht mehr zu tolerierende Verzerrung geben BENNETT und FRANKLIN (1954) mit 10% fehlender Werte an. Daher wird in Fällen mit mehr als 13% fehlender Werte von PLABSTAT keine Varianzanalyse mehr ausgegeben. Bei fehlenden Werten können die MQ nach SNEDECOR und COCHRAN (1980, Kap. 15.3), GOULDEN (1952; Kap. 14) oder SEARLE (1971) nachträglich korrigiert werden. BERK (1987) verglich die möglichen Methoden miteinander. Gegebenenfalls ist auf ein Statistikpaket für Analysen von unbalancierten Datensätzen zu wechseln. Die Standardfehler von genotypischen Korrelationskoeffizienten, die mittels GENOT (6.1.9) angefordert werden, werden nach MODE und ROBINSON (1959) berechnet. Im unbalancierten Fall wird die analoge Varianzanalysemethode oder Methode 1 nach HENDERSON (1953) für die Varianz-Kovarianzanalysen verwendet, siehe auch SEARLE (1971, S. 424ff). Varianz- und Kovarianzkomponenten sowie F-Tests werden dabei berechnet als ob die MS und MP balanciert ist. Dieses Verfahren wird von TIETJEN (1974, Biometrics 30,573) für den F-Test sinnvoller angesehen als ein F-Test basierend auf der SATTERTHWAITE-Approximation. Natürlich kann der Experimentator bei sehr unbalancierten Datensätzen mit gemischten Modellen eine REML-Analyse durchführen, wie sie etwa in SAS, GENSTAT, ASREML oder R möglich ist. Beachte: Bei fehlenden Werten kann demnach PLABSTAT in den Kovarianzanalysen, mit GENOT/1 erwirkt, andere SQ und MQ bzw. SP und MP ausgeben als in den Varianzanalysen. Bei Henderson 1 können auch negative SQ (bzw. SQ-Ananloge) errechnet werden. Bei jeder Kovarianzanalyse werden die beiden Varianzanalysen neu erstellt und dabei die gemeinsamen fehlenden Werte aus der Analyse weggelassen. Daher lassen sich in gewissen Fällen die Korrelationkoeffizenten nicht über die ausgegebenen 7 NICHTWIEDERHOLTE EXPERIMENTE 29 Analysen nachrechnen. Selbstverständlich ist es dem Anwender in stärker unbalancierten Datensätzen freigestellt, die Erwartungswerte der SQ bzw. MQ für Henderson 1 nach Searle (1971) oder BLISS (1967), LE ROY und GLUCKOWSKI (1961) zu berechnen sowie andere Tests durchzuführen. Dies ist bei Henderson 1 natürlich nur für völlig zufällige Modelle möglich (siehe SEARLE, 1971, S.429f). Für gemischte Modelle vergleiche BERK (1987) oder SEARLE (1982), der die Statistikpakete SAS, GENSTAT, SYSTAT u.a. hinsichtlich gültiger Lösungen vergleicht. Desweiteren wird der Restfehler nach Henderson 1 bekanntlich verzerrt geschätzt, siehe HENDERSON (1953). Auch hier kann es sinnvoll sein, den unverzerrten Schätzer zu verwenden, der z.B. durch Poolen der effektiven Fehlervarianz in einer Serie von Gitteranlagen leicht von Hand zu ermitteln ist. 7 Nichtwiederholte Experimente Mit dem UNREP-Befehl werden Experimente ohne Wiederholung analysiert, wobei eine Eliminierung etwaiger Gradienten über Standardprüfglieder oder gleitender Mittelwerte vorgenommen wird. 7.1 Befehle 7.1.1 Der Befehl UNREPLICATED Mit dem UNREP-Befehl werden Daten aus nichtwiederholten Versuchen eingelesen und analysiert: UNREP/Q NPARZ NROW NCOL NSTD NIDT NINPT NVAR wobei NPARZ = Gesamtzahl der Einheiten oder der zu verrechnenden Parzellen, mit NPARZ ≤ NROW×NCOL NROW = Zahl der Reihen oder Beete NCOL = Zahl der Säulen oder Parzellen je Beet NSTD = 0 mit gleitenden Mitteln wird adjustiert = n mit Standardprüfgliedern wird adjustiert wobei n die Zahl der Standardsorten, die im Versuch mehrmals vorkommen, angibt. (Nur einmal vorkommende Standardsorten laufen als normale Testprüfglieder.) NIDT = 4 bzw. Zahl der Felder, welche die Datenzeile identifizieren (Es wird ein alphanumerischer Identifikator für das Experiment, eine Reihen-, Säulen- und Prüfgliednummer benötigt.) NINPT = Zahl der einzulesenden Variablen NVAR = Zahl der zu analysierenden Variablen. Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier, einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte Voreinstellung (default mit 1110) angenommen, siehe dazu auch 3.1.6. Der Qualifier besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF, 7 NICHTWIEDERHOLTE EXPERIMENTE wobei MISS = 0 1 EXTR = 1 PRIN = 1 3 NEWF = 0 1 30 Nullen in den Daten nicht als fehl. Werte behandeln Nullen als fehl. Werte behandeln (Voreinstellung) nicht benutzt (Voreinstellung) normale Ausgabe (Voreinstellung) Detaillierte Ausgabe mit unadj. und adj. Beobachtungen, je Merkmal nebeneinander in *.prt gelistet Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung) oder 2 adjustierte Beobachtungswerte auf sek. Datei sichern. Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann kann an den UNREP-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B. UNREP 27 3 9 3 4 3 4 $F 6X,2I2,I5,3F5.0 Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRAN-Beschreibung. Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) und mit NAMES OF TREATMENTS (3.2.5) lassen sich die Namen der Variablen oder Prüfglieder eingeben. Mit PLOT (8.3) können Korrelationsdiagramme erzeugt werden. Mit TBT TAB (8.1) lassen sich formatierte und sortierte Beobachtungstabellen erzeugen. Bei gleitenden Mittelwerten kann CHECKS (3.2.6) mit Nummern der Standards benutzt werden, etwa CHECKS 1 2 11 12 7.1.2 Die Dateneingabe Bei jeder Parzelle müssen Position, also Reihen- und Säulennummer, und Prüfgliednummer angegeben werden, etwa wie folgt: T299XX 01 01 1 5.0 1.0 ... wobei diese nacheinander durch ein oder mehrere Leerzeichen getrennt einzugeben sind, der Versuchsidentifikator, Reihen- und Säulennummer (1,2 ... NROW bzw. 1, 2 ... NCOL), Prüfgliednummer und die Beobachtungswerte. Die erste Säule, der Identifikator sollte 6 Zeichen breit sein und über die Datenzeilen konstant sein. Standardsorten müssen durch eine Prüfgliednummer größer als 99000 kenntlich gemacht werden. Die Reihenfolge der einzulesenden Datenzeilen ist frei. Es können in einem durch NROW×NCOL beschriebenen Rechteck außerdem Parzellen bzw. Datenzeilen, etwa in einer Ecke, fehlen. Fehlende Werte am besten mit Stern *, wie sonst auch, eingeben. Pedigrees werden über den NAMES-Befehl, wie gewohnt, eingeführt, wobei in der Reihenfolge der Prüfgliednummern die Pedigrees folgen (bei NSTD=0) oder in der Reihenfolge der einlaufenden Parzellen (bei NSTD>0). In der Datei psdunrep.dat sind Beispielsdatensätze zu finden, die einmal mit der 7 NICHTWIEDERHOLTE EXPERIMENTE 31 Standardmethode und zum anderen mit gleitenden Mitteln verrechnet werden. 7.2 Ausgabe Zuerst wird eine Zusammenfassung der unkorrigierten Daten wie mit dem BASICBefehl ausgegeben. Anschließend werden der Korrelationskoeffizient r(obs,concom) und der Regressionskoeffizient b(obs.concom) zur Beurteilung der Effizienz der Adjustierung, weiteres siehe 7.3.3, gegeben. Mit einer Tabelle der adjustierten Beobachtungswerte, identisch mit einer TBT-Tabelle, wird abgeschlossen. Bei gleitenden Mittelwerten werden in letzterer eventuell Mittelwerte errechnet, wenn bestimmte oder alle Prüfglieder mehrfach vorkommen. Dadurch läßt sich überprüfen, ob in einem Blockversuch eine Trendkurve nachweisbar ist und ob an eine Elimination dieses Trends zu denken ist. Wird PRIN=3 gegeben, finden sich getrennt nach dem Merkmal weitere Zwischenresultate der Berechnungen, nämlich bei einer Standardanlage: Mean of checks, Check means, No. of check plots sowie NBETW = maximum distance between two check plots NNMIN = minimum number of check plots for the adjustment of a test plot (e.g. in the corner or with missing check plots) NNMAX = maximum number of check plots for the adjustment of a test plot Unter CHECK PLOT VALUES werden die Residuen jeder Standardparzelle und die Mittelwerte der Residuen der direkt benachbarten Standardparzellen aufgeführt. Die Assoziation der beiden Variablen wird durch die beiden Koeffizienten r = r(obs,concom) und b = b(obs.concom) beschrieben. Unter PLOT VALUES werden für jede Parzelle die Position im Versuch, nämlich Reihen- und Säulen-Nummer der Parzelle, und der Typ (bei Testparzellen typ = 0, bei Standardparzellen typ = i, nämlich die Nummer des Standards), der nichtadjustierte und der adjustierte Beobachtungswert und die Differenz der letzteren beiden bzw. der Betrag der Adjustierung gelistet. Bei Gleitenden Mittelwerten (Moving averages) wird unter PLOT VALUES ebenfalls die Position der Parzellen, ihre Prüfgliednummer und die Beobachtungswerte, nichtadjustiert, adjustiert und das zum Ausgleich benutzte gleitende Mittel (mov.ave.), zusätzlich gelistet. 7.3 Methoden Ein etwaiger Gradient wird bei der Standardanlage mittels der nächstliegenden Standards oder bei den gleitenden Mittelwerten mittels benachbarter Parzellen geschätzt. Die Standardanlage ist weniger zu empfehlen, siehe 7.3.3. Sie wurde hier als Variante berücksichtigt, da sie in der praktischen Pflanzenzüchtung oft eingesetzt worden ist. 7.3.1 Standardanlage Als Schätzwerte für die Bodengüte werden zuerst die Differenzen der Standardparzellen zu ihrem jeweiligen Sortenmittelwert berechnet. Als Kovariable (concomitant 7 NICHTWIEDERHOLTE EXPERIMENTE 32 variable) für den Ausgleich wird das Mittel aller solchen Differenzen benutzt, die in einem Rechteck, um eine Standardparzelle liegen. Dieses Rechteck wird durch den nächsten Standard auf der linken und rechten Seite gebildet und umfasst das Beet oberhalb und unterhalb der Testparzelle. Dieser an den Standardparzellen kalibrierte Regressionskoeffizient b(obs.concom) wird zur Gewichtung der nachfolgenden Testparzellen mit der entsprechenden Kovariablen verwendet. In den Ecken und Rändern bzw. wenn fehlende Standards vorhanden sind, wird eben über weniger benachbarte Standardparzellen-Abweichungen gemittelt. Die Standards können beliebig positioniert sein, sie können etwa in Streifen oder anderen mehr oder weniger regelmäßigen Mustern (Diamonds) angeordnet sein. Bei mehrfachen Standards nebeneinander werden nur die nächstliegenden zur Adjustierung verwendet. 7.3.2 Gleitende Mittelwerte Für jede zu adjustierende Parzelle werden die zehn benachbarten Beobachtungen, nämlich die von den vier linken und vier rechten Parzellen und von der direkt darüber und darunterliegenden Parzelle, zu einem Mittelwert zusammengefaßt und als Kovariable (concomitant variable) für eine Adjustierung benutzt. In den Ecken wird über entsprechend weniger Nachparparzellen gemittelt. Bei dieser Methode wird der Trend mit Hilfe eines Mittels, das über mehr Parzellen als bei der Standardanlage gebildet wird, geschätzt. Dies ist auch notwendig, da die Nachbarbeobachtungen ja jeweils andere genotypische Effekte enthalten. 7.3.3 Hinweise zur Beurteilung der Adjustierungen Der Regressionskoeffizient b(obs.concom) , da er kleiner als 1 ist, dient dazu eine Überkorrektur zu vermeiden (siehe YATES, 1936). Mit dem Korrelationskoeffizienten r(obs,concom) kann der Wert einer Adjustierung beurteilt werden. Nach COCHRAN (1957) sollte er mindestens 0.3 betragen, anderenfalls wird sich eine Korrektur nicht lohnen. An sich sollten die Korrelationskoeffizienten positiv sein, negative sind nur bei starker Konkurrenz unter den Prüfgliedern zu erwarten. Daher sind negative wohl als unbrauchbar für eine Adjustierung eines Bodentrends anzusehen. Eine Standardanlage ist nach BAKER and McKENZIE (1967) wohl selten empfehlenswert. Denn setzt man, wie es oft der Fall ist, etwa auf jede zehnte Parzelle einen Standard, dann ist dies zu wenig, um einen Bodengradienten ausreichend genau zu schätzen. Benutzt man mehrere Standards (etwa vier) nebeneinander oder setzt auf jeder zweiten Parzelle Standards ein, dann mag zwar eine Schätzung des Bodengradienten eher möglich sein. Doch wird damit der Anteil der Standardparzellen im Vergleich zu den eigentlichen Testparzellen zu hoch und die Korrektur zu teuer. Gleitende Mittelwerte sind daher eher zu empfehlen, Voraussetzung dabei ist aber, dass die Prüfglieder randomisiert auf dem Feld stehen, sonst werden etwaige Familieneffekte eliminiert. Je nach Art des Gradienten und Höhe des Versuchsfehlers dürfte die optimale Kovariable verschieden zusammengesetzt sein. Die benutzten zehn Parzellen dürften einen brauchbaren Kompromiss darstellen. Wichtig scheint auch, dass Parzellen in der Senkrechten zum Korrigieren mit eingehen, etwa in ein- oder zweireihigen Experimenten, um senkrechte Einflüsse, wie Schlepperspuren, auszuschalten. Siehe auch Literatur zu Nächstnachbarmethoden. 8 ERGÄNZENDE BEFEHLE 33 Weitere Details und Literatur siehe CHANDRA (1991), KEMPTON (1984), KEMPTON und FOX (1997, Kap. 5-7) oder YATES (1936). 8 Ergänzende Befehle Anbei sind einige ergänzende Befehle beschrieben, die insbesondere für LATTICE- und ANOVA-Läufe von Interesse sind. 8.1 Der Befehl TBT TABLE Neben den unter 6.1.7 genannten Funktionen, nämlich der Wahl der Mittelwerttabellen im ANOVA-Fall, kann mit diesem Befehl die Ausgabe der Mittelwertlisten gesteuert werden. Solches ist empfehlenswert, wenn etwa die Mittelwertlisten DIN-A4-Breite erhalten sollen oder wenn spezielle Outputs gestaltet werden sollen. TBT TAB-Tabellen können bis 255 Zeichen bzw. bis 34 Merkmale ohne Umbruch in der Breite gestaltet werden. Durch den Zusatz von $F gefolgt von einem FORTRAN-Format können die Mittelwerte einer TBT-Tabelle formatiert, also mit einer bestimmten Zahl von Stellen vor oder nach dem Dezimalpunkt versehen werden. Es gelten sämtliche FORTRAN-Regeln für Formate. Insofern dabei auch die Überschriften der Tabellen zu ändern sind, kann mit Zusatz $T mit nachfolgendem Text eine veränderte Überschriftszeile eingelesen werden. Dabei sind bis zu 6 $T-Zeilen erlaubt, die dann direkt über den Beobachtungsmittelwerten plaziert werden. Wenn unter Verwendung von CHECKS auch die Relativwertliste ein anderes Format erhalten soll, kann ein solcher Block von $F- mit $T-Zusätzen wiederholt werden. Anschließend kann durch einen $S-Zusatz, z.B. $S X2 oder $S TS% , bewirkt werden, dass die Mittelwertliste nach einem bestimmten Merkmal, hier der zweiten Variablen, sortiert wird. Durch den Zusatz $V und einer Folge von Variablenbezeichnern mit Zeichen a für absolut oder p für Prozentzahl, z.B. $V X3p X3a X2a X1a $V Ertrag.a TS%.p kann erreicht werden, dass die Mittelwerttabellen hinsichtlich der Merkmale umgeordnet und gleichzeitig Absolut- und Relativwerte (zum Standard-Mittelwert) enthalten. Der Punkt . wird zur Trennung von Variablennamen und den Zeichen a bzw. p benutzt. Ein Beispiel sei nachfolgend gegeben: FACTORS REPLICAT. = 2 GENOTYPES = 25 MODEL R + G + RG ANOVA/1211 0 7 6 CHECKS/G * ! bei LATTICE wuerde in der nachfolg. Zeile das G fehlen TBTTABLE G $F 2(F5.0),3(F5.1),F4.1,F5.0 $T $T PflH KoH Ertr Spind TS% Bon. SEL $T cm cm dt/ha % % 1-9 IND $F 10(F6.1) $T PflH KolH Ertrag Spind TS% Bon. SEL 8 ERGÄNZENDE BEFEHLE $T cm cm dt/ha % % 1-9 $S YIELD ! Sorting of TBT_tables according variable 3 yield CHECKS/G * INDEX -0.2 0 1 -0.2 1 0 50 VAR_NAMES PLHIG COHIG YIELD %COB %D.M. SCORE 34 IND Dabei werden die (absoluten) Mittelwerte für das erste und zweite Merkmal mit insgesamt 5 Stellen (Format F5.0 zweimal wiederholt) ausgegeben, wobei keine Nachkommastelle vorgesehen ist. Das dritte, vierte und fünfte Merkmal (Format F5.1 dreimal wiederholt) wird mit einer Nachkommastelle ausgegeben usf. Hingegen werden alle Relativwerte (Format F6.1), also mit insgesamt 6 Stellen, wobei eine Nachkommastelle, der Dezimalpunkt und das Vorzeichen sowie drei Stellen für die Prozentzahl vor dem Punkt vorgesehen sind. 8.2 Der Befehl INDEX Damit können Selektionsindizes oder andere Funktionen der Mittelwerte in TBT TABTabellen berechnet werden. Mit Hilfe von CALC-analogen Befehlen werden neue Variablen erzeugt, für die keine Varianzanalyse durchgeführt wird, die nur als letzte Spalten an die TBT TAB-Tabellen angehängt werden. Ein Selektionsindex rechnet sich z.B. wie folgt: INDEX 1 X4=-0.5*X1-1.33*X2+0.77*X3+100 oder INDEX 1 Index=2*TS%+Ertrag+Standf Der Befehl muß als erste Größe die Anzahl der zu erstellenden Index-Variablen aufweisen. Die Größe NVAR im LATTICE- und ANOVA-Befehl muß die neuen Variablen enthalten, ebenso natürlich dann VARIABLES. Mit Hilfe einer Funktion MC zur Berechnung von Mittelwerten von Standardprüfgliedern (Mean of Checks) können auch Relativwerte erzeugt werden, etwa für die Ertragswertzahl des Bundessortenamtes mit zwei verschiedenen Gewichten für den Trockensubstanzgehalt TS%: INDEX 2 CH Ertrag=MC(Ertrag,1,2,3) CH TS%=MC(TS%,1,2,3) CH Stdf=MC(Stdf,1,2,3) INDX1=Ertrag/CH Ertrag*100+2.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf) INDX2=Ertrag/CH Ertrag*100+1.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf) Hierbei werden zuerst für drei Merkmale Ertrag, TS% und Stdf die Standardsortenmittel aus den Mittelwerten der Prüfglieder 1, 2 und 3 berechnet und den Hilfsgrößen CH Ertrag, CH TS% und CH Stdf zugewiesen. Anschließend werden zwei Indexvariablen INDX1 und INDX2 mit unterschiedlichen Gewichten gebildet. Da zwei zusätzliche Index-Variablen in den TBT-Tabellen erscheinen sollen, beginnt INDEX mit 2. Auf Grund einer Index-Variablen kann natürlich auch eine Sortierung der TBTTabellen über die $S-Option erfolgen, siehe Befehl TBT TAB (8.1). 8.3 Der Befehl PLOT Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) erzeugt werden. 8 ERGÄNZENDE BEFEHLE 35 PLOT/Q X1.X2 X2.X3 ... etwa PLOT/2 X3.X2 Ertrag.TS% Der erste Bezeichner gibt die Variablennummer oder den Variablennamen, die für die y-Achse bzw. Ordinate verwendet werden soll, der zweite Bezeichner nach dem Punkt die Variable für die x-Achse oder Abszisse. Es können mehrere Plots durch Anfügen weiterer Variablenpaare, getrennt durch ein oder mehrere Leerzeichen, angefordert werden. Wenn die erste und zweite Variable gleich ist, etwa in: PLOT X1.X1 TKG.TKG dann werden die Beobachtungswerte der einzelnen Wiederholungen geplottet. Solche Diagramme dienen dazu, Ausreißer oder andere auffallende Beobachtungswerte im Datenmaterial aufzufinden. (Gilt nur in Verbindung mit LATTICE). Genauer gesagt, werden bei zwei Wiederholungen die Beobachtungswerte der ersten Wiederholung auf diejenigen der zweiten Wiederholung geplottet, bei mehr als zwei Wiederholungen werden die Beobachtungswerte jeder Wiederholung auf die Mittelwerte über alle Wiederholungen geplottet. Beim Gitter werden die Beobachtungswerte zuvor natürlich für die unvollständigen Blöcke korrigiert. Die maximale Zahl der Diagramme je Lauf ist 40. Der Qualifier Q gibt die Zahl der Diagramme, die je Seite ausgedruckt werden: Q = 1 ein Diagramm je Seite (Voreinstellung) = 2 zwei Diagramme je Seite (für DIN-A4-Formate geeignet) = 3 drei Diagramme je Seite. Wenn PLOT in Verbindung mit einem ANOVA-Aufruf benutzt wird, werden für alle in TBT TABLE genannten einfaktoriellen Mittelwerte Diagramme erzeugt. Im Diagramm, siehe Kap. 2, werden die Punkte fortlaufend nach den Nummern der TBT TAB- bzw. der Prüfgliedmittelwerttabelle durchnummeriert. Mehrfachbelegungen werden durch einen Stern * mit nachfolgender Ziffer, z.B. *3, gekennzeichnet, wobei am rechten Rand, dann unter *3 die entsprechenden Prüfgliednummern der Mehrfachbelegung aufgelistet sind. Die Standard-Prüfglieder sind als Punkte unterstrichen. Die Regressionsgerade von y auf x ist durch einen Schrägstrich / in der y-Achse und einen weiteren am rechten Rand markiert, so dass von Hand die Regressionsgerade eingezeichnet werden kann. Die Mittelwerte sind durch ein M auf der x- und y-Achse vermerkt. Wenn die Grenzdifferenz berechenbar ist, wird diese durch eine Folge von D auf den Achsen visualisiert. Unter Miss. ist die Zahl der Punkte, die wegen fehlender Werte fehlen angegeben. 8.4 Der Befehl PPLOT Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) für zwei Variablen in PostScript erzeugt werden. Die Ausgabe wird auf eine separate Datei *.ps geschrieben. PPLOT/n X1.X2 etwa PPLOT/1 Ertrag.TS% 8 ERGÄNZENDE BEFEHLE 36 Es wird ein Streudiagramm für die Variable X1 auf der y-Achse und X2 auf der xAchse gezeichnet. Standardsorten, siehe CHECKS, werden darin mit einee fettgedruckten Nummer verzeichnet. Desweiteren wird die Regressionsgerade, das Versuchsmittel und die beiden Grenzdifferenzen eingezeichnet. Mit dem Qualifier n kann die Spalte im Namen der Prüfglieder (bzw. im Pedigree) definiert werden, die als Diagrammsymbol statt eines kleinen Kreises verwendet werden soll. 8.5 Der Befehl ERROR Für das Verrechnen von Versuchsserien kann der Befehl ERROR benutzt werden. Dadurch ist es möglich, *.mnv-Dateien ohne Änderung miteinzubinden. ERROR Faktorsymbol Spaltenzahl oder ERROR Zahl der zu poolenden Versuche Spaltenzahl wobei Faktorsymbol auf den Faktor hinweist, der durch die Einzelversuche (z.B. Orte) repräsentiert wird und natürlich im dazugehörigen FACTORS-Befehl vertreten sein muß. Die Spaltenzahl gibt an, in welcher Datenspalte VAR, DFE, SE, LSD, CHEC, MEAN beginnt. Durch diese werden die entsprechenden Schätzwerte aus den Einzelversuchen eingebracht. Voreinstellung für die Spaltenzahl ist 12. Beispiele sind etwa: ERROR P 7 ERROR Q Besitzt man eine andere Zahl von Versuchen, deren Fehler in der Serie gepoolt werden soll, kann man statt dem Faktorsymbol auch direkt die Zahl der zu poolenden Versuche angeben. Ein solcher Import von Fehlervarianzen ist natürlich nur sinnvoll, wenn die Variablen unverändert bleiben. Werden CALC-Befehle benutzt, treffen diese Fehler nicht mehr zu. Wenn der ERROR-Befehl falsch gewählt wird, resultiert oft ein TOO MUCH LEVEL-Fehler. Daher beachte folgendes: 1. VAR-, DFE-, SE-, LSD-, CHEC- oder MEAN-Zeilen können in beliebiger Reihenfolge bzw. eine beliebige Auswahl daraus und an beliebiger Stelle im Datensatz gegeben werden. Wichtig sind nur DFE- und SE-Zeilen, wobei die DFE-Zeilen vor den SE-Zeilen stehen müssen. 2. VAR ... MEAN darf daher nicht (genauer nicht an der durch obige Spaltenzahl angegebenen Position) in Prüfgliednamen auftauchen, um Verwechslungen zu vermeiden. 3. Die Namen VAR ... MEAN müssen unter den Identifikatoren der Daten enthalten sein. Deren Zeilen müssen durch genauso viele Identifikatoren wie die normalen Daten spezifiziert sein. 4. Wenn kein CHECK-Befehl gegeben wird, wird die Relativwertberechnung aufgrund der eingelesenen CHEC-Zeilen durchgeführt. Ist jedoch ein CHECK-Befehl vorhanden, werden die CHECK-Mittelwerte neu berechnet. Beispiel für einen Serien-Input, siehe auch psdanov-6 in psdanov.dat: 9 WINKE, WÜRMER, WÄNDE 37 !! SERIES OF RYE EXPERIMENTS FACTORS PLACES = 3 TREAT = 25 MODEL P + T + TP ANOVA 2 9 9 CHECKS 24 25 ERROR P 8 TBT_TAB TP T RUN 117001 DFE 12 16 0 16 16 23 0 0 0 117001 SE 4.79 2.17 0 0.86 .82 .40 0 0 0 117001 LSD 14.77 6.51 0 2.59 2.45 1.16 0 0 0 117001 CHEC 0 0 0 0 0 0 0 0 0 117001 001 79.77 130.36 .00 1.21 4.88 23.00 .00 .00 .00 117001 002 73.90 133.93 .00 1.32 6.00 23.00 .00 .00 .00 117001 003 74.78 132.86 .00 2.00 7.00 22.50 .00 .00 .00 obiges ist der Anfang der .MNV-Datei des ersten Versuchs, es folgen weiter alle .MNV-Dateien der Serie. EOD STOP 8.6 Der Befehl OMISS Damit können fehlende Werte (Missing data) in der sekundären Output-Datei mit speziellen Werten gekennzeichnet werden, was bei der Benutzung von Datenbanken erwünscht sein kann. OMISS Liste von Zahlen Es müssen NVAR Zahlen angegeben werden, so dass für jede zu analysierende Variable eine Zahl zur Kennzeichnung der fehlenden Werte vorliegt. Etwa bei NVAR =4 OMISS 0 -9 0 99.99 Wird OMISS weggelassen, wird jeder fehlende Wert in der sekundären Ausgabedatei mit Stern * gekennzeichnet. Voreinstellung ist also OMISS mit einer Liste von Nullen. 9 Winke, Würmer, Wände (1) In der Biologie werden Beobachtungen meist höchstens 3 Stellen genau gemessen, so dass Mittlere Abweichungsquadrate oder Varianzkomponenten nicht mehr als 5 bis 6 Stellen genau sein können. Selbst wenn ein Computerprogramm mehr Stellen ausgeben sollte, sollten Sie nur die biologisch sinnvollen Stellen entnehmen. (2) Es ist nicht möglich, dass PLABSTAT jeden Fehler bei der Eingabe entdeckt und eine korrekte Meldung liefert. Zum Beispiel, wenn Sie schreiben: ANOVA 10 10 100 weil Sie aus Versehen die letzte Null der Zeile doppelt eingeben. Dieser Befehl ist natürlich legal, so dass PLABSTAT anfängt zu rechnen und vielleicht an ganz anderer Stelle, hier etwa zu wenig Speicherplätze, meldet. Daher sollte in Fällen mit unerwarteten Fehlern, zuerst das richtige Schreiben der PLABSTAT-Befehle überprüft werden. 9 WINKE, WÜRMER, WÄNDE 38 Selbstverständlich wird ein Programm immer auch Fehler enthalten, die abgestellt gehören. Daher ist der Autor Ihnen dankbar, wenn Sie solche Fehler ihm weitergeben. (3) Einige Grenzen sind im Programm gesetzt: Maximale Zahl der Faktoren in ANOVA = 10 Maximale Zahl der Variablen = 350 (eingeschlossen die Konstanten in CALCULATE) Maximale Zahl von fehlenden Werten in LATTICE = 150 Auch einige andere Datenfelder haben eine fixierte Größe. Wenn nötig, können diese Beschränkungen nach einer weiteren Compilierung nach oben gesetzt werden. Im Zweifelsfalle wenden Sie sich an die Stelle, von der Sie das Programm bezogen haben. 10 LITERATURVERZEICHNIS 10 39 Literaturverzeichnis ANDERSON, R.L. and T.A. BANCROFT, 1952. Statistical Theory in Research. Mc Graw-Hill, New York. ANSCOMBE, F.J. and J.W. TUKEY, 1963. The examination and analysis of residuals. Technometrics 5, 141-160. BAKER, R.J. and R.I.H. MCKENZIE, 1967. Use of control plots in yield trials. Crop Sci. 7, 335-337. BENETT, C.A. and N.L. FRANKLIN, 1954. Statistical Analysis in Chemistry and Chemical Industry. Wiley, New York. BERK, K., 1987. Computing for incomplete repeated measures. Biometrics 43, 385-398. BLISS, C.I., 1967. Statistics in Biology. Vol. 1. McGraw-Hill, New York. BURNHAM, K.P. and D.R. ANDERSON, 1998. Model Selection and Inference. A Practical Information-Theoretic Approach. Springer, New York. CHANDRA, S., 1991. Optimal planning of unreplicated field trials in recurrent selection. Dissertation Hohenheim. COCHRAN, W.G., 1951. Testing a linear relation among variances. Biometrics 7, 1732. COCHRAN, W.G., 1957. Analysis of covariance: Its nature and uses. Biometrics 13, 261-281. COCHRAN, W.G. and G.M. COX, 1957. Experimental designs. Wiley, New York. DRAPER, N.R. and H. SMITH, 1998. Applied Regression Analysis. 3rd ed. Wiley, New York. FEDERER, W.T., 1955. Experimental Designs. Mcmillan Comp., New York. GOULDEN, C.H., 1952. Methods of Statistical Analysis. Wiley, New York. HARTLEY, H.O., 1956. A plan for programming analysis of variance for general purpose computers. Biometrics 12, 110-122. HEALY, M.J.R. and M.H. WESTMACOTT, 1956. Missing values in experiments analyzed on automatic computers. Appl. Statist. 5, 203-206. HENDERSON, C.R., 1953. Estimation of variance and covariance components. Biometrics 9, 226-252. JENSEN, N.F., 1976. Floating checks for plant breeding nurseries. Cereal Research Communications 4, 285-295. KEMPTON, R.A., 1984. The design and analysis of unreplicated field trials. Proc. of Fifth Meeting of the EUCARPIA Section Biometrics in Plant Breeding, Hohenheim, Vortr. Pflanzenzüchtg. 7, 219-242. 10 LITERATURVERZEICHNIS 40 KEMPTON, R.A. and P.N. FOX (eds.), 1997. Statistical Methods for Plant Variety Evaluation. Chapman&Hall, London. KNAPP, S.J. and W.C. BRIDGES, 1987. Confidence interval estimators for heritability for several mating and experimental designs. Theor. Appl. Genet. 73, 759-763. LE ROY, H.L. und W. GLUCKOWSKI, 1961. Die Bestimmung der Varianzkomponenten im a.b.c-Faktorenversuch mit ungleichen Klassenfrequenzen. Biometr. Zeitschrift 3, 73-91. MODE, C.J. and H.F. ROBINSON, 1959. Pleiotropism and the genetic variance and covariance. Biometrics 15, 518-537. PATTERSON, H.D. and E.R. WILLIAMS, 1976. A new class of resolvable incomplete block designs. Biometrika 63, 83-92. PERKINS, J.M. and J.L. JINKS, 1968. Environmental and genotype-environmental components of variability. III. Multiple lines and crosses. Heredity 23, 339-356. PREECE, D.A., 1971. Iterative procedures for missing values in experiments. Technometrics 13, 743-753. SEARLE, S.R., 1971. Linear Models. Wiley, New York. SEARLE, S.R., 1982. Technical reports on variance component estimation. Cornell Univ. See http://www.biom.cornell.edu/Publications/aco.html. SNEDECOR, G.W. and W.G. COCHRAN, 1967, 6th ed.; 1980, 7th ed. Statistical Methods. Iowa State University Press, Ames. TIETJEN, G.L., 1974. Exact and approximate tests for unbalanced random effects designs. Biometrics 30, 573-581. UTZ, H.F., 1972. Die Zerlegung der GenotypxUmwelt-Interaktionen. EDV in Medizin und Biologie 3, 52-59. UTZ, H.F., 1978. Ein Algol-60-Programm fuer die Analyse von balancierten faktoriellen Versuchsanlagen. EDV in Medizin und Biologie 9, 34. WILLIAMS, E.R., 1977. Iterative analysis of generalized lattice designs. Austr. J. Statist. 19, 39-42. WILLIAMS, E., PIEPHO, H.-P., and WHITAKER, D., 2011. Augmented p-rep designs. Biom. J. 53, 19-27 WRIGHT, A.J., 1971. The analysis and prediction of some two factor interactions in grass breeding. J.agric. Sci., Camb. 76, 301-306. YATES, F., 1933. The analysis of replicated experiments when the field results are incomplete. Emp.J.Exp.Agric. 1,129-142. YATES,F. 1936. A new method of arranging variety trials involving a large number of varieties. J. agric. Sci., Camb. 24, 424-455. 10 LITERATURVERZEICHNIS 41 YATES,F. and W.G. COCHRAN, 1938. The analysis of groups of experiments. J. agric. Sci., Camb. 28, 556-580. ANHANG A Liste der Befehle ANHANG A ! ! 42 Liste der Befehle Text bis zum Ende der Zeile Text nach ! wird als Kommentar angesehen BASIC/Q NROW NIDT NINPT NVAR LATTICE/Q T S K R NINPT NVAR ANOVA/Q NIDT NINPT NVAR UNREP/Q NPARZ NROW NCOL NSTD NIDT NINPT NVAR [siehe 3.2.1] [siehe [siehe [siehe [siehe 4.1.1] 5.1.1] 6.1.1] 7.1.1] mit NROW NIDT = Zahl der Versuchseinheiten oder Zeilen im Datensatz = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren NINPT = Zahl der einzulesenden Variablen NVAR = Zahl der zu analysierenden Variablen T = Zahl S = Zahl (bei K = Zahl (bei R = Zahl der Prüfgliedern der unvollständigen Blöcke je Wiederholung Blockversuch, S=1) der Parzellen je unvollständigem Block Blockversuch, S=1) der Wiederholungen mit 4-ziffrigem Qualifier Q (Voreinstellung 1110): MISS = 0 Nullen nicht als fehlende Werte behandeln = 1 Nullen als fehl. Werte behandeln (Voreinstellung) EXTR = 0 kein Test auf Ausreißer oder extreme Werte = 1 Test der Residuen auf Ausreißer (Voreinstellung) = 2 Test der Residuen und Effekte auf Ausreißer (nur ANOVA) PRIN = 0 keine Ausgabe der Varianzanalysetabellen (nur LATTICE) = 1 normaler Druck (Voreinstellung) = 2 Ausgabe der Effekte statt Mittelwerte (nur LATTICE) Spearmanschen Korrelationskoeff. drucken (nur BASIC) = 3 erweitertes Drucken bei fehlenden Werten (nur ANOVA und LATTICE) NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung) = 1 Mittelwerte auf sekundärer Ausgabedatei sichern = 2 transformierte (event. adj.) Parzellenwerte sichern = 3 adj. Mittelwerte und Parzellenwerte sichern (nur LATTICE) Zusätze für formatiertes Einlesen der Daten hänge $F mit einem FORTRAN-ähnlichen Format an, z.B. ANOVA 6 0 5 5 $F 15X, 2(F2.1), F5.2, 3X, F4.1 für Ausgeben der Effekte der unvollständigen Blöcke auf sekundäre Ausgabedatei bzw. für "augmented designs" mit n angehängten Parzellen LATTICE . . . $An [siehe 5.1.1] für unsortierte und unvollständige Datensätze, z.B. ANOVA . . . $ 2(1) 5(3) [siehe 6.1.11] ANHANG A Liste der Befehle 43 INPUT Variablenliste (jeweils erste 5 Zeichen von Bedeut.) [siehe 3.2.2] CALCULATE X2=X6/X7*100 X3=X3*X4-100 ! einige Beispiele [siehe 3.2.3] X2=LN(X2) X3=SQRT(X8) X4=EXP(X4) X5=ARCSINST(X10) X15=X1>0.5 X15=X3==100 X15=X14+(X1>=0.5)*10 VARIABLE NAMES Liste von Texten (erste 5 Zeichen werden benutzt) [siehe 3.2.4] Befehle nur im Zusammenhang mit ANOVA (Einfacher Blockversuch als Beispiel) [siehe 6.1.2 und 6.1.7] -----------------------------------------------------------------------------FACTORS TREAT=15 REPLICATION = 3 (beachte: als erste Zeile bringen) [siehe 6.1.2] MODEL R + T + RT (benutze jeweils das erste Zeichen des Faktornamens) [siehe 6.1.3] RANDOM R T [siehe 6.1.4] RESTRICT X1 [siehe 6.1.10] MEANS RT TA [siehe 6.1.5] EFFECTS TA [siehe 6.1.5] RANKS TA [siehe 6.1.5] SUBINT RT [siehe 6.1.6] TBT_TAB T $F $T $S $V (ist außerdem notwendig, wenn Qualifier NEWF=1 oder PLOT benutzt werden soll) 2(F5.0), 3(F5.1), ... für Formatierung Text ... für Überschrift [siehe 8.1] X2 für Sortierung X3p X3a X1 Ertr.p für Variablenwahl HERIT T oder HERIT T:C [siehe 6.1.8] GENOT/Q name z.B. GENOT T oder GEN T:BC mit name = Effekt-Kurzzeichen [siehe 6.1.9] Q = 1 zusätzlich Varianz-Kovarianz-Analysen ------------------------------------------------------------------------------FIT/Q Y X1 X2 ... (nur mit BASIC, je Regression eine Zeile) z.B. FIT X5 X1 X2 mit 3-ziffrigem Qualifier Q (Voreinstellung 111): [siehe 4.1.2] PRIN = 0 nur Regressionsanalysen ausgeben = 1 Kovarianzmatrix der Regressionskoeffizienten zusätzlich ausgeben (Voreinstellung) = 2 Kovarianzmatrix der Variablen zusätzlich ausgeben RSDL = 0 Residuen nicht ausgeben = 1 Test auf Ausreißer (Voreinstellung) = 2 gefittete Werte und Residuen auf sekund. Datei ausgeben ICPT = 0 Regression ohne y-Achsenabschnitt = 1 Regression mit y-Achsenabschnitt (Voreinstellung) ANHANG A NAMES OF TR/Q Liste der Befehle Liste von Texten 44 (mit Voreinstellung erste 5 Zeichen benutzt) NAMES/12 [siehe 3.2.5] mit Q = Länge des Textes, z.B. oder bei ANOVA: Q = Faktorsymbol und Länge des Textes , CHECKS z.B. NAMES/T12 Liste von Prüfgliednummern oder * [siehe 3.2.6] bei ANOVA mit Qualifier Faktorsymbol, z.B. CHECKS/T 24 CSV/Q Liste von fünf Identifikatoren [siehe 3.2.7] mit Q = E für englisches csv-Format (Dezimalpunkt und Komma) = G für deutsches csv-Format (Dezimalkomma und Strichpunkt) INDEX 1 PLOT/Q mit X4=-0.5*X1-1.33*X2+0.77*X3+100 X11=MC(X2,1,2,3) X1.X2 X5.X2 X3.X3 ! als Beispiele Q = 1 ein Diagramm je Seite (Voreinstellung) = 2 zwei Diagramme je Seite = 3 drei Diagramme je Seite [siehe 8.2] [siehe 8.3] PPLOT/n Xi.Xj [siehe 8.4] PostScript-Scatterdiagramm für Xi auf Xj n = n-tes Zeichen im Pedigree wird statt einer Nummer gezeichnet ERROR P n [siehe 8.5] mit P = Symbol des Faktors der Einzelversuche (oder Zahl der Versuche mit DFE- und SE-Zeilen) n = Spalte, in der DFE, .. in den Daten steht (Voreinstellung 12) OMISSListe von NVAR Zahlen [siehe 8.6] RUN [siehe 3.2.8] nach RUN folgt der eigentliche Datensatz EOD STOP [siehe 3.2.9] [siehe 3.2.10] ANHANG B Beispiele ANHANG B 45 Beispiele Mehrere Datenbeispiele sind in drei Dateien zu finden: 1. Beispiele mit BASIC in der Datei psdbasc.dat PSDBASC-1 = Einfaches Beispiel mit PLOT PSDBASC-2 = mit Korrelationsmatrix PSDBASC-3 = Test zur multiplen Regression (Amer. Statist. 1984) PSDBASC-4 = Multiple lineare Regress. (SNEDECOR und COCHRAN, 1980, S. 336) PSDBASC-5 = Polynomiale Regression (SNEDECOR und COCHRAN, 1980, S. 399) PSDBASC-6 = Orthogonale Polynome (SNEDECOR und COCHRAN, 1980, S. 405) PSDBASC-7 = Regression durch den Nullpunkt (SNEDECOR und C., 1980, S. 173) PSDBASC-8 = Spearman’s correlation (SNEDECOR und C., 1980, S. 192) 2. Beispiele mit LATTICE in der Datei psdlatt.dat PSDLATT-1 = Zweisatzgitter (COCHRAN und COX, S. 406 and 413) PSDLATT-2 = Randomisierter vollständiger Blockversuch (RCB) mit CALCULATE, CHECKS, INDEX und PLOT PSDLATT-3 = Dreisatz-Rechteckgitter (COCHRAN und COX, S. 418) PSDLATT-4 = Dreisatz-Rechteckgitter (FEDERER, 1955, S. 347) mit Gebrauch von Qualifier PSDLATT-5 = 10*8 Generalisiertes Gitter PSDLATT-6 = Dreisatzgitter mit verschiedenen Arten von fehlenden Werten PSDLATT-7 = Randomisierter vollständiger Blockversuch (RCB) mit verschiedenen Arten von fehlenden Werten PSDLATT-8 = 5*5 Zweisatzgitter (SCHNELL, 1957) PSDLATT-9 = 7*3 Generalisiertes Gitter mit 3 Wiederholungen 3. Beispiele mit ANOVA in der Datei psdanov.dat PSDANOV-1 = Spaltanlage (SNEDECOR and COCHRAN, 1980, S. 327) PSDANOV-2 = Randomisierter vollständiger Blockversuch (RCB) mit CALCULATE, CHECKS, INDEX und PLOT PSDANOV-3 = 3-faktorielles Experiment (SNEDECOR and COCHRAN, 1980, S. 318) mit TBT TAB und MEANS PSDANOV-4 = Unterteilung einer Zweifaktor-Interaktion, phänotyp. Stabilitätsanalyse, (YATES and COCHRAN, 1938) PSDANOV-5 = North Carolina Design I PSDANOV-6 = Versuchsserie bei Roggen mit ERROR und INDEX PSDANOV-7 = Berechnung von Erwartungswerten der MQ in einer Spaltanlage über Orte und Jahre 4. Beispiele mit UNREP in der Datei psdunrep.dat PSDUNREP = Beispielsdaten für Standardanlagen und gleitende Mittelwerte ANHANG C MODEL-Zeilen für einige Versuchsanlagen ANHANG C MODEL-Zeilen für einige Versuchsanlagen 1. Einfaktorieller vollständig randomisierter Blockversuch mit Varianten und Wiederholungen; event. über Orte, Jahre und Regionen Einzelversuch: Serie über Orte: Serie über Orte und Jahre: Serie über Regionen: Serie über Regionen und Jahre: MODEL W + V + WV MODEL O + W:O + V + VO + WVO MODEL J + O + JO + W:JO + V + VJ + VO + VJO + WVJO MODEL R + O:R + W:RO + V + VR + VO:R + WVRO MODEL J + R + JR + O:R + JO:R + W:JRO + V + VJ + VR + VJR + VO:R + VJO:R + WVJRO 2. Zweifaktorieller Versuch in vollständig randomisierter Blockanlage Faktor A, Faktor T, die A.T Kombinationen innerh. Wiederh. voll randomisiert; event. über Orte, Jahre und Regionen Einzelversuch: Serie über Orte: Serie über Orte und Jahre: Serie über Regionen: Serie über Regionen und Jahre: MODEL W + A + T + AT + WAT MODEL O + W:O + A + T + AT + AO + TO + ATO + WATO MODEL J + O + JO + W:JO + A + T + AT + AJ + TJ + ATJ + AO + TO + ATO + AJO + TJO + ATJO + WATJO MODEL R + O:R + W:RO + A + T + AT + AR + TR + ATR + AO:R + TO:R + ATO:R + WATRO MODEL J + R + JR + O:R + JO:R + W:JRO + A + T + AT + AJ + TJ + ATJ + AR + TR + ATR + AJR + TJR + ATJR + AO:R + TO:R + ATO:R + AJO:R + TJO:R + ATJO:R + WATJRO 46 ANHANG C MODEL-Zeilen für einige Versuchsanlagen 3. Zweifaktorielle Spaltanlage Faktor A in Großteilstücken, Faktor T in Kleinteilstücken innerh. Großteilstücken; event. über Orte, Jahre und Regionen Einzelversuch: Serie über Orte: Serie über Orte und Jahre: Serie über Regionen: Serie über Regionen und Jahre: MODEL W + A + WA/ + T + AT + WAT MODEL O + W:O + A + AO + WA:O/ + T + AT + TO + ATO + WATO MODEL J + O + JO + W:JO + A + AJ + AO + AJO + WA:JO/ + T + TJ + TO + TJO + AT + ATJ + ATO + ATJO + WATJO MODEL R + O:R + W:RO + A + AR + AO:R + WA:RO/ + T + TR + TO:R + AT + ATR + ATO:R + WATRO MODEL J + R + JR + O:R + JO:R + W:JRO + A + AJ + AR + AJR + AO:R + AJO:R + WA:JRO/ + T + TJ + TR + TJR + TO:R + TJO:R +AT +ATJ +ATR +ATJR +ATO:R +ATJO:R + WATJRO 4. Zweifaktorielle Streifenanlage Faktor A in Großteilstücken, Faktor T in dazu ”gekreuzten” Großteilstücken; event. über Orte, Jahre und Regionen Einzelversuch: Serie über Orte: Serie über Orte und Jahre: Serie über Regionen: Serie über Regionen und Jahre: MODEL W + A + WA/ + T + WT/ + AT + WAT MODEL O + W:O + A + AO + WA:O/ + T + TO + WT:O/ + AT + ATO + WATO MODEL J + O + JO + W:JO + A + AJ + AO + AJO + WA:JO/ + T + TJ + TO + TJO + WT:JO/ + AT + ATJ + ATO + ATJO + WATJO MODEL R + O:R + W:RO + A + AR + AO:R + WA:RO/ + T + TR + TO:R + WT:RO/ + AT + ATR + ATO:R + WATRO MODEL J + R + JR + O:R + JO:R + W:JRO + A + AJ + AR + AJR + AO:R + AJO:R + WA:JRO/ + T + TJ + TR + TJR + TO:R + TJO:R + WT:JRO/ + AT +ATJ +ATR +ATJR +ATO:R +ATJO:R + WATJRO 47