plabstat - Universität Hohenheim

Transcription

plabstat - Universität Hohenheim
PLABSTAT
Ein Computerprogramm
zur statistischen Analyse
von pflanzenzüchterischen Experimenten
Version 3A vom 14. Juni 2011
H.F. Utz
Institut für Pflanzenzüchtung,
Saatgutforschung und Populationsgenetik
Universität Hohenheim, 70593 Stuttgart
Email: [email protected]
Die wichtigsten Änderungen der Version3 im Vergleich zur Version2
1. Primes, mit denen Befehlsnamen in Version2 eingefasst wurden, entfallen.
2. Kommentare werden durch ! markiert bzw. alles was nach einem Ausrufezeichen
kommt, wird als Kommentar angesehen.
3. Um alte Dateien mit Version2-Befehlen weiter verarbeiten zu können, werden diese
von der Version3 automatisch umgeformt und weiterhin verrechnet.
Allerdings sind Kommentare innerhalb Befehlen nicht mehr möglich, etwa
’CALC’ ’’Berechnung von..’’ X1=X1/5
Der Kommentar muss nach hinten, also
’CALC’ X1=X1/5
’’Berechnung von..’’
Diese Version2-Variante wird akzeptiert.
Konform mit Version3 wäre
CALC X1=X1/5
! Berechnung von..
c Copyright
1986, 1991, 2003
H.F. Utz
Inhaltsverzeichnis
1
Was PLABSTAT ist
3
2
Ein einfaches Beispiel
4
3
Allgemeine Bedienung
3.1 Schreibregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Allgemeine Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Dateneingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
7
12
4
Einfache statistische Maßzahlen und Regressionsanalysen
4.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Ausgabe und Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
13
15
5
Einfache Block- und Gitteranlagen
5.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
16
18
19
6
Mehrfaktorielle Experimente
6.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
20
26
28
7
Nichtwiederholte Experimente
7.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
29
31
31
8
Ergänzende Befehle
33
9
Winke, Würmer, Wände
37
10 Literaturverzeichnis
39
ANHANG A Liste der Befehle
42
ANHANG B Beispiele
45
ANHANG C MODEL-Zeilen für einige Versuchsanlagen
46
1
WAS PLABSTAT IST
3
1 Was PLABSTAT ist
PLABSTAT kann als Kürzel für ”PLAnt Breeding STATistical program” oder auch als
”PLAnned Block experiments and their STATistical analysis” gelesen werden.
Obwohl genügend Statistikpakete auf dem Markt sind, besteht offensichtlich eine
Bedarf für ein kompaktes Programm, mit dem die wichtigsten Routineauswertungen
des Pflanzenversuchs durchgeführt werden können. Es sollte schneller als die großen
Pakete sein, leicht zu bedienen, kompakten Output erzeugen, Ausreißertests oder andere Kontrollen enthalten und wichtige Parameter wie Wiederholbarkeit oder Heritabilität schätzen.
Da ein Programm nie fertig ist und auch nicht alle Methoden enthalten kann, ist
PLABSTAT so angelegt, dass ein Umsteigen auf größere Pakete leicht möglich ist, etwa auf GENSTAT, das schon vom verwandten Namen her, solches nahe legen soll.
Vernachlässigt ist bei PLABSTAT der Input, dieser muß außerhalb des Programms mit
einem entsprechenden Editor, etwa mit KEDIT, THE, EMACS, WORD, EXCEL, oder
einem Datenbankprogramm erfolgen.
Im folgenden seien kurz die rechnerischen Möglichkeiten von PLABSTAT zusammengestellt.
Einfache statistische Maßzahlen und multiple Regression
Mit PLABSTAT lassen sich einfache statistische Maßzahlen, wie Varianz, Schiefe, Exzeß
oder Korrelationskoeffizienten von Variablen, schätzen. Einfache und multiple Regressionsanalysen, einschl. von Pfadkoeffizienten, können berechnet werden.
Gitteranlagen
PLABSTAT analysiert Gitteranlagen, genauer quadratische, Rechteck- und verallgemeinerte Gitteranlagen (PATTERSON und WILLIAMS, 1976), jeweils ohne Wiederholung des Grundplans. Für Gitteranlagen berechnet es die adjustierten Mittelwerte oder
Effekte und gibt eine Liste der unvollständigen Blockeffekte aus. Es prüft die Residuen
auf Ausreißer. Desweiteren können partiell wiederholte Anlagen (augmented designs,
p-rep designs) analysiert werden.
Mehrfaktorielle Experimente
PLABSTAT berechnet Varianzanalysen für balancierte Datensätze, wobei fehlende
Werte erlaubt sind. Bei vielen fehlenden Werten werden nur die Mittelwerte, berechnet nach der Methode der kleinsten Quadrate, ausgegeben. Das Programm verarbeitet
faktorielle und hierarchische Klassifikationen mit fixierten, zufälligen oder gemischten
Modellen. Situationen mit nichtorthogonalen Anlagen oder Reihen-Säulen-Anlagen,
wie Lat. Quadrat, sind ausgeschlossen, doch können solche Fälle über einen zweiten
Durchgang, siehe HARTLEY (1956), verarbeitet werden.
Es werden die Varianzanalyse-Tabellen, einschließlich Varianzkomponenten, deren
Standardfehler und F-Tests, sowie Mittelwerte mit Standardfehlern und Grenzdifferenzen berechnet. Tabellen von Mittelwerten, Effekten oder Rängen können ausgegeben
werden. Residuen und Effekte können auf Ausreißer hin überprüft werden.
2
EIN EINFACHES BEISPIEL
4
Heritabilitäten, genetische Korrelationen oder Kovarianzanalysen lassen sich errechnen. Zweiwegetafeln können nach einem Regressionsmodell varianzanalytisch
zerlegt werden.
Nichtwiederholte Experimente
Experimente ohne Wiederholung lassen sich, wenn Standards vorhanden sind, als
Standardanlage auswerten oder über gleitende Mittelwerte analysieren.
Weitere Möglichkeiten
Korrelationsdiagramme werden erzeugt. Mittelwerte und unvollständige Blockeffekte können auf eine Datei gegeben werden, um anschließend weitere Analysen damit
durchzuführen.
Neue Variablen werden berechnet oder vorhandene modifiziert. Beobachtungen
lassen sich überprüfen, ob gewisse Grenzen überschritten sind.
2
Ein einfaches Beispiel
Die Analyse mit PLABSTAT soll an einem simplen Beispiel demonstriert werden. In
einem rekurrenten Selektionsprogramm ist der Kornertrag während sechs aufeinanderfolgenden Zyklen gemessen worden. Um eine Vorstellung zu erhalten, wie sich die
Erträge entwickelt haben, soll ein Diagramm erzeugt werden. Die dazugehörigen Befehle und Daten sind folgende:
!!
Erträge von Mais in 6 Zyklen
! Kornertrag in kg/ha eingegeben
BASIC 6 0 2 2
VARIABLE_NAMES CYCLE YIELD
CALCULATE
X2=X2/100
! Ertrag in dt/ha
PLOT/2 X2.X1
RUN
1 4758
2 4970
3 5053
4 5376
5 5429
6 5607
EOD
STOP
Der erste Teil besteht aus den Befehlen, wobei die Befehlsnamen in Großbuchstaben geschrieben sind, und der zweite Teil aus den sechs Datenzeilen mit der Zyklusnummer und dem Ertrag. Alle Befehle und Daten sind in freiem Format gehalten, was
bedeutet, dass die einzelnen Größen durch Leerzeichen getrennt werden.
Mit ! werden Kommentare eingeleitet, die jeweils bis zum Ende der Zeile überlesen
werden. Die erste Zeile wird als als Titel des Experiments interpretiert. Hier wurde
doppeltes !! benutzt, um später leichter nach dem Titel des Experiments suchen zu
können.
2
EIN EINFACHES BEISPIEL
5
Der Befehl BASIC sagt dem Programm, dass Daten zu lesen sind, nämlich sechs Datenzeilen bestehend aus je zwei Werten. Die zweite Zwei in BASIC zeigt an, dass auch
zwei Merkmale oder Variablen zu verrechnen sind. Sollen zusätzliche Variablen berechnet oder Variablen weggelassen werden, dann ist die Zahl der einzulesenden Variablen nicht mehr identisch mit der Zahl der zu verrechnenden Variablen. Die zweite
Zahl der BASIC-Zeile, nämlich 0, wird in 4.1.1 erläutert.
Mit dem Befehl VARIABLE NAMES werden die Namen der beiden Variablen definiert.
Im CALCULATE wird Variable 2 mit 100 dividiert, um die Erträge in dt/ha anzugeben.
PLABSTAT
VERSION 3A
of 2003-08-16
INSTITUT FUER PFLANZENZUECHTUNG, UNIVERSITAET HOHENHEIM
At 2003/08/19
17h 54m 10s
!!
Erträge von Mais in 6 Zyklen
! Kornertrag in kg/ha eingegeben
BASIC 6 0 2 2
VARIABLE_NAMES CYCLE YIELD
CALCULATE
X2=X2/100
! Ertrag in dt/ha
PLOT/2 X2.X1
RUN
MIN
MAX
CYCLE
1.00
6.00
YIELD
47.58
56.07
SCATTER PLOT Erträge von Mais in 6 Zyklen
2003/08/16 12h 09m
YIELD
I
6 /
I
I
I
I
5
I
I
4
I
I
I
I
M
I
I
I
I
3
I
I
2
I
I
I
I
/ 1
-------------------M-------------------CYCLE
YIELD: Min 47.6
CYCLE:
1.0
Max 56.1
6.0
Mean 52.0
3.5
s.d. 3.2
1.9
b(Y.X) 1.6986
b(X.Y) 0.5728
Corr. 0.986
EOD
STOP
Mit PLOT wird dann das hier interessierende Diagramm erzeugt, indem der Ertrag
gegen die Zyklusnummer geplottet wird. Im einzelnen wird durch PLOT/2 mit dem
3
ALLGEMEINE BEDIENUNG
6
Qualifier 2 nach dem Schrägstrich vermerkt, dass eine besondere Ausgabe gewünscht
wird, nämlich dass das Diagramm kleiner gedruckt wird, so dass gerade zwei solche
Diagramme auf eine Seite gehen.
Mit der RUN-Zeile sind die PLABSTAT-Befehle abgeschlossen, es folgen die Daten.
Das Ende der Daten wird mit EOD angezeigt, der Abkürzung für End Of Data. Durch
den STOP-Befehl weiß PLABSTAT, dass kein weiterer Rechenjob folgt und der Job zu
Ende ist.
Nun sei der Output zu unserem kleinen Beispiel angeschaut, wobei er nicht
vollständig hier wiedergegeben werden soll. Die Befehlszeilen werden anfangs zu
Kontrollzwecken gelistet. Nach der RUN-Zeile werden die Befehle ausgeführt.
Wenn PLABSTAT einen Fehler beim Lesen der Befehle entdeckt, so gibt es eine
Meldung aus. Etwa wenn Sie fälschlich BASIC 6 0 K 2 eingegeben haben, dann meldet sich das System an der Stelle, wo es den Befehl nicht mehr interpretieren kann,
mit:
BASIC
***
6
WRONG
0
K 2
|
PARAMETER
VALUE
So können Sie leicht die Zeile verbessern und den korrekten Wert 2 anstelle von K
einsetzen.
Die beiden Ausgabezeilen, beginnend mit MIN und MAX, geben für jede Variable
den kleinsten und größten Wert.
Im Diagramm sind die Mittelwerte auf beiden Achsen mit dem Buchstaben M symbolisiert. Mit zwei Schrägstrichen ist der Anfangs- und Endpunkt der linearen Regressionsgerade markiert, so dass sie leicht von Hand nachgezogen werden kann. Die
Punkte sind aufsteigend durchgezählt wie die Daten, so dass der Experimentator auffallende Punkte identifizieren kann.
Unterhalb des Diagramms finden sich einige anderen Schätzwerte der beiden Variablen, wie Mittelwert, Standardabweichung, beide Regressionskoeffizienten und der
Korrelationskoeffizient.
3
Allgemeine Bedienung
PLABSTAT arbeitet mit ungefähr dreißig Befehlen. In diesem Kapitel soll kurz dargestellt werden, wie die PLABSTAT-Befehle formal zu schreiben, wie die allgemeinen
Befehle definiert und wie Daten einzugeben sind.
3.1
Schreibregeln
3.1.1 Der Name eines PLABSTAT-Befehls muß in Großbuchstaben eingegeben werden.
Befehlszeilen und ebenso Datenzeilen können bis zu 255 Zeichen lang sein.
3.1.2 PLABSTAT benutzt nur die ersten drei Buchstaben eines Befehlsnamens zur
Identifikation. Die anderen Zeichen in einem Befehlsnamen sind irrelevant. So
kann etwa VARIABLE NAMES als VAR oder VARIABLES oder VAR-NAMEN geschrieben
3
ALLGEMEINE BEDIENUNG
7
werden. Für Zwecke der leichteren Lesbarkeit wird empfohlen, Befehle nicht zu
sehr abzukürzen.
3.1.3 Jeder Befehl muß in der ersten Spalte beginnen. Wenn mehr als eine Zeile für
einen Befehl benötigt wird, so sind die folgenden Zeilen mit mindestens einem
Leerzeichen anzufangen, z. B.
VARIABLE_NAMES
CYCLE
YIELD
3.1.4 Befehle können meistenteils in beliebiger Reihenfolge eingegeben werden. Eine
Restriktion ist etwa, dass PLOT nur nach einem BASIC, LATTICE oder ANOVA-Befehl
gegeben werden kann, da zuerst Daten eingelesen sein müssen. Es wird empfohlen, die Befehle in logischer Ordnung niederzuschreiben.
3.1.5 Auf jeden Fall muß einer der vier Analysenbefehle BASIC, LATTICE , ANOVA oder
UNREP in einem PLABSTAT-Lauf gegeben werden, damit überhaupt eine Berechnung erfolgen kann.
3.1.6 Qualifier werden nach einem Schrägstrich eingegeben, z.B. ANOVA/12 . Mit einem
Qualifier können Voreinstellungswerte der Analyse oder der Ausgabe verändert
werden. Wenn der eingelesene Qualifier aus weniger Stellen als definiert besteht,
so wird der restliche Teil mit den Stellen der Voreinstellung aufgefüllt.
3.1.7 Wenn ein Befehl aus Versehen mehr als einmal geschrieben wird, dann wird nur
der letzte Befehl für eine Analyse benutzt.
3.2
Allgemeine Befehle
3.2.1 Kommentare nach !
Kommentare werden mit ! eingeleitet und gehen immer bis zum Ende der Zeile. Hiermit lassen sich der Titel und Details des Experiments oder sonstige Erläuterungen festhalten.
! beliebiger TEXT
Da die erste Zeile meist den Namen des Experiments enthält, ist zu empfehlen, diesen Kommentar etwa mit zwei !! einzuleiten, so dass er leichter gesucht werden kann.
Diese erste Kommentarzeile wird außerdem als Titel für Tabellen und Diagramme benutzt.
Kommentare können außerdem am Ende eines Befehls gegeben werden, etwa:
CALC X10 = X2/X3*100
! Standfestigkeit in Prozent
! wobei X2 = Zahl der aufrecht. Pfl. je Parz.
!
X3 = Zahl der vorhand. Pfl. je Parz.
3.2.2 Der Befehl INPUT
Über den INPUT-Befehl können Variablen in den CALCULATE-, PLOT-, RESTRICT-, FIToder TBT TAB-Befehlen mittels eines Namens angesprochen werden:
INPUT Variablenliste
3
ALLGEMEINE BEDIENUNG
8
Wird INPUT nicht eingesetzt, werden Variablen mit X1, X2, X3, ... angesprochen.
Variablennamen müssen mit einem Buchstaben beginnen, genauer mit einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Groß- und Kleinbuchstaben werden unterschieden. Nur die ersten fünf Buchstaben sind von Bedeutung.
Weitere Zeichen können für Zwecke der Dokumentation angehängt werden, werden
jedoch nicht beachtet. Etwa ist Ertrg und Ertrg dt/ha gleichwertig.
Reservierte Namen, die innerhalb CALCULATE verwendet werden, können nicht benutzt werden, nämlich NOTE, EXP, LN, SQRT, ARCSINST. Die arithmetischen Sonderzeichen, wie + - * / : ( ) und einige weitere, wie $ ! ? > < = . ; sind in Namen nicht zugelassen. Genauer sind alle ASCII-Zeichen mit Dezimalcode 40-47 und
2
58-63 je einschl. nicht zugelassen. Dagegen können andere Sonderzeichen, wie % [
] { } für die Namensgebung benutzt werden.
3.2.3 Der Befehl CALCULATE
Mit dem Befehl CALCULATE werden Variablen modifiziert, neue berechnet oder die Beobachtungswerte auf gewisse Grenzen hin überprüft. Beachte insbesondere, dass Leerstellen Formeln trennen, siehe (2).
(1) Variablen werden mit X1, X2, X3, ... bzw. mit den in INPUT definierten Variablennamen angesprochen. Desweiteren können Hilfsvariablen eingeführt werden, etwa
X50, Dummy1 oder Parz Groesse.
Alle Rechenoperationen werden im Gleitkommamodus ausgeführt. Ein Beispiel
für einen CALCULATE-Befehl ist:
CALCULATE X2=X1+X2+X3-100
CALCULATE Parz Groesse=3.5
Ertrag=Gewicht/Parz Groesse
CALC
TS%=Einwaage/Auswaage*100
(2) Berechnungen werden von links nach rechts vorgenommen. Leerzeichen innerhalb
von Ausdrücken sind nicht erlaubt, da Leerzeichen Zuweisungen trennen. So
kann eine CALCULATE-Befehlszeile mehrere Zuweisungen enthalten.
CALC X2=X6/X7*100.0
X3=X8*X9/X10
(3) Die üblichen Grundrechen-Operationen + - * und / sind möglich, außerdem die
ganzzahlige Division : . Etwa berechnet CALC X1=5:3 eine 1. Klammerausdrücke
sind erlaubt, nicht dagegen Potenzen.
CALC X5=X1/(X2-X3)*(-X4)
X5=((-X3+X4)/X1)-X2 .
(4) Als Funktionen sind möglich:
LN = natürlicher Logarithmus
SQRT = Quadratwurzel
EXP = Exponentialfunktion
ARCSINST = Arcussinus der Wurzel von X (mit 0 < X < 1)
wobei die Variablen in Klammer zu setzen sind, etwa:
CALC X3=LN(X2) X5=ARCSINST(X5) X3=X1+EXP(-1/X2)
3
ALLGEMEINE BEDIENUNG
9
(5) Mit NOTE kann abgefragt werden, ob in einer Variablen Werte vorkommen, die außerhalb einer bestimmten Grenze liegen. Dabei sind nur Abfragen mit ”größer
als” und ”kleiner als” möglich, etwa:
CALCULATE NOTE X6<X7
NOTE X7>99.9
(6) Kommentare können am Ende angefügt werden, etwa:
CALC X10=X2/X3*100 ! Standfestigk.
(7) Potenzen sind nicht erlaubt, dagegen können Klammerausdrücke verwendet werden. Komplexere Formeln sind also in angemessener Weise zu zerlegen, siehe
Datenbeispiele PSDLATT-2 und PSDANOV-2 in psdlatt.dat bzw. psdanov.dat
CALC Z0=Faktor*(Sollp-VPF)+VPF Z1=LN(2*X1*X1*X1)
(8) Auch bedingte Anweisungen können benutzt werden, etwa
CALC X15=X1>0.5 X16=X3==100
wobei folgende Vergleichsoperatoren zugelassen sind:
< kleiner
> größer
== gleich
<= kleiner oder gleich
>= größer oder gleich
<> ungleich
Bei der Ausführung ergibt sich ein Wert von 1, falls der Vergleich wahr ergibt,
bzw. 0, falls nicht wahr zutrifft. Bei fehlenden Werten, ergibt sich ein fehlender
Wert.
Diese Operatoren können in Ausdrücken weiter verwendet werden, etwa:
CALC X21=X14+(X1>=0.5)*10
d.h. es wird immer 10 zu X14 addiert, wenn X1 größer oder gleich 0.5 ist.
CALC X22=X14+X1>=0.5*10
d.h. es wird immer 1 zu X14 addiert, wenn X1 größer oder gleich 0.5*10 bzw. 5
ist.
Zu beachten ist die Reihenfolge in der Abarbeitung von Ausdrücken, wobei zuerst * und : , dann + und - , abschließend obige Vergleiche durchgeführt werden.
Bemerkung zum Rechnen mit Nullen:
Eine Division mit Null oder ein natürlicher Logarithmus von Null wird ergebnismäßig
als Null dargestellt. Wenn der Qualifier MISS=0 zugrunde liegt, also Nullen nicht als
fehlende Werte behandelt werden, dann ergibt etwa 100 + 0 = 100. Hingegen, wenn
MISS=1, dann ergibt sich bei Rechenoperationen mit Null ein fehlender Wert als Ergebnis.
3.2.4 Der Befehl VARIABLE NAMES
Mit diesem Befehl werden die Namen von Variablen spezifiziert. Diese Namen werden
dann in Tabellenüberschriften verwendet.
3
ALLGEMEINE BEDIENUNG
10
VARIABLE NAMES Variablenliste
Die Zahl der Namen muß mit NVAR, der Zahl der zu analysierenden Variablen,
übereinstimmen. Nur die ersten 5 Zeichen jeden Namens werden benutzt. Zu Dokumentationszwecken können die Namen verlängert werden, etwa von Ertrg auf
Ertrg dt/ha. Variablennamen müssen mit einem Buchstaben beginnen, genauer mit
einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Die Namen
werden durch ein oder mehrere Leerzeichen getrennt. Gleichheits- und Ausrufezeichen können innerhalb von Namen nicht benutzt werden. Ein Beispiel mit drei Variablen ist
VARIABLES Ertrag Standfestigkeit TS% (Trockensubst.Proz.)
Wurde der Befehl INPUT eingesetzt, werden mit VARIABLE NAMES die zu verrechnenden Variablen und deren Reihenfolge bei der Analyse festgelegt. Natürlich müssen die
Variablennamen dann mit den in INPUT und CALCULATE definierten Namen übereinstimmen, siehe auch 3.2.2.
3.2.5 Der Befehl NAMES OF TREATMENTS
Mit diesem Befehl werden Namen von Prüfgliedern eingelesen:
NAMES OF TREATMENTS/Q Liste von TEXTen
Die Zahl der Namen muß mit der Zahl der Prüfglieder übereinstimmen. Ohne Qualifier werden nur die ersten 5 Zeichen eines jeden Namens benutzt. Werden mehr Zeichen eingegeben, werden diese überlesen. Wenn weniger als 5 Zeichen geschrieben
werden, wird der Name bis zum Ende mit Leerzeichen aufgefüllt. Nur die ersten vier
NAMES-Zeilen werden im späteren Ausdruck gelistet. Gleichheitszeichen dürfen nicht
innerhalb eines Namens benutzt werden. Mit dem Qualifier Q kann erwirkt werden,
dass mehr als 5 Zeichen für Namen verwendet werden. Als Q wird dann die maximale Zahl der Zeichen in den Namen eingegeben. Beachte dabei, dass die Namenlänge
beim ersten NAMES-Aufruf zu ändern ist. Bei ANOVA muß mit einem weiteren Zeichen
im Qualifier das Symbol desjenigen Faktors vermerkt werden, auf den sich die Namen
beziehen (siehe FACTOR-Befehl 6.1.2). Beispiele hierfür sind:
NAMES_OF_TREATMENTS
D1
D2
D3
NAMES
E1*D2_(EMMA.LENA)*(DORA.ROSA)
M1*O2_(MARY.LENA)*(ORA_.ROSA)
NAMES/T9
Manchuria
Svansota
Velvet
Natürlich wird beim zweiten Beispiel nur E1*D2 und M1*O2 von PLABSTAT benutzt.
3.2.6 Der Befehl CHECKS
Damit werden die Standard- oder Kontrollprüfglieder festgelegt und eine zusätzliche
Tabelle von Prozentwerten ausgegeben, nämlich relative Prüfgliedmittelwerte in Prozent vom Mittelwert der Standardprüfglieder.
CHECKS/Q
Liste von Prüfgliedbezeichnern
Prüfgliedbezeichner sind die Nummern oder Namen der Standards. Wird ein Stern
* benutzt, wird auf den Versuchsmittelwert bezogen. Bei ANOVA muß als Qualifier das
3
ALLGEMEINE BEDIENUNG
11
Symbol desjenigen Faktors vermerkt werden, dem die Standardprüfglieder als Stufen
angehören (siehe FACTOR-Befehl 6.1.2). Bei LATTICE entfällt der Qualifier Q. Etwa
CHECKS 10 20 30
(bei LATTICE)
CHECKS/T 24 25
(bei ANOVA)
Um Serien von Experimenten, in denen oft zusätzliche lokale Standards zugelassen sind, verrechnen zu können, wird der Qualifier +n benutzt. Dabei werden nur die
ersten n Standardprüfglieder zur Berechnung der Relativwerte herangezogen, etwa
CHECKS/+2 TASSILO SYMPHONY
DUMMY1 DUMMY2 DUMMY3
Die nachgeordneten lokalen Standards, hier DUMMY1 bis DUMMY3, können in einzelnen
Experimenten fehlen. Im Korrelationsdiagramm werden die ersten n Standards zuerst
mit ihren Nummern angezeigt, anschließend die eigentlich zu testenden Prüfglieder
und zum Schluß die lokal angefügten Standardsorten. In mehrfaktoriellen Versuchen,
etwa in Serien von Tester×Linien gehen die Standardprüfglieder von CHECK/+ oder
CHECK/+n nicht in die ANOVA ein, sie werden nur in Korrelationsdiagrammen eingefügt.
3.2.7 Der Befehl CSV
Damit lassen sich csv-Dateien (comma separated values) erzeugen, die von Datenbanken leichter zu lesen sind. Es werden insgesamt vier csv-Dateien produziert:
*_mean.csv mit den Prüfgliedmittelwerten, *_perc.csv mit den Relativwerten als
Prozente vom Standardmittel, *_anov.csv mit Parametern aus den Varianzanalysen (etwa Freiheitsgrade, Abweichungsquadrate, Varianzkomponenten, F-Werte) und
*_corr.csv mit der Korrelationsmatrix der Prüfgliedmittelwerte. Übrigens ist auch die
*.mnv-Datei ene Art von csv-Datei, wobei das Leerzeichen als Trenner und der Dezimalpunkt benutzt wird. In den *_mean.csv und *_perc.csv können unter Benutzung
des ANOVA-Befehls ein- und zweifaktorielle Mittelwerttafeln ausgegeben werden, sofern diese im TBT_TAB-Befehl aufgerufen werden.
Es kann deutsches oder englisches Format für die csv-Dateien gewählt werden.
CSV/Q
Liste von fünf Identifikatoren
oder
CSV/Q
Calculation_ID,Crop,Trial,Year,Location
Mit dem Qualifier E bzw. ohne Qualifier wird englisches Format mit Dezimalpunkt
und Komma als Trenner benutzt. Mit dem Qualifier G wird deutsches Format mit Dezimalkomma und Semikolon als Trenner verwendet.
Die fünf Identifikatoren dienen als Kennzeichnung für den Versuch, etwa
CSV/E LP1,wheat,17,2009,serie
In diesem Falle werden alle erzeugten csv-Dateien mit diesen fünf einleitenden
Spalten versehen. An sich sind die fünf Identifikatoren frei wählbar.
Ist der erste Identifikator eine Zahl, z.B.
CSV/G 123,,,,
dann werden die Namen der csv-Dateien durch Anhängen an diese Zahl gebildet, also etwa 123_mean.csv, 123_corr.csv, 123_anov.csv, 123_perc.csv. Anderenfalls wird der Datendateiname entsprechend verlängert.
4
EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 12
3.2.8 Der Befehl RUN
Beim Aufruf von RUN führt PLABSTAT die vorausgehenden Befehle aus. Es ist möglich,
dass dabei weitere Fehler entdeckt werden, welche beim Einlesen der einzelnen Befehlszeilen nicht zu finden waren. So wird etwa geprüft, ob die Zahl der Variablennamen mit der Zahl der zu analysierenden Variablen übereinstimmt. RUN ist ein essentieller Befehl.
3.2.9 Der Befehl EOD
Nach dem RUN-Befehl erwartet PLABSTAT einen Datensatz, dessen Struktur durch den
gewählten BASIC- , LATTICE- , ANOVA- oder ANOVA-Befehl beschrieben worden ist. Die
Datenzeilen werden durch eine Zeile mit EOD abgeschlossen.
3.2.10 Der Befehl STOP
Hiermit wird ein PLABSTAT-Job abgeschlossen. Falls erwünscht, können vor dem STOP
weitere Jobs mit Befehls- und Datenzeilen gegeben werden.
3.3 Dateneingabe
Die Daten sind meistens numerischer Art und können in freiem Format, getrennt
durch mindestens ein Leerzeichen, eingegeben werden. Für jede Parzelle oder Versuchseinheit muß eine Datenzeile eingeben werden.
Zuweilen ist ein formatierter Input wünschenswert, etwa wenn Daten aus einer Datenbank übernommen werden sollen. In solchen Fällen kann ein FORTRAN-ähnliches
Format verwendet werden, näheres siehe 4.1, 5.1 oder 6.1.
Für LATTICE and ANOVA können, falls erwünscht, die Daten sortiert werden (5.1.2
und 6.1.11), was mit irgendeinem Sortierprogramm oder mittels des Editors durchgeführt werden kann.
Fehlende Werte werden über einen Stern * oder als Null eingegeben. In einer formatierten Eingabe können dazu Leerzeichen oder Nullen verwendet werden. PLABSTAT
ersetzt diese fehlenden Werte durch geschätzte Ersatzwerte, wenn LATTICE oder ANOVA
durchgeführt wird. Weitere Details finden sich in 5.1.2 und 6.1.11.
4
Einfache statistische Maßzahlen und Regressionsanalysen
Mit dem BASIC-Befehl werden einfache statistische Maßzahlen, wie Mittelwert, Varianz, Standardabweichung, Variationskoeffizient, Schiefe oder Exzeß für einzelne Variablen und die Matrix der Korrelationskoeffizienten für einen Satz von Variablen berechnet. Mediane, Quartile und Spearmansche Korrelationskoeffizienten sind wählbar. Mit dem FIT-Befehl läßt sich eine einfache oder multiple Regressionsanalyse
durchführen.
4
EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 13
4.1 Befehle
4.1.1 Der Befehl BASIC
Mit dem BASIC-Befehl werden Daten eingelesen und einfache statistische Maßzahlen
geschätzt:
BASIC/Q NROW NIDT NINPT NVAR
wobei NROW = Zahl der Einheiten oder Zeilen des Datensatzes
NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren
NINPT = Zahl der einzulesenden Variablen
NVAR = Zahl der zu analysierenden Variablen.
Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier,
einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte
Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier
besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF,
wobei MISS = 0
1
EXTR = 1
PRIN = 1
2
NEWF = 0
1
Nullen in den Daten nicht als fehl. Werte behandeln
Nullen als fehl. Werte behandeln (Voreinstellung)
nicht benutzt (Voreinstellung)
normale Ausgabe (Voreinstellung)
Ausgabe von Spearmanschen Korrelationskoeffizienten
Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung)
oder 2 transformierte Beobachtungswerte auf sek. Datei sichern.
Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann
kann an den BASIC-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
BASIC 16 0 6 6 $F X5, F2.1, 3F3.0, 1X, 2F.2
Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen
werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer
FORTRAN-Beschreibung.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben.
Mit PLOT (8.3) können Korrelationsdiagramme erzeugt werden.
4.1.2 Der Befehl FIT
Mit dem FIT-Befehl werden einfache und multiple Regressionsrechnungen durchgeführt, nachdem zuvor mit dem BASIC-Befehl die Daten eingelesen worden sind:
FIT/Q Y X1 X2 ....
wobei Y = Variablenbezeichner für die abhängige Variable Y
X1 = Variablenbezeichner der ersten unabhängigen Variablen
4
EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 14
X2 = Variablenbezeichner der zweiten unabhängigen Variablen
usw.
Sollen mehrere Regressionsanalysen durchgeführt werden, so muß jeder Variablensatz auf eine Zeile geschrieben werden, z.B.:
FIT X5 X1 X2 X3
Ertrg BD KZjeÄ TKG
Der Qualifier Q dient zur Steuerung. Er kann oft weggelassen werden. In diesem
Fall wird eine bestimmte Voreinstellung (default mit 111) vorgenommen, siehe dazu
auch 3.1.6. Der Qualifier besteht aus bis zu 3 Ziffern mit Namen PRIN, RSDL und ICPT
wobei PRIN = 0
1
2
RSDL = 0
1
2
ICPT = 0
1
nur Regressionsanalysen ausgeben
Kovarianzmatrix der multiplen Regressionskoeffizienten zusätzlich
ausgeben (Voreinstellung)
Kovarianzmatrix der Variablen zusätzlich ausgeben
Residuen nicht ausgeben
Test auf Ausreißer (Voreinstellung)
gefittete Werte und Residuen auf sekundäre Datei ausgeben
Regression ohne y-Achsenabschnitt
Regression mit y-Achsenabschnitt (Voreinstellung)
4.1.3 Die Dateneingabe
Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
ID1 ID2 ...
X1 X2 ...
ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten enthalten. Insgesamt NIDT solche Felder - durch Leerzeichen voneinander getrennt - werden
eingelesen, wobei NIDT auch Null sein kann. Diese Identifikatoren sind belanglos
für BASIC, so dass Sie beliebige Zeichen dafür wählen können.
X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen
werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann
eventuell durch obiges $F-Format doch eine Eingabe erreicht werden.
Beispiele für die Dateneingabe finden sich in Kapitel 2 und auf der Datei psdbasc.dat.
Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch
Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im
Qualifier des BASIC-Befehls gewählt, dann werden Nullen nicht als fehlende Werte
behandelt. Beachte: Datenpaare, die einen fehlenden Wert enthalten, werden beim
Schätzen einer Kovarianz innerhalb FIT weggelassen.
5
EINFACHE BLOCK- UND GITTERANLAGEN
15
4.2 Ausgabe und Methoden
Für jede zu analysierende Variable wird eine Zeile mit der Zahl der festgestellten Beobachtungen (Units) - fehlende Werte sind abgezogen -, mit dem Mittelwert (Mean), der
Varianz (Variance), der Standardabweichung (Std.dev), dem Variationskoeffizienten
(Coef.var), der Schiefe (Skewness) und dem Exzeß (Kurtosis).
Es wird der Schiefekoeffizient g1 ausgegeben, der in einer Normalverteilung 0 ist.
Bei positiven Schiefewerten ist die Verteilung rechtsschief, bei negativem linksschief.
Falls er signifikant von Null abweicht, wird bei P = 10%, 5% bzw. 1% mittels + , * oder
** eine entsprechende Signifikanz angezeigt. Entsprechendes gilt für den Exzeßschätzwert g2 , der bei einer Normalverteilung 0 ist, bei negativem Wert eine abgeflachtere
Verteilung, bei positivem Wert eine spitzgipfligere Verteilung anzeigt. Weiteres siehe
SNEDECOR und COCHRAN (1980, S. 79).
Treten fehlende Werte bei der Berechnung des Korrelationskoeffizienten zwischen
zwei Variablen auf, so wird jeweils das Paar von Beobachtungen ausgeschlossen, in
dem ein fehlender Wert enthalten ist.
In der multiplen Regressionstabelle findet sich unter der Überschrift Regr.coeff.
der y-Achsenabschnitt und die Regressionskoeffizienten. Daneben sind ihre Standardfehler unter Std.error und die t-Werte unter t-value zu finden. Unter
Std.regr.coeff. sind die Pfadkoeffizienten oder standardisierten Regressionskoeffizienten als Maße für die relative Bedeutung der einzelnen Regressionsvariablen aufgelistet, siehe auch SNEDECOR und COCHRAN (1980, S. 357). Unter part_r sind die
partiellen Korrelationskoeffizienten von Y auf Xi unter Konstanthalten der Xj (alle
j 6= i), unter part_SS die partiellen Summen der Abweichungsquadrate und unter
SSXY**2/SSX die Reduktionen in der Summe der Abweichungsquadrate durch die Einfachregression von Y auf Xi zu finden.
Für jedes Regressionsmodell werden das Bestimmtheitsmaß in % (R^2%), der multiple Korrelationskoeffizient (R) und das korrigierte Akaike Informationskriterium
(AICc) zum Vergleich verschiedener Modelle, siehe BURNHAM and ANDERSON
(1998), ausgegeben.
Ausreißer werden im Verlauf der multiplen Regressionsberechnungen getestet, siehe DRAPER und SMITH (1998). Dabei werden auffallende Restabweichungen und Datenpunkte, welche die Regression stark beeinflussen, aufgelistet.
Bei der multiplen Regression sollte beachtet werden, dass die numerischen Kalkulationen instabil werden können, wenn sehr hohe Korrelationskoeffizienten zwischen
Variablen, etwa r > 0, 998, auftreten. Ein solcher Nachteil kann vermieden werden,
wenn bei einer solchen Variablen über einen CALCULATE-Befehl ein Wert abgezogen
wird, der nahe oder auch gleich dem Variablenmittelwert ist, siehe dazu auch SNEDECOR und COCHRAN (1980, S. 400).
5 Einfache Block- und Gitteranlagen
Mit dem LATTICE-Befehl werden generalisierte Gitteranlagen (α-designs) und einfache
Blockexperimente analysiert. Zusätzlich lassen sich damit erweiterte teilweise wiederholte Anlagen (augmented p-rep designs, augmented designs, WILLIAMS et al.
2011) analysieren, deren Kern eine generalisierte Gitteranlage darstellt. Randomisierte
5
EINFACHE BLOCK- UND GITTERANLAGEN
16
vollständige Blockanlagen (RCB) können auch mit dem ANOVA-Befehl verarbeitet werden. Ein einfacher Blockversuch ist unter LATTICE mit weniger PLABSTAT-Befehlen
und geringerem Rechenaufwand zu verrechnen als unter ANOVA, jedoch muß bei der
LATTICE-Dateneingabe auf jeden Fall die Blocknummer eingegeben werden. Näheres
dazu im Abschnitt 5.1.2.
5.1 Befehle
5.1.1 Der Befehl LATTICE
Mit dem LATTICE-Befehl werden Daten eingelesen und Analysen durchgeführt:
LATTICE/Q T S K R NINPT NVAR
wobei T
S
K
R
NINPT
NVAR
= Zahl der Prüfglieder
= Zahl der unvollständigen Blöcke je Wiederholung
(falls Blockversuch, S=1 wählen)
= Zahl der Parzellen je unvollständigem Block
(falls Blockversuch, K=1 wählen)
= Zahl der Wiederholungen
= Zahl der einzulesenden Variablen
= Zahl der zu analysierenden Variablen.
Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier,
einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte
Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier
besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF,
wobei MISS = 0
1
EXTR = 0
1
PRIN = 0
1
2
3
NEWF = 0
1
2
3
Nullen nicht als fehl. Werte behandeln
Nullen als fehl. Werte behandeln (Voreinstellung)
kein Test auf extreme Werte bzw. Ausreißer
Testen auf extreme Werte (Voreinstellung)
keine Ausgabe der Varianzanalyse-Tabelle
Ausgabe der Varianzanalyse-Tabelle (Voreinstellung)
Ausgabe der adj. Prüfgliedeffekte statt der Prüfgliedmittelwerte
Ersatzwerte bei fehlenden Werten auch bei mehr als 15 ausgeben,
fehl. Prüfgl. in den Mittelwerttabellen nicht durch Null ersetzen
Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
adj. Mittelwerte auf sek. Datei sichern
transformierte adj. Parzellenwerte sichern
adj. Mittelwerte und adj. Parzellenwerte sichern.
Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll,
dann kann an den LATTICE-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B.
LATT 7 1 1 2 6 3
$F A6, 2I2, 3F3.0, 1X, 3F5.0
5
EINFACHE BLOCK- UND GITTERANLAGEN
17
Das erste Feld mit dem Identifikator muss dabei mit A6, die beiden nächsten Felder
(die Block- und die Prüfgliednummer, siehe 5.1.2) müssen mit einem I-Beschreiber und
die eigentlichen Meßwerte mit F- oder E-Beschreibern eingelesen werden. Daneben
können auch andere Beschreiber, etwa / für nachfolgende Zeile, verwendet werden.
Weiteres siehe in einer FORTRAN-Beschreibung.
Die Effekte der unvollständigen Blöcke (beim Gitter in adjustierter Form und den
dazugehörigen Wiederholungseffekt gleich addiert) können auf der sekundären Ausgabedatei gesichert werden, wenn ein $A an den LATTICE-Befehl angehängt wird, etwa:
LATT 7 1 1 2 6 3
$An
”Augmented designs” lassen sich damit verrechnen, indem die wiederholten bzw.
Standardprüfglieder zuerst eingelesen werden. Die Zahl der angehängten Prüfglieder
bzw. Parzellen n wird dabei nach $A vorgegeben. Die dazugehörigen Beobachtungsdaten werden im selben Format wie die Standardprüfglieder, siehe 5.1.2, nach deren Datenzeilen eingegeben. Entsprechend sind Block- und Prüfgliednummern (T+1, T+2,
... T+n) für jede der n Parzellen notwendig.
LATTICE kann auch mit nur einer Wiederholung (R=1) ausgeführt werden.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder. Mit CHECKS (3.2.6)
können Relativwerte zu den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes,
mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel oder der einzelnen Wiederholungen erzeugt werden und mit TBT TAB (8.1) können formatierte oder sortierte
Prüfgliedmittelwertlisten angewählt werden.
5.1.2 Die Dateneingabe
Für jede Parzelle oder Versuchseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
IDENTIFIKATOR BN TN X1 X2 ...
IDENTIFIKATOR ist ein alphanumerisches Feld, welches Experiment, Jahr, Ort, Kulturpflanzenart, u.ä. anzeigt. Wegen des Schreibens von adjustierten Mittelwerten
auf die sekundäre Ausgabedatei sollte der Identifikator maximal 6 Zeichen lang
sein.
BN gibt in Gittern die Nummer des unvollständigen Blocks an, in der die Parzelle sich
befindet, sie läuft 1,2, ... R*S. Im Blockversuch wird die Wiederholungsnummer,
1,2, ... R , verwendet.
TN ist die Prüfgliednummer mit den möglichen Werten 1, 2, ... T.
X1, X2, ... sind die NINPT Beobachtungen je Parzelle, die eingelesen werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann eventuell
durch obiges $F-Format doch eine Eingabe erreicht werden.
Die Daten können sortiert oder nichtsortiert eingehen. Beispiele finden sich auf der
Datei psdlatt.dat.
5
EINFACHE BLOCK- UND GITTERANLAGEN
18
Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch
Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im
Qualifier des LATTICE-Befehls gewählt, dann werden Nullen nicht als fehlende Werte behandelt. Übrigens können ganze Prüfglieder als fehlend betrachtet werden. In
diesem Fall setzt PLABSTAT den Prüfgliedeffekt als Null an und schätzt die fehlende
Werte wie gewohnt. Fehlende Prüfglieder werden in den Mittelwert-Tabellen und in
der sekundären Ausgabedatei als Null ausgegeben, sofern der LATTICE-Qualifier PRIN
nicht auf 3 gesetzt ist. Auch Fälle, in denen in einzelnen Variablen weniger Wiederholungen vorhanden sind, lassen sich analysieren.
5.2
Ausgabe
Schätzwerte für die fehlenden Werte werden nur gedruckt, wenn weniger als 15 Werte
fehlen. Wird der Qualifier PRIN=3 gesetzt, können auch mehr als 15 angezeigt werden.
Der Ausreißertest arbeitet in abgeänderter Form, nach der Methode von ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) und
stellt extreme Residuen (Parzellenfehler) fest. Damit mehrfache Ausreißer möglichst
gut identifiziert werden, wird zuerst ein robuster Schätzwert für die Fehlervarianz,
nämlich der MAD (Median der absoluten Residuen), berechnet. Damit werden die
standardisierten (bzw. studentisierten) Residuen, also Residuum dividiert durch die
Standardabweichung, berechnet. Wird eine gewisse Grenze, die von der Fehlervarianz
und dessen Freiheitsgraden abhängt, überschritten, wird der Beobachtungswert als
Ausreißer gemeldet. Da bei der Überprüfung normalverteilte Residuen vorausgesetzt
werden, können in manchen Fällen zu viele Extremwerte identifiziert werden.
Für jedes Merkmal wird dabei als erste Zeile die Wiederholungsmittelwerte
(Replic.means) ausgegeben und darunter die Liste der verdächtigen Ausreißer mit
dem studentisierten Residuum (St.Resid) und ihren Beobachtungswerten in jeder
Wiederholung. Es wird empfohlen, zuerst die Zeilen mit dem größten studentisierten
Residuum zu überprüfen. Wenn Sie sehr große Fehler, etwa Schreibfehler, in Ihrem Experiment korrigieren mußten, dann werden eventuell im zweiten Durchgang weitere
Ausreißer durch PLABSTAT ausgegeben.
Weiterhin ist eine Tabelle der Effekte der unvollständigen Blöcke zu finden. Diese
Effekte, in adjustierter Form geschätzt, spiegeln die Boden- oder sonstige Blockvariabilität wieder. Gradienten, Nester oder andere grobe Einflüsse auf die Daten können
damit gegebenfalls erkannt werden.
Für jedes Merkmal, sofern es variiert, wird eine Tabelle mit der Varianzanalyse
ausgegeben. Im Falle eines Gitters werden die Varianzkomponenten über eine ”IntraBlock-Analyse”, siehe FEDERER (1955) oder UTZ (1969, Bad Nauheim), berechnet. Auf
dieser Basis wird auch der F-Test für die Prüfglieder vorgenommen. Die Signifikanztests haben folgende Bedeutung:
+
*
**
signifikant bei 10% Irrtumswahrscheinlichkeit
signifikant bei 5% Irrtumswahrscheinlichkeit
signifikant bei 1% Irrtumswahrscheinlichkeit
Einige andere ausgegebene Parameterschätzwerte sind:
SE(tr)
= Standardfehler der (adjustierten) Prüfgliedmittelwerte
5
EINFACHE BLOCK- UND GITTERANLAGEN
19
= Standardabweichung der (adjustierten) Prüfgliedmittelwerte
= Variationskoeffizient (coefficient of variation),
= nämlich die Wurzel aus der effektiven Fehlervarianz
dividiert durch das Versuchsmittel mal 100
Repeat1% = Wiederholbarkeit (repeatability) eines einzelnen Parzellenwertes in %
= Var.-komp. der Prüfgl. /(Var.-Komp. der Prüfgl. + Eff. Fehlervar.)
Effic.
= Effizienz des Gitters im Vergleich zum Blockversuch in Prozent
my
= Wägungsfaktor der Gitteranalyse, siehe COCHRAN und COX (1957)
Eff.Err.MS = Effektive Fehlervarianz im Gitter oder Fehlervar. im Blockversuch
SD(tr)
C.V.%
Mit dem Parameter Repeat1% oder der Wiederholbarkeit einer Parzelle können Versuche hinsichtlich ihrer Genauigkeit verglichen werden, und zwar unabhängig von der
jeweiligen Zahl der Wiederholungen. Dieser Parameter ist auch dann beachtenswert,
wenn die Fehler- und Prüfgliedvarianz korreliert sind. Zeigt dagegen die Fehlervarianz eine Abhängigkeit vom Versuchsmittelwert, dann dürfte der Variationskoeffizient
C.V.% als Genauigkeitsmaß vorzuziehen sein.
Die Prüfgliedmittelwerte werden beim Gitter in allen Merkmalen adjustiert, in denen die Effizienz mehr als 100% beträgt. Dieses Vorgehen dürfte dem Versuchsansteller die besten Informationen geben und wird daher auch in den meisten Lehrbüchern
empfohlen.
Am Anfang der Tafel der Prüfgliedmittelwerte finden sich einige weitere Zeilen:
= obiger Variationskoeffizient
= obige Wiederholbarkeit Repeat1%
= Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit
= Mittelwert der Standardprüfglieder (falls CHECKS gegeben wurde)
= Versuchsmittel
oder
MwCh = Mittelwert der Nicht-Standard-Prüfglieder (Mean without Checks)
C.V.
REP1
LSD5
CHEC
MEAN
Ein Teil obiger Parameter wird auch auf die sekundäre Ausgabedatei geschrieben,
wenn der Qualifier NEWF=1 benutzt wird.
Wenn CHECKS gegeben wird, wird gleichzeitig eine Tabelle der adjustierten
Prüfgliedmittel in Prozenten vom Standardmittel erzeugt.
Ferner wird eine Tabelle der Korrelationskoeffizienten zwischen den Merkmalen,
berechnet aufgrund der (adjustierten) Prüfgliedmittelwerte, einschl. eines approximativen Signifikanztests ausgegeben.
5.3
Methoden
Die Analyse von generalisierten Gitteranlagen wird mittels einer iterativen Methode
nach WILLIAMS (1977) durchgeführt. Eingeschlossen sind die Spezialfälle eines quadratischen Gitters oder eines vollständigen Blockversuchs.
Fehlende Werte werden iterativ berechnet, indem die Fehlervarianz minimiert wird
(YATES, 1933; HEALY und WESTMACOTT, 1956). Die Iteration wird abgebrochen,
wenn die vierte Dezimale der Fehlervarianz bei wiederholter Iteration sich nicht mehr
ändert. Damit dürften die gegebenen Dezimalstellen in der Varianztabelle auch bei
6
MEHRFAKTORIELLE EXPERIMENTE
20
fehlenden Werten gültig sein. Die Zahl der notwendigen Iterationen wird mit Hilfe
eines Tricks von PREECE (1971) reduziert.
6
Mehrfaktorielle Experimente
Mit dem ANOVA-Befehl werden balancierte mehrfaktorielle Versuche analysiert und Interaktionen zwischen zwei Faktoren nach einem Regressionsmodell unterteilt, etwa
um eine phänotypische Stabilitätsanalyse durchzuführen.
6.1 Befehle
6.1.1 Der Befehl ANOVA
Mit dem ANOVA-Befehl werden Daten eingelesen und die dazugehörige Analyse durchgeführt:
ANOVA/Q NIDT NINPT NVAR
wobei NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren
NINPT = Zahl der einzulesenden Variablen
NVAR = Zahl der zu analysierenden Variablen.
Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier,
einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte
Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier
besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF,
wobei MISS = 0 Nullen nicht als fehl. Werte behandeln
1 Nullen als fehl. Werte behandeln (Voreinstellung)
EXTR = 0 kein Test auf extreme Werte bzw. Ausreißer
1 Test auf extreme Werte in den Residuen (Voreinstellung)
2 Test auf extreme Werte in den Residuen und Effekten
PRIN = 1 normale Ausgabe (Voreinstellung)
3 erweitertes Ausgeben bei fehlenden Werten, nämlich Ausgeben aller
errechneten Ersatzwerte, Belassen der Ersatzwerte in Mittelwerttabellen und Ausgeben von Konvergenzkriterien
NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
1 Mittelwerte auf sekundärer Datei sichern
2 (transformierte) Parzellenwerte auf sek. Datei sichern.
Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann
kann an den ANOVA-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
ANOVA 0 6 6
$F 5X, F2.1, 3F3.0, 1X, 3F5.2
Die Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen
6
MEHRFAKTORIELLE EXPERIMENTE
21
oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRANBeschreibung.
Die Befehle FACTORS, MODEL und gegebenfalls RANDOM sollten vor den ANOVA-Befehl
gestellt werden, da die experimentelle Struktur zuerst definiert sein muß.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben
und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder, so dass Tabellenüberschriften damit beschriftet werden können. Mit CHECKS (3.2.6) können Relativwerte zu
den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes und mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel erzeugt werden. Mit TBT TAB (6.1.7 und 8.1) lassen sich Mittelwerttabellen auch formatiert oder sortiert ausgeben. Mit ERROR können
Fehlervarianzen, Fehlerfreiheitsgrade u.a. aus Einzelversuchen übernommen werden,
wenn mit ANOVA eine zusammenfassende Auswertung über Serien von Experimenten
vorgenommen werden soll (siehe 8.5).
6.1.2 Der Befehl FACTORS
Dieser Befehl gibt die Faktoren und die Stufenzahl für jeden Faktor:
FACTORS
TEXT1=N1
TEXT2=N2
TEXT3=N3 ....
wobei die ersten 10 Zeichen jeden TEXTes als Faktorname dienen. Nach dem Gleichheitszeichen folgt die Zahl der Stufen N dieses Faktors. Beachte, dass Gleichheitszeichen innerhalb des Faktornamens nicht zugelassen sind.
Das erste Zeichen jeden Faktornamens wird als Kurzsymbol in Tabellen und anderen Befehlen, wie etwa MODEL oder MEANS benutzt, so dass die Faktornamen jeweils
mit verschiedenem Zeichen beginnen müssen. Folgende zwei Beispiele mögen obiges
verdeutlichen:
FACTORS T Sorten = 35 B Wiederholungen = 3
FACT VAETER = 178
MUETTER innerhalb Vaetern = 9
PLAETZE = 3
REIHEN in V und M = 2
Der FACTOR-Befehl muß, um die möglichen Faktorsymbole zu definieren, vor den
anderen Befehlen, wie MODEL oder RANDOM stehen. Die Reihenfolge der Faktornamen
in FACTORS gibt gleichzeitig die Reihenfolge der Daten wieder, nach der diese sortiert
sind, sofern die $-Spezifikation in ANOVA nicht benutzt wird.
Es ist möglich, mit nur einem Faktor eine Varianzanalyse durchzuführen.
6.1.3 Der Befehl MODEL
Dieser Befehl definiert das biometrische Modell für die Varianzanalyse. Der Befehl besteht aus den Effekten, welche durch eine Kombination von Faktorsymbolen symbolisiert und durch Pluszeichen verbunden werden:
MODEL EFFEKT1 + EFFEKT2 + EFFEKT3 + ...
Haupteffekte werden durch ein einzelnes Faktorsymbol und Interaktionseffekte
durch eine Kombination solcher Symbole dargestellt. Eine Dreifachklassifikation mit
den Faktorsymbolen A, B und C wird also wie folgt codiert:
6
MEHRFAKTORIELLE EXPERIMENTE
22
MODEL A + B + C + AB + AC + BC + ABC .
Hierarchische Effekte werden mit einem Doppelpunkt versehen, wobei die Faktoren, innerhalb denen der hierarchische sich befindet, nach dem Doppelpunkt gegeben
wird. Wenn etwa C ein hierarchischer Effekt innerhalb A und B ist, dann schreibt sich
das biometrische Modell wie folgt:
MODEL A + B + C:AB .
Der letzte Effekt wird immer als ein Fehler oder Residuum interpretiert. Wenn weitere Effekte als Fehler interpretiert werden sollen, etwa in Spaltanlagen der Fehler der
Großparzellen, so ist nach solchen Effekten ein Schrägstrich zu schreiben, z.B.
MODEL W + G + WG/ + K + KG + KGW
wobei W der Wiederholungseffekt, G der Effekt des Großteilstücksfaktors, K der
Effekt des Kleinteilstücksfaktors, KG der Interaktionseffekt der beiden Faktoren und
WG der Fehler der Großteilstücke und KGW der Fehler der Kleinteilstücke darstellt.
Nach der Reihenfolge der Effekte in MODEL werden die Zeilen in der Varianzanalysetabelle ausgegeben.
Der MODEL-Befehl muß sorgfältig ausgearbeitet werden, da die korrekte Aufteilung
der Totalvariabilität und die Richtigkeit der Signifikanztests davon abhängen. Zu diesem Zweck sollten Sie die Faktoren in Ihrem Experiment in faktorielle (kreuzklassifizierte) und hierarchische einteilen. Weiterhin müssen Sie die Randomisation Ihrer Versuchseinheiten nachvollziehen, erst dann haben Sie die Gewähr, das richtige Modell
aufgestellt zu haben. Weitere Hinweise sind im Anhang C oder in Büchern, wie SNEDECOR und COCHRAN (1980) oder SEARLE (1971), bzw. im Vorlesungsmanuskript
”Datenverarbeitung in der Angewandten Genetik” zu finden.
6.1.4 Der Befehl RANDOM
Mit diesem Befehl werden die zufälligen Faktoren definiert, alle nicht aufgeführten
Faktoren werden als fest behandelt:
RANDOM Liste von Faktorsymbolen
In obigem dreifaktoriellen Beispiel möge A fest, B und C zufällig sein, dann ist zu
schreiben:
RANDOM B C
Meist wird man Blöcke oder Wiederholungen sowie Orte und Jahre als zufällig
annehmen, um die in der Pflanzenproduktion üblichen Signifikanztests zu erhalten.
Wann ein Effekt als fest oder als zufällig zu gelten hat, besprach SEARLE (1971, S.
376ff).
6.1.5 Die Befehle MEANS, EFFECTS, PERCENTS und RANKS
Zwei-Wege-Mittelwerttabellen, einschließlich der Marginalmittelwerte, werden mit
MEANS Liste von Zweifaktor-EFFEKTen
erzeugt, beispielsweise:
MEANS AB AC
Durch die Reihenfolge der Faktorsymbole in der Liste wird gleichzeitig der Tabellenaufbau festgelegt, indem der erste Buchstabe den Reihenfaktor und der zweite den
6
MEHRFAKTORIELLE EXPERIMENTE
23
Säulenfaktor bezeichnet.
Enstsprechend können für Zweiwegetabellen die Effekte mit
EFFECTS Liste von Zweifaktor-EFFEKTen
die Prozente (relativ zum Mittelwert der Standardprüfglieder) mit
PERCENTS Liste von Zweifaktor-EFFEKTen
und die Ränge mit
RANKS Liste von Zweifaktor-EFFEKTen
angefordert werden. Natürlich sind diese Tabellen nur produzierbar und auch nur
sinnvoll, wenn der entsprechende Zweifaktor-Effekt in der MODEL-Zeile erscheint.
Beachte,
dass RANKS mindestens als RANK abgekürzt wird, da der Befehl sonst nicht von RANDOM
zu unterscheiden ist,
dass PERCENTS diejenigen Relativwerte bildet, die durch CHECKS definiert werden. Dabei muss CHECKS die Standard-Mittel des Reihenfaktors definieren, also wenn
PERCENTS TP ausgegeben werden soll, muss etwa CHECK/T * definiert sein (also
nicht CHECK/P * ). Der Import von Standard-Mittelwerten durch die CHEC-Zeile
in den Daten ist nur für TBT TAB-Tabellen möglich.
dass mit dem Befehl RESTRICT (6.1.10) die Ausgabe obiger Tabellen auf bestimmte
Variablen eingeschränkt werden kann. So kann etwa bei der Analyse von Kreuzungsexperimenten mit den Daten für Tester*Linien*Plätze nur für das wichtigste Merkmal detaillierte Zwei-Wege-Tabellen angefordert werden:
RESTRICT Ertrag
EFFECTS LT
(also die gca-sca-Tabelle)
RANKS LP
(also die Ränge der Linien an den Plätzen)
6.1.6 Der Befehl SUBINT
Eine Unterteilung der Wechselwirkungen (SUBdivision of the INTeractions = SUBINT)
in einer Zweiwegetafel kann mit diesem Befehl erreicht werden.
SUBINT Liste von Zweifaktor-EFFEKTen
Ein Beispiel dafür ist
SUBINT AB
SUBINT produziert eine Korrelationsmatrix der AB-Mittelwerte und berechnet eine
Stabilitätsanalyse, was insbesondere für Versuchsserien von Interesse ist. Weiteres im
Abschnitt 6.2.
Da eine Unterteilung sinnlos ist, wenn einer der beiden Faktoren weniger als drei
Stufen besitzt, werden nur Datensätze mit mindestens drei Stufen je Faktor analysiert.
Datensätze mit fehlenden Werten werden allerdings nicht optimal behandelt.
6.1.7 Der Befehl TBT TABLE
Eine Mittelwerttabelle über die Variablen hinweg (Treatment By Trait TABle =
TBT TAB) kann mit diesem Befehl angefordert werden:
6
MEHRFAKTORIELLE EXPERIMENTE
24
TBT TABLE Liste von EFFEKTen
beispielsweise
TBT TAB AB
TBTTAB ABC AB AC B
Gleichzeitig werden die in diesem Befehl genannten Mittelwerte auf die sekundäre
Ausgabedatei geschrieben oder über PLOT geplottet, falls der entsprechende ANOVAQualifier oder PLOT gegeben worden ist.
Wie mit TBT TAB Tabellen formatiert und gleichzeitig absolute und relative Werte
ausgegeben werden können, ist in Kap. 8.1 beschrieben.
6.1.8 Der Befehl HERITABILITY
Mit diesem Befehl wird für bestimmte Prüfgliedmittelwerte die Heritabilität berechnet:
HERIT Faktorsymbol
beispielsweise
HERIT T
HERIT T:C
Gleichzeitig wird in runder Klammer das dazugehörige 95%-Konfidenzintervall
ausgegeben.
6.1.9 Der Befehl GENOTYPIC CORRELATION MATRIX
Damit werden die phänotypische und genotypische Korrelationsmatrix und bei Bedarf
auch die ausführlichen Varianz-Kovarianzanalysen berechnet:
GENOT EFFEKT
Für den Prüfglied-EFFEKT, der in der MODEL-Zeile vertreten sein muß, wird die Korrelationsmatrix berechnet, beispeilsweise
GENOT T
GENOT T:BC
Wird der Qualifier auf 1 gesetzt, werden zusätzlich die Varianz-KovarianzAnalysen ausgegeben:
GENOT/1 EFFEKT
Wegen Interna werden diese Analysen vor den üblichen PLABSTAT-Analysen ausgegeben (zugegebenerweise, vielleicht etwas unmotiviert).
6.1.10 Der Befehl RESTRICT
Hiermit kann die Ausgabe von Zwei-Wege-Tabellen, die mit MEANS, EFFECTS,
PERCENTS, RANKS oder SUBINT erzeugt wurden, auf bestimmte Variablen beschränkt
werden:
RESTRICT Liste von Variablenbezeichnern
beispielsweise
RESTRICT X1 X5
RESTRICT Ertrag TKG
6
MEHRFAKTORIELLE EXPERIMENTE
25
6.1.11 Die Dateneingabe
Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
ID1 ID2 ...
X1 X2 ...
ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten anzeigen. Die
Felder werden durch ein oder mehrere Leerzeichen voneinander getrennt. Insgesamt NIDT solche Felder werden eingelesen, wobei NIDT auch Null sein kann.
Diese Identifikatoren sind, falls die Daten sortiert eingelesen werden, belanglos
für ANOVA, so dass Sie beliebige Zeichen dafür wählen können.
X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen
werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann
eventuell durch obiges $F-Format doch eine Eingabe erreicht werden.
Falls der Datensatz als sortiert eingelesen werden soll, muß die Reihenfolge der
Faktoren im FACTORS-Befehl so gewählt werden, dass sie mit der Sortierfolge übereinstimmt. Etwa wenn wie folgt sortiert ist,
A
1
1
2
2
3
3
B
1
2
1
2
1
2
X11
12.3
11.7
13.5
12.8
10.4
12.9
oder
B
1
2
1
2
1
2
A
1
1
2
2
3
3
X11
12.3
11.7
13.5
12.8
10.4
12.9
dann muß in beiden Fällen die Reihenfolge in der FACTORS-Zeile lauten:
FACTORS
A Faktor=3
B Faktor=2 ,
denn die lexikalische Reihenfolge obiger Daten basiert zuerst auf dem A-Namen,
dann auf dem B-Namen. Beispiele für die Dateneingabe finden sich auf der Datei psdanov.dat.
Falls die Daten nicht sortiert oder fehlende Datenzeilen vorhanden sind, dann muß
der ANOVA-Befehl mit einem Zusatz versehen werden, bei dem nach einem Dollarzeichen vermerkt wird, an welchen Stellen der Datenzeilen die Faktorstufen zu finden
sind:
ANOVA NIDT NINPT NVAR
$ K1 (KS1) K2 (KS2) K3 (KS3) ...
Die ganzzahligen Werte K1, K2, ... geben den Beginn derjenigen Spalten in den
Datenzeilen an, in denen die Stufenbezeichnungen für die einzelnen Faktoren beginnen. Die ganzzahligen Werte KS1, KS2, ... geben an, wieviele Zeichen die entsprechende Stufenbezeichnung lang ist.
Die Reihenfolge dieser Schlüsselzahlen hat in derselben Reihenfolge wie die Faktorbezeichnungen im FACTOR-Befehl zu erfolgen. Die NAMES-Befehle sind in diesem Falle
unnötig bzw. die Stufenbezeichnungen in Mittelwerttabellen erfolgt in der Reihenfolge
dieser Namen.
Ein Beispiel soll das Vorgehen verdeutlichen:
FACTOR Sorten = 15
Jahre = 2
Orte = 6
6
MEHRFAKTORIELLE EXPERIMENTE
ANOVA 3 8 8
26
$ 12(4) 3(2) 8(3)
wobei die dazugehörigen Datenzeilen folgendermaßen aufgebaut sind:
9987 XXP30 LEO 70.3 552 1.3 29.3 43.6 96.0 514 0
---- --In dieser Beobachtungszeile stellt also ”87” das Jahr, ”P30” den Ort und ”LEO” die
Sorte dar. Die Zahl der Identifikatoren ist davon unbeeinflußt und wird durch NIDT
wie gewohnt im ANOVA-Befehl angegeben.
Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch
Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im
Qualifier des ANOVA-Befehls gewählt, dann werden Nullen nicht als fehlende Werte
behandelt. Übrigens können auch einzelne Stufen oder Faktorkombinationen fehlen.
In diesem Fall nimmt PLABSTAT den entsprechenden Effekt als Null an und schätzt
die fehlende Werte wie bei der Methode der kleinsten Quadrate (”Fitting constants”)
gewohnt.
6.2
Ausgabe
Die Ausgabe von ANOVA beginnt mit einer Tafel der Erwartungswerte der Mittleren Abweichungsquadrate. Sie bildet die Basis für die Berechnung der Varianzkomponenten
und F-Werte. Diese Tafel ist für den balancierten Fall gültig.
In der Varianzanalyse-Tabelle werden neben den Freiheitsgraden (Degrees of Freedom = DF), Summen von Abweichungsquadraten (Sums of Squares = SS) und Mittleren
Abweichungsquadraten (Mean Squares = MS) die Varianzkomponenten Var.cp. und
ihre Standardfehler s(V.cp.) ausgegeben. Varianzkomponenten werden auch für feste Effekte ausgegeben, obwohl deren Größe dann selten von Interesse ist. Sie können
jedoch interpretiert werden, siehe SNEDECOR und COCHRAN (1980, Kap. 13.9).
Die F-Werte F mit Signifikanztests, siehe auch 5.2, sowie die dazugehörigen Freiheitsgrade des Zählers DF-NM und des Nenners DF-DN werden ausgegeben. Die Freiheitsgade sind nicht immer ganze Zahlen, da die SATTERTHWAITEsche Approximation in komplizierten Fällen benutzt wird.
Für jede Varianzursache oder genauer für die dazugehörigen Mittelwerte ist der
Standardfehler dieser Mittelwerte s.e. und die Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit LSD5 in den letzten beiden Spalten zu finden.
Die Heritabilität, nämlich der Quotient aus genetischer und phänotypischer Varianz von bestimmten Mittelwerten, und das dazugehörige 95%-Konfidenzintervall erscheint nach Aufruf von HERITAB. Zur Berechnung siehe KNAPP and BRIDGES (1987).
Der Ausreißertest wird nach ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) durchgeführt und stellt extreme Residuen (Parzellenfehler) fest. Dieser Test setzt normalverteilte Residuen voraus. Für einen
verdächtigen Extremwert wird der Prozentsatz des Residuums zur Testgröße ausgegeben. Zusätzlich können auch Effekte getestet werden, dann wird der verdächtige
Effekt mit seinen Stufennummern und dem Schätzwert ausgegeben.
Schätzwerte für die fehlenden Werte werden im Standardfall nur bis zu 15 fehlenden ausgegeben. Möchte man diese auch bei höheren Anzahlen gedruckt haben, ist im
ANOVA-Qualifier PRIN=3 zu wählen. In den Mittelwerttabellen und in der sekundären
6
MEHRFAKTORIELLE EXPERIMENTE
27
Ausgabedatei werden fehlende Werte als Null ausgegeben, sofern nicht obiger Qualifier auf 3 gesetzt ist.
Bei TBT TABLE mit Zweiwegetafel AB werden die Korrelatationskoeffizienten der
AB-Mittelwerte auf die marginalen A-Mittelwerte für jede Stufe von B berechnet. Bei
weniger als 20 Stufen für den Faktor A fehlt diese Tafel. Diese Korrelationen dürften
vor allem beim Analysieren von Serien von Interesse sein. Wenn diese Korrelationskoeffizienten verschieden sind, dürften die Interaktionseffekte unterschiedlich mit den
Haupteffekten korreliert sein. Korrelationskoeffizienten nahe Null dürften darauf hinweisen, dass die Werte dieser Stufe im Widerspruch zu denen auf anderen Stufen stehen. Diese Schätzwerte können bei der Interpretation von Zweiwegetafeln Hinweise
über Zusammenhänge geben. Eine ausführlichere Analyse liefert ein SUBINT-Aufruf.
Die Analyse einer Zweiwegetafel mittels SUBINT produziert zuerst eine zusammenfassende Varianzanalyse. Zur Interpretation siehe bei BLISS (1967), WRIGHT (1971)
oder UTZ (1972). Die beiden Unter-Varianzanalysen oder SubANOVAs sind nach YATES
und COCHRAN (1938) oder PERKINS und JINKS (1968) berechnet.
Für die Stufen der beiden Faktoren werden verschiedene Schätzwerte ausgegeben.
Wenn wir die Werte in einer Zweiwegetafel mit xik ansprechen, wobei i der Index für
die Reihe und k der Index für die Spalte darstellt, dann erhalten wir für die i-te Stufe:
= Mittel xi. , wobei der Punkt darauf hinweist,
dass über den Index k gemittelt ist,
Corr.
= Korrelationskoeffizient zwischen xik und x.k
Regr.
= dazugehöriger Regressionskoeffizient von xik auf x.k
MSdev
= Mittleres Abweichungsquadrat der xik von obiger Regression
MSentry
= einfache Varianz für die i-te Stufe, nämlich var(xik )i
MSinteract. = Varianz der Interaktionseffekte var(xik − xi. − x.k + x.. ) ,
welche mit der Ökovalenz von WRICKE, die als SQ definiert ist,
korrespondiert.
MSdevXHY
= Varianz der Abweichungen vom ”Site Highest Yield”,
wie JENSEN (1976) beschrieben hat.
Mean
Entsprechend sind die Schätzwerte für die k-te Stufe des anderen Faktors definierbar.
In den Kovarianzanalyse-Tabellen werden zusätzlich folgende Schätzwerte ausgegeben:
In der Spalte V.cp% der ANOVA-Tabellen findet sich für jede Varianzursache das
Verhältnis des Schätzwerts der Varianzkomponente zur Varianz der entsprechenden
Mittelwerte. In genetischen Situationen ist dieses Verhältnis für die Prüfglieder die
Heritabilität. Zu bemerken ist, dass sich diese Spalte nicht zu 100% addieren läßt.
Der phänotypische Korrelationskoeffizient r-phen wird für jede Zeile in den
ANCOVA-Tabellen berechnet und getestet. Der genotypische Korrelationskoeffizient
ist unter r-gen, sein Standardfehler unter s(r-gen) zu finden. Falls der genotypische
Korrelationskoeffizient mit seinem absoluten Betrag größer als der einfache Standardfehler ist, wird ein + angehängt, wenn er größer als der zweifache Standardfehler ist,
ein ++\verb.
6
MEHRFAKTORIELLE EXPERIMENTE
28
6.3 Methoden
Die Variananalyse wird mit Hilfe der Algorithmen AS1, ASR1, AS18 und AS19 berechnet, die in Appl. Statist. Band 17 und 19, siehe auch UTZ (1978), veröffentlicht
worden sind. Diese Algorithmen wurden in FORTRAN übersetzt und hinsichtlich der
Rechenzeit schneller gemacht. Die Berechnungen werden mit doppelter Genauigkeit
ausgeführt und die Summe der Abweichungsquadrate werden über die Effekte berechnet.
Die SATTERTHWAITEsche Approximation der F-Werte basiert auf dem Typ
F = (MS1 + MS4) / (MS2 + MS3) ,
also nicht auf dem Typ
F = MS1 / (MS2 + MS3 - MS4) ,
siehe dazu auch COCHRAN (1951) oder SNEDECOR und COCHRAN (1980, Kap.
16.14).
Fehlende Werte werden iterativ nach der Methode der kleinsten Quadrate, wie
schon unter 5.3 beschrieben, berechnet. Zuweilen fehlt eine Stufe eines Faktors oder
eine Faktorkombination völlig, dann gibt PLABSTAT die Meldung aus:
MISSING LEVEL(S) IN ...
Sollte der Iterationsprozess nicht konvergieren - hoffentlich selten - , dann wird ein
entsprechender Vermerk gegeben und die einfachen Mittelwerte berechnet.
Bei fehlenden Werten sind die Prüfglied-MQ überschätzt und die F-Werte ergeben
zu oft signifikante Resultate. Bei wenigen fehlenden Werten kann dies vernachlässigt
werden (COCHRAN und COX, 1957, Kap. 3.7). Eine grobe Grenze für eine nicht mehr
zu tolerierende Verzerrung geben BENNETT und FRANKLIN (1954) mit 10% fehlender Werte an. Daher wird in Fällen mit mehr als 13% fehlender Werte von PLABSTAT
keine Varianzanalyse mehr ausgegeben. Bei fehlenden Werten können die MQ nach
SNEDECOR und COCHRAN (1980, Kap. 15.3), GOULDEN (1952; Kap. 14) oder SEARLE (1971) nachträglich korrigiert werden. BERK (1987) verglich die möglichen Methoden miteinander. Gegebenenfalls ist auf ein Statistikpaket für Analysen von unbalancierten Datensätzen zu wechseln.
Die Standardfehler von genotypischen Korrelationskoeffizienten, die mittels GENOT
(6.1.9) angefordert werden, werden nach MODE und ROBINSON (1959) berechnet.
Im unbalancierten Fall wird die analoge Varianzanalysemethode oder Methode 1
nach HENDERSON (1953) für die Varianz-Kovarianzanalysen verwendet, siehe auch
SEARLE (1971, S. 424ff). Varianz- und Kovarianzkomponenten sowie F-Tests werden
dabei berechnet als ob die MS und MP balanciert ist. Dieses Verfahren wird von TIETJEN (1974, Biometrics 30,573) für den F-Test sinnvoller angesehen als ein F-Test basierend auf der SATTERTHWAITE-Approximation. Natürlich kann der Experimentator bei sehr unbalancierten Datensätzen mit gemischten Modellen eine REML-Analyse
durchführen, wie sie etwa in SAS, GENSTAT, ASREML oder R möglich ist.
Beachte:
Bei fehlenden Werten kann demnach PLABSTAT in den Kovarianzanalysen, mit
GENOT/1 erwirkt, andere SQ und MQ bzw. SP und MP ausgeben als in den Varianzanalysen. Bei Henderson 1 können auch negative SQ (bzw. SQ-Ananloge) errechnet
werden. Bei jeder Kovarianzanalyse werden die beiden Varianzanalysen neu erstellt
und dabei die gemeinsamen fehlenden Werte aus der Analyse weggelassen. Daher lassen sich in gewissen Fällen die Korrelationkoeffizenten nicht über die ausgegebenen
7
NICHTWIEDERHOLTE EXPERIMENTE
29
Analysen nachrechnen.
Selbstverständlich ist es dem Anwender in stärker unbalancierten Datensätzen freigestellt, die Erwartungswerte der SQ bzw. MQ für Henderson 1 nach Searle (1971) oder
BLISS (1967), LE ROY und GLUCKOWSKI (1961) zu berechnen sowie andere Tests
durchzuführen. Dies ist bei Henderson 1 natürlich nur für völlig zufällige Modelle
möglich (siehe SEARLE, 1971, S.429f). Für gemischte Modelle vergleiche BERK (1987)
oder SEARLE (1982), der die Statistikpakete SAS, GENSTAT, SYSTAT u.a. hinsichtlich
gültiger Lösungen vergleicht.
Desweiteren wird der Restfehler nach Henderson 1 bekanntlich verzerrt geschätzt,
siehe HENDERSON (1953). Auch hier kann es sinnvoll sein, den unverzerrten Schätzer
zu verwenden, der z.B. durch Poolen der effektiven Fehlervarianz in einer Serie von
Gitteranlagen leicht von Hand zu ermitteln ist.
7 Nichtwiederholte Experimente
Mit dem UNREP-Befehl werden Experimente ohne Wiederholung analysiert, wobei eine
Eliminierung etwaiger Gradienten über Standardprüfglieder oder gleitender Mittelwerte vorgenommen wird.
7.1 Befehle
7.1.1 Der Befehl UNREPLICATED
Mit dem UNREP-Befehl werden Daten aus nichtwiederholten Versuchen eingelesen und
analysiert:
UNREP/Q
NPARZ NROW NCOL NSTD NIDT NINPT NVAR
wobei NPARZ = Gesamtzahl der Einheiten oder der zu verrechnenden Parzellen,
mit NPARZ ≤ NROW×NCOL
NROW = Zahl der Reihen oder Beete
NCOL = Zahl der Säulen oder Parzellen je Beet
NSTD = 0 mit gleitenden Mitteln wird adjustiert
= n mit Standardprüfgliedern wird adjustiert
wobei n die Zahl der Standardsorten, die im Versuch mehrmals
vorkommen, angibt. (Nur einmal vorkommende Standardsorten laufen
als normale Testprüfglieder.)
NIDT = 4 bzw. Zahl der Felder, welche die Datenzeile identifizieren
(Es wird ein alphanumerischer Identifikator für das Experiment,
eine Reihen-, Säulen- und Prüfgliednummer benötigt.)
NINPT = Zahl der einzulesenden Variablen
NVAR = Zahl der zu analysierenden Variablen.
Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier,
einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte
Voreinstellung (default mit 1110) angenommen, siehe dazu auch 3.1.6. Der Qualifier
besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF,
7
NICHTWIEDERHOLTE EXPERIMENTE
wobei MISS = 0
1
EXTR = 1
PRIN = 1
3
NEWF = 0
1
30
Nullen in den Daten nicht als fehl. Werte behandeln
Nullen als fehl. Werte behandeln (Voreinstellung)
nicht benutzt (Voreinstellung)
normale Ausgabe (Voreinstellung)
Detaillierte Ausgabe mit unadj. und adj. Beobachtungen,
je Merkmal nebeneinander in *.prt gelistet
Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung)
oder 2 adjustierte Beobachtungswerte auf sek. Datei sichern.
Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann
kann an den UNREP-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
UNREP 27 3 9 3 4 3 4 $F 6X,2I2,I5,3F5.0
Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen
werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer
FORTRAN-Beschreibung.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) und mit NAMES OF TREATMENTS
(3.2.5) lassen sich die Namen der Variablen oder Prüfglieder eingeben. Mit PLOT (8.3)
können Korrelationsdiagramme erzeugt werden. Mit TBT TAB (8.1) lassen sich formatierte und sortierte Beobachtungstabellen erzeugen.
Bei gleitenden Mittelwerten kann CHECKS (3.2.6) mit Nummern der Standards
benutzt werden, etwa
CHECKS 1 2 11 12
7.1.2 Die Dateneingabe
Bei jeder Parzelle müssen Position, also Reihen- und Säulennummer, und Prüfgliednummer angegeben werden, etwa wie folgt:
T299XX 01 01 1 5.0 1.0 ...
wobei diese nacheinander durch ein oder mehrere Leerzeichen getrennt einzugeben sind, der Versuchsidentifikator, Reihen- und Säulennummer (1,2 ... NROW bzw. 1, 2
... NCOL), Prüfgliednummer und die Beobachtungswerte. Die erste Säule, der Identifikator sollte 6 Zeichen breit sein und über die Datenzeilen konstant sein. Standardsorten
müssen durch eine Prüfgliednummer größer als 99000 kenntlich gemacht werden.
Die Reihenfolge der einzulesenden Datenzeilen ist frei. Es können in einem durch
NROW×NCOL beschriebenen Rechteck außerdem Parzellen bzw. Datenzeilen, etwa in einer Ecke, fehlen.
Fehlende Werte am besten mit Stern *, wie sonst auch, eingeben.
Pedigrees werden über den NAMES-Befehl, wie gewohnt, eingeführt, wobei in der
Reihenfolge der Prüfgliednummern die Pedigrees folgen (bei NSTD=0) oder in der Reihenfolge der einlaufenden Parzellen (bei NSTD>0).
In der Datei psdunrep.dat sind Beispielsdatensätze zu finden, die einmal mit der
7
NICHTWIEDERHOLTE EXPERIMENTE
31
Standardmethode und zum anderen mit gleitenden Mitteln verrechnet werden.
7.2 Ausgabe
Zuerst wird eine Zusammenfassung der unkorrigierten Daten wie mit dem BASICBefehl ausgegeben. Anschließend werden der Korrelationskoeffizient r(obs,concom)
und der Regressionskoeffizient b(obs.concom) zur Beurteilung der Effizienz der Adjustierung, weiteres siehe 7.3.3, gegeben. Mit einer Tabelle der adjustierten Beobachtungswerte, identisch mit einer TBT-Tabelle, wird abgeschlossen. Bei gleitenden Mittelwerten werden in letzterer eventuell Mittelwerte errechnet, wenn bestimmte oder alle
Prüfglieder mehrfach vorkommen. Dadurch läßt sich überprüfen, ob in einem Blockversuch eine Trendkurve nachweisbar ist und ob an eine Elimination dieses Trends zu
denken ist.
Wird PRIN=3 gegeben, finden sich getrennt nach dem Merkmal weitere Zwischenresultate der Berechnungen, nämlich bei einer Standardanlage:
Mean of checks, Check means, No. of check plots sowie
NBETW = maximum distance between two check plots
NNMIN = minimum number of check plots for the adjustment of a test plot
(e.g. in the corner or with missing check plots)
NNMAX = maximum number of check plots for the adjustment of a test plot
Unter CHECK PLOT VALUES werden die Residuen jeder Standardparzelle und
die Mittelwerte der Residuen der direkt benachbarten Standardparzellen aufgeführt. Die Assoziation der beiden Variablen wird durch die beiden Koeffizienten
r = r(obs,concom) und b = b(obs.concom) beschrieben.
Unter PLOT VALUES werden für jede Parzelle die Position im Versuch, nämlich
Reihen- und Säulen-Nummer der Parzelle, und der Typ (bei Testparzellen typ = 0, bei
Standardparzellen typ = i, nämlich die Nummer des Standards), der nichtadjustierte
und der adjustierte Beobachtungswert und die Differenz der letzteren beiden bzw. der
Betrag der Adjustierung gelistet.
Bei Gleitenden Mittelwerten (Moving averages) wird unter PLOT VALUES ebenfalls die Position der Parzellen, ihre Prüfgliednummer und die Beobachtungswerte, nichtadjustiert, adjustiert und das zum Ausgleich benutzte gleitende Mittel
(mov.ave.), zusätzlich gelistet.
7.3
Methoden
Ein etwaiger Gradient wird bei der Standardanlage mittels der nächstliegenden Standards oder bei den gleitenden Mittelwerten mittels benachbarter Parzellen geschätzt.
Die Standardanlage ist weniger zu empfehlen, siehe 7.3.3. Sie wurde hier als Variante
berücksichtigt, da sie in der praktischen Pflanzenzüchtung oft eingesetzt worden ist.
7.3.1 Standardanlage
Als Schätzwerte für die Bodengüte werden zuerst die Differenzen der Standardparzellen zu ihrem jeweiligen Sortenmittelwert berechnet. Als Kovariable (concomitant
7
NICHTWIEDERHOLTE EXPERIMENTE
32
variable) für den Ausgleich wird das Mittel aller solchen Differenzen benutzt, die in
einem Rechteck, um eine Standardparzelle liegen. Dieses Rechteck wird durch den
nächsten Standard auf der linken und rechten Seite gebildet und umfasst das Beet
oberhalb und unterhalb der Testparzelle. Dieser an den Standardparzellen kalibrierte
Regressionskoeffizient b(obs.concom) wird zur Gewichtung der nachfolgenden Testparzellen mit der entsprechenden Kovariablen verwendet. In den Ecken und Rändern
bzw. wenn fehlende Standards vorhanden sind, wird eben über weniger benachbarte
Standardparzellen-Abweichungen gemittelt. Die Standards können beliebig positioniert sein, sie können etwa in Streifen oder anderen mehr oder weniger regelmäßigen
Mustern (Diamonds) angeordnet sein. Bei mehrfachen Standards nebeneinander werden nur die nächstliegenden zur Adjustierung verwendet.
7.3.2 Gleitende Mittelwerte
Für jede zu adjustierende Parzelle werden die zehn benachbarten Beobachtungen,
nämlich die von den vier linken und vier rechten Parzellen und von der direkt darüber
und darunterliegenden Parzelle, zu einem Mittelwert zusammengefaßt und als Kovariable (concomitant variable) für eine Adjustierung benutzt. In den Ecken wird über
entsprechend weniger Nachparparzellen gemittelt. Bei dieser Methode wird der Trend
mit Hilfe eines Mittels, das über mehr Parzellen als bei der Standardanlage gebildet
wird, geschätzt. Dies ist auch notwendig, da die Nachbarbeobachtungen ja jeweils andere genotypische Effekte enthalten.
7.3.3 Hinweise zur Beurteilung der Adjustierungen
Der Regressionskoeffizient b(obs.concom) , da er kleiner als 1 ist, dient dazu eine
Überkorrektur zu vermeiden (siehe YATES, 1936). Mit dem Korrelationskoeffizienten
r(obs,concom) kann der Wert einer Adjustierung beurteilt werden. Nach COCHRAN
(1957) sollte er mindestens 0.3 betragen, anderenfalls wird sich eine Korrektur nicht
lohnen. An sich sollten die Korrelationskoeffizienten positiv sein, negative sind nur
bei starker Konkurrenz unter den Prüfgliedern zu erwarten. Daher sind negative wohl
als unbrauchbar für eine Adjustierung eines Bodentrends anzusehen.
Eine Standardanlage ist nach BAKER and McKENZIE (1967) wohl selten empfehlenswert. Denn setzt man, wie es oft der Fall ist, etwa auf jede zehnte Parzelle einen
Standard, dann ist dies zu wenig, um einen Bodengradienten ausreichend genau zu
schätzen. Benutzt man mehrere Standards (etwa vier) nebeneinander oder setzt auf jeder zweiten Parzelle Standards ein, dann mag zwar eine Schätzung des Bodengradienten eher möglich sein. Doch wird damit der Anteil der Standardparzellen im Vergleich
zu den eigentlichen Testparzellen zu hoch und die Korrektur zu teuer.
Gleitende Mittelwerte sind daher eher zu empfehlen, Voraussetzung dabei ist aber,
dass die Prüfglieder randomisiert auf dem Feld stehen, sonst werden etwaige Familieneffekte eliminiert. Je nach Art des Gradienten und Höhe des Versuchsfehlers dürfte
die optimale Kovariable verschieden zusammengesetzt sein. Die benutzten zehn Parzellen dürften einen brauchbaren Kompromiss darstellen. Wichtig scheint auch, dass
Parzellen in der Senkrechten zum Korrigieren mit eingehen, etwa in ein- oder zweireihigen Experimenten, um senkrechte Einflüsse, wie Schlepperspuren, auszuschalten.
Siehe auch Literatur zu Nächstnachbarmethoden.
8
ERGÄNZENDE BEFEHLE
33
Weitere Details und Literatur siehe CHANDRA (1991), KEMPTON (1984), KEMPTON und FOX (1997, Kap. 5-7) oder YATES (1936).
8 Ergänzende Befehle
Anbei sind einige ergänzende Befehle beschrieben, die insbesondere für LATTICE- und
ANOVA-Läufe von Interesse sind.
8.1 Der Befehl TBT TABLE
Neben den unter 6.1.7 genannten Funktionen, nämlich der Wahl der Mittelwerttabellen im ANOVA-Fall, kann mit diesem Befehl die Ausgabe der Mittelwertlisten gesteuert
werden. Solches ist empfehlenswert, wenn etwa die Mittelwertlisten DIN-A4-Breite
erhalten sollen oder wenn spezielle Outputs gestaltet werden sollen. TBT TAB-Tabellen
können bis 255 Zeichen bzw. bis 34 Merkmale ohne Umbruch in der Breite gestaltet
werden.
Durch den Zusatz von $F gefolgt von einem FORTRAN-Format können die Mittelwerte einer TBT-Tabelle formatiert, also mit einer bestimmten Zahl von Stellen vor oder
nach dem Dezimalpunkt versehen werden. Es gelten sämtliche FORTRAN-Regeln für
Formate. Insofern dabei auch die Überschriften der Tabellen zu ändern sind, kann mit
Zusatz $T mit nachfolgendem Text eine veränderte Überschriftszeile eingelesen werden. Dabei sind bis zu 6 $T-Zeilen erlaubt, die dann direkt über den Beobachtungsmittelwerten plaziert werden.
Wenn unter Verwendung von CHECKS auch die Relativwertliste ein anderes Format
erhalten soll, kann ein solcher Block von $F- mit $T-Zusätzen wiederholt werden.
Anschließend kann durch einen $S-Zusatz, z.B. $S X2 oder $S TS% , bewirkt werden, dass die Mittelwertliste nach einem bestimmten Merkmal, hier der zweiten Variablen, sortiert wird.
Durch den Zusatz $V und einer Folge von Variablenbezeichnern mit Zeichen a für
absolut oder p für Prozentzahl, z.B.
$V X3p X3a X2a X1a
$V Ertrag.a TS%.p
kann erreicht werden, dass die Mittelwerttabellen hinsichtlich der Merkmale umgeordnet und gleichzeitig Absolut- und Relativwerte (zum Standard-Mittelwert) enthalten. Der Punkt . wird zur Trennung von Variablennamen und den Zeichen a bzw. p
benutzt.
Ein Beispiel sei nachfolgend gegeben:
FACTORS
REPLICAT. = 2
GENOTYPES = 25
MODEL
R + G + RG
ANOVA/1211
0
7
6
CHECKS/G
*
! bei LATTICE wuerde in der nachfolg. Zeile das G fehlen
TBTTABLE
G
$F
2(F5.0),3(F5.1),F4.1,F5.0
$T
$T PflH KoH Ertr
Spind TS% Bon. SEL
$T cm cm
dt/ha
%
%
1-9
IND
$F 10(F6.1)
$T PflH
KolH Ertrag Spind TS%
Bon.
SEL
8
ERGÄNZENDE BEFEHLE
$T
cm
cm
dt/ha
%
%
1-9
$S YIELD
! Sorting of TBT_tables according variable 3 yield
CHECKS/G *
INDEX
-0.2
0
1
-0.2
1
0
50
VAR_NAMES
PLHIG COHIG YIELD %COB %D.M. SCORE
34
IND
Dabei werden die (absoluten) Mittelwerte für das erste und zweite Merkmal mit
insgesamt 5 Stellen (Format F5.0 zweimal wiederholt) ausgegeben, wobei keine Nachkommastelle vorgesehen ist. Das dritte, vierte und fünfte Merkmal (Format F5.1 dreimal wiederholt) wird mit einer Nachkommastelle ausgegeben usf. Hingegen werden
alle Relativwerte (Format F6.1), also mit insgesamt 6 Stellen, wobei eine Nachkommastelle, der Dezimalpunkt und das Vorzeichen sowie drei Stellen für die Prozentzahl vor
dem Punkt vorgesehen sind.
8.2 Der Befehl INDEX
Damit können Selektionsindizes oder andere Funktionen der Mittelwerte in TBT TABTabellen berechnet werden. Mit Hilfe von CALC-analogen Befehlen werden neue Variablen erzeugt, für die keine Varianzanalyse durchgeführt wird, die nur als letzte Spalten
an die TBT TAB-Tabellen angehängt werden. Ein Selektionsindex rechnet sich z.B. wie
folgt:
INDEX
1
X4=-0.5*X1-1.33*X2+0.77*X3+100
oder
INDEX
1
Index=2*TS%+Ertrag+Standf
Der Befehl muß als erste Größe die Anzahl der zu erstellenden Index-Variablen
aufweisen. Die Größe NVAR im LATTICE- und ANOVA-Befehl muß die neuen Variablen
enthalten, ebenso natürlich dann VARIABLES.
Mit Hilfe einer Funktion MC zur Berechnung von Mittelwerten von Standardprüfgliedern (Mean of Checks) können auch Relativwerte erzeugt werden, etwa für die
Ertragswertzahl des Bundessortenamtes mit zwei verschiedenen Gewichten für den
Trockensubstanzgehalt TS%:
INDEX 2 CH Ertrag=MC(Ertrag,1,2,3)
CH TS%=MC(TS%,1,2,3)
CH Stdf=MC(Stdf,1,2,3)
INDX1=Ertrag/CH Ertrag*100+2.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf)
INDX2=Ertrag/CH Ertrag*100+1.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf)
Hierbei werden zuerst für drei Merkmale Ertrag, TS% und Stdf die Standardsortenmittel aus den Mittelwerten der Prüfglieder 1, 2 und 3 berechnet und den Hilfsgrößen
CH Ertrag, CH TS% und CH Stdf zugewiesen. Anschließend werden zwei Indexvariablen INDX1 und INDX2 mit unterschiedlichen Gewichten gebildet. Da zwei zusätzliche
Index-Variablen in den TBT-Tabellen erscheinen sollen, beginnt INDEX mit 2.
Auf Grund einer Index-Variablen kann natürlich auch eine Sortierung der TBTTabellen über die $S-Option erfolgen, siehe Befehl TBT TAB (8.1).
8.3 Der Befehl PLOT
Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) erzeugt werden.
8
ERGÄNZENDE BEFEHLE
35
PLOT/Q X1.X2 X2.X3 ...
etwa
PLOT/2 X3.X2 Ertrag.TS%
Der erste Bezeichner gibt die Variablennummer oder den Variablennamen, die für
die y-Achse bzw. Ordinate verwendet werden soll, der zweite Bezeichner nach dem
Punkt die Variable für die x-Achse oder Abszisse. Es können mehrere Plots durch
Anfügen weiterer Variablenpaare, getrennt durch ein oder mehrere Leerzeichen, angefordert werden.
Wenn die erste und zweite Variable gleich ist, etwa in:
PLOT X1.X1 TKG.TKG
dann werden die Beobachtungswerte der einzelnen Wiederholungen geplottet. Solche Diagramme dienen dazu, Ausreißer oder andere auffallende Beobachtungswerte
im Datenmaterial aufzufinden. (Gilt nur in Verbindung mit LATTICE). Genauer gesagt,
werden bei zwei Wiederholungen die Beobachtungswerte der ersten Wiederholung
auf diejenigen der zweiten Wiederholung geplottet, bei mehr als zwei Wiederholungen
werden die Beobachtungswerte jeder Wiederholung auf die Mittelwerte über alle Wiederholungen geplottet. Beim Gitter werden die Beobachtungswerte zuvor natürlich für
die unvollständigen Blöcke korrigiert.
Die maximale Zahl der Diagramme je Lauf ist 40.
Der Qualifier Q gibt die Zahl der Diagramme, die je Seite ausgedruckt werden:
Q = 1 ein Diagramm je Seite (Voreinstellung)
= 2 zwei Diagramme je Seite (für DIN-A4-Formate geeignet)
= 3 drei Diagramme je Seite.
Wenn PLOT in Verbindung mit einem ANOVA-Aufruf benutzt wird, werden für alle in
TBT TABLE genannten einfaktoriellen Mittelwerte Diagramme erzeugt.
Im Diagramm, siehe Kap. 2, werden die Punkte fortlaufend nach den Nummern der
TBT TAB- bzw. der Prüfgliedmittelwerttabelle durchnummeriert. Mehrfachbelegungen
werden durch einen Stern * mit nachfolgender Ziffer, z.B. *3, gekennzeichnet, wobei
am rechten Rand, dann unter *3 die entsprechenden Prüfgliednummern der Mehrfachbelegung aufgelistet sind. Die Standard-Prüfglieder sind als Punkte unterstrichen.
Die Regressionsgerade von y auf x ist durch einen Schrägstrich / in der y-Achse
und einen weiteren am rechten Rand markiert, so dass von Hand die Regressionsgerade eingezeichnet werden kann. Die Mittelwerte sind durch ein M auf der x- und y-Achse
vermerkt. Wenn die Grenzdifferenz berechenbar ist, wird diese durch eine Folge von D
auf den Achsen visualisiert. Unter Miss. ist die Zahl der Punkte, die wegen fehlender
Werte fehlen angegeben.
8.4 Der Befehl PPLOT
Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) für zwei Variablen in
PostScript erzeugt werden. Die Ausgabe wird auf eine separate Datei *.ps geschrieben.
PPLOT/n X1.X2
etwa
PPLOT/1 Ertrag.TS%
8
ERGÄNZENDE BEFEHLE
36
Es wird ein Streudiagramm für die Variable X1 auf der y-Achse und X2 auf der xAchse gezeichnet. Standardsorten, siehe CHECKS, werden darin mit einee fettgedruckten Nummer verzeichnet. Desweiteren wird die Regressionsgerade, das Versuchsmittel und die beiden Grenzdifferenzen eingezeichnet.
Mit dem Qualifier n kann die Spalte im Namen der Prüfglieder (bzw. im Pedigree)
definiert werden, die als Diagrammsymbol statt eines kleinen Kreises verwendet werden soll.
8.5 Der Befehl ERROR
Für das Verrechnen von Versuchsserien kann der Befehl ERROR benutzt werden. Dadurch ist es möglich, *.mnv-Dateien ohne Änderung miteinzubinden.
ERROR Faktorsymbol Spaltenzahl
oder
ERROR
Zahl der zu poolenden Versuche
Spaltenzahl
wobei Faktorsymbol auf den Faktor hinweist, der durch die Einzelversuche (z.B. Orte)
repräsentiert wird und natürlich im dazugehörigen FACTORS-Befehl vertreten sein muß.
Die Spaltenzahl gibt an, in welcher Datenspalte VAR, DFE, SE, LSD, CHEC, MEAN beginnt. Durch diese werden die entsprechenden Schätzwerte aus den Einzelversuchen
eingebracht. Voreinstellung für die Spaltenzahl ist 12. Beispiele sind etwa:
ERROR P 7
ERROR Q
Besitzt man eine andere Zahl von Versuchen, deren Fehler in der Serie gepoolt werden soll, kann man statt dem Faktorsymbol auch direkt die Zahl der zu poolenden
Versuche angeben.
Ein solcher Import von Fehlervarianzen ist natürlich nur sinnvoll, wenn die Variablen unverändert bleiben. Werden CALC-Befehle benutzt, treffen diese Fehler nicht
mehr zu. Wenn der ERROR-Befehl falsch gewählt wird, resultiert oft ein TOO MUCH
LEVEL-Fehler. Daher beachte folgendes:
1. VAR-, DFE-, SE-, LSD-, CHEC- oder MEAN-Zeilen können in beliebiger Reihenfolge
bzw. eine beliebige Auswahl daraus und an beliebiger Stelle im Datensatz gegeben werden. Wichtig sind nur DFE- und SE-Zeilen, wobei die DFE-Zeilen vor den
SE-Zeilen stehen müssen.
2. VAR ... MEAN darf daher nicht (genauer nicht an der durch obige Spaltenzahl
angegebenen Position) in Prüfgliednamen auftauchen, um Verwechslungen zu
vermeiden.
3. Die Namen VAR ... MEAN müssen unter den Identifikatoren der Daten enthalten
sein. Deren Zeilen müssen durch genauso viele Identifikatoren wie die normalen
Daten spezifiziert sein.
4. Wenn kein CHECK-Befehl gegeben wird, wird die Relativwertberechnung aufgrund
der eingelesenen CHEC-Zeilen durchgeführt. Ist jedoch ein CHECK-Befehl vorhanden, werden die CHECK-Mittelwerte neu berechnet.
Beispiel für einen Serien-Input, siehe auch psdanov-6 in psdanov.dat:
9
WINKE, WÜRMER, WÄNDE
37
!!
SERIES OF RYE EXPERIMENTS
FACTORS
PLACES = 3
TREAT = 25
MODEL
P + T + TP
ANOVA
2
9
9
CHECKS
24 25
ERROR
P
8
TBT_TAB
TP T
RUN
117001 DFE 12
16
0 16
16
23
0
0
0
117001 SE
4.79 2.17 0 0.86 .82
.40
0
0
0
117001 LSD 14.77 6.51 0 2.59 2.45
1.16
0
0
0
117001 CHEC 0
0
0 0
0
0
0
0
0
117001 001 79.77 130.36 .00 1.21 4.88 23.00 .00 .00 .00
117001 002 73.90 133.93 .00 1.32 6.00 23.00 .00 .00 .00
117001 003 74.78 132.86 .00 2.00 7.00 22.50 .00 .00 .00
obiges ist der Anfang der .MNV-Datei des ersten Versuchs,
es folgen weiter alle .MNV-Dateien der Serie.
EOD
STOP
8.6 Der Befehl OMISS
Damit können fehlende Werte (Missing data) in der sekundären Output-Datei mit
speziellen Werten gekennzeichnet werden, was bei der Benutzung von Datenbanken
erwünscht sein kann.
OMISS Liste von Zahlen
Es müssen NVAR Zahlen angegeben werden, so dass für jede zu analysierende
Variable eine Zahl zur Kennzeichnung der fehlenden Werte vorliegt. Etwa bei NVAR
=4
OMISS 0 -9 0 99.99
Wird OMISS weggelassen, wird jeder fehlende Wert in der sekundären Ausgabedatei
mit Stern * gekennzeichnet. Voreinstellung ist also OMISS mit einer Liste von Nullen.
9
Winke, Würmer, Wände
(1) In der Biologie werden Beobachtungen meist höchstens 3 Stellen genau gemessen,
so dass Mittlere Abweichungsquadrate oder Varianzkomponenten nicht mehr
als 5 bis 6 Stellen genau sein können. Selbst wenn ein Computerprogramm mehr
Stellen ausgeben sollte, sollten Sie nur die biologisch sinnvollen Stellen entnehmen.
(2) Es ist nicht möglich, dass PLABSTAT jeden Fehler bei der Eingabe entdeckt und
eine korrekte Meldung liefert. Zum Beispiel, wenn Sie schreiben:
ANOVA 10 10 100
weil Sie aus Versehen die letzte Null der Zeile doppelt eingeben. Dieser Befehl
ist natürlich legal, so dass PLABSTAT anfängt zu rechnen und vielleicht an ganz
anderer Stelle, hier etwa zu wenig Speicherplätze, meldet. Daher sollte in Fällen
mit unerwarteten Fehlern, zuerst das richtige Schreiben der PLABSTAT-Befehle
überprüft werden.
9
WINKE, WÜRMER, WÄNDE
38
Selbstverständlich wird ein Programm immer auch Fehler enthalten, die abgestellt gehören. Daher ist der Autor Ihnen dankbar, wenn Sie solche Fehler ihm
weitergeben.
(3) Einige Grenzen sind im Programm gesetzt:
Maximale Zahl der Faktoren in ANOVA
= 10
Maximale Zahl der Variablen
= 350
(eingeschlossen die Konstanten in CALCULATE)
Maximale Zahl von fehlenden Werten in LATTICE = 150
Auch einige andere Datenfelder haben eine fixierte Größe. Wenn nötig, können
diese Beschränkungen nach einer weiteren Compilierung nach oben gesetzt werden. Im Zweifelsfalle wenden Sie sich an die Stelle, von der Sie das Programm
bezogen haben.
10 LITERATURVERZEICHNIS
10
39
Literaturverzeichnis
ANDERSON, R.L. and T.A. BANCROFT, 1952. Statistical Theory in Research. Mc
Graw-Hill, New York.
ANSCOMBE, F.J. and J.W. TUKEY, 1963. The examination and analysis of residuals.
Technometrics 5, 141-160.
BAKER, R.J. and R.I.H. MCKENZIE, 1967. Use of control plots in yield trials. Crop
Sci. 7, 335-337.
BENETT, C.A. and N.L. FRANKLIN, 1954. Statistical Analysis in Chemistry and Chemical Industry. Wiley, New York.
BERK, K., 1987. Computing for incomplete repeated measures. Biometrics 43, 385-398.
BLISS, C.I., 1967. Statistics in Biology. Vol. 1. McGraw-Hill, New York.
BURNHAM, K.P. and D.R. ANDERSON, 1998. Model Selection and Inference. A Practical Information-Theoretic Approach. Springer, New York.
CHANDRA, S., 1991. Optimal planning of unreplicated field trials in recurrent selection. Dissertation Hohenheim.
COCHRAN, W.G., 1951. Testing a linear relation among variances. Biometrics 7, 1732.
COCHRAN, W.G., 1957. Analysis of covariance: Its nature and uses. Biometrics 13,
261-281.
COCHRAN, W.G. and G.M. COX, 1957. Experimental designs. Wiley, New York.
DRAPER, N.R. and H. SMITH, 1998. Applied Regression Analysis. 3rd ed. Wiley, New
York.
FEDERER, W.T., 1955. Experimental Designs. Mcmillan Comp., New York.
GOULDEN, C.H., 1952. Methods of Statistical Analysis. Wiley, New York.
HARTLEY, H.O., 1956. A plan for programming analysis of variance for general purpose computers. Biometrics 12, 110-122.
HEALY, M.J.R. and M.H. WESTMACOTT, 1956. Missing values in experiments analyzed on automatic computers. Appl. Statist. 5, 203-206.
HENDERSON, C.R., 1953. Estimation of variance and covariance components. Biometrics 9, 226-252.
JENSEN, N.F., 1976. Floating checks for plant breeding nurseries. Cereal Research
Communications 4, 285-295.
KEMPTON, R.A., 1984. The design and analysis of unreplicated field trials. Proc. of
Fifth Meeting of the EUCARPIA Section Biometrics in Plant Breeding, Hohenheim, Vortr. Pflanzenzüchtg. 7, 219-242.
10 LITERATURVERZEICHNIS
40
KEMPTON, R.A. and P.N. FOX (eds.), 1997. Statistical Methods for Plant Variety Evaluation. Chapman&Hall, London.
KNAPP, S.J. and W.C. BRIDGES, 1987. Confidence interval estimators for heritability
for several mating and experimental designs. Theor. Appl. Genet. 73, 759-763.
LE ROY, H.L. und W. GLUCKOWSKI, 1961. Die Bestimmung der Varianzkomponenten im a.b.c-Faktorenversuch mit ungleichen Klassenfrequenzen. Biometr. Zeitschrift 3, 73-91.
MODE, C.J. and H.F. ROBINSON, 1959. Pleiotropism and the genetic variance and
covariance. Biometrics 15, 518-537.
PATTERSON, H.D. and E.R. WILLIAMS, 1976. A new class of resolvable incomplete
block designs. Biometrika 63, 83-92.
PERKINS, J.M. and J.L. JINKS, 1968. Environmental and genotype-environmental
components of variability. III. Multiple lines and crosses. Heredity 23, 339-356.
PREECE, D.A., 1971. Iterative procedures for missing values in experiments. Technometrics 13, 743-753.
SEARLE, S.R., 1971. Linear Models. Wiley, New York.
SEARLE, S.R., 1982. Technical reports on variance component estimation. Cornell
Univ. See http://www.biom.cornell.edu/Publications/aco.html.
SNEDECOR, G.W. and W.G. COCHRAN, 1967, 6th ed.; 1980, 7th ed. Statistical Methods. Iowa State University Press, Ames.
TIETJEN, G.L., 1974. Exact and approximate tests for unbalanced random effects designs. Biometrics 30, 573-581.
UTZ, H.F., 1972. Die Zerlegung der GenotypxUmwelt-Interaktionen. EDV in Medizin
und Biologie 3, 52-59.
UTZ, H.F., 1978. Ein Algol-60-Programm fuer die Analyse von balancierten faktoriellen Versuchsanlagen. EDV in Medizin und Biologie 9, 34.
WILLIAMS, E.R., 1977. Iterative analysis of generalized lattice designs. Austr. J. Statist. 19, 39-42.
WILLIAMS, E., PIEPHO, H.-P., and WHITAKER, D., 2011. Augmented p-rep designs.
Biom. J. 53, 19-27
WRIGHT, A.J., 1971. The analysis and prediction of some two factor interactions in
grass breeding. J.agric. Sci., Camb. 76, 301-306.
YATES, F., 1933. The analysis of replicated experiments when the field results are incomplete. Emp.J.Exp.Agric. 1,129-142.
YATES,F. 1936. A new method of arranging variety trials involving a large number of
varieties. J. agric. Sci., Camb. 24, 424-455.
10 LITERATURVERZEICHNIS
41
YATES,F. and W.G. COCHRAN, 1938. The analysis of groups of experiments. J. agric.
Sci., Camb. 28, 556-580.
ANHANG A
Liste der Befehle
ANHANG A
!
!
42
Liste der Befehle
Text bis zum Ende der Zeile
Text nach ! wird als Kommentar angesehen
BASIC/Q
NROW
NIDT
NINPT
NVAR
LATTICE/Q
T
S
K
R
NINPT
NVAR
ANOVA/Q
NIDT
NINPT
NVAR
UNREP/Q
NPARZ NROW NCOL NSTD NIDT NINPT NVAR
[siehe 3.2.1]
[siehe
[siehe
[siehe
[siehe
4.1.1]
5.1.1]
6.1.1]
7.1.1]
mit NROW
NIDT
= Zahl der Versuchseinheiten oder Zeilen im Datensatz
= Zahl der alphanumerischen Felder, welche die Datenzeile
identifizieren
NINPT = Zahl der einzulesenden Variablen
NVAR = Zahl der zu analysierenden Variablen
T = Zahl
S = Zahl
(bei
K = Zahl
(bei
R = Zahl
der Prüfgliedern
der unvollständigen Blöcke je Wiederholung
Blockversuch, S=1)
der Parzellen je unvollständigem Block
Blockversuch, S=1)
der Wiederholungen
mit 4-ziffrigem Qualifier Q (Voreinstellung 1110):
MISS = 0 Nullen nicht als fehlende Werte behandeln
= 1 Nullen als fehl. Werte behandeln (Voreinstellung)
EXTR = 0 kein Test auf Ausreißer oder extreme Werte
= 1 Test der Residuen auf Ausreißer (Voreinstellung)
= 2 Test der Residuen und Effekte auf Ausreißer (nur ANOVA)
PRIN = 0 keine Ausgabe der Varianzanalysetabellen (nur LATTICE)
= 1 normaler Druck
(Voreinstellung)
= 2 Ausgabe der Effekte statt Mittelwerte (nur LATTICE)
Spearmanschen Korrelationskoeff. drucken (nur BASIC)
= 3 erweitertes Drucken bei fehlenden Werten
(nur ANOVA und LATTICE)
NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
= 1 Mittelwerte auf sekundärer Ausgabedatei sichern
= 2 transformierte (event. adj.) Parzellenwerte sichern
= 3 adj. Mittelwerte und Parzellenwerte sichern (nur LATTICE)
Zusätze
für formatiertes Einlesen der Daten hänge $F mit einem FORTRAN-ähnlichen
Format an, z.B.
ANOVA
6 0 5 5
$F 15X, 2(F2.1), F5.2, 3X, F4.1
für Ausgeben der Effekte der unvollständigen Blöcke auf sekundäre
Ausgabedatei bzw. für "augmented designs" mit n angehängten Parzellen
LATTICE
. . .
$An
[siehe 5.1.1]
für unsortierte und unvollständige Datensätze, z.B.
ANOVA
. . .
$
2(1)
5(3)
[siehe 6.1.11]
ANHANG A
Liste der Befehle
43
INPUT Variablenliste (jeweils erste 5 Zeichen von Bedeut.) [siehe 3.2.2]
CALCULATE X2=X6/X7*100 X3=X3*X4-100 ! einige Beispiele
[siehe 3.2.3]
X2=LN(X2)
X3=SQRT(X8)
X4=EXP(X4)
X5=ARCSINST(X10)
X15=X1>0.5
X15=X3==100
X15=X14+(X1>=0.5)*10
VARIABLE NAMES
Liste von Texten
(erste 5 Zeichen werden benutzt)
[siehe 3.2.4]
Befehle nur im Zusammenhang mit ANOVA (Einfacher Blockversuch als Beispiel)
[siehe 6.1.2 und 6.1.7]
-----------------------------------------------------------------------------FACTORS
TREAT=15 REPLICATION = 3
(beachte: als erste Zeile bringen)
[siehe 6.1.2]
MODEL
R + T + RT (benutze jeweils das erste Zeichen des Faktornamens)
[siehe 6.1.3]
RANDOM
R T
[siehe 6.1.4]
RESTRICT
X1
[siehe 6.1.10]
MEANS
RT TA
[siehe 6.1.5]
EFFECTS
TA
[siehe 6.1.5]
RANKS
TA
[siehe 6.1.5]
SUBINT
RT
[siehe 6.1.6]
TBT_TAB
T
$F
$T
$S
$V
(ist außerdem notwendig, wenn Qualifier NEWF=1 oder
PLOT benutzt werden soll)
2(F5.0), 3(F5.1), ... für Formatierung
Text ...
für Überschrift
[siehe 8.1]
X2
für Sortierung
X3p X3a X1 Ertr.p für Variablenwahl
HERIT T
oder HERIT T:C
[siehe 6.1.8]
GENOT/Q name
z.B.
GENOT T oder GEN T:BC
mit name = Effekt-Kurzzeichen
[siehe 6.1.9]
Q = 1 zusätzlich Varianz-Kovarianz-Analysen
------------------------------------------------------------------------------FIT/Q
Y X1 X2 ... (nur mit BASIC, je Regression eine Zeile)
z.B. FIT X5
X1 X2
mit 3-ziffrigem Qualifier Q (Voreinstellung 111):
[siehe 4.1.2]
PRIN = 0
nur Regressionsanalysen ausgeben
= 1
Kovarianzmatrix der Regressionskoeffizienten
zusätzlich ausgeben
(Voreinstellung)
= 2
Kovarianzmatrix der Variablen zusätzlich ausgeben
RSDL = 0
Residuen nicht ausgeben
= 1
Test auf Ausreißer
(Voreinstellung)
= 2
gefittete Werte und Residuen auf sekund. Datei ausgeben
ICPT = 0
Regression ohne y-Achsenabschnitt
= 1
Regression mit y-Achsenabschnitt (Voreinstellung)
ANHANG A
NAMES OF TR/Q
Liste der Befehle
Liste von Texten
44
(mit Voreinstellung erste 5
Zeichen benutzt)
NAMES/12
[siehe 3.2.5]
mit Q = Länge des Textes, z.B.
oder bei ANOVA:
Q = Faktorsymbol und Länge des Textes ,
CHECKS
z.B.
NAMES/T12
Liste von Prüfgliednummern oder *
[siehe 3.2.6]
bei ANOVA mit Qualifier Faktorsymbol, z.B. CHECKS/T 24
CSV/Q Liste von fünf Identifikatoren
[siehe 3.2.7]
mit Q = E für englisches csv-Format (Dezimalpunkt und Komma)
= G für deutsches csv-Format (Dezimalkomma und Strichpunkt)
INDEX 1
PLOT/Q
mit
X4=-0.5*X1-1.33*X2+0.77*X3+100
X11=MC(X2,1,2,3)
X1.X2
X5.X2 X3.X3 ! als Beispiele
Q = 1 ein Diagramm je Seite (Voreinstellung)
= 2
zwei Diagramme je Seite
= 3
drei Diagramme je Seite
[siehe
8.2]
[siehe
8.3]
PPLOT/n Xi.Xj
[siehe 8.4]
PostScript-Scatterdiagramm für Xi auf Xj
n = n-tes Zeichen im Pedigree wird statt einer Nummer gezeichnet
ERROR P n
[siehe 8.5]
mit P = Symbol des Faktors der Einzelversuche
(oder Zahl der Versuche mit DFE- und SE-Zeilen)
n = Spalte, in der DFE, .. in den Daten steht (Voreinstellung 12)
OMISSListe von NVAR Zahlen
[siehe
8.6]
RUN
[siehe 3.2.8]
nach RUN folgt der eigentliche Datensatz
EOD
STOP
[siehe 3.2.9]
[siehe 3.2.10]
ANHANG B
Beispiele
ANHANG B
45
Beispiele
Mehrere Datenbeispiele sind in drei Dateien zu finden:
1. Beispiele mit BASIC in der Datei psdbasc.dat
PSDBASC-1 = Einfaches Beispiel mit PLOT
PSDBASC-2 = mit Korrelationsmatrix
PSDBASC-3 = Test zur multiplen Regression (Amer. Statist. 1984)
PSDBASC-4 = Multiple lineare Regress. (SNEDECOR und COCHRAN, 1980, S. 336)
PSDBASC-5 = Polynomiale Regression (SNEDECOR und COCHRAN, 1980, S. 399)
PSDBASC-6 = Orthogonale Polynome (SNEDECOR und COCHRAN, 1980, S. 405)
PSDBASC-7 = Regression durch den Nullpunkt (SNEDECOR und C., 1980, S. 173)
PSDBASC-8 = Spearman’s correlation (SNEDECOR und C., 1980, S. 192)
2. Beispiele mit LATTICE in der Datei psdlatt.dat
PSDLATT-1 = Zweisatzgitter (COCHRAN und COX, S. 406 and 413)
PSDLATT-2 = Randomisierter vollständiger Blockversuch (RCB)
mit CALCULATE, CHECKS, INDEX und PLOT
PSDLATT-3 = Dreisatz-Rechteckgitter (COCHRAN und COX, S. 418)
PSDLATT-4 = Dreisatz-Rechteckgitter (FEDERER, 1955, S. 347)
mit Gebrauch von Qualifier
PSDLATT-5 = 10*8 Generalisiertes Gitter
PSDLATT-6 = Dreisatzgitter mit verschiedenen Arten von fehlenden Werten
PSDLATT-7 = Randomisierter vollständiger Blockversuch (RCB)
mit verschiedenen Arten von fehlenden Werten
PSDLATT-8 = 5*5 Zweisatzgitter (SCHNELL, 1957)
PSDLATT-9 = 7*3 Generalisiertes Gitter mit 3 Wiederholungen
3. Beispiele mit ANOVA in der Datei psdanov.dat
PSDANOV-1 = Spaltanlage (SNEDECOR and COCHRAN, 1980, S. 327)
PSDANOV-2 = Randomisierter vollständiger Blockversuch (RCB)
mit CALCULATE, CHECKS, INDEX und PLOT
PSDANOV-3 = 3-faktorielles Experiment (SNEDECOR and COCHRAN, 1980, S. 318)
mit TBT TAB und MEANS
PSDANOV-4 = Unterteilung einer Zweifaktor-Interaktion, phänotyp. Stabilitätsanalyse,
(YATES and COCHRAN, 1938)
PSDANOV-5 = North Carolina Design I
PSDANOV-6 = Versuchsserie bei Roggen
mit ERROR und INDEX
PSDANOV-7 = Berechnung von Erwartungswerten der MQ
in einer Spaltanlage über Orte und Jahre
4. Beispiele mit UNREP in der Datei psdunrep.dat
PSDUNREP = Beispielsdaten für Standardanlagen und gleitende Mittelwerte
ANHANG C
MODEL-Zeilen für einige Versuchsanlagen
ANHANG C
MODEL-Zeilen für einige Versuchsanlagen
1. Einfaktorieller vollständig randomisierter Blockversuch
mit Varianten und Wiederholungen; event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
Serie über Regionen:
Serie über Regionen
und Jahre:
MODEL W + V + WV
MODEL O + W:O + V + VO + WVO
MODEL J + O + JO + W:JO
+ V + VJ + VO + VJO + WVJO
MODEL R + O:R + W:RO
+ V + VR + VO:R + WVRO
MODEL J + R + JR + O:R + JO:R + W:JRO
+ V + VJ + VR + VJR + VO:R + VJO:R
+ WVJRO
2. Zweifaktorieller Versuch in vollständig randomisierter Blockanlage
Faktor A, Faktor T, die A.T Kombinationen innerh. Wiederh. voll randomisiert;
event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
Serie über Regionen:
Serie über Regionen
und Jahre:
MODEL W + A + T + AT + WAT
MODEL O + W:O + A + T + AT
+ AO + TO + ATO + WATO
MODEL J + O + JO + W:JO
+ A + T + AT + AJ + TJ + ATJ
+ AO + TO + ATO + AJO + TJO + ATJO
+ WATJO
MODEL R + O:R + W:RO
+ A + T + AT + AR + TR + ATR
+ AO:R + TO:R + ATO:R + WATRO
MODEL J + R + JR + O:R + JO:R + W:JRO
+ A + T + AT + AJ + TJ + ATJ
+ AR + TR + ATR + AJR + TJR + ATJR
+ AO:R + TO:R + ATO:R
+ AJO:R + TJO:R + ATJO:R + WATJRO
46
ANHANG C
MODEL-Zeilen für einige Versuchsanlagen
3. Zweifaktorielle Spaltanlage
Faktor A in Großteilstücken, Faktor T in Kleinteilstücken innerh. Großteilstücken;
event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
Serie über Regionen:
Serie über Regionen
und Jahre:
MODEL W + A + WA/ + T + AT + WAT
MODEL O + W:O + A + AO + WA:O/
+ T + AT + TO + ATO + WATO
MODEL J + O + JO + W:JO
+ A + AJ + AO + AJO + WA:JO/
+ T + TJ + TO + TJO
+ AT + ATJ + ATO + ATJO + WATJO
MODEL R + O:R + W:RO
+ A + AR + AO:R + WA:RO/
+ T + TR + TO:R
+ AT + ATR + ATO:R + WATRO
MODEL J + R + JR + O:R + JO:R + W:JRO
+ A + AJ + AR + AJR + AO:R + AJO:R
+ WA:JRO/
+ T + TJ + TR + TJR + TO:R + TJO:R
+AT +ATJ +ATR +ATJR +ATO:R +ATJO:R
+ WATJRO
4. Zweifaktorielle Streifenanlage
Faktor A in Großteilstücken, Faktor T in dazu ”gekreuzten” Großteilstücken;
event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
Serie über Regionen:
Serie über Regionen
und Jahre:
MODEL W + A + WA/ + T + WT/ + AT + WAT
MODEL O + W:O + A + AO + WA:O/
+ T + TO + WT:O/
+ AT + ATO + WATO
MODEL J + O + JO + W:JO
+ A + AJ + AO + AJO + WA:JO/
+ T + TJ + TO + TJO + WT:JO/
+ AT + ATJ + ATO + ATJO + WATJO
MODEL R + O:R + W:RO
+ A + AR + AO:R + WA:RO/
+ T + TR + TO:R + WT:RO/
+ AT + ATR + ATO:R + WATRO
MODEL J + R + JR + O:R + JO:R + W:JRO
+ A + AJ + AR + AJR + AO:R + AJO:R
+ WA:JRO/
+ T + TJ + TR + TJR + TO:R + TJO:R
+ WT:JRO/
+ AT +ATJ +ATR +ATJR +ATO:R +ATJO:R
+ WATJRO
47

Similar documents