Fantastiske Østrig med bjerge og storslået natur

Transcription

1 Generelle forhold ved opstart
Eksempler fra bogen
“Videregående Statistik”
løst ved anvendelse af programmet SAS-JMP.
Indhold
1. Generelle forhold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Beregning af sandsynlighedsfordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3. Eksempler fra bogen
Kapitel 1: Repetition af hypotesetest for 1 variabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Kapitel 3: 1 faktor på 2 niveauerl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Kapitel 4: 1 faktor på mere end 2 niveauer, ensidet variansanalyse . . . . . . . . . . . . . . . . . . 9
Kapitel 5: 2 faktorer på 2 eller flere niveauer , tosidet variansanalyse . . . . . . . . . . . . . . 14
Kapitel 6: Flere end 2 faktorer på 2 niveauer, Screeningforsøg . . . . . . . . . . . . . . . . . . . . 20
Kapitel 7: Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Kapitel 8: Statistisk proceskontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Kapitel 10: Antalstabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1. Generelle forhold
Opstart
Efter at have startet SAS-JMP, står man med en typisk Windows skærm med nogle menubjælker
og ikoner.
Øverst er en “hovedmenubjælke” med navnene File, Edit, Wiew, osv. Trykkes på en af disse
fremkommer en rullemenu, som man skal vælge fra.
Trykkes på Wiew
“JMP-starter, fremkommer en menu hvori nogle af de oftest forekomne
anvendelser er angivet.
Indtastning, redigering og udskrift af data.
Man starter sædvanligvis med at analysere nogle data (tal). Disse indtaster man enten selv i et
regneark eller man importerer dem fra eksempelvis et Excel- regneark.
a) Indtastning af data
Indtast følgende data
x 1
2
3
6
8
y 2
1
4
9
7
Løsning:
Dobbeltklik på øverste felt i første søjle (Column 1) og skriv x
Indtast tallene søjlevis, dvs. placer cursor på cellen i første række og første søjle, og skriv 1.
Tryk “ENTER” hvorved man kommer til næste række og skriv 2 osv.
Gentag proceduren med søjle 2.
1
Vejledning i SAS-JMP
Resultatet ser således ud:
1
2
3
4
5
x
1
2
3
6
8
y
2
1
4
9
7
b) Import af data
Findes data i en Excel fil, så vælges fra hovedmenuen “File” “OPEN” Filtype: vælg Excel
Files (*.xls) fra den fremkomne liste Find den ønskede excel-fil på din harddisk open.
c) Gemme datatabeller
Data tabeller kan på sædvanlig måde gemmes i en passende mappe.
“File” “SAVE AS” osv.
Oprette dele af given datatabel som ny tabel
Rows Rows Selection Select Where marker navnet på kolonnen der ønskes over i ny
tabel ok
Tables Subset OK
Vælg hjælp hvis du vil have sætte mere specifikke krav
Redigering af udskrifter og kopiere over i tekstbehandlingsprogram Word.
Udskrifterne er delt op i afsnit, og over hvert afsnit er der en “blå pil” . Trykker man på den, vil
afsnittet forsvinde.
Da udskrifterne sædvanligvis indeholder mange flere oplysninger end man har brug for, er det
også nødvendigt at flytte udskriften over i WORD (benyt sædvanlig “copy”) og redigere den her.
Datatabeller overføres pænest ved at vælge Edit Journal hvorefter denne kopieres over i et
tekstbehandlingsprogram som eksempelvis “WORD”
2. Beregning af sandsynlighedsfordelinger
Fremgangsmåden for de forskellige fordelinger er stort set ens, så den beskrives kun udførligt
for normalfordelingen n(  ,  )
a) Find p  P(a  X  b) , hvor a ,b,  ,  er givne konstanter.
b  
 a  
Vi har p  P( X  b)  P( X  a )  Normal Distribution    Normal Distribution  
Eksempel: Find p  P(112.0  X  1161
. ) hvis   113.3,   5.6 .
Kald Column 1 for p
Placer Cursor i p’s hoved og marker denne ved tryk på venstre musetast
tryk på højre
musetast Vælg “Formula”
Den fremkomne menu for Formula indeholder 3 elementer:
1) Table Columns ( hvor søjlernes navne står),
2) Lommeregnertastatur (med operatorer for +, - / , potensopløftning, osv.) og
3) Function Groups (hvor forskellige funktioner står, bl.a. Probability)
Probability Normal Distribution ( skriv 116.1 (bemærk decimalpunktum)
vælg - fra “lommeregnertastaturet” skriv 113.3 cursor udenfor parantes og vælg/ fra
lommeregnertastatur 5.6 .
Bemærk: Benyt kun “lommeregnertastaturet” ved +, -,/ potensopløftning osv.
2
Vi har nu skrevet “ Normal Distribution(116.1 - 113.3) / 5.6)”
Sørg for at komme udenfor rammen og vælg igen - på lommeregnertastatur
Normal Distribution(112.0 - 113.3) / 5.6) (kopier eventuelt fra før, og ret 116.1 til 112)
ok
Resultat: 0.2832489
Hvis man ønsker ar se formlen skrevet i tekst (Java) så dobbeltryk på formlen, så fremkommer
følgende:
Normal Distribution(((116.1 - 113.3) / 5.6)) - Normal Distribution((112 - 113.3) / 5.6)
b) Find fraktilen x p : P( X  x p )  p , hvor p,  ,  er givne konstanter.
x p      Normal Quantile( p)
Eksempel: Find x p af P( X  x p )  0.712 , hvis   112,4,   6.7
Kald søjle 1 for xp
Placer Cursor i xp’s hoved tryk på højre musetast
Probability
Normal Quantile(0.712) ok
Formula
Skriv 112.4 + 6.7 *
Resultat: 116.1469
3. Eksempler fra bogen
Kapitel 1: Repetition af hypotesetest for 1 variabel
Eksempel 1.1 Hypotesetest. Normalfordelt variabel .
En fabrik der fremstiller plastikprodukter ønsker at evaluere holdbarheden af rektangulære støbte
plastik blokke som anvendes i møbelfabrikationen.
Der udtages tilfældigt 50 blokke, og deres hårhed måles (i Brinell enheder) .
Resultaterne var følgende
283.5 273.3 278.8 238.7 334.9 302.6 239.9 254.6 281.9 270.4 269.1 250.1 301.6 289.2
240.8 267.5 279.3 228.4 265.2 285.9 279.3 252.3 271.7 235.0 313.2 277.8 243.8 295.5
249.3 228.7 255.3 267.2 253.3 281.0 302.1 256.3 233.0 194.4 219.9 263.7 273.6 267.7
283.1 260.9 274.8 277.4 276.9 259.5 262.0 263.5
a) Undersøg om tallene er rimeligt normalfordelt ved at tegne et histogram, et boxplot og et
normalfordelingsplot.
Angiv endvidere gennemsnit og spredning.
b) Hårheden bør være over 260 (brinell enheder).
Test på et signifikansniveau på  = 5% om dette er tilfældet.
c) Forudsat hårheden er signifikant over 260 brinell, skal angives et estimat for hårheden, samt
et 95% konfidensinterval for denne.
Løsning:
a) File , New, DATA Tables , dobbeltklik på øverste felt i første søjle og skriv “holdbarhed”, indtast data
Histogram:
På værktøjslinien vælg Analyze Distribution (eller Wiew, “JMP-Starter” vælg “Basic Distribution”)
I den fremkomne menu dobbeltklikkes på “holdbarhed” (under “Selected Columns”) ok
Der fremkommer et “histogram”, et “boxplot” og en række statistiske oplysninger.
3
For at kunne sammenligne med en normalfordeling tegnes en normalfordelingskurve:
Placer cursor på “rød pil ved holdbarhed
tryk på højre musetast og vælg “Continuous Fit
normal
Der tegnes nu en normalfordelingskurve med samme middelværdi og spredning som fra data.
Endvidere tegnes et “normal kvartil plot”
Cursor placeres på “holdbarhed og man trykker på højre musetast og vælger “Normal Quantile Plot”
Der er nu bl.a. fremkommet følgende figur og tabel.
Distributions
holdbarhed
350
-2 ,33 -1,6-1
4 ,2 8 -0, 67
0 ,0
0 ,6 7 1, 281 ,6 4
2 ,3 3
300
250
200
0,02
0,1 0,2
0,5
Norm al Quantile Plot
Normal(266,218,25,0931)
Quantiles
100,0
% maximum
99,5%
97,5%
90,0%
75,0%
quartile
50,0%
median
25,0%
quartile
10,0%
2,5%
0,5%
0,0%
minimum
Moments
Mean
Std Dev
Std Err Mean
Upper 95% Mean
Lower 95% Mean
N
334,90
334,90
328,93
300,99
279,73
267,60
251,75
233,20
201,41
194,40
194,40
266,218
25,09313
3,5487045
273,34939
259,08661
50
4
0,8 0,9
0,98
Forklaring af figur og udskrift
Histogram og normalfordelingskurven (figur længst til venstre) passer godt sammen, så det
viser, at data er rimelig normalfordelt.
Boxplot: Den næste figur er et såkaldt “boxplot”, hvor den midterste streg angiver medianen
og kassens grænser angiver henholdsvis 1. og 3. kvartil.
1. kvartil 252.75 er tallet midt mellem tal nr 12 og tal nr 13, osv.
Da boxplottet er nogenlunde symmetrisk om medianen, så kan man igen antage at data er
rimelig normalfordelt.
De isolerede prikker yderst viser, at der er et par værdier, som afviger kraftigt fra de øvrige,
og muligvis er fejlmålinger (kaldes outliers).
Rhomben inde i firkanten angiver et 95% konfidensinterval for middelværdien. Man ser, at
den ligger lidt skævt i forhold til boxplottet, men dog ikke så meget, at det spiller nogen rolle,
da median =267.6 er ca. = mean (gennemsnit) = 266.7
Normal Kvartil-plot.
Her har man ud af x - aksen sørget for at skalaen er sådan, at punkterne burde ligge på den
røde rette linie, hvis de fuldstændigt eksakt var normalfordelt.
Den røde linie går gennem (0, mean) og har hældning = spredningen.
De stiplede linier angiver 95% konfidensinterval for normalfordelingen.
Som det ses, ligger punkterne indenfor konfidensintervallet og ligger tæt på linien for de
midterste 75% af tallenene. De yderste punkter kan man ikke forvente ligger på linien
Man må derfor igen antage, at data er tilnærmelsesvis normalfordelt.
Det ses af udskriften, at gennemsnittet x = 266.22 og et estimat for spredningen er s = 25.09
b) X = holdbarheden af plastblokke
X antages normalfordelt med ukendt middelværdi  og  .
H0:  =260
H:  >260
Da spredningen ikke er kendt eksakt anvendes en t-test.
Klik på rød pil ved "holdbarhed" og vælg "Test Mean". I den fremkomne menu skriv 260
Test Mean=value
Hypothesized Value
Actual Estimate
DF
Std Dev
Test Statistic
Prob > |t|
Prob > t
Prob < t
260
266,218
49
25,0931
t Test
1,7522
0,0860
0,0430*
0,9570
5
ok
P- værdien = sandsynligheden for at begå en "type 1 fejl", dvs. påstå at    0 =260 selv om
det ikke er tilfældet.
I Test Statistic er Prob > *t* P-værdi for den tosidede test H: μ  260
Prob > t er P-værdi for den ensidede test H : μ > 260 , og Prob < t svarer til H : μ < 260
Da P-værdi = 4.30 % < 5%, forkastes H0 (svagt) .
Konklusion: Vi har bevist, at holdbarheden i middel er over 260 brinell.
Eksempel 1.2. Binomialtest
En fabrikant af chip til computere reklamerer med, at højst 2% af en bestemt type chip, som
fabrikken sender ud på markedet er defekte.
Et stort computerfirma, vil købe et meget stort parti af disse chip, hvis påstanden er rigtigt. For
at teste påstanden købes 1000 af dem. Det viser sig, at 33 ud af de 1000 er defekte.
a) Kan fabrikantens påstand på denne baggrund forkastes på signifikansniveau 5% ?
b) Forudsat påstanden forkastes, skal angives et estimat for % defekte, samt et 95% konfidensinterval for denne.
Løsning:
X = antal defekte chips af 1000
X er binomialfordelt b(1000, p).
Nulhypotese: H: p  0.02
Alternativ hypotese H: p  0.02
a) P  værdi  P( X  33)  1  P( X  32)
Kald en søjle for p, og indtast et tilfældigt tal i første række.
Placer cursor i p's hoved højre musetast Formula skriv 1-(- vælges fra jmp tastatur) vælg
Discrete Probability Binomial Distribution Udfyld pladserne p=0,02, n=1000, k = 33 Apply
P-værdi = 0.00433
Da P-værdi < 0.05 forkastes H0 , dvs. fabrikantens påstand om færre end 2% defekte
forkastes.
b) Estimat for p: 3.3%
Da x = 33 >5 og 33 < 1000-5 kan approksimeres med normalfordelingen
Af formlen for konfidensinterval
p
0,00433168
Estimat for p: 3.3%
radius
0,0110718
0.033 
0.033  (1  0.033)
1000
Øvre grænse
0,0440718
og benyttelse af "Formula" fås
nedre grænse
0,0219282
95% konfidensinterval : {2.19% ; 4.41%]
Kapitel 3 1 faktor på 2 niveauer
Eksempel 3.1. Sammenligning af 2 normalfordelte variable
To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer,
hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden.
Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.
Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget
pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.
Man fik følgende resultater.
6
M1
87.8
91.9
89.8
89.0
92.6 89.4
91.4
88.7
90.1
92.4
M2
92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 93.4
Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at
tidsforbruget ved metode M1 er mindst 2 minutter mindre end ved metode M2 .
Løsning:
Lad X1 = tidsforbrug ved anvendelse af metode M1 og
X2 = tidsforbrug ved anvendelse af metode M2.
X1 og X2 antages approksimativt normalfordelte med middelværdi og spredning henholdsvis
1 , 1 og  2 , 2 .
H 0 : 1  2   2
H: 1  2   2
Data indtastes i 2 søjler, idet vi lægger 2 til alle tal fra metode 1.
metode
m1
m1
m1
m1
m1
m1
m1
m1
m1
m1
m2
m2
m2
m2
m2
m2
m2
m2
m2
m2
tidsforbrug
89,8
93,9
91,8
91,0
94,6
91,4
93,4
90,7
92,1
94.4
92.4
94,6
93,0
94,0
92,4
92,9
99,4
92,1
92,8
93,4
Analyze Fit y by x Y-Response:Tidsforbrug ,x-Factor: Metode ok rød pil øverst på figur, t-test
t Test
m2-m1
Assuming unequal variances
Difference
Std Err Dif
Upper CL Dif
Lower CL Dif
Confidence
1,0900t Ratio
0,6694DF
2,5024Prob > |t|
-0,3224Prob > t
0,95Prob < t
1,628317
16,99463
0,1219
0,0609
0,9391
Da P - værdi = 0.0609 > 0.05 accepteres nulhypotesen, dvs. det er ikke muligt på dette grundlag at
bevise, at tidsforbruget ved metode M1 er 2 minutter mindre end ved metode M2.
7
Eksempel 3.2 . Test af varians
Samme problem som i eksempel 3.1
Undersøg ved en test på signifikansniveau på 5% om de to metoders varians er ens.
Løsning:
Data indtastes i 2 søjler (se eksempel 3.1)
H0 : 12   22 mod H: 12   22
Analyze Fit y by x Response:Tidsforbrug , Factor: Metode OK
Cursor på rød pil Un-Equal Variance
Blandt en række udskrifter forekommer nedenstående
Tests that the Variances are Equal
Level
Count
Std Dev MeanAbsDif to Mean
m1
10
1,668965
1,412000
m2
10
1,302135
0,960000
Test
O'Brien[.5]
Brown-Forsythe
Levene
Bartlett
F Test 2-sided
F Ratio
0,7193
1,2610
1,6453
0,5199
1,6428
DFNum
1
1
1
1
9
DFDen
18
18
18
.
9
MeanAbsDif to Median
1,370000
0,880000
p-Value
0,4075
0,2762
0,2159
0,4709
0,4711
I udskrift for F - test ses, at alle -værdier er større end 0.05.
Da P - værdi > 0.05 accepteres H0, dvs. vi vil i den følgende test antage, at spredningerne er ens.
Eksempel 3.4. Parvise observationer
En producent af malervarer har laboratorieresultater, der tyder på, at en ny lak A, har en større
slidstyrke end den sædvanlige lak B. Han ønsker en afprøvning i praksis og aftaler med ejerne
af 6 bygninger med mange trapper, at han må lakere deres trapper.
Da der er meget forskelligt hvor mange personer der går på trapperne i de forskellige bygninger
(sammenlign blot sliddet på en skole og et plejehjem) vælger man at foretage et “blokforsøg” ,
med de 6 bygninger som 6 blokke.
I hver bygning lakeres hverandet trin (valgt ved lodtrækning) med lak A og resten mad lak B.
Efter 3 måneders forløb måles graden af slid (i %) i hver bygning.
De målte værdier af slid efter valg af plan var
Bygning nr
1
2
3
4
5
6
Ny lak
20.3
25.1
21.8
19.6
18.9
23.5
Sædvanlig lak
19.5
28.4
21.6
22.0
20.9
25.8
Undersøg om observationerne leverer et eksperimentelt bevis for, at den nye lak er mere
slidstærk end den sædvanlige lak.
Løsning
Vi ser nu på differensen mellem sliddet i en bygning. (hvorved den store forskel mellem
bygningerne elimineres)
Lad D = Xgammel - Xny
D antages normalfordelt n(  ,  ) , hvor såvel  som  er ukendte.
Da vi ønsker at teste om ny lak er mere slidstærk end gammel lak, dvs. den mest slidstærke lak
slides mindst , bliver testen en ensidet t - test.
Nulhypotese H0 :  = 0
Alternativ hypotese H :  > 0.
8
Data indtastes
Ny lak
Gammel lak
20,3
19,5
25,1
28,4
21,8
21,6
19,6
22
18,9
20,9
23,5
25,8
Vælg Analyze Matched Pairs Y: Paired response:Ny lak og Gammel lak
markering ved "Plot Diff by Mean
Matched Pairs
Difference: Gammel lak-Ny lak
Gammel lak
Ny lak
Mean Difference
Std Error
Upper 95%
Lower 95%
N
Correlation
23,0333
21,5333
1,5
0,66131
3,19996
-0,2
6
0,89502
t-Ratio
DF
Prob > |t|
Prob > t
Prob < t
OK
Rød pil Fjern
2,268219
5
0,0726
0,0363*
0,9637
Heraf ses, at P-værdi = 0.0363. H0 forkastes, dvs. ny lak mere slidstærk end gammel lak
Kapitel 4. 1 faktor på mere end 2 niveauer, ensidet variansanalyse
Eksempel 4.2
Virkningerne af 4 tilsætningsstoffer T1, T2, T3, T4 på mængden af urenheder ved en kemisk
proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af “uønsket stof” 3 gange.
Forsøgsresultaterne blev følgende:
Tilsætningsstof
T1
T2
Mængde urenhed
T3
T4
108
105
116
117
110
110
111
119
112
109
113
112
a) Kontroller om betingelserne om normalitet og varianshomogenitet er rimelig opfyldt.
b) Test på signifikansniveau på 5% om der er forskel på middelværdierne for de 4 tilsætningsstoffer
c) Find om muligt det tilsætningsstof der i middel giver den mindste urenhed og angiv i
bekræftende fald et 95% konfidensinterval for middelværdien.
Løsning:
b) H0 : 1  2  3  4 mod H: “mindst én middelværdierne er forskellig fra en af de øvrige”.
Løsning:
Data indtastes, husk, at “tilsætningsstof skal være af typen “character”.
tilsætningsstof urenhed
t1
t1
t1
t2
t2
t2
t3
osv
108
110
112
105
110
109
116
a) Kontrol af forudsætninger:
9
Selv om det er muligt i SAS.JMP at kontrollere forudsætningen om normalfordeling, behøver
man ikke nødvendigvis at gøre det, da testen er robust overfor afvigelser.
Normalfordelingsplot:
Vælg Analyze Fit Y by
og tryk på X Factor OK
X
markér “Urenhed” og tryk på Y Response
markér “Tilsætningsstof”
Der fremkommer et “scatterplot”, hvor man kan se afbildet de tre værdierne af hver af de 4
tilsætningsstoffer
rød pil ved figur
rullemenu Save Save Residual
Under data kommer nu en ekstra søjle med residualerne(overskrift “urenhed centered by
tilsætningsstof”).
Vælg Analyze Distribution Indsæt Residual søjlen i Y OK Cursor på rød pil continuos fit normal
Der fremkommer et histogram med indtegnet normalfordelingskurve
rød pil
“normal Quantile plot”
Da vi jo kun har 12 residualer kan vi ikke forvente et særligt klart billede, men i princippet burde
de på normalfordelingsplottet ligge nogenlunde på en ret linie. De ligger i hvert fald alle indenfor
konfidensgrænserne, så vi kan tillade os at antage fordelingen er approksimativt normalfordelt.
Kontrol af varianshomogenitet:
Xi = mængden af uønsket stof ved tilsætning af stof Ti. hvor i  {1,2,3,4}
Xi antages approksimativt normalfordelt med middelværdien  i og spredning  i .
H0:  12   22   32   42 H: Mindst en varians er forskellig fra en af de øvrige
Sæt cursor på rød pil ved tegningen for Scatterplot, og vælg fra rullemenuen “UnEqual Variances”.
Test
F Ratio
DFNum
O'Brien[.5]
0,3812
3
Brown-Forsythe
0,4211
3
Levene
0,5917
3
Bartlett
0,1991
3
Warning: Small sample sizes. Use Caution.
DFDen
8
8
8
.
Prob > F
0,7694
0,7430
0,6376
0,8971
Da P - værdierne alle er over 0.05 accepteres nulhypotesen H0: De 4 varianser er ens.
b) H0: 1  2  3  4 mod H: “mindst én middelværdierne er forskellig fra en af de øvrige”.
Sæt cursor på rød pil, og vælg fra rullemenuen “Mens/Anova”.
Der fremkommer så en tegning og følgende udskrift:
Oneway Analysis of urenhed By tilsætninsstof
120
urenhed
115
110
105
t1
t2
t3
tils ætninsstof
10
t4
Oneway Anova
Summary of Fit
Rsquare
Adj Rsquare
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)
0,650672
0,519674
2,753785
111,8333
12
Analysis of Variance
Source
tilsætninsstof
Error
C. Total
DF
3
8
11
Sum of Squares
113,00000
60,66667
173,66667
Mean Square
37,6667
7,5833
F Ratio
4,9670
Prob > F
0,0311*
Means for Oneway Anova
Level
t1
t2
t3
t4
Number
3
3
3
3
Mean
110,000
108,000
113,333
116,000
Std Error
1,5899
1,5899
1,5899
1,5899
Lower 95%
106,33
104,33
109,67
112,33
Upper 95%
113,67
111,67
117,00
119,67
Af variansanalysetabellen fremgår, at P -værdi (Prob>F) = 0.0311 <0.05, dvs.
nulhypotesen H0: 1  2  3  4 forkastes ( svagt)
Konklusion: De fire tilsætningsstoffer har ikke samme virkning.
Forklaring på de enkelte størrelser i variansanalysetabellen kan man finde i appendix 4.1.
c) Konfidensintervaller.
“Diamanterne” på figuren angiver 95% konfidensintervaller. Den midterste vandrette steg
angiver gennemsnittet og de to andre vandrette streger angiver LSD -intervaller.
Af figuren ses derfor straks, ved at se på LSD intervallerne, at t2 er signifikant mindre end
t4, mens det er vanskeligere at se om t2 og t3 kan adskilles.
I Means for Oneway Anova ses konfidensintervallerne
Heraf ses, at t2, t3 og t3 er de mindste og ikke kan adskilles
LSD-intervaller fås ved at vælge
“Compare Mens” fra rullemenuen students t-test
Blandt en række udskrifter findes denne
Level
t4
t3
t1
t2
A
A
B
B
C
C
Mean
116,00000
113,33333
110,00000
108,00000
Konklusion: Man får den mindste urenhed, hvis man vælger enten T2 eller T1 (de kan ikke
adskilles).
Et 95% konfidensinterval for T2 er [104.3 ; 111.7]
11
Eksempel 4.3 (randomiseret blokforsøg )
I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget
var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes
vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske
egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at
forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra
samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg
med kuld som blokfaktor.
Lad der findes tre fodertyper A, B og C med forskelligt vitaminindhold.
Fra hvert af 4 forskellige kuld grise udtages nu 3 grise.
Et kuld vælges, og ved lodtrækning bestemmes hvilke af de 3 grise, der bliver fodret med
fodertype A, hvilken med fodertype B og den sidste får naturligvis type C.
Et nyt kuld udtages, og man randomiserer igen foderet indenfor kuldet (blokken), osv.
Forsøgsresultaterne (vægtforøgelse i kg) var
Fodertype
A
B
C
1
7.0
14.0
8.5
2
16.0
15.5
16.5
Kuld
3
10.5
15.0
9.5
4
13.5
21.0
13.5
a) Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold.
b) Hvis der er en forskel, så skal man angive hvilken foderblanding, der giver den største
vægtforøgelse.
Løsning:
a) H0: Foderblanding har ingen virkning på vægtforøgelsen
H: Foderblanding har virkning på vægtforøgelsen
Da vi jo har 2 faktorer, “kuld” og “fodertype”, er analysen en speciel “tosidet variansanalyse”.
Løsning:
Indtastning af data
fodertype
A
A
A
A
B
B
B
B
C
C
C
C
kuld
k1
k2
k3
k4
k1
k2
k3
k4
k1
k2
k3
k4
vægt
7
16
10,5
13,5
14
15,5
15
21
8,5
16,5
9,5
13,5
Vælg Analyze Fit Y by X markér “Vægt” og tryk på Y Response
X Factor Marker “Kuld” og tryk på blok OK
markér “Fodertype” og tryk på
Der fremkommer et “scatterplot”, hvor man kan se afbildet de fire værdier for hver af de 3
fodertyper.
12
Rød pil
“Means/Anova”.
Der fremkommer så følgende tegning og udskrift:
Oneway Analysis of Vægt By Fodertype
Oneway Anova
Samarie of Fit
Rsquare
Adj Rsquare
Mean of Response
0,83413
0,695904
2,168269
13,375
12
Source
DF
Sum of Squares
Mean Square
Fodertype 2
54,12500
27,0625
Kuld
3
87,72917
29,2431
Error
6
28,20833
4,7014
C. Total
11
170,06250
Means for Oneway Anova
Level Number
Mean
Std Error
Lower 95%
A
4
11,7500
1,0841
9,097
B
4
16,3750
1,0841
13,722
C
4
12,0000
1,0841
9,347
Std Error uses a pooled estimate of error variance
Block Means
Kuld Mean
Number
k1
9,8333
3
k2
16,0000
3
k3
11,6667
3
k4
16,0000
3
F Ratio
5,7563
6,2201
Prob > F
0,0402
0,0285
Upper 95%
14,403
19,028
14,653
Da P - værdi for fodertype er 0.0402 < 0.05 forkastes nulhypotesen H0: Ingen forskel på
fodertyper, dvs. , at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne
(mindst én afviger fra de øvrige).
Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld.
Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot
har taget nogle tilfældige kuld ud.
Konfidensintervallerne viser et svagt overlap.
13
Vælger nu LSD-intervaller
“Compare Mens” fra rullemenuen students t-test
Comparisons for each pair using Student's t
Confidence Quantile
t
2,44691
Alpha
0,05
Connecting Letters Report
Level
B
A
C
A
Mean
16,375000
12,000000
11,750000
B
B
Levels not connected by same letter are significantly different.
Af LSD-intervallerne ses, at fodertype B giver den største vægtforøgelse.
Kapitel 5 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse
Eksempel 5.2 (fortsat) Model med vekselvirkning.
En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O1, O2, og O3, og 2 karburatortyper K1 og K2 påvirker benzinforbruget.
Forsøgsresultaterne er følgende:
Karburator
K1
K2
O1
830 860
810
840
Olieblanding
O2
940 990
1050 1020
O3
855 815
930
910
1) Kontroller om betingelserne for normalitet og varianshomogenitet er rimelig opfyldt
2) Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og
giv et estimat for dette forbrug.
Løsning:
Data indtastes på sædvanlig måde .
Karburator
k1
k1
k1
k1
k1
k1
k2
olieblanding
o1
o1
o2
o2
o3
o3
o1
benzinforbrug
830
860
940
990
855
815
810 osv.
a)Varianshomogenitet.
Lad varianserne i de 6 celler være σ1,σ2, σ3, σ4, σ5 og σ6.
H0: σ1=σ2= σ3= σ4= σ5 = σ6. H: Mindst en varians er forskellig fra en af de øvrige
Da varianserne i hver af de 6 celler skal være ens, karakteriserer man disse ved at gå ind i
regnearket og danne en ekstra søjle “celler” (og vælg den som “character”).
Da der er 6 celler med 2 tal i hver bliver søjlen:
14
Karburator
k1
k1
k1
k1
k1
k1
k2
olieblanding
o1
o1
o2
o2
o3
o3
o1
benzinforbrug celler
830
1
860
1
940
2
990
2
855
3
815
3
810
4
osv.
Gå derefter ind i ensidet variansanalyse og vælg celler som faktor og benzinforbrug som
Y, ok
cursor på rød pil på tegning og vælg “Unequal Variances”
Oneway Analysis of Benzinforbrug By Celler
Test
O'Brien[.5]
Brown-Forsythe
Levene
Bartlett
F Ratio
0,0000
.
.
0,1354
DFNum
-1
5
5
5
DFDen
0
6
6
.
Prob > F
0,0000*
.
.
0,9842
Da Bartletts test giver en P-værdi= 0.9642 > 0.05 fås en accept af nulhypotesen.
Kravet er rimeligt opfyldt.
b) Først testes H0 : R * C  0 (Ingen signifikant vekselvirkning) H H: R * C  0
Vælg Analyze Fit Model Indsæt for Y: Benzinforbrug ,Indsæt for ADD:Karburator og Olieblanding Indsæt for CROSS: Karburator,Olieblanding (marker begge) Emphasis’s rullemenu: vælg
Minimal Report Run Model
(Minimal report er kun valgt for at undgå nogle i denne forbindelse overflødige figurer)
Man får (blandt andet)
Summary of Fit
RSquare
0,951898
RSquare Adj
0,911814
24,4949
Mean of Response
904,1667
12
Source
DF
Sum of Squares
Mean Square
F Ratio
Model
5
71241,667
14248,3
23,7472
Error
6
3600,000
600,0
Prob > F
C. Total 11
74841,667
0,0007
Effect Tests
Source
Nparm
DF
Sum of Squares
F Ratio
karburator
1
1
6075,000
10,1250
Olieblanding
2
2
58716,667
48,9306
karburator*Olieblanding
2
2
6450,000
5,3750
Ud for “Karburator*olieblanding” findes P - værdi = 0.0460.
Da P - værdi = 0.0460 < 0.05 forkastes H 0 (svagt).
Konklusion: Begge faktorer har en virkning i form af en vekselvirkning.
15
Prob > F
0,0190
0,0002
0,0460
For at finde hvilke kombinationer der giver lavest benzinforbrug vælges
Vælg “Effect Details”
rød pil ved “karburator x olieblanding
Vælg “LS means Plot”
Vi får følgende Udskrift+tegning :
Karburator*Olieblanding
Least Squares Means Table
Level Least Sq Mean
k1,o1 845,0000
k1,o2 965,0000
k1,o3 835,0000
k2,o1 825,0000
k2,o2 1035,0000
k2,o3 920,0000
LS Means Plot
Std Error
17,320508
17,320508
17,320508
17,320508
17,320508
17,320508
Umiddelbart ses af figuren, at man ikke bør vælge olieblanding O2.
Derimod er det uklart hvilken af kombinationer (se tabellen) med de mindste “means”, der
giver det laveste olieforbrug.
Dette kan afklares ved på ovennævnte rullemenu at vælge “LSMeans students t”
Det giver en stor tabel (som kan fjernes ved med cursor på overskrift, højre musetast at fjerne
markeringen ved “Crostab Report).
Under den findes følgende lille tabel
Level
k2,o2
k1,o2
k2,o3
k1,o1
k1,o3
k2,o1
A
Least Sq Mean
1035,0000
B
965,0000
B
920,0000
C 845,0000
C 835,0000
C 825,0000
Levels not connected by same letter are significantly different
Heraf ses, at kombinationen K2 O1giver det laveste benzinforbrug (825), men, at der ingen
signifikant forskel er mellem K2 O1 , K1 O3 og K1 O1.
16
Konfidensintervaller
Ønskes fundet 95% konfidensintervaller
rød pil i tabellen “Least Square Means Table”
“upper”.
Karburator*Olieblanding
Least Squares Means Table
Level Least Sq Mean
Std Error
k1,o1 845,0000
17,320508
k1,o2 965,0000
17,320508
k1,o3 835,0000
17,320508
k2,o1 825,0000
17,320508
k2,o2 1035,0000
17,320508
k2,o3 920,0000
17,320508
Vælg “Columns”
Lower95%
802,61824
922,61824
792,61824
782,61824
992,61824
877,61824
vælg “lower” og derefter
Upper95%
887,3818
1007,3818
877,3818
867,3818
1077,3818
962,3818
Heraf ses, at for kombinationen K2 O1 er konfidensintervallet = [782.6 ; 867.4]
Ønskes gemt de estimerede middelværdier , “error”, konfidens- og prædiktionsgrænser
gemt i den oprindelige datatabel, så
rød pil ved “Response
på rullemenu vælg “SaveColumns
Vælg de ønskede størrelser.
Eksempel 5.3 Additiv model: To signifikante hovedvirkninger
I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt
randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere
og cementknusere.
Med hver af 3 cementblandere udstøbtes efter blanding med vand 12 cementterninger, som
efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 4 cementknusere.
Forsøgsresultaterne var:
Cementknusere
1
2
3
4
1 147 175 130
99 85 75
67 23 35 215 97 180
Cementblandere 2 221 155 173 141 110 155 85 55 81 161 167 177
3 123 85 153 137 143 82
67 25 83 135 91 129
Forudsætningerne for en variansanalyse antages opfyldt.
Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største
brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke.
Løsning
Lad starten af indtastningen i regnearket være
cementblandere cementknusere
c1
k1
c1
k1
c1
k1
c1
k2
c1
k2
osv.
17
brudstyrke
147
175
130
99
85
1) Variansanalysetabel opstilles.
Vælg Analyze Fit Model Indsæt for Y: Brudstyrke ,Indsæt for AD:Cementblandere og Cementknusere Indsæt for CROSS: Cementblandere,Cementknusere (marker begge) Run Model
Der fremkommer en række figurer og tabeller.
Blandt disse er følgende variansanalysetabel
Summary of Fit
RSquare
RSquare Adj
Mean of Response
0,761257
0,651834
29,77042
118,3889
36
DF Sum of Squares
Source
Model
11
67823,889
Error
24
21270,667
C. Total
35
89094,556
Effect Tests
Source
Cementblander
Cementknuser
Cementblander*Cementknuser
Nparm
2
3
6
Mean Square
F Ratio
6165,81
886,28
6,9570
Prob > F
<,0001*
DF
2
3
6
Sum of Squares
8706,056
51995,222
7122,611
F Ratio Prob > F
4,9116 0,0163*
19,5557 <,0001*
1,3394 0,2787
a) H0 : R * C  0 (Ingen signifikant vekselvirkning)
For “Cementblandere*cementknusere” findes P - værdi = 0.2787.
Da P - værdi = 0.2787 > 0.05 accepteres H 0 .
Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende.
b) Vekselsvirkningen "pooles" ned i “error”".
Gå tilbage til starten, og slet vekselvirkningsleddet.
Blandt mange tabeller findes
Effect Tests
Source
Cementblander
Cementknuser
Nparm
2
3
DF Sum of Squares
2
8706,056
3
51995,222
F Ratio
4,5994
18,3125
Prob > F
0,0181*
<,0001*
H0: C = 0 (Cementknuser har ingen virkning) forkastes, da P-værdi = 0.000 < 0.05
H0: R = 0 (Cementblander har ingen virkning) forkastes, da P-værdi = 0.0181 < 0.05
Konklusion: Cementknuserne har en stærk signifikant virkning,
Cementblanderne har en signifikant virkning,
Under “cementblandere” kan på samme måde som i forrige eksempel bl.a. findes følgende
tabeller
Level
Least Sq Mean
c2
A
140,08333
c1
B
110,66667
c3
B
104,41667
Levels not connected by same letter are significantly different.
Heraf ses, at cementblander 2 må foretrækkes
18
Under cementknusere fås
Level
Least Sq Mean
k1
A
151,33333
k4
A
150,22222
k2
B
114,11111
k3
C
57,88889
Levels not connected by same letter are significantly different
Cementknuser 1 og 4 må foretrækkes.
Konklusion: Størst middelbrudstyrke fås i kombinationen
cementknuser 1 og cementblander 2 eller cementknuser 4 og cementblander 2
~ for største middelbrudstyrke på basis af cementknuser 1 og cementblander 2:
Et estimat 
12
Rød pil ved Response Profiler Factor profiling Profiler
Ved de fremkomne figurer flyttes linier
Rød pil ved Predicter Profiler Confidence Intervals
173,0278
±25,64987
Bruds tyrke
200
150
100
50
c2
Cem entbl ander
k1
Ce m entknuser
k4
k3
k2
k1
c3
c2
c1
0
~12  173.0
95% Konfidensinterval : 173.03  25.65;173.03  25.65  147.4;198.7
Eksempel 5.4 Additiv model: Een signifikant hovedvirkning
Samme fremgangsmåde som i eksempel 5.3.
19
Kapitel 6. Flere end 2 faktorer på 2 niveauer, Screeningforsøg
Eksempel 6.8. Beregning af partiel faktorforsøg
Virkningerne af 7 faktorer ønskedes undersøgt ved et partielt faktorforsøg. Om 3 af faktorerne kunne forudsættes, at kun hovedvirkninger kunne være forskellige fra nul, medens for de 4
øvrige også 2-faktorvekselvirkninger eventuelt kunne være forskellige fra nul. De 4 sidste
faktorer identificeredes derfor med bogstaverne A,B,C og D og de 3 første med bogstaverne
E,F og G.
Der udførtes et fuldstændigt randomiseret forsøg med en
1 7
 2 - faktorstruktur, hvor denne
8
sidste er fremkommet ved, at faktorerne E,F og G indførtes i en fuldstændig 2 4 - faktorstruktur med faktorerne A,B,C og D ved relationerne: E = ABC F = BCD G = ABCD
Behandlingerne anføres i standardrækkefølge efter A,B, C og D, og uden gentagelser, var
følgende:
15.3 18.4 26.1 26.3 13.5 15.7 18.8 17.3 21.0 22.3 18.9 15.5 9.6 10.5 23.1 25.0
a) Find, hvilke faktorer, der har virkning
b) Find de niveauer de pågældende faktorer skal indstilles på, for at give det største resultat.
c) Angiv et estimat for dette største middelresultat, og angiv et 95% Konfidensinterval
herfor.
Løsning
Vi skal finde hovedvirkningerne + vekselvirkningerne AB, AC, AD, BC, BD, CD
a) Doe Screening Design Factors, Skriv 7 ved 2 level Catagorical ADD
ændre navnene fra
x1, x2 ... til A, B, ... Continue Vælg 16 Run, Fractional Factorial (uden blokke) Continue
Vi ser nu følgende forslag til struktur (efter at have valgt nedenfor nævnte boks)
Display and Modify Design
Change Generating Rules
Factors
E
F
G
A
X
X
B
X
X
C
X
X
D
X
X
X
Skemaet skal læses E = BCD, F = ACD, G = ABD
I “Changing Generating Rules” ændres nu planen ved at sætte passende krydser. Apply
Vi får planen
Display and Modify Design
Factors
E
F
G
A
X
X
B
X
X
X
C
X
X
X
D
X
X
20
Aliasing of Effects
Effects
Aliases
A
= F*G
D
= E*G
E
= D*G
F
= A*G
G
= A*F = D*E
A*B
= C*E
A*C
= B*E
A*D
= E*F
A*E
= B*C = D*F
B*D
= C*F
B*F
= C*D
Det ses, at planen opfylder kravene, idet vi dog skal flytte BC og CD frem
Vi går til “Output Options” Make Tabel
Der fremkommer en tabel som skal udfyldes (se nedenfor)
Rød pil i tabel ved Design
Model
Edit
Vi flytter nu BC og CD frem ved at skrive B*C fremfor A*E og C*D fremfor B*F. samt
sletter de to sidste vekselvirkninger BG og CG
Run
Vi er nu tilbage ved Model Specifikation, hvor vi ses, at den endelige model stemmer
For at kunne udfylde tabellen er vi nødt til at finde ud af behandlingerne
Underliggende struktur A B C
  
(1)
  
a
  
b
  
ab
  
c
  
ac
  
bc
abc
d
ad
bd
abd
cd
acd
bcd
abcd
 
 
 
 
 
 
 
 
D E=ABC F=BCD G=ABCD Behandlinger



+
g




ae



+
bef



+
abfg




cef



+
acfg




bcg





abce
 



df
 

+
+
adefg
 


+
bdeg
 



abd

 


cdeg



 
acd


 
+
bcdf
   


21

abcdefg
15.3
18.4
26.1
26.3
13.5
15.7
18.8
17.3
21.0
22.3
18.9
15.5
9.6
10.5
23.1
25
Tabellen udfyldes
Pattern
------+
+---+- - +++ - +
- + - ++ - +
+++++++
+- -++++
++ - - -++
- ++ - - -+
- - + - ++ ++ - + - - +++ + - - - -+ - + + - +- -++
-+++ - + + - ++ - - - + - - ++ -
A
L1
L2
L1
L1
L2
L2
L2
L1
L1
L2
L2
L1
L2
L1
L2
L1
B
L1
L1
L1
L2
L2
L1
L2
L2
L1
L2
L2
L1
L1
L2
L1
L2
Rød pil i tabel ved Design
C
L1
L1
L2
L1
L2
L1
L1
L2
L2
L1
L2
L1
L2
L2
L2
L1
D
L1
L1
L2
L2
L2
L2
L1
L1
L1
L2
L1
L2
L1
L2
L2
L1
Model
E
L1
L2
L2
L2
L2
L2
L1
L1
L2
L1
L2
L1
L1
L1
L1
L2
F
L1
L1
L1
L1
L2
L2
L2
L1
L2
L1
L1
L2
L2
L2
L1
L2
Run Script
G
L2
L1
L2
L2
L2
L2
L2
L2
L1
L1
L1
L1
L2
L1
L1
L1
Y
15,3
18,4
9,6
18,9
25
22,3
26,3
18,8
13,5
15,5
17,3
21
15,7
23,1
10,5
26,1
I Emphasis vælg minimal report Run
Blandt mange andre udskrifter fås følgende tabeller:
Source
Model
Error
C. Total
DF
13
2
15
Sum of Squares
395,54313
4,04125
399,58437
Mean Square
30,4264
2,0206
F Ratio
15,0579
Prob > F
0,0639
Effect Tests
Source
A
B
C
D
E
F
G
A*B
A*C
A*D
B*C
B*D
C*D
Nparm
1
1
1
1
1
1
1
1
1
1
1
1
1
DF
1
1
1
1
1
1
1
1
1
1
1
1
1
Sum of Squares
1,38062
124,88063
57,38063
1,89063
1,50062
148,23063
2,64063
6,63062
0,33062
0,68062
39,37563
2,64063
7,98063
F Ratio
0,6833
61,8030
28,3975
0,9357
0,7427
73,3588
1,3068
3,2815
0,1636
0,3368
19,4869
1,3068
3,9496
Prob > F
0,4954
0,0158*
0,0335*
0,4354
0,4796
0,0134*
0,3714
0,2118
0,7250
0,6203
0,0477*
0,3714
0,1852
Heraf ses, at BC er den eneste signifikante vekselvirkning.
De øvrige vekselvirkninger pooles ned i “Error”, ved at slette dem i
Design
Model
Edit
Run
Vi får nu bl.a. følgende udskrift
Effect Tests
Source
A
B
C
D
E
F
G
B*C
Nparm
1
1
1
1
1
1
1
1
DF
1
1
1
1
1
1
1
1
Sum of Squares
1,38062
124,88063
57,38063
1,89063
1,50062
148,23063
2,64063
39,37563
F Ratio
0,4333
39,1925
18,0083
0,5934
0,4710
46,5207
0,8287
12,3576
Prob > F
0,5314
0,0004*
0,0038*
0,4663
0,5146
0,0002*
0,3929
0,0098*
Heraf ses, at også F har en signifikant virkning.
Konklusion: B, C og F har en virkning B og C i form af en vekselvirkning
22
b) De øvrige hovedvirkninger pooles ned i “Error” Vælg derefter minimal Report, Run
Rød pil ved “Response Y”
“Factor Profile “ vælg “Interaction Plots” og “Profiler”
Under “Prediction Profiler” slet kryds ved “Desirability Functions”
Interaction Profiles
Af interaction Profiles ses, at man skal vælge C på lavt niveau og B på højt niveau
Prediction Profiler
Af Prediction profiles ses, at man skal vælge F på højt niveau.
c) Rød pil ved “Prediction Profiler, Confidence Intervals
Placer de røde streger på figuren
±2,022308
Y
24,74375
25
20
15
L2
L1
L2
L1
L2
L1
10
L2
L1
L2
B
C
F
Det ses, at den største middelværdi er 24.74,
og et 95% konfidensinterval er [24.74 - 2.02 ; 24.74 + 2.02] = [22.72 ; 26.76]
23
Eksempel 6.10. Beregning af et konfunderet partielt 25-1 faktorforsøg
Virkningen af 5 faktorer A, B, C, D og E ønskes undersøgt. Man ved, at ingen af faktorerne
D og E vekselvirker med andre faktorer. Da man kun kan udføre 4 forsøg pr apparat, indføres
blokke på 4 forsøgsenheder.
I en fuldstændig 24 struktur med faktorerne A, B, C og D indføres E = ABCD. Endvidere
indføres blokkene ved at konfundere ABD og CD.
Her vælges (tilfældigt) fortegnene ++ til blok 1 + - til blok 2 osv.
Forsøgsplanen (opskrevet på sædvanlig måde i standardorden ) og forsøgsresultaterne er:
A B C D E=ABCD behandlinger ABD CD Blokke Resultat

(1)    
+
e
+
3
9




a
+
a
+
+
1
16




b
+
b
+
+
1
11



ab + +
+
abe
+
3
13



c   + 
c
4
10
ac
bc
abc
d
ad
bd
abd
cd
acd
bcd
abcd
+

+

+

+

+

+

+
+
+
+


+




+
+


+
+
+
+
+
+



+
+
+
+
+
+
+
+
+
ace
+
+


bce
+

+
+

+


+
abc
d
ade
bde
abd
cde
acd
bcd
abcde
+


+
+


+







+
+
+
+
2
14
2
6
4
2
4
4
2
1
3
3
1
17
11
14
7
14
9
16
8
5
a) Find hvilke faktorer der har virkning
b) Angiv de niveauer de pågældende faktorer skal indstilles på, for at give det største
middelværdi.
Løsning:
a) Doe Screening Design Factors, Skriv 5 ved Catagorical ADD ændre navnene fra x1, x2 ...
til A, B, ... Continue
Vælg 16 Run, Fractional Factorial (med 4 blokke) Continue
Vi får en udskrift
Vælg “Change Generating Rules”
Vi ændrer nu planen ved at sætte og fjerne passende krydser i overensstemmelse med
ovenstående plan.
Apply
Factors
E
Block Block
A
X
X
B
X
X
C
X
X
D
X
X
X
Aliasing of Effects
24
Effects
Aliases
C*D
C*E
D*E
Block Aliases
= Block
= Block
= Block
Vi ser planen stemmer
“Output Options” Randomize within blocks. Make Tabel
Der udskrives nu en tabel, efter hvilken rækkefølgen af forsøgene er bestemt (randomiseret) Vi indsætter nu forsøgsresultaterne:
Bloknumrene svarer ikke til dem vi indførte, men da man jo ikke er interesseret i hvilke
blokke der er “bedst”, er det ligegyldigt. Eksempelvis svarer SAS blok 1 til vor nr 4
Pattern
--+-- + -++
+++ - + - - ++
---+- ++ - +
+-+-+
++ - + ----+
+ - ++ ++ - -+
- +++ - - +++
+----+--+++++
Block
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
A
L1
L1
L2
L2
L1
L1
L2
L2
L1
L2
L2
L1
L1
L2
L1
L2
B
L1
L2
L2
L1
L1
L2
L1
L2
L1
L1
L2
L2
L1
L1
L2
L2
C
L2
L1
L2
L1
L1
L2
L2
L1
L1
L2
L1
L2
L2
L1
L1
L2
D
L1
L2
L1
L2
L2
L1
L1
L2
L1
L2
L1
L2
L2
L1
L1
L2
E
L1
L2
L1
L2
L1
L2
L2
L1
L2
L1
L2
L1
L2
L1
L1
L2
Y
10
7
17
14
11
6
14
14
9
16
13
8
9
16
11
5
Analyse af data (variansanalyse)
Rød pil i tabel ved Design,Model Edit
I den fremkomne tabel fjernes nu alle de vekselvirkninger, man mener der er 0.
Rød pil i tabel ved Design,Model Run Script
Man ser nu den endelige model.
Run model
Vi får bl.a. følgende udskrift.
Source
DF Sum of Squares
Model
11
179,50000
Error
4
31,50000
C. Total
15
211,00000
Mean Square
16,3182
7,8750
25
F Ratio
2,0722
Prob > F
0,2516
Parameter Estimates
Term
Estimate
Intercept
11,25
A
2,375
B
-1,125
C
-0,625
D
-0,75
E
-1,625
Block[1]
0,75
Block[2]
0
Block[3]
0,25
A*B
-0,25
A*C
0
B*C
-0,5
Std Error
0,701561
0,701561
0,701561
0,701561
0,701561
0,701561
1,215139
1,215139
1,215139
0,701561
0,701561
0,701561
t Ratio
16,04
3,39
-1,60
-0,89
-1,07
-2,32
0,62
0,00
0,21
-0,36
0,00
-0,71
Prob>|t|
<,0001*
0,0276*
0,1841
0,4233
0,3453
0,0815
0,5705
1,0000
0,8470
0,7396
1
0,5154
Det ses, at alle vekselvirkninger er 0.
De pooles væk.
Marker dem under “Model Specification” og vælg Remove Run Model
Parameter Estimates
Term
Estimate
Std Error
t Ratio
Prob>|t|
Intercept
11,25
0,57087
19,71
<,0001*
A
2,375
0,57087
4,16
0,0042*
B
-1,125
0,57087
-1,97
0,0894
C
-0,625
0,57087
-1,09
0,3098
D
-0,75
0,57087
-1,31
0,2303
E
-1,625
0,57087
-2,85
0,0248*
Block[1]
0,75
0,988776
0,76
0,4729
Block[2]
0
0,988776
0,00
1,0000
Block[3]
0,25
0,988776
0,25
0,8077
Konklusion: A og E har en virkning
b) Beregning af estimat for optimal værdi samt konfidensintervaller
B, C og D pooles ned i “error” hvorved vi får den endelige model. Derefter
Rød pil ved “Response Y” Factor Profiling
Profiler
Rød pil ved “Prediction Profiler”
Der fremkommer en figur hvoraf man ser, at
A skal på højt niveau, og E skal på lavt niveau for at give det største middelværdi
L2
L1
1
A
E
Block
26
4
3
2
1
L2
L1
L2
18
16
14
12
10
8
6
4
L1
±3,661206
Y
16
Sættes tallene under figurerne til ovennævnte niveauer fås følgende figur, hvoraf man kan
se, at største middelværdi er 16.00
Det har imidlertid ikke så megen mening, da tallet jo afhænger af blokkene
Man ser iøvrigt af udskrifterne at blokkene ikke har haft nogen betydning.
Kapitel 7. Regressiopnsanalyse
Eksempel 7.4 Vurdering af model
Tilsætning af en vis mængde kunstfibre forøger et garns trækstyrke. Man har eksperimenteret
med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse
forskellige mængder. Herved fremkom følgende observationsmateriale:
Mængde x (i gram) af
kunstfibre p. kg uld
40 50 55 60 70 75 80 85 90 95 100 105 110 120 130
Trækstyrke : Y
4.5 6.5 5.4 7.0 8.2 8.0 7.1 8.9 8.2 10.3 9.6 10.8 10.5 11.2 12.0
2
1) Find r og anvend denne samt en figur på lommeregnerens grafiske display eller residualernes fortegn til vurdering af modellen.
2) Opskriv regressionsligningen.
Løsning
1) Data indtastes
kunstfibre
40
50
osv.
styrke
4,5
6,5
Man kan ved analysen vælge 2 modeller, enten “fit Y by X” som giver en forholdsvis
simpel og overskuelig analyse, eller “Fit model” som er nødvendig ved mere specielle
analyser.
1) Vælg Analyze Fit Y by X markér “Styrke” og tryk på Y Response markér “kunstfibre” og
tryk på X Factor OK
Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne afbildet.
Rød pil vælg fra rullemenuen “Fit Line”.
Der fremkommer så følgende tegning og udskrift:
Bivariate Fit of Styrke By Kunstfibre
Linear Fit
Styrke = 1,8086555 + 0,0798974 Kunstfibre
Summary of Fit
RSquare
RSquare Adj
Mean of Response
0,919301
0,913093
0,648068
8,546667
15
27
Af udskriften ses, at forklaringsgraden “RSquare” er 91,93 %. , hvilket er tilfredsstillende,
da modellen altså “forklarer” 91,93% af variationen.
Af figuren ses, at punkterne fordeler sig tilfældigt omkring linien.
Outliers. Af ovenstående figur ses, at der næppe er nogen “outliers” (punkter der afviger
så kraftigt fra det generelle billede, at man kunne frygte de var fejlmålinger).
En undersøgelse af om der er outliers er vigtigt.
En (lidt usikker) metode er, at få tegnet såkaldte 95% predikationskurver, og se om
praktisk taget alle punkter ligger indenfor disse.
Rød pil under tegningen ved “linear fit”
vælg”Confid. Curves indv”
Det resulterer i følgende figur
Bivariate Fit of Styrke By Kunstfibre
13
12
11
Styrke
10
9
8
7
6
5
4
30 40 50 60 70 80 90 100110120130140
Kunstfibre
Da alle punkter ligger indenfor grænserne, tyder det ikke på, at der er outliers.
En lidt sikrere metode er, at lade SAS-JMP beregne såkaldte “Studentized Residuals”,
som tager i betragtning, at spredningen er mindre ved “midtpunktet” end langt fra det.
Vælg Analyze Fit model markér “Styrke” og tryk på Y markér “kunstfibre” og tryk ADD I
“Emphasis” vælg “Minimal Report” (for at begrænse udskrifterne) Run
Vi får tegninger og udskrifter nogenlunde magen til før.
Rød pil vælg Save Columns Studentized residuals
Der bliver nu tilføjet en ekstra kolonne til data
Kunsfibre Styrke Studentized resid styrke
40
4,5
-0,910214
50
6,5
1,19237827
55
5,4
-1,3479279
60
7
0,6566306
70
8,2
1,29007124
75
8
0,31944498
80
7,1
-1,7594549
85
8,9
0,47928292
90
8,2
-1,2790965
95
10,3
1,44832329
100
9,6
-0,3212379
105
10,8
0,98512428
110
10,5
-0,1614718
120
11,2
-0,3381357
130
12
-0,3553506
28
Heraf fremgår, at da ingen “Studentized Residuals”, numerisk er større end 3 (det er tilladt,
at nogle få er større end 2) er der ingen outliers.
Et residualplot ( tegning af de sædvanlige residualer) kan ses nederst, og af den kan man
(måske lettere) se at residualerne, og dermed at punkterne, fordeler sig tilfældigt omkring
linien.
Konklusion: Modellen synes tilstrækkelig godt at beskrive data indenfor måleområdet.
Eksempel 7.5 (fortsættelse af eksempel 7.4) Test
I eksempel 7.4 fandt man at ligningen y = 1.8087+0.0799x var en god model for data.
1) Test om y er uafhængig af x
2) Find 95% konfidensinterval for hældningen 
3) Find den til x = 65 svarende værdi for y, samt et 95% konfidensinterval for y .
4) Find 95% prædistinationsinterval for 1 ny observation svarende til x - værdien 65.
Løsning:
Data er indtastet som i eksempel 7.4
1) H0 :Y er uafhængig af x  H 0 : Regressionslinien er vandret  H 0 : 1  0 .
Vælg Analyze Fit model markér “Styrke” og tryk på Y
markér “kunstfibre” og tryk på Add Run
Der fremkommer så blandt andet følgende udskrift:
Source
DF
Model
1
Error
13
C. Total 14
Sum of Squares
62,197436
5,459897
67,657333
Parameter Estimates
Term
Estimate
Intercept
1,8086555
Kunstfibre
0,0798974
Std Error
0,578421
0,006565
Mean Square
62,1974
0,4200
t Ratio
3,13
12,17
F Ratio
148,0919
Prob > F
<,0001
Prob>|t|
0,0080
<,0001
Det ses, ud for “Model”, at F - Ratio = 148.09 og at P-value = 0.0001 (kan også ses ud for
“kunstfibre”
Heraf fås, at H0 forkastes
Y er ikke uafhængig af x.
2) Konfidensinterval for hældningskoefficienten 1 :
Cursor placeres i tabel for “Parameter Estimates”, højre musetast
“Upper 95%”
Columns
Man får bl.a. følgende tabel:
Parameter Estimates
Term
Estimate Std Error t Ratio Prob>|t| Lower 95% Upper 95%
Intercept
1,8086555 0,578421
3,13 0,0080 0,5590522 3,0582587
Kunstfibre
0.0798974 0,006565 12.17 <,0001* 0.0657135 0.0940812
Heraf aflæses
[0.0657 ; 0.0941]
3) 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 65.
29
“Lower 95%”
rød pil ved “Response, styrke
skriv 65 og aflæs
vælg “Factor Profiling”
Profiler
sæt cursor på tallet i bunden og
±0,453736
Styrke
7,001984
12
10
8
6
130
90
110
70
50
30
4
65
Kunstfibre
x = 65 Y = 7.002 95% konfidensinterval [7.002 - 0.4537 ; 7.002 + 0.4537]=[6.55;7.46]
4) Indsæt 65 nederst i x-kolonne i tabel
rød pil ved response
save Columns
Individ Confidence Interval
I tabel fremkommer nu prædistinationsintervaller [5.50 ; 8.47]
Eksempel 7.6. Valg mellem lineær og eksponentiel model
I et forsøg undersøgtes et ventilationsanlægs effektivitet. Målingerne foretoges ved at fylde et
lokale med gas og vente til koncentrationen var stabil. Herefter startedes ventilationsanlægget
og gaskoncentrationen Ct måltes til forskellige tidspunkter t.
Følgende resultater fandtes:
t
(min. efter anlæggets start)
C [ppm]
2.67 4.59 6.75 7.67 11.34 14.34 16.25 18.25 23.09
34
28
26
22
16
14
12
10
8
Følgende 2 modeller for funktioner overvejes:
Model l (lineært henfald):
C  a  bt
Mode12 (eksponentielt henfald):
C  a  e b t
1) Vurder hvilken model der er bedst.
2) Opskriv regressionsligningen for den model du finder bedst.
3) Beregn ud fra den valgte model den værdi af C, for hvilken t = 12 minutter, og opskriv et
95% konfidensinterval for C.
Løsning
Data indtastes
t
2,67
4,59
6,75
c
34
28
26
osv.
1) Analyze Fit Y by X markér “c” og tryk på Y Response markér “t” og tryk på X Factor OK
Rød pil
Fit line ok
Der fremkommer følgende figur og udskrift:
30
Bivariate Fit of c By t
Linear Fit
c = 33,710679 - 1,2710444*t
Summary of Fit
RSquare
RSquare Adj
Mean of Response
0,929312
0,919214
2,559818
18,88889
9
Forklaringsgraden 91.9% er høj, men punkterne fordeler sig ikke jævnt om linien.
Vi gentager nu, idet vi nu vælger
Fit special Marker “Natural logarithm” for y OK
Bivariate Fit of c By t
Transformed Fit Log
Log(c) = 3,6780207 - 0,072567*t
Summary of Fit
RSquare
RSquare Adj
Mean of Response
0,988291
0,986618
0,057679
2,831809
9
Vi ser, at punkterne fordeler sig tilfældigt omkring kurven, og at RSquare =0.988 er høj, så
model2 (eksponentiel model) må være den bedste model.
31
2) Af Log(c) = 3,6780207 - 0,072567*t fås
c  e 3.67800.07257t  39.57  e  0.07257t
3) Danner en ny kolonne med navnet logc cursor på navn, højre musetast, Formula vælg
c trancental log ok
Skriv nederst i tabel under t tallet 12.
Analyze Fit model Marker logc og vælg y marker t og vælg add Run
Rød pil ved "Response logc" Save Columns predicted values mean Confidence interval
Der fremkommer følgende tabel
t
2,67
4,59
osv.
18,25
23,09
12
c
34
28
logc
3,52636052
3,33220451
10
8
.
2,30258509
2,07944154
.
Lower 95% Mean logc Upper 95% Mean logc
3,40619261
3,5623412
3,27742032
3,41245635
2,28863203
1,90984064
2,76169153
Predicted logc
3,48426691
3,34493833
2,41871516
2,09505833
2,85274272
2,3536736
2,00244949
2,80721712
Heraf ses, at for t = 12 er log(c) = 2.8072  c  e 2.8072  16.56


. ;17.33
95% konfidensinterval: e 2.76169 ; e 2.8527  1583
Eksempel 7.7. Regressionsanalyse (med gentagelser)
Givet følgende målinger
Tiden t
20
30
40
60
70
90
100
120
150
180
Tykkelse
y
4.2
4.9
7.4
6.9
8.8
8.2
13.6
12.0
13.1
12.4
14.9
16.8
20.0
21.2
23.1
25.2
27.5
25.1
32.9
32.4
1) Foretag en testning af forudsætningen om varianshomogenitet.
2) Det formodes på forhånd, at der er en lineær sammenhæng mellem x og y.
Undersøg ved en “lack of fit” test, om formodningen kan accepteres.
3) Bestem i bekræftende fald ligningen for den fundne regressionslinie.
4) Det påstås i litteraturen, at hældningskoefficienten 1 er 0.15
Test om dette på et signifikansniveau på 5% kan være sandt.
5) Angiv et 95% konfidensinterval for middelværdien af tykkelsen y, når t = 110 minutter.
Løsning
Data indtastes på sædvanlig måde:
t
20
20
30
30
40
...
...
180
180
y
4,2
4,9
7,4
6,9
8,8
...
...
32,9
32,4
32
1) Undersøgelse af varianshomogenitet.
Test af nulhypotesen H 0 :  12   22  ...   102
Man gør som beskrevet under ensidet variansanalyse, dvs. vi vælger at gøre t til”character”
Sæt cursor på t’s hoved, tryk på venstre musetast og vælg “column Info”
Vælg Analyze Fit Y by X markér “y” og tryk på Y Response markér “t” og tryk på X Factor OK
Sæt cursor på overskrift, højre musetast vælg fra rullemenuen “ “UnEqual Variances”.
Test
F Ratio
DFNum
O'Brien[.5]
0,0000
-1
Brown-Forsythe
-1,896e16
9
Levene
-1,896e16
9
Bartlett
0,4990
9
DFDen
0
10
10
.
Prob > F
0,0000
.
.
0,8763
Da vi kun har 2 gentagelser for hver t-værdi kan kun Bartletts test anvendes.
Da P - værdien=0.8763 > 0.05 accepteres H0 , dvs. vi vil i det følgende antage, at kravet
om varianshomogenitet er opfyldt.
2) H 0 : Lineær model gælder  H 0 :( xi , i ) ligger på en ret linie
Man sørger nu for, at t er “numeric”, og vælger nu forfra
Analyze Fit Y by X markér “y” og tryk på Y Response markér “t” og tryk på X Factor OK
Sæt cursor på overskrift, højre musetast vælg fra rullemenuen “Fit Line”.
Tryk på pil ud for “Lack of Fit” på den røde pil under tegningen ved “linear fit”
Curves indv”
Der fremkommer følgende udskrift:
Bivariate Fit of y By t
Linear Fit
y = 1,6541465 + 0,172975 t
Summary of Fit
RSquare
RSquare Adj
Mean of Response
0,978579
0,977389
1,344501
16,53
33
vælg”Confid.
20
Lack Of Fit
Source
DF
Sum of Squares
Lack Of Fit 8
22,728289
Pure Error
10
9,810000
Total Error 18
32,538289
Source
DF
Model
1
Error
18
C. Total 19
Sum of Squares
1486,4437
32,5383
1518,9820
Parameter Estimates
Term
Estimate
Intercept
1,6541465
t
0,172975
Std Error
0,599582
0,006032
Mean Square
2,84104
0,98100
Mean Square
1486,44
1,81
t Ratio
2,76
28,68
F Ratio
2,8961
Prob > F
0,0591
Max RSq
0
F Ratio
822,2924
Prob > F
<,0001
Prob>|t|
0,0129
<,0001
Af figuren ses, at “gennemsnitspunkterne ligger tilfældigt omkring linien, og der næppe er
outliers, da punkterne næsten alle falder indenfor “prediction linierne”
Af udskriften for “Lack of fit” ses, at P - value er 0.0591. På et signifikansniveau på 5%,
ses, at H0 må accepteres, dvs. vi kan antage, at indenfor måleområdet giver førstegradsmodellen en rimelig god beskrivelse af resultaterne,
3) Af udskriften ses, at regressionsligningen bliver y  16542
.
 01730
.
x
.
4) H 0 : 1  015
Sæt cursor på et vilkårligt tal under " Parameter estimates" , højre musetast
s vælg "lower"
gentag men vælg "Upper"
Parameter Estimates
Estimate
Term
Intercept
1,6541465
t
0,172975
Column-
Std Error
t Ratio
Prob>|t|
Lower 95%
Upper 95%
0,599582
0,006032
2,76
28,68
0,0129*
<,0001*
0,3944709
0,160302
2,9138221
0,1856481
Heraf ses, at et 95% konfidensinterval for  ikke indeholder 0.15.
dvs. data giver ikke den i litteraturen angivne hældningskoefficient..
5) Find det til t = 110 svarende 95% konfidensinterval for tykkelsen y.
Skriv nederst i tabel under t tallet 110.
Analyze Fit model Marker y og vælg y marker t og vælg add Run
Rød pil ved "Response y Save Columns predicted values mean Confidence interval
Der bliver nu tilføjet ekstra søjler .
Vi får y’s værdi for x = 110 = 20.68.
95% konfidensinterval [19.98 ; 21.38]
34
Eksempel 7.8 (multipel regressionsanalyse uden gentagelser)
Det månedlige elektriske forbrug Y på en fabrik formodes at være afhængig af den gennemsnitlige udendørs temperatur x1, antal arbejdsdage x2 i måneden , den gennemsnitlige renhed x3
af det fremstillede produkt og det antal tons x4, der produceres i den pågældende måned. Det
formodes, at Y er en lineær funktion af x1, x2 , x3 og x4 , dvs. på formen
Y   0  1 x1   2 x2   3 x3   4 x4 .
Følgende observationer fra det forløbne år foreligger
x1
x2
x3
x4
Y
-4
22
91
100
836
-1
20
90
95
789
7
21
88
110
883
16
19
87
88
790
18
20
91
94
816
23
19
94
99
859
27
23
87
97
831
29
21
86
96
832
24
22
88
110
897
16
23
91
105
872
10
20
90
100
842
3
20
89
98
821
1) Vurder ud fra forklaringsgraden og "studentized residualer" om ovennævnte model er
rimelig.
Det antages i det følgende, at ovenstående model gælder.
2) Undersøg om modellen kan reduceres, dvs. kan nogle af koefficienterne antages at være 0.
3) Angiv regressionsligningen i den endelige model.
4) Angiv 95% konfidensintervaller for de regressionskoefficienter der indgår i ovenstående
model
5) Angiv et 95% konfidensinterval for Y i punktet ( x1 , x 2 , x 3 , x 4 )  (0,20,90,100)
Løsning
Data indtastes
x1
-1
7
16
18
23
27
29
24
16
10
3
x2
20
21
19
20
19
23
21
22
23
20
20
x3
90
88
87
91
94
87
86
88
91
90
89
x4
95
110
88
94
99
97
96
110
105
100
98
y
789
883
790
816
859
831
832
897
872
842
821
35
1) Vælg Analyze Fit model markér “y” og tryk på Y Response markér “x1, x2, x3.x4” og tryk
ADD Emphasis: Miniimal report Run
Der fremkommer bl.a. følgende udskrift
Summary of Fit
RSquare
RSquare Adj
Mean of Response
Vælg rød pil
0,965448
0,945705
7,90936
839
Save Columns Studentized residuals
I datatabel kan man nu yderligere finde følgende
x1
-4
-1
7
16
18
23
27
29
24
16
10
3
x2
22
20
21
19
20
19
23
21
22
23
20
20
x3
91
90
88
87
91
94
87
86
88
91
90
89
x4
100
95
110
88
94
99
97
96
110
105
100
98
y
836
789
883
790
816
859
831
832
897
872
842
821
Studentized Resid y
1,79003969
-2,2547678
0,13625987
1,49780253
-0,6335664
0,52748444
-0,6533457
0,11469765
-0,3300421
0,20781137
0,25236158
-0,0125531
Da kun en enkelt værdi numerisk er større end 2 og ingen er over 3, antages, at der ikke er
outliers
Da yderligere forklaringsgraden= 0.965 er tæt ved 1 vurderes modellen at være rimelig god.
2) Mulig reduktion af modellen
H 0 : 1   2   3   4  0 , H: Mindst en af regressionskoefficienterne er forskellig fra 0.
I samme udskrift som under "Summery of Fit" fandtes
Response y
Summary of Fit
Source DF
Sum of Squares
Model 4
12236,094
Error
7
437,906
C. Total 11
12674,000
Parameter Estimates
Term
Estimate
Intercept
175,49949
x1
1,0266425
x2
-0,793015
x3
1,9113126
x4
4,9822626
Mean Square
3059,02
62,56
Std Error
113,8626
0,226819
2,120284
1,145911
0,44901
t Ratio
1,54
4,53
-0,37
1,67
11,10
F Ratio
48,8990
Prob > F
<,0001*
Prob>|t|
0,1671
0,0027*
0,7195
0,1393
<,0001*
Af ovenstående udskrift ses for model, at P - Value <0.0001 < 0.05.
36
Heraf følger, at H0 forkastes (stærkt), dvs. mindst en af regressionskoefficienterne er
forskellig fra 0.
Vi ser nu regressionskoefficienterne
Den  størrelse, der har størst P-værdi er 2 .
H0: 2 = 0 accepteres, da P -værdien = 0.7195> 0.05.
x2-leddet bortkastes.
Bemærk, at man kun eliminerer én variabel ad gangen.
Vi eliminerer nu x2 : (slettes under “ADD”)
Effect Tests
Source
Nparm
x1
1
x3
x4
1
1
DF
1
Sum of Squares
1274,177
F Ratio
22,8216
Prob > F
0,0014
1
1
215,715
10796,609
3,8636
193,3764
0,0849
<,0001
Da P-værdien for x3 er 0.0849 > 0.05 eliminerer vi nu x3.
Effect Tests
Source
Nparm
x1
1
x4
1
DF
1
Sum of Squares
1083,972
F Ratio
14,7285
Prob > F
0,0040
1
11089,679
150,6814
<,0001
Det er nu ikke muligt at reducere modellen mere.
3) For at kunne angive regressionsligningen betragtes følgende udskrift.
Parameter Estimates
Term
Estimate
Intercept
335,65234
x1
0,9016966
x4
4,9401735
Std Error
40,26796
0,234953
0,40245
t Ratio
8,34
3,84
12,28
Prob>|t|
<,0001
0,0040
<,0001
Ligningen bliver y  335.65  0.9017  x1  4.9402  x 4
4) Cursor i tabellen ovenfor, højre musetast
Parameter Estimates
Term
Estimate
Intercept
335,65234
x1
0,9016966
x4
4,9401735
Columns Upper 95% lower 95%
Std Error
40,26796
0,234953
0,40245
t Ratio
8,34
3,84
12,28
Prob>|t|
<,0001
0,0040
<,0001
Lower 95%
244,55989
0,370196
4,0297676
Upper 95%
426,74479
1,4331972
5,8505795
.
]
.
] ,  4 : [4.030 ; 5851
Konfidensintervallerne bliver 1 : [0.3702 ; 14332
5) Cursor på rød pil"Response Y" vælg “Factor Profiling”
ved x1, skriv 0, Cursor på rødt tal ved x4, skriv 100
37
Profiler
cursor på det røde tal forneden
Prediction Profiler
Vi har derfor, at y  829.67 og et 95% konfidensinterval er [820.35 ; 838.99]
Eksempel 7.9. Polynomial regressionsanalyse uden gentagelser.
Et forsøg udføres, for at finde hvordan størkningstiden T (i minutter) afhænger af antal gram x
af et additiv. Man fik følgende forsøgsresultater:
x g/l
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
7.5
8
8.5
T min. 740 710 610 650 470 540 440 420 400 450 440 480 530 470 420 480 450 490
1) Vurder på basis af ovennævnte observationer, hvilket polynomium
T   0   1 x   2 x 2   3 x 3  ...  p x p af lavest mulig grad p, der indenfor måleområdet
[ 0 ; 8.5 ] giver en tilfredsstillende beskrivelse af T’s variation.
2) Angiv regressionsligningen for den model, man i spørgsmål 1 har fundet frem til.
3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2.
Løsning:
1) Data indtastes
a) Analyze Fit Y by X markér “T” og tryk på Y Response markér “x” og tryk på X Factor OK
Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne
afbildet.
Bivariate Fit of T By x
750
700
650
T
600
550
500
450
400
350
-1
0
1
2
3
4
5
6
7
8
9
x
38
Cursor på overskrift, højre musetast
Fit Polynomial
Man kan nu vælge, hvilken grad polynomiet skal have.
Ud fra scatterplottet synes en andengradsmodel ikke at være en god model
Vi vælger en fjerdegradsmodel
Der fremkommer blandt andet følgende udskrift:
Summary of Fit
RSquare
0,846337
RSquare Adj
0,799056
45,41548
Mean of Response
510,5556
Observations (or Sum Wgts) 18
Vælges en trediegradsmodel fås tilsvarende
Summary of Fit
RSquare
0,841256
RSquare Adj
0,807239
44,48109
Mean of Response
510,5556
Observations (or Sum
18
Wgts)
Vi ser, at R-squared (adjusted) nu er steget svagt fra 80,72% til 79,90%. Heraf må sluttes,
at fjerdegradsmodellen ikke har givet et væsentligt forbedret bidrag til forklaring af data.
For at lave tests, konfidensintervaller m.m. må man indføre 2 nye kolonner x2 = x2 og x3=x3
og gå over i multipel analyse.
Hertil benyttes formula (Cursor på kolonneoverskrift højre musetast formula)
Vælg Analyze Fit model markér “T” og tryk på Y Response markér “x, x2, x3” og tryk ADD
Run
Man får bl.a.
Parameter Estimates
Term
Intercept
x
x2
x3
Estimate
Std Error
t Ratio
Prob>|t|
770,70175
-179,2699
31,336429
-1,692466
34,52201
36,21048
10,07039
0,777816
22,32
-4,95
3,11
-2,18
<,0001*
0,0002*
0,0077*
0,0472*
Da vi ser, at P-værdien for  3 = 0.047 < 0.05 forkastes H0:  3  0 , dvs.
Vi kan ikke bortkaste trediegradsleddet.
Heraf sluttes, at en trediegradsmodel må være det foreløbig bedste bud
Grafen for trediegradsmodellen blev følgende
39
Bivariate Fit of T By x
Da punkterne ligger tilfældigt omkring kurven finder vi, at trediegradsmodellen er en
acceptabel model
For at vurdere om der er outliers, vælges studentized residuals
Vælg rød pil(ved response) Save Columns Studentized residuals
Resultat blev følgende tabel
x
T
x2
x3
Studentized Resid T
0
740
0
0
-1,0945392
0,5
710
0,25
0,125
0,56154621
1
610
1
1
-0,2737721
1,5
650
2,25
3,375
2,05315659
2
470
4
8
-1,3378076
2,5
540
6,25
15,625
1,19147889
3
440
9
27
-0,7178786
3,5
420
12,25
42,875
-0,8387979
4
400
16
64
-1,123754
4,5
450
20,25
91,125
0,13661908
5
440
25
125
-0,1505792
5,5
480
30,25
166,375
0,71090704
6
530
36
216
1,79418941
6,5
470
42,25
274,625
0,13340982
7
420
49
343
-1,2500319
7,5
480
56,25
421,875
0,12747972
8
450
64
512
-0,6727677
8,5
490
72,25
614,125
0,65672353
Den viser, at ingen numerisk er over 3, og kun en enkelt på 2.05 er numerisk over 2
Konklusion: Trediegradsmodellen er den bedste model
2) Regressionsligningen ses under punkt 2
Polynomial Fit Degree=3
T = 464,53399 - 4,620743 x + 9,7574819 (x-4,25)^2 - 1,6924665 (x-4,25)^3

.
x 2  1629
.
x 3 .(udregnet på lommeregner)
eller T  770.70  179.27 x  31336
3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2.
Skriv 6.2 nederst i datatabel
cursor på overskrift på x2, højre musetast
Nu kommer automatisk i kolonnerne 6.2^2 osv.
Rød pil ved Response T
Save Columns
Predicted value
40
Mean Confidence Interval
Nu dannes i tabellen tre nye kolonner op, hvoraf man aflæser det ønskede
x
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
7,5
8
8,5
6,2
T
740
710
610
650
470
540
440
420
400
450
440
480
530
470
420
480
450
490
.
x2
0
0,25
1
2,25
4
6,25
9
12,25
16
20,25
25
30,25
36
42,25
49
56,25
64
72,25
38,44
x3 Lower 95% Mean T Upper 95% Mean T Predicted T
0
696,659416
844,744093 770,701754
0,125
638,924223
738,454518
688,68937
1
581,420936
660,730766 621,075851
3,375
527,734498
605,449196 566,591847
8
483,773946
564,162071 523,968008
15,625
451,740922
532,129047 491,934985
27
430,771063
507,675789 469,223426
42,875
418,637279
490,490688 454,563983
64
412,60539
480,769223 446,687307
91,125
410,242129
478,405962 444,324045
125
410,278146
482,131555
446,20485
166,375
412,608008
489,512735 451,060372
216
417,427197
497,815321 457,621259
274,625
424,424101
504,812225 464,618163
343
431,924385
509,639083 470,781734
421,875
435,187706
514,497536 474,842621
512
425,766328
525,296623 475,531476
614,125
397,536609
545,621286 471,578947
238,328
420,015059
500,862506 460,438782
Man får T = 460.44 og 95% konfidensinterval [420.0;500.9]
Kapitel 8. Statistisk Proceskontrol
Eksempel 8.1. Kontrol af stof i levnedsmiddelprodukt.
En levnedsmidddelvirksomhed har problemer med at holde koncentrationen af et skadeligt stof
A i et konservesprodukt nede under en øvre tolerancegrænse på 12 enheder pr. gram . Man
vælger derfor at få foretaget en kontrolkortanalyse. På basis af tidligere erfaringer inddeles
målingerne i 30 undergrupper , som hver har deres karakteristika:(råvarecharge, apparatur,
tidspunkt på dagen osv.). Hver undergruppe er på 5 målinger.
Gruppe Målinger Gruppe Målinger
1 13 8 2 5 8 16 16 11 14 8 17
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0 6 1 9 15
4 2 4 3 4
3 15 8 3 5
5 10 5 4 0
9 5 13 7 7
0 4 4 3 9
9 3 0 6 0
14 0 0 5 3
3 9 5 0 2
5 8 0 7 8
3 2 2 7 4
5 11 14 8 3
13 5 5 12 7
7 0 1 0 6
17
18
19
20
21
22
23
24
25
26
27
28
29
30
9 4 4
6 1 1
7 0 5
10 0 10
3 7 5
3 0 10
3 3 0
0 2 3
2 3 5
3 1 4
2 4 5
0 22 7
3 5 9
9 7 10
8
3
7
12
10
5
6
6
4
2
13
2
8
13
9
13
2
7
12
4
9
7
10
4
4
11
6
0
41
1) Foretag ved hjælp af x  og R - kort en kontrolkortanalyse og opstil kontrolkort, der kan
benyttes til en løbende kontrol af indholdet af det skadelige stof.
2) Idet der er fastsat en øvre tolerancegrænse på 12, skal man finde sandsynligheden for at én
måling falder udenfor, når processen antages i kontrol med de i punkt 1 fastsatte kontrolgrænser.
Løsning
Data indtastes på sædvanlig måde:
gruppe
1
1
1
1
1
2
2
2
osv.
30
30
30
30
30
indhold af A
13
8
2
5
8
0
1
6
9
7
10
13
0
1) Vælg Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold af A
Sample Label = gruppe Marker “Xbar, R, kSigma OK
Vi får følgende udskrift
Variables Control Chart
XBar of Indhold af A
U CL=11,17
10
Avg=5,77
5
LC L=0,36
30
27
24
21
18
15
12
9
6
0
3
Mean of Indhold af A
15
gruppe
Note: The sigma was calculated using the range.
R of Indhold af A
25
20
U CL=19,81
15
10
Avg=9,37
5
0
gruppe
42
30
27
24
21
18
15
12
9
LC L=0,00
6
-5
3
Range of Indhold af A
30
Det ses, at gruppe 28 er udenfor kontrolgrænserne på R-kortet.
Det kan somme tider være svært umiddelbart at se om et punkt falder indenfor eller udenfor
kontrolgrænsen
Det er ikke tilfældet her, men ellers kan man gøre følgende
Rød pil ved R-kort
Test beyond limits
Nu bliver alle punkter udenfor markeret
Synes man figuren er for lille og uoverskuelig, så
Højre musetast på figur
Size/Scale Y-axis Angiv Min , Max og Incrediment.
Gruppe 28 udskydes.
Cursor placeres på gruppe 28 på R-kort venstre musetast, I datatabel markeres nu gruppe 28 med
blåt Cursor på gruppen Højre musetast Exclude
Gentag med det nye datasæt
Control Chart X Bar I menu vælg Process = Indhold af
R, kSigma OK
Sample Label = gruppe Marker “Xbar,
Vi får nye kontrolkort med nye grænser
For R-kortet er UCL = 18.88.
Vi ser, at nu er der ingen udenfor R-kortet, men stadig en gruppe (gruppe 16) udenfor
kontrolgrænserne på x - kortet.
Vi udskyder nu dette punkt efter samme metode som før,
Derefter er der ingen punkter på hverken x - kortet eller R- kortet, der er udenfor grænserne
De to kort kan nu benyttes til den løbende proceskontrol.
XBar of Indhold af A
R of Indhold af A
30
Range of Indhold af A
Mean of Indhold af A
15
UCL=10,56
10
Avg=5,41
5
LCL=0,26
0
25
20
UCL=18,88
15
10
Avg=8,93
5
LCL=0,00
0
30
27
24
21
18
15
9
12
gruppe
gruppe
K
6
3
30
27
24
21
18
15
9
12
6
3
-5
ontrolgrænserne kan aflæses på kortet.
Spredningen  kan findes på følgende måde:
Vælg rød pil ved “Variable Control Chart” Save sigma ok
Cursor på søjleoverskrift”“Indhold af A” højre musetast Column Info
Man kan nu aflæse spredningen til 3.8387
43
2) Rød pil ved “Variable Control Chart” Capability
Upper Spec Limit = 12
OK
Control Chart Sigma
Sigma = 3,83871
Capability
CP
CPK
CPM
CPL
CPU
Index
.
0,572
.
.
0,572
Portion
Below LSL
Above USL
Lower CI
.
0,485
.
.
0,485
Percent
.
4,2947
Upper CI
.
0,659
.
.
0,659
PPM Sigma Quality
.
.
42947,037
3,217
Heraf ses, at P(X>12) = 0 4.29%
Ønskes et s-kort frem for et R kort, så vælg
Vælg Graph Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold
af A Sample Label = gruppe Marker “Xbar, S, kSigma OK
Eksempel 8.3. Løbende kontrol.
Der oprettes på sædvanlig måde en ny datatabel. Lad første søjle få navnet målinger.Indsæt de
første målinger.Vælg som før
Control Chart X Bar I menu vælg Process = målinger
Sample Size Constant Vælg stikprøvestørelse (eksempelvis 3) Specify Stats
mean(range) = 8,4 og mean(stdv)= 9 OK
indsæt eksempelvis
Der fremkommer nu nogle kontrolkort for xBar og R (hvis det er valgt) og man kan nu løbende
sætte sine måleresultater ind i datatabellen.
Vælg “rød pil ved overskrift xBar tests
alle test
Man kan nu løbende se om der sker en overtrædelse af alarmkriterierne
Nedenfor er givet et eksempel, hvor der også er indtastet de tre “Zoner”
Mean of Column 1
20
1
15
10
U CL=16,11
A
B
C
Avg=9,89
C
B
5
A
1
LC L=3,67
2
3
4
5
6
7
8
9 10 11 12
Sam ple
44
6.7 Sekventiel forsøgsstrategi
Eksempel 8.4 (np - kort)
En fabrikant af nogle specielle typer keramikfliser som er beregnet til at kunne klare høje
temperaturer ønsker udarbejdet et kontrolkort. Ved en løbende produktion af fliser udtoges 40
gange en stikprøve på 100 fliser. De blev undersøgt om de levede op til de forventede
kvalitetsmål. Fliser der ikke opfyldte disse krav blev klassificeret som defekte
Resultatet var følgende:
Gruppe
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antal defekte 8 6 4 4 3 7 3 6 9 5 7 2 6 11 4 6 7 4 9 6
Gruppe 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Antal defekte 6 2 5 7 6 4 6 10 5 5 7 9 3 8 5 3 14 6 4 5
Løsning
Procesvariablen X er bestemt ved :
X = antal enheder uden fejl af en produktion på 100 fliser
X er binomialfordelt b(100, p)
Data indtastes i en kolonne “antal defekte”
Vælg Control Chart NP I menu vælg Process = antal defektemålinger Constant Size = 100
Vælg rød pil på øverste overskrift Tests = ALL tests Show Zones
OK
Der fremkommer følgende kort
Number for antal defekte
Control Chart
NP of antal defekte
15
1
U CL=13,01
10
Avg=5,93
5
0
LC L=0,00
4
8 12 16 20 24 28 32 36 40 44
Sam ple
Heraf ses, at der kun er et punkt, hvor alarmkriterierne overtrædes.
Ved indførelse på kortet af 2  - grænser og l  - grænser ses, at ingen af de alarmgrænser vi
omtalte tidligere bliver overtrådt.
45
Eksempel 8.5.(c - kort)
2
Ved en tekstilproduktion taltes anta1 fejl pr. 100 m klæde. Følgende resultater fandtes
(tidsmæssig rækkefølge for produktionen) :
nr
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
antal fejl 3 3 6 3 0 1 3 5 8 7 4 10 5 5 5 4 2 4 5 1 2 0 1 1 4
Med henblik på en kontrolkortanalyse skal konstrueres et c-kort for processen
Løsning
Hvis den variable er Poissonfordelt dannes et c-kort på samme måde som np-kortet.
Kortet med indførelse af 2  - grænser og l  - grænser ses nedenfor.
c Chart for Antal fejl
10
UCL = 8,96
8
CTR = 3,42
LCL = 0,00
c
6
4
2
0
0
5
10
15
20
25
Observation
Da ingen af de alarmgrænser vi omtalte tidligere bliver overtrådt antages derfor, at det
reviderede c-kort kan benyttes til løbende kontrol.
Kapitel 9
Der findes ingen programmer til stikprøveplaner.
Kapitel 10 Antalstabel
Eksempel 10.3. Test af uafhængighed
Ved et universitet indstillede et år 500 studerende sig til en årsprøve, der bl.a. omfattede
matematik og fysik.
De opnåede karakterer i de to fag inddeltes i 4 grupper:
Fysikkarakterer
Observerede værdier
Total
- 3, 0
2, 4
7, 10
12
Matematikkarakterer
Total
-3, 0
2, 4
7, 10
12
18
22
7
2
49
46
60
123
28
257
46
13
42
42
68
165
0
5
16
8
29
77
129
188
106
500
6.7 Sekventiel forsøgsstrategi
Undersøg om der er en sammenhæng mellem de opnåede fysikkarakterer og de opnåede
matematikkarakterer.
Løsning :
Data indtastes som vist nedenfor, idet man sørger for at kolonnerne Matamatik og Fysik
ændres til typen “Nominal”
Cursor på navn, højre musetast
Matematik
Fysik
-3-0
-3-0
-3-0
2-4
-3-0
7-10
-3-0
12
2-4
-3-0
2-4
2-4
2-4
7-10
2-4
12
7-10
-3-0
7-10
2-4
7-10
7-10
7-10
12
12
-3-0
12
2-4
12
7-10
12
12
“Modelling Type”
Antal
18
46
13
0
22
60
42
5
7
123
42
16
2
28
68
8
Nominal
Vælg “Analyze “ Fit Y By x sæt Matematik som XY sæt Fysik som X sæt antal som Freq ok
I den fremkomne tabel sæt cursor på tabel, højre musetast
slet markeringer ved “Total”, “Col” og
“Row”, og sæt markering ved “expected” ok
Resultat:
Contingency Analysis of Fysik By Matematik
Freq: Antal
Contingency Table
Matematik By Fysik
Count
12
2-4
-3-0
Expected
12
8
28
2
6,148
54,484
10,388
2-4
5
60
22
7,482
66,306
12,642
-3-0
0
46
18
4,466
39,578
7,546
7-10
16
123
7
10,904
96,632
18,424
29
257
49
7-10
68
34,98
42
42,57
13
25,41
42
62,04
165
Tests
N
500
DF
9
-LogLike
55,490394
RSquare (U)
0,1008
Test
ChiSquare
Prob>ChiSq
Likelihood Ratio
110,981
<,0001*
Pearson
108,917
<,0001*
Man kan nu se de forventede værdier, og konstatere, at kun 1 ligger under 5.
Man kan derfor stole på at “Pearson’s P - værdi
Da P - værdi < 0.05 forkastes nulhypotesen (stærkt ) dvs.
der er ikke uafhængighed mellem fysikkaraktererne og matematikkaraktererne.
47
106
129
77
188
500
Eksempel 11.5 . Kruskal-Wallis test for mere end 2 variable.
Et levnedsmiddels smag kan tænkes at afhænge af hvilken af 3 produktionsmetoder der anvendes. For at
undersøge om det er tilfældet planlægges følgende forsøg:
Med hver af de 3 metoder fremstilles i en forsøgsproduktion 6 prøver.
En ekspertsrnager vurderer de i alt 18 smagsprøver enkeltvis og i tilfældig rækkefølge uden kendskab til, hvilken
metode der er anvendt i det enkelte tilfælde. Efter hver smagning markeres resultatet ved afsætning af et kryds på
et standardliniestykke, hvis ene endepunkt svarer til værst mulig smag, det andet endepunkt til bedst mulig smag.
Ved den statistiske analyse af resultaterne transformeres disse til tal, idet hvert af de 18 standardliniestykker
inddeles lineært efter en skala fra 0 (værst mulig smag) til 100 (bedst mulig smag). De transformerede resultater er
de tal, som angiver krydsernes placering, og kan betragtes som stikprøveværdier af q (=3) kontinuerte statistisk
uafhængige variable med ukendte fordelingstyper.
De transformerede forsøgsresultater blev:
Metode M1
61
69
79
61
59
Metode M2
62
58
47
59
63
Metode M3
57
45
60
54
57
48
Det bemærkes, at der ved forsøget kun fremkom 5 observationer for metoderne Ml og M3 på grund af tekniske fejl
ved fremstillingen af 2 prøver.
Idet m1, m2 og m3 betegner de 3 fordelingers medianer, ønsker vi på grundlag af stikprøveværdierne at teste
nulhypotesen
H0: De 3 fordelinger er ens (hvilket indebærer, at ml = m2 = m3) imod den alternative hypotese H: De 3 fordelinger
er ikke ens.
Løsning:
Data indtastes som vist nedenfor
metode
m1
m1
m1
m1
m1
m2
m2
osv
Smag
61
69
79
61
59
62
58
m3
m3
Vælg Analyze
54
57
Fit y by x
Indsæt smag i Y og metode i X
ok
rød pil "
Non-parametric
Wilconson test
ENTER
Man får bl.a. følgende udskrift
Wilcoxon / Kruskal-Wallis Tests (Rank Sums)
Level
Count
Score Sum
m1
5
62,500
m2
6
47,500
m3
5
26,000
Score Mean
12,5000
7,9167
5,2000
(Mean-Mean0)/Std0
2,214
-0,326
-1,817
1-way Test, ChiSquare Approximation
ChiSquare
DF
Prob>ChiSq
6,0484
2
0,0486*
Small sample sizes. Refer to statistical tables for tests, rather than large-sample approximations.
Da P - værdi = 0.0486 < 0.05 forkastes nulhypotesen (tæt ved accept), og vi må derfor konkludere, at de 3
fordelinger ikke er identiske.
Ud fra de fundne summer må man kunne slutte, at metode 1 giver en bedre smag end metode 3.
48

Fantastiske Østrig med bjerge og storslået natur

Transcription

Similar documents

Interrupts

6. Sådan vurderes kvalitet og nøjagtighed af resultater via statistik

sortsinformation

manual - Spakompagniet.dk

135 kr. pr. person - Løvvang Bowling Center

Quick Fit®

Odgers Berndtson Bestyrelsesrapport 06/2012

DET JYSKE MESTERSKAB I TIPNING

Udvidet erhvervsret (pdf) - AU - Executive