SUPPLEMENT til Matematiske Grundbegreber - larsen

Transcription

SUPPLEMENT til Matematiske Grundbegreber - larsen
SUPPLEMENT
til
Matematiske Grundbegreber
INDHOLD
2A BEVISER VEDRØRENDE NORMALFORDELINGEN . . . . . . . . . . . . . . . . . . . . . 2
3A χ 2 - FORDELINEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3B t - FORDELINGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3C F - FORDELINGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4A DEFINITIONER OG EKSEMPLER PÅ CENTRALE OG EFFEKTIVE
ESTIMATORER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4B BEVISER FOR FORMLER FOR KONFIDENSINTERVALLER . . . . . . . . . . . . 11
5A BEVISER FOR FORMLER I HYPOTESETEST . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5B OC-KURVER OG DIMENSIONERING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
7A BEVIS FOR MIDDELVÆRDI OG SPREDNING FOR HYPERGEOMETRISK
VARIABEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7B BEVISER FOR FORMLER I BINOMIAL- OG POISSON-TEST . . . . . . . . . . . . . 19
7C BEVISSKITSE FOR TÆTHEDSFUNKTIONEN FOR
POISSONFORDELINGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1
Supplement 2A Beviser vedrørende normalfordelingen
2A BEVISER VEDRØRENDE NORMALFORDELINGEN.
SUPPLEMENT:
1
I definitionen af normalfordelingen indgår, at f ( x ) =
∫
dvs. f ( x ) ≥ 0 og
2 ⋅π ⋅σ
∞
⋅e
1  x−µ 
− ⋅

2 σ 
2
er en tæthedsfunktion,
f ( x )dx = 1
−∞
Bevis: Da en eksponentialfunktion er positiv, er f ( x ) ≥ 0 .
x−µ
Substitueres t =
∫
Sættes I =
I2 =
∫
∞
e
σ
∞
e
1
− ⋅t 2
2
fås
∫
∞
f ( x )dx = 1 ⇔
−∞
∫
∞
e
1
− ⋅t 2
2
dt = 2π
−∞
dt fås
−∞
1
− ⋅t 2
2
dt ⋅
−∞
∫
∞
e
1
− ⋅t 2
2
dt =
−∞
∫
∞
e
1
− ⋅t 2
2
dt ⋅
−∞
∫
∞
e
∞
1
− ⋅u 2
2
du =
−∞
∫∫
Indføres nu polære koordinater t = r ⋅ cos v , u = r ⋅ sin v fås
I =
2
2π
r→∞
dv
e
∫ ∫
0
1
− ⋅r 2
2
0
 − 1 ⋅r 2 
rdr = −2π e 2 

0
−∞
∞
e
1
− ( t 2 + u2 )
2
dt du
−∞
r→∞
= 2π .
Heraf fås det ønskede.
SÆTNING 2.1 (Middelværdi og spredning for normalfordeling). Normalfordelingen n( µ , σ ) har
middelværdien µ og spredningen σ .
Bevis: E ( X ) =
∞
∫
x
2 ⋅π ⋅σ
−∞
Substitueres t =
E( X ) = µ
∫
∞
−∞
⋅e
x−µ
σ
1  x− µ 
− ⋅

2 σ 
2
dx .
⇔ x = µ +σ ⋅t
1
− t2
1
⋅ e 2 dt + σ
2⋅π
∫
fås
∞
−∞
1
− t2
t
⋅ e 2 dt
2⋅π
Det første integral er 1, da integranden er en tæthedsfunktion, og det andet integral er 0, da integranden er en
ulige funktion. Følgelig er E(X) =
µ.
∞
2
3) V ( X ) =
∫
V(X) = σ
1  x− µ 

σ 
( x − µ ) 2 − 2 ⋅
⋅e
⋅
π
σ
2
−∞
2
∫
∞
−∞
dx .
1
− t2

t2
⋅ e 2 dt = σ 2  −
2⋅π

Substitueres t =
∞
x−µ
1
− t2 
t
+σ2
⋅e 2 
2⋅π
 −∞
(delvis integration , samt som før at sidste integral er 1) .
2
⇔ x = µ + σ ⋅ t fås
σ
∫
∞
−∞
1
− t2
1
⋅ e 2 dt = σ 2
2⋅π
Supplement 3A χ 2 - fordelingen
SUPPLEMENT
2
3A χ -FORDELINGEN
Definition af χ 2 -fordelingen. Lad U 1 ,U 2 ,...,U f være uafhængige normerede normalfordelte
2
2
2
2
variable. Sandsynlighedsfordelingen for den statistiske variabel χ = U 1 + U 2 + ,...,U f kaldes
2
2
χ - fordelingen med frihedsgradstallet f og betegnes χ ( f ) .
χ2(f )
Det kan vises, at tæthedsfunktionen for

1
x

f ( x ) =  2 ⋅ Γ  f 
 2

 0
f
−1
2
f
e
−
x
2
er bestemt ved
x>0
for
2
hvor
ellers
∞
Gammafunktionen Γ( x ) er defineret ved Γ( x ) = ∫ t x −1e − t dt
1
0
SÆTNING 3A.1 (middelværdi og varians for χ 2 -fordeling).
χ 2 - fordelingen med f frihedsgrader har middelværdien E ( χ 2 ) = f og variansen V ( χ 2 ) = f .
Bevis: I kapitel 1 blev det for en vilkårlig statistisk variabel X vist, at
V ( X ) = E ( X 2 ) − ( E ( X )) 2 .
Lad U være den normerede normalfordeling.
Da E(U) = 0 og V(U) = 1 fås af regel (1) , at E (U 2 ) = 1 .
(1)
Idet χ 2 = U 12 + U 22 +...+U 2f fås af linearitetsreglen, at
E ( χ 2 ) = E (U 12 ) + E (U 22 ) +...+ E (U 2f ) = 1 + 1+ ...+1 = f
Benyttes regel (1) på den statistiske variabel U 2 fås V (U 2 ) = E (U 4 ) − ( E (U 2 ) 2 .
Af definitionen på middelværdi fås
E (U ) =
4
∞
∫
u ⋅ f (u)du =
4
1
2⋅π
−∞
∫
∞
u ⋅e
4
1
− ⋅u 2
2
du = −
1
2⋅π
−∞
∫
∞
u3 ⋅ e
1
− ⋅u 2
2
(
d − 21 u 2
)
−∞
Benyttes delvis integration fås:
E (U ) = −
4
1
2⋅π
=−
∫
1
2⋅π
 − 21 ⋅u 2 
u ⋅ de
=−
−∞


∞
3

0− 3

∫
∞
u2 ⋅ e
1
− ⋅u 2
2
−∞
1
2⋅π
∞
1

− ⋅u 2
 u 3 ⋅ e 2  −
 
 −∞


du = 3

1
2⋅π
∫
∞
u2 ⋅ e
∫
1
− ⋅u 2
2
∞
e
−∞
1
− ⋅u 2
2

du 3 


du = 3 ⋅ E (U 2 ) = 3
−∞
Vi har nu V (U ) = E (U ) − ( E (U )) = 3 − 1 = 2
Da U 1 , U 2 ,...U f er uafhængige fås V ( χ 2 ) = V (U 12 ) + V (U 22 ) + ...,+ V (U 2f ) = 2 + 2 + ...+ 2 = 2 ⋅ f
2
4
2
2
for x ∈ {1,2,3,...}
( x − 1)!
1
Specielt gælder Γ( x ) =
for x = 21
π
( x − 1) ⋅ ( x − 2)⋅...⋅ 23 ⋅ 21 ⋅ π for x ∈ { 23 , 25 , 72 ,...}
3
χ 2 - fordelingen
Supplement 3A
SÆTNING 3A.2 (additionssætning for χ 2 - fordelte variable). Lad χ12 , χ 22 ,..., χ k2 være uafhængige
χ 2 - fordelte variable med frihedsgradstallene henholdsvis f 1 , f 2 ,..., f k .
Den statistiske variabel χ 2 = χ 12 + χ 22 +...+ χ k2 er da χ 2 - fordelt med frihedsgradstallet
f = f 1 + f 2 +...+ f k
Bevis:
χ 2 - fordelte variable er en sum af kvadraterne på en række normerede uafhængige noralfordelte
χ naturligvis også være det. Det samlede antal led i χ 2 er f, hvormed sætningen er bevist.
Da hver af de k
variable, vil
2
Vi vil i de følgende sætninger gå ud fra, at X 1 , X 2 ,..., X n er normalfordelte statistiske variable med middelværdi
og spredning
σ
. Lad endvidere som sædvanlig
n
X + X 2 + ...+ X n
X = 1
,
n
S =
2
∑(X
i =1
i
n
− X )2
S
og
n− 1
2
µ
=
∑ (X
i =1
i
− µ )2
n
.
Uden bevis anføres følgende sætning:
SÆTNING 3A.3 (Uafhængighed af X og S 2 ). De statistiske variable
SÆTNING 3A.4 (
X og S 2 er uafhængige.
(n − 1) ⋅ S 2
er χ 2 - fordelt).
σ2
n
Den statistiske variabel (n − 1) ⋅ S =
σ2
2
∑ (X
i =1
i
σ
− X )2
er fordelt χ 2 (n − 1) .
2
Bevis: Idet
n
n
n
i =1
i =1
i =1
∑ ( X i − X ) 2 = ∑ (( X i − µ ) + ( µ − X )) 2 = ∑ (( X i − µ ) 2 + ( µ − X ) 2 + 2( X i − µ )( µ − X ))
n
n
n
= ∑ ( X i − µ ) 2 + ∑ ( µ − X ) 2 + 2( µ − X ) ∑ ( X i − µ ) =
i =1
i =1
i =1
n
∑(X
i =1
n
n
i =1
i =1
i
 n

− µ ) 2 + n( µ − X ) 2 + 2( µ − X ) ∑ X i − nµ )
 i =1

= ∑ ( X i − µ ) 2 + n( µ − X ) 2 + 2( µ − X )(n X − nµ ) = ∑ ( X i − µ ) 2 − n ⋅ ( X − µ ) 2
n
fås
∑ ( Xi − X )2
i =1
σ2
n
=
∑(X
i =1
i
− µ )2
σ2
 X − µ
− σ 


 n 
2
(1)
4
µ
Supplement 3A χ 2 - fordelingen
Idet
∑ (X
i =1
∑
n
n
i
− µ)
2
=
σ2
2
 X − µ

 er en sum af kvadrerede normerede normalfordelte variable, er den χ 2  σ 
i =1
fordelt med n frihedsgrader.
2
 X − µ
2
Endvidere ses, at 
 er en kvadreret normeret normalfordelt variabel, så den er χ - fordelt med 1 frihedsgrad.
 σ 
 n 
χ 2 - fordelte variable statistiske variable.
2
variable atter er χ - fordelte ifølge sætning
De to led i (1) er ifølge sætning 3A.3 uafhængige
Da en sum af uafhængige
∑
χ2 -
fordelte
3A.2, har vi derfor, at
n
( Xi − µ)2
2
 X − µ
=
−  σ  er χ 2 - fordelt.
2
2


σ
σ


n
Det kan endvidere vises, at f = n - 1.
(n − 1) ⋅ S
2
i =1
SÆTNING 3A.5 ( varians af
S 2 og S µ2 ).
V (S 2 ) =
2 ⋅σ 4
n−1
og
V ( S µ2 ) =
2 ⋅σ 4
.
n
Bevis:
n
a) Af omskrivningen S =
2
∑ ( X i − X )2
i =1
n−1
2
n
( Xi − X )2
σ2 ∑
σ2 2
i =1
=
=
χ hvor χ 2 er fordelt χ 2 (n − 1) , fås
2
n−1
n−1
σ
2
 σ 
 σ2 
2 ⋅σ 4
2
V (S ) = 
 V (χ ) = 
 ⋅ 2 ⋅ (n − 1) =
n−1
 n − 1
 n − 1
2
2
n
n
b) Af omskrivningen S µ =
2
2
∑ ( X i − µ )2
i =1
n
σ2
=
n
∑(X
i =1
i
σ
− µ )2
2
2
σ 2 
σ 2 
2 ⋅σ 4
.
V (Sµ ) =   V ( χ 2 ) =   ⋅ 2 ⋅ n =
n
 n 
 n 
2
5
=
σ2 2
χ hvor χ 2 er fordelt χ 2 (n) ,
n
fås
Supplement 3B t - fordelingen
SUPPLEMENT
3B t - FORDELINGEN
DEFINITION af t - fordelingen. Lad U være normalfordelt n (0.1 ) og χ 2 være fordelt χ 2 ( f ) . Hvis
U og χ 2 er uafhængige kaldes sandsynlighedsfordelingen for den statistiske variabel t =
U
χ2
f
for t-
fordelt med frihedsgradstallet f og betegnes t(f).
 f + 1
f +1
−
Γ


 2 
x2  2
f ( x) =
⋅ 1 + 
f 
f 
π ⋅ f ⋅ Γ 
 2
Det kan vises, at tæthedsfunktionen for t(f) er bestemt ved
Da f (x) = f (- x) er t - fordelingerne alle symmetriske om y aksen , med E(X) = 0.
For de statistiske anvendelser er følgende sætning vigtig:
X −µ
er t-fordelt).
S
n
Lad X 1 , X 2 ,..., X n være normalfordelte statistiske variable med middelværdi µ og spredning σ . Lad
SÆTNING 3B.1 (
endvidere X og
S 2 være de sædvanlige estimater for middelværdi og varians.
Den statistiske variabel T =
X −µ
er da t - fordelt t (n − 1) .
S
n
X−µ
X −µ
=
Bevis: Vi har T =
S
n
Her er tælleren
X −µ
σ
n
( X − µ) ⋅ n
σ
S
σ
=
σ
n
(n − 1) S 2
σ 2 (n − 1)
normeret normalfordelt, mens
(n − 1) S 2
σ2
er χ 2 - fordelt med f = n - 1 frihedsgrader. Ifølge
sætning 3A.3 er X og S 2 uafhængige, hvilket gør, at betingelserne er opfyldt for, at T er t - fordelt.
6
Supplement 3C F - fordelingen
SUPPLEMENT
3C F-FORDELINGEN
DEFINITION af F-fordelingen. Lad χ T2 og χ N2 være statistisk uafhængige og fordelt henholdsvis
χ T2
χ 2 ( f T ) og χ 2 ( f N ) . Sandsynlighedsfordelingen for den statistiske variabel F =
fT
χ N2
siges at være F-
fN
fordelt med tællerfrihedsgradstallet f T og nævnerfrihedsgrads-tallet f N og betegnes F ( f T , f N ) .
Det kan vises, at tæthedsfunktionen for F ( f T , f N ) er bestemt ved
fT
fT
−1

 fT + f N 
2
2
f
x
Γ
⋅
⋅

 T



2


fN
f ( x) =   f   f 

fN 
T
N
x
 ⋅ f N 2 ⋅ 1 +
 Γ  ⋅ Γ
fT 

  2  2 
0

og har middelværdien E ( F ) =
og spredningen σ ( F ) =
fN
fN − 2
fT + f N
2
for x > 0
ellers
(for fN > 2)
2 ⋅ ( f T + f N − 2)
fN
⋅
fN − 2
f T ⋅ ( f N − 4)
(for fN > 4)
SÆTNING 3C.1 . (relationer vedrørende F-fordelingen).
1
a) Fp ( f T , f N ) =
F1− p ( f N , f T )


F1− p (1, f N ) =  t p ( f N )
1
−
 2

b)
2
Bevis: a) Lad F være fordelt F ( f T , f N ). Der foretages omskrivningen
χ T2
1
1
f
= *,
F = T2 =
2
χN  χN  F


fN
 fN 
 χ T2 


 fT 
hvor
F*
er
fordelt
F ( f N , f T ). H e r a f
1
1



 1
P ( F ≤ x ) = p ⇔ P * ≤ x = p ⇔ P F * ≥  = p ⇔ P F * <  = 1 − p .




F
x
x
Hermed er a) bevist.
7
følger:
Supplement 4A Definitioner og eksempler på centrale og effektive estimatorer
b) Lad F være fordelt F (1, f N ) og t være fordelt
t ( f N ) . Der foretages omskrivningen
χ


U2  U 
1
F= 2 = 2 =
= t 2 . Heraf følger:

χ
χN
χN
 f 
fN
fN
2
1
2
2
N
N
P( F ≤ x ) = 1 − p ⇔ P(t 2 ≤ x ) = 1 − p ⇔ P( −
x≤t≤
x ) = 1 − p ⇔ P( t ≤
x) = 1−
p
2
Hermed er b) bevist.



SÆTNING 3C.2 




σ
er F − fordelt 
S

σ

S12
2
1
2
2
2
2
Lad X1 og X2 være normalfordelte statistiske uafhængige normalfordelte variable ,lad n1 og n2 betegne
2
stikprøvestørrelsen for de to variable, og lad endvidere X 1 , X 2 , S1 og
2
estimater for middelværdierne og varianserne µ1 , µ2 ,σ 1 og σ 22
S 22 være de sædvanlige
S12
Den statistiske variabel F =
σ 12
S 22
er da fordelt F- fordelt F (n1 − 1, n2 − 1) .
σ 22
Bevis
Ved anvendelse af sætning 3A.4 fås følgende omformning:
χ12
(n1 − 1) S12
σ 12 σ 12 (n1 − 1) (n1 − 1)
=
F= 2 =
χ22
S2
(n2 − 1) S22
σ 22 σ 22 (n2 − 1) (n2 − 1)
S12
Af definitionen på F- fordelingen følger da, at sætningen er bevist.
Som et vigtigt specialtilfælde ses, at hvis de to variable har samme varians, vil F =
8
S12
være F-fordelt F (n1 − 1, n2 − 1).
S22
Supplement 4A Eksempler på centrale og effektive estimatorer
Supplement
4A DEFINITIONER OG EKSEMPLER PÅ CENTRALE OG
EFFEKTIVE ESTIMATORER
Central estimator.
Et rimeligt krav til en estimator Φ er, at Φ i middel skal “ramme” den ukendte parameter, dvs. ikke systematisk angive
en for lille værdi eller en for stor værdi.
DEFINITION af central estimator. En punktestimator Φ siges at være central for ϕ hvis
E(Φ ) = ϕ .
Eksempelvis er X =
X 1 + X 2 + ...+ X n
en central estimator, da vi i kapitel 1 afsnit 1.6 viste, at E ( X ) = µ .
n
Effektiv estimator.
Blandt de centrale estimatorer har estimatorer med en lille varians særlig interesse. Har man således 2 centrale estimatorer
for den samme parameter, vil man naturligt vælge den med mindst varians. Man siger, at en sådan estimator er mere
effektiv end den anden.
DEFINITION af effektiv estimator.
En central estimator Φ kaldes en effektiv estimator for ϕ , hvis V (Φ ) → 0 for n → ∞ .
En effektiv estimator vil altså for stor stikprøvestørrelse n have både den rigtige middelværdi og lille varians.
σ(X)
Eksempelvis er X en effektiv estimator, da vi i kapitel 1 afsnit 1.6 viste, at σ ( X ) =
, og det deraf følger,
n
at σ ( X ) → 0 for n → ∞ .
Der vil nu blive bevist, at de estimatorer vi tidligere har benyttet, er såvel centrale som effektive.
SÆTNING 4A.1. (centrale estimatorer) Lad X være en statistisk variabel med middelværdi µ og
varians σ 2 .
Lad X 1 , X 2 , . . . , X n , være en stikprøve af størrelsen n fra X.
a) X =
X 1 + X 2 +...+ X n
er en central estimator for middelværdien µ :
n
n
b) S 2 =
∑
i =1
( Xi − X )2
er en central estimator for variansen σ 2
n −1
n
c)
Sµ =
2
∑
( Xi − µ )2
er en central estimator for variansen σ 2 .
n
∑
( X i − X )2
er ikke en central estimator for variansen σ 2
n
i =1
n
d)
S12 =
i =1
Bevis:
a) I kapitel 2 afsnit 2.3 viste vi, at E ( X ) = µ , dvs. X er central .
n
b) Som en del af beviset for sætning 3A.4 viste vi, at
∑
n
( Xi − X )2 =
i =1
∑ (X
i =1
9
i
− µ)2 − n ⋅ ( X − µ)2
Supplement 4A Definitioner og eksempler på centrale og effektive estimatorer
 n
2
 ∑ ( Xi − X ) 

1  n
i =1
2


=
 ∑ E ( X i − µ) 2 − n ⋅ E ( X − µ) 2 
Heraf fås E ( S ) = E 
 n − 1  i =1

n−1




=

1  n
1 
V ( X )
 n ⋅V ( X ) − n
 = V ( X ) = σ 2 , dvs. S 2 er central.
 ∑ V ( X ) − n ⋅ V ( X ) =
 n − 1
n − 1  i =1
n 
c)
 n
2
 ∑ ( X i − µ) 
n
n
 = 1 ∑ E ( X − µ) 2 = 1 ∑ V ( X ) =σ 2
E ( S µ2 ) = E  i =1
i

 n i =1
n
n i =1




d)
 n
2
 ∑ ( Xi − X ) 
n
 = 1  ∑ E ( X − µ ) 2 − n ⋅ E ( X − µ ) 2 
E ( Sµ2 ) = E  i =1
i

 n  i =1
n





=
 1
1 n
V ( X ) n − 1
n− 1 2
V(X) =
σ
 =
 ∑ V ( X ) − n ⋅ V ( X ) =  n ⋅ V ( X ) − n
 n
n  i =1
n 
n
n
SÆTNING 4A.2. (effektive estimatorer) Lad X være en statistisk variabel med middelværdi µ og
varians σ 2 .
Lad X 1 , X 2 , . . . , X n , være en stikprøve af størrelsen n fra X.
X + X 2 + ...+ X n
a) X = 1
er en effektiv estimator for middelværdien µ :
n
n
b) S =
2
∑
i =1
( Xi − X )2
er en central estimator for σ 2 forudsat X er normalfordelt
n−1
n
c)
S µ2 =
∑
i =1
d)
( X i − µ )2
er en effektiv estimator for σ 2 forudsat X er normalfordelt og µ er kendt.
n
2
Forudsat µ er kendt vil Sµ2 være en mere effektiv estimator end S for variansen σ 2 .
Bevis: a) I kapitel 1 afsnit 1.6 blev det bevist, at σ ( X ) =
σ(X)
n
.
Heraf følger at σ ( X ) → 0 for n → ∞ .
b) I kapitel 3 sætning 3A.5 bliver det bevist, at V ( S 2 ) =
Heraf følger, at σ ( S 2 ) → 0 for n → ∞ .
c) I kapitel 39 sætning 3A.5 bliver det bevist, at V ( S µ2 ) =
Heraf følger, at σ ( S µ2 ) → 0 for n → ∞ .
d) Da V ( S µ2 ) =
2⋅σ4 2⋅σ4
<
= V ( S 2 ) har
n
n−1
2⋅σ 4
.
n− 1
2⋅σ4
.
n
S µ2 en mindre varians end S 2 .
10
Supplement 4B Beviser for formler for konfidensintervaller
Supplement 4B
Beviser for formler for konfidensintervaller
Vi vil i dette supplement bevise de 4 første formler for konfidensintervaller der findes i appendix 4.1
Lad i den følgende sætning X være en normalfordelt statistisk variable med middelværdi µ og spredning σ , og lad
X 1 , X 2 ,..., X n være en stikprøve af størrelsen n fra X. Lad endvidere som sædvanlig
n
∑
X 1 + X 2 + ...+ X n
2
, S =
X=
n
( Xi − X )2
2
og S µ =
n−1
i =1
n
∑
i =1
( Xi − µ )2
.
n
SÆTNING 4 B.1 ( 100 ⋅ β % konfidensintervaller for normalfordelte variable ). Lad α = 1 − β
Konfidensinterval for µ , hvis σ er kendt: x − u
1)
1−
hvor u
1−
α
2
⋅
σ
n
≤ µ≤ x+ u
1−
2
hvor t
1−
⋅
σ
n
,
er 1 − 21 α fraktilen i den normerede normalfordeling.
α
2
Konfidensinterval for µ , hvis σ er ukendt: x − t1− α (n − 1) ⋅
2)
α
2
s
s
≤ µ ≤ x + t α (n − 1) ⋅
,
1
−
n
n
2
er 1 − 21 α fraktilen i t-fordelingen med n - 1 frihedsgrader.
α ( n − 1)
2
Konfidensinterval for σ 2 , hvis µ er kendt:
3)
(n − 1) s 2 + n ⋅ ( x − µ ) 2
(n − 1) s 2 + n ⋅ ( x − µ ) 2
2
≤
≤
σ
,
χ 2 α ( n)
χ α2 (n)
1−
hvor χ α (n) og χ
2
2
2
1−
2
2
er henholdsvis
α ( n)
1
2
α og 1 − 21 α fraktilen i χ 2 - fordelingen med n
2
frihedsgrader.
(n − 1) s 2
(n − 1) s 2
2
σ
≤
≤
,
χ 2 α (n − 1)
χ α2 (n − 1)
Konfidensinterval for σ 2 , hvis µ er ukendt:
4)
1−
hvor χ α (n − 1) og χ
2
2
2
1−
α
2
2
2
(n − 1) er henholdsvis α og 1 − α fraktilen i χ - fordelingen med
1
2
1
2
2
n - 1 frihedsgrader.
Bevis:
1) Er
σ
kendt vil U =
1−
α
X −µ
≤
2
⇔ X −u
1−
α
2
⋅
σ
n
σ
n
σ
n
være normeret normalfordelt n( µ , σ ) . Da U - fordelingen er symmetrisk omkring 0 ,





X−µ
≤ U ≤ u α  = β eller P − u1− α ≤ σ ≤ u1− α  = β
1− 

2
2
2



n

P − u α
 1− 2
har vi følgelig, at
Idet − u
X −µ
≤u
1−
α
⇔ −u
1−
2
≤µ≤ X +u
1−
α
2
⋅
α
2
⋅
σ
σ
≤ X −µ≤u α ⋅
1
−
n
n
2
σ
er punkt 1 bevist.
n
11
Supplement 4B Beviser for formler for konfidensintervaller
2) I kapitel 3 anførte vi, at T =
X −µ
er t - fordelt med f = n - 1 frihedsgrader. De samme regninger som under punkt
s
n
1 kan nu gennemføres, hvilket er sket ved beviset for sætning 4.1. Hermed er punkt 2 bevist.
n
3) Ifølge beviset for sætning 3A.4 er S µ2 = ∑
i =1
( Xi − µ)2
χ 2 - fordelt med f = n frihedsgrader.
n


Vi har følgelig at P χ α2 (n) ≤ S µ2 ≤ χ 2 α (n)
−
1

 2
2


2
= β eller P χ α (n) ≤
 2


n
Igen ifølge beviset for sætning 3A.4 er
∑(X
i
n
∑(X
i =1
1
− µ )2
σ2


≤ χ 2 α ( n ) = β .
1−

2


− µ ) 2 = (n − 1) ⋅ S 2 + n( X − µ ) 2 .
i =1
Indsættes dette i ovenstående ulighed fås: χ α2 (n) ≤
2
(n − 1) S 2 + n( X − µ ) 2
≤ χ 2 α ( n)
1−
σ2
2
⇔ σ 2 ⋅ χ α2 (n) ≤ (n − 1) S 2 + n( X − µ ) 2 ≤ σ 2 ⋅ χ 2 α (n)
1−
2
⇔
2
(n − 1) S + n( X − µ )
(n − 1) S + n( X − µ ) 2
2
⋅
≤
≤
σ
.
χ 2 α ( n)
χ α2 (n)
2
2
1−
2
2
2
Hermed er formel 3 bevist.
4)
2
Ifølge beviset for sætning 3A.4 er χ =
(n − 1) S 2
χ 2 - fordelt med f = n - 1 frihedsgrader.
σ2
Vi har følgelig at
 2
(n − 1) S


P χ α2 (n − 1) ≤ χ 2 ≤ χ 2 α (n − 1) = β eller P χ α (n − 1) ≤
1−
 2

σ2
 2
2
χ α2 (n − 1) ≤
Idet
2
(n − 1) S 2
≤ χ 2 α (n − 1)
2
1−
σ
2
⇔ σ 2 ⋅ χ α2 (n − 1) ≤ (n − 1) S 2 ≤ σ 2 ⋅ χ 2 α (n − 1)
1−
2
⇔
2
(n − 1) S
(n − 1) S
⋅≤σ 2 ≤ 2
2
χ α (n − 1)
χ α (n − 1) er formel 4 bevist.
2
1−
2
2
2
12
2

≤ χ 2 α (n − 1) = β
1−

2
.
Supplement 5A Beviser for formler i hypotesetest
SUPPLEMENT 5A.BEVISER FOR FORMLER I HYPOTESETEST
Lad X være en normalfordelt statistisk variable med middelværdi µ og spredning σ , og lad X 1 , X 2 ,..., X n være en
n
X + X 2 +...+ X n
stikprøve af størrelsen n fra X. Lad endvidere som sædvanlig X = 1
n
Lad testene alle have signifikansniveauet
∑ (X − X)
2
i
og S =
2
i =1
n−1
.
α.
Testformler i appendix 5.1 ( σ ukendt og erstattes af s).
I sætning 3B viste vi, at såfremt H0 : µ =
µ0 er sand, er T =
X−µ
s
n
t- fordelt med f = n - 1 frihedsgrader. Dette
benyttes i det følgende
Række 1:
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ >
µ0 .
Af ovenstående og af definitionen på signifikansniveau fremgår, at H0 forkastes, såfremt
p = P(T ≥ t ) < α , hvor T =
Række 2:
X−µ
s
n
, og T er t - fordelt med f = n - 1 frihedsgrader.
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ <
H0 forkastes, såfremt p = P (T ≤ t ) < α , hvor T =
Række 3:
Nulhypotese H0 : µ =
µ0 .
X−µ
s
n
, og T er t-fordelt med f = n - 1 frihedsgrader.
µ0 . Alternativ hypotese H: µ ≠ µ 0 .
Ifølge definitionen på signifikansniveau, forkastes H0 både når
x er så lille, at P(T ≤ t ) < 21 α , hvor T =
Række 4:
Række 5:
Række 6:
X−µ
s
n
x er så stor, at P(T ≥ t ) < 21 α , og når
og T er t -fordelt med f = n - 1 frihedsgrader.
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ > µ 0 .
Da P(T ≥ t ) < α ⇔ 1 − P(T < t ) < α ⇔ P(T < t ) > 1 − α ⇔ t > t1−α (n − 1) er påstanden bevist.
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ < µ 0 .
Da P(T ≤ t ) < α ⇔ t < t α (n − 1) ⇔ t < − t 1−α (n − 1)
(da t-fordelingen er symmetrisk om 0, se figur 5.1) er formlen bevist.
Nulhypotese H0 : µ = µ 0 . Alternativ hypotese H: µ ≠ µ 0 .
Hvis x ≥ µ 0 kan regningerne under række 4 gentages, og vi får
t > t α (n − 1) .
1−
Hvis
t < −t
2
x < µ 0 kan
1−
regningerne under række 5 gentages, og vi får
α ( n − 1) .
2
Generelt fås derfor, at t > t
1−
α
(n − 1) og dermed er formlen bevist.
2
Fig 5.1. t- fordeling
13
Supplement 5A Beviser for formler i hypotesetest
Testformler i appendix 5.2 ( σ antages kendt). Lad Y være fordelt n µ 0 , σ  .


n
Række 1:
Række 2:
Række 3:
Række 4:
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ > µ 0 .
Ifølge definitionen på signifikansniveau, forkastes H0 såfremt p = P(Y ≥ x ) < α
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ < µ 0 .
Ifølge definitionen på signifikansniveau, forkastes H0 såfremt p = P(Y ≤ x ) < α
Nulhypotese H0 : µ = µ 0 . Alternativ hypotese H: µ ≠ µ 0 .
Ifølge definitionen på signifikansniveau, forkastes H0 både når x er så stor, at P(Y ≥ x ) <
(se figur 5.1), og når x er så lille, at P(Y ≤ x ) < 21 α .
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ > µ 0 .
x−µ 
 (x − µ0 ) n 
 > 1 − α ⇔ u > u1−α
P(Y ≥ x ) < α ⇔ 1 − P(Y < x ) < α ⇔ 1 − Φ σ 0  < α ⇔ Φ 
σ




n
1
2
α
(x − µ0 ) n
.
σ
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ < µ 0 .
 (x − µ0 ) n 
(x − µ0 ) n
p = P(Y ≤ x ) < α ⇔ Φ 
.
 < α ⇔ u < uα hvor u =
σ
σ


hvor u =
Række 5:
Da uα = − u1−α er påstanden bevist.
Række 6:
Nulhypotese H0 : µ =
µ0 . Alternativ hypotese H: µ ≠ µ 0 .
Hvis x > µ 0 kan regningerne under række 4 gentages, og vi får u > u
1−
Hvis x < µ 0 kan regningerne under række 5 gentages, og vi får u < − u
α
2
1−
Generelt fås derfor, at u > u
1−
Testformler i appendix 5.3 for varians
α
α
2
og deraf formlen.
2
σ 2 ( µ ukendt)
n
I kapitel 3 sætning 3A viste vi, at såfremt H0 :σ = σ
2
2
0
er sand, er χ 2 =
∑ (X
− X )2
i
i =1
σ
2
=
(n − 1) ⋅ S 2
σ2
χ 2 - fordelt med f = n - 1 frihedsgrader.
I det følgende vil vi endvidere antage, at Q er
Række 1:
χ 2 - fordelt med n - 1 frihedsgrader.
2
2
2
2
Nulhypotese H 0 : σ = σ 0 . Alternativ hypotese H: σ > σ 0 .
Af ovenstående og af definitionen på signifikansnveau fås, at H0 forkastes, såfremt
p = P(Q ≥ χ 2 ) < α , hvor χ 2 =
Række 2:
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ < σ 0 .
Af ovenstående og af definitionen på signifikansnveau fås, at H0 forkastes, såfremt p = P(Q ≤ χ 2 ) < α ,
2
hvor χ 2 =
Række 3:
Række 4:
(n − 1) ⋅ s 2
. Heraf følger formlen.
σ 02
(n − 1) ⋅ s 2
. Heraf følger formlen.
σ 02
2
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ 2 ≠ σ 02 .
Ifølge definitionen på signifikansniveau, forkastes H0 både når χ 2 er så stor, at P(Q ≥ χ 2 ) < 21 α , og når
(n − 1) ⋅ s 2
χ 2 er så lille, at P(Q ≤ χ 2 ) < 21 α , hvor χ 2 =
. Heraf følger formlen.
σ 02
2
2
2
2
Nulhypotese H 0 : σ = σ 0 . Alternativ hypotese H: σ > σ 0 .
2
2
2
P(Q ≥ χ ) < α ⇔ 1 − P(Q < χ ) < α ⇔ P(Q < χ ) > 1 − α ⇔ χ 2 > χ 12−α (n − 1) .
14
Supplement 5A Beviser for formler i hypotesetest
Række 5:
Række 6:
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ < σ 0 .
Da P(Q ≤ χ 2 ) < α ⇔ χ 2 < χ α2 (n − 1) er formlen bevist.
Da E ( χ 2 ) = f , hvor f = n - 1 er frihedsgradstallet, fås:
2
2
2
2
Hvis χ 2 > n - 1 kan regningerne under række 4 gentages, og vi får χ > χ 1− α (n − 1) .
2
2
2
Hvis χ < n - 1 kan regningerne under række 5 gentages, og vi får χ < χ 1− α (n − 1)
2
2
Hermed fås formlen.
Testformler i appendix 5.4 for varians σ 2 ( µ kendt)
n
I forbindelse med beviset for sætning 3A.4 blev vist, at såfremt H0 :σ = σ er sand, er χ =
2
χ 2 - fordelt med f = n frihedsgrader. Endvidere fandt vi, at
n
∑(X
i
2
0
2
∑(X
i =1
i
− µ)2
σ2
− µ ) 2 = (n − 1) ⋅ S 2 + n( X − µ ) 2 .
i =1
I det følgende vil vi endvidere antage, at Q er χ 2 - fordelt med n frihedsgrader.
Række 1:
2
2
2
2
Nulhypotese H 0 : σ = σ 0 . Alternativ hypotese H: σ > σ 0 .
Af ovenstående og af definitionen på signifikansnveau fås, at H0 forkastes, såfremt p = P(Q ≥ χ 2 ) < α ,
hvor χ 2 =
Række 2:
(n − 1) ⋅ s 2 + n( x − µ ) 2
.
σ 02
Heraf følger formlen.
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ
2
< σ 02 .
Af ovenstående og af definitionen på signifikansnveau fås, at H0 forkastes, såfremt
p = P(Q ≤ χ 2 ) < α , hvor χ 2 =
Række 3:
(n − 1) ⋅ s 2 + n( x − µ ) 2
.
σ 02
Heraf følger formlen.
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ 2 ≠ σ 02 .
Ifølge definitionen på signifikansniveau, forkastes H0 både når χ 2 er så stor, at P(Q ≥ χ 2 ) < 21 α , og når
2
2
χ 2 er så lille, at P(Q ≤ χ 2 ) < 21 α , hvor χ 2 = (n − 1) ⋅ s +2 n( x − µ )
Række 4:
σ0
2
2
2
2
Nulhypotese H 0 : σ = σ 0 . Alternativ hypotese H: σ > σ 0 .
. Heraf følger formlen.
P(Q ≥ χ 2 ) < α ⇔ 1 − P(Q < χ 2 ) < α ⇔ P(Q < χ 2 ) > 1 − α ⇔ χ 2 > χ 12−α (n) .
Række 5:
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ
2
< σ 02 .
Da P(Q ≤ χ 2 ) < α ⇔ χ 2 > χ α2 (n) er formlen bevist.
Række 6:
Nulhypotese H 0 : σ 2 = σ 02 . Alternativ hypotese H: σ 2 ≠ σ 02 .
Da E ( χ 2 ) = f , hvor f = n er frihedsgradstallet, fås
2
2
Hvis χ 2 > n kan regningerne under række 4 gentages, og vi får χ > χ 1− α (n) .
2
2
2
Hvis χ 2 < n kan regningerne under række 5 gentages, og vi får χ < χ 1− α (n)
2
Hermed fås formlen.
15
Supplement 5B OC- kurver og dimensionering
SUPPLEMENT
5B. OC-KURVER OG DIMENSIONERING.
Forudsætning som appendix 5.2
Række 1: Alternativ hypotese
H: µ > µ 0 ( σ antages kendt)
I sætning 5.1 og 5.2 udledes formler for OC-kurve og antal gentagelser n i tilfældet, der svarer til dette tilfælde.
Som det ses i det følgende forløber de tilsvarende beviser i de øvrige storrækker ganske analogt.
Række 2: Alternativ hypotese H: µ < µ 0 ( σ antages kendt)
OC-kurve:
H0 accepteres på signifikansniveau
α , hvis
x − µ0
σ
≤ u1−α ⇔ x ≤ µ0 + u1−α ⋅
σ
n
.
n
Er den sande middelværdi
µ , er U =
X −µ
σ
normalfordelt med middelværdi 0 og spredning 1.
n
 µ + u ⋅ σ − µ
α

 0
n
Vi har derfor, at P( type II fejl) = P X ≥ µ0 + uα ⋅ σ  = 1 − P X < µ0 + uα ⋅ σ  = 1 − Φ 

σ


n
n




n



µ − µ
µ − µ
µ − µ
= 1 − Φ  uα + 0 σ  = 1 − Φ  − u1−α + 0 σ  d.v.s. a ( µ ) = 1 − Φ  − u1−α + 0 σ  .


n




n
n
Dimensionering: Af formlen for OC kurven fås, idet
∆ = µ − µ0 = µ0 − µ da µ < µ 0 :



∆
a ( µ 0 + ∆ ) = 1 − Φ  − u1−α + σ  ≤ β , dvs. Φ  − u1−α + ∆ n  ≥ 1 − β ⇔ − u1−α + ∆ n ≥ u1− β ⇔ ∆ ⋅ n ≥ u1−α + u1− β
σ
σ
σ



n 
⇔ n≥
(u1− β + u1−α ) ⋅ σ
∆
H0 : µ = µ0 Alternativ hypotese H 0 : µ ≠ µ 0 ( σ antages kendt).
Række 3: Nulhypotese
OC-kurve:
H0 accepteres på signifikansniveau
uα ≤
2
x − µ0
σ
n
2
 (u + u1−α ) ⋅ σ 
⇔ n ≥  1− β
 .
∆


≤u
1−
α
2
α , hvis
σ
σ
⇔ µ 0 + uα ⋅
≤ x ≤ µ0 + u α ⋅
.
1−
n
n
2
2
Er den sande middelværdi µ , er U =
X − µ0
σ
normalfordelt med middelværdi 0 og spred-ning 1.Vi har derfor,
n



σ 
σ 
σ
σ 
P( type II fejl) = P µ0 + uα ⋅
≤ X ≤ µ0 + u α ⋅
 − P X < µ 0 + u α ⋅

 = P X < µ 0 + u1− α ⋅
−
1
n
n



n
n
2
2
2
2
σ


σ


− µ
− µ
 µ 0 + u1− α ⋅
 µ 0 + uα ⋅




n
n
2
 − Φ
 = Φ u α + µ0 − µ  − Φ − u α + µ0 − µ 
= Φ
 1−

 1−

σ
σ


σ
σ


2
 2



n
n






n
n




µ − µ
µ − µ .
d.v.s. a ( µ ) = Φ  u α + 0
 − Φ − u α + 0

σ
σ
 1−

 1−

2
 2



n
n
16
Supplement 5B: OC-kurver og dimensionering
Dimensionering:
Antages
Antages
µ > µ 0 bliver sidste led i formlen for OC-kurven ca 0, og vi får samme formel som under storrække 1.
µ < µ 0 bliver første led i formlen for OC-kurven ca 1, og vi får samme formel som under storrække 2.
I begge tilfælde er
α
1
2
dog erstattet af
α
Dimensioneringsformlen bliver derfor den samme som før, hvor blot
α
er erstattet af
1
2
α.
Dimensionering svarende til forudsætning i appendix 5.2. (spredning ukendt)
En dimensionering af forsøget er en del af forsøgsplanlægningen. Man har derfor endnu ikke foretaget nogle forsøg, og
kender derfor ikke stikprøvens spredning s. Kan man ud fra tidligere lignende forsøg vurdere, at spredningen ikke bliver
større end σ , må dette bruges. Da dimensioneringen kun afhænger af forholdet d =
∆
, kan man også nøjes med at
σ
angive et skøn for dette forhold.
Ønsker man eksempelvis at kunne opdage selv relativt små forskelle i middelværdien, kan d sættes til et tal mindre end
1, mens ønskes kun at finde relativt store forskelle i middelværdien kan d eksempelvis sættes til 2.
Når man skal finde sandsynligheden for en type II fejl, får man brug for at kende fordelingen af størrelsen
T=
X − µ0
når H 0 : µ = µ 0 er falsk
S
n
Hvis den sande værdi af middelværdien er
X − µ0
T=
=
S
n
( X − ( µ0 + ∆ )) n
σ
=
S
∆ n
σ
og spredning 1.
U+
σ
Da U er normeret normalfordelt, og
(n − 1) ⋅ S 2
σ2
∆ n
σ
µ = µ 0 + ∆ , kan T skrives
∆ n
σ
W
er en konstant forskellig fra nul, er tælleren normalfordelt med middelværdi
= (n − 1) ⋅ W 2 er
χ2
fordelt med n - 1 frihedsgrader.
Den resulterende fordeling for T kaldes den ikke-centrale t - fordeling med n - 1 frihedsgrader. Denne fordeling har en
yderst besværlig tæthedsfunktion, så en nærmere beregning af P(type II fejl) og dimensionering af forsøg må sædvanligvis foretages ved benyttelse af edb. I nedennævnte notat er i et appendix er der således gengivet et Maple-program, som
kan foretage disse beregninger. For ofte forekommende værdier af parametrene er der i tabel 8 udarbejdet en “dimensioneringstabel”.
Dimensionering svarende til forudsætning i appendix 5.3 til 5.6
Disse begreber vil ikke blive gennemgået her, men man kan eksempelvis i Statgraphics under menupunktet “Describe”,
og derefter “Sample Size Determination” få et forslag til dimensionering af forsøget.
17
Supplement 7A Bevis for middelværdi ogspredning for hypergeometrisk fordeling
SUPPLEMENT:
7A Bevis for middelværdi og spredning for hypergeometrisk
variabel.
Beviset for sætning 7.3 forudsætter, at man først læser kapitel 9.
SÆTNING 7.3. (middelværdi og spredning for den hypergeometriske fordeling )
Den hypergeometriske fordeling h (N, M, n ) har
M
N −n
E ( X ) = n ⋅ p og V ( X ) = n ⋅ p ⋅ (1 − p) ⋅
, hvor p =
N −1
N
Bevis: Lad os betragte n statistiske variable X 1 , X 2 , . . . , X n ,
1 hvis i' te udtrækning giver sort kugle.
ellers
0
hvor X i = 
X = X 1 + X 2 + . . . + X n er hypergeometrisk fordelt h (N, M, n ) .
 M
 
 1 M
=
= p for alle i. Heraf følger E ( X i ) = 1 ⋅ p + 0 ⋅ (1 − p) = p , og
Vi har P( X i ) =
N
 N
 
 1
V ( X i ) = (1 − p) 2 ⋅ p + (0 − p) 2 ⋅ (1 − p) = p − p 2 = p ⋅ (1 − p) .
Af linearitetsreglen i kapitel 1afsnit 6, fås
E ( X ) = E ( X 1 ) + E ( X 2 ) + E ( X 3 ) +...+ E ( X n ) = p + p + p+ ...+ p = n ⋅ p .
Som det fremgår af afsnit 9.2 gælder V ( X i , X j ) = E ( X i ⋅ X j ) − E ( X i ) ⋅ E ( X j )
= 1 ⋅ 1 ⋅ P(( X i = 1) ∧ ( X j = 1)) − p ⋅ p = P( X i ) ⋅ P( X j X i ) − p 2
=
M M−1
 M−1

p−1
M−N
 M −1 M
⋅
− p2 = p ⋅ 
− p = p ⋅ 
= p⋅
−  = p⋅
 N−1

N N−1
 N −1 N 
N ⋅ ( N − 1)
N −1
Af kvadratreglen (afsnit 9.3):
n
n
 n
p −1
V ( X ) = ∑ V ( X i ) + 2 ⋅ ∑ V ( X i , X j ) = n ⋅ p ⋅ (1 − p) + 2 ⋅   ⋅ p ⋅
N −1
 2
i =1
i< j
= n ⋅ p ⋅ (1 − p) + 2 ⋅
1− p
n ⋅ (n − 1)
n −1
N −n

⋅ p⋅
= n ⋅ p ⋅ (1 − p) ⋅  1 −
 = n ⋅ p ⋅ (1 − p) ⋅

2
N − 1
N −1
N −1
18
Supplement 7B: Beviser for formler i binomial- og Poissontest
SUPPLEMENT:
7B BEVISER FOR FORMLER I BINOMIAL- OG POISSONTEST
Testformler i appendix 5.5 for parameter p i binomialfordeling.
Lad X være en binomialfordelt variabel b( n, p), hvor n er kendt og p ukendt. Lad x være en stikprøveværdi på X.
Lad Y være fordelt b ( n, p0 ), hvor p0 er en given konstant. Det erindres om, (se eventuelt appendix 7.1), at for
1
9
≤ p0 ≤
og 5 ≤ n ⋅ p0 ≤ n − 5 kan man approksimere binomialfordelingen
10
10
b(n, p0 ) med normalfordelingen
n( µ , σ ) ,hvor µ = n ⋅ p0 og σ = n ⋅ p0 ⋅ (1 − p0 ) .
Række 1:
Nulhypotese H 0 : p = p 0 . Alternativ hypotese H: p > p0 ,
Ifølge definitionen på signifikansniveau, forkastes H0 , såfremt p = P(Y ≥ x ) < α
Række 2:
Nulhypotese H 0 : p = p 0 . Alternativ hypotese H: p < p0 ,
Ifølge definitionen på signifikansniveau, forkastes H0 såfremt p = P(Y < x ) < α
Række 3:
Række 4:
Nulhypotese H 0 : p = p 0 .
Alternativ hypotese H: p ≠ p0 .
Ifølge definitionen på signifikansniveau, forkastes H0 både når x er så stor, at P(Y ≥ x ) <
er så lille, at P(Y ≤ x ) < α2 .Da E (Y ) = n ⋅ p0 følger heraf formlen.
Nulhypotese H 0 : p = p 0 . Alternativ hypotese H: p > p0 ,
Er betingelserne for approksimation med normalfordelingen opfyldt, gælder
 x − 21 − n ⋅ p0 
 <α
P(Y ≥ x ) < α ⇔ 1 − P(Y < x ) < α ⇔ 1 − Φ 

 n ⋅ p0 ⋅ (1 − p0 ) 
 x − 21 − n ⋅ p0 
x − 21 − n ⋅ p0
 > 1 − α ⇔ u > u1−α , hvor u =
⇔ Φ 

n ⋅ p0 ⋅ (1 − p0 )
 n ⋅ p0 ⋅ (1 − p0 ) 
Række 5:
Nulhypotese H 0 : p = p 0 . Alternativ hypotese H: p < p0 ,
Er betingelserne for approksimation med normalfordelingen opfyldt, gælder
 x − 21 − n ⋅ p0 
 < α ⇔ u < u ⇔ u < −u ,
P(Y ≤ x ) < α ⇔ Φ 

α
1−α
 n ⋅ p0 ⋅ (1 − p0 ) 
hvor u =
Række 6:
x − 21 − n ⋅ p0
n ⋅ p0 ⋅ (1 − p0 )
Nulhypotese H 0 : p = p 0 .
Alternativ hypotese H: p ≠ p0 .
Er betingelserne for approksimation med normalfordelingen opfyldt, haves
Hvis x ≥ n ⋅ p0 kan regningerne under række 4 gentages, og vi får u > u
1−
Hvis x < n ⋅ p0 kan regningerne under række 5 gentages, og vi får u < − u
α
1−
Generelt fås derfor, at u > u
1−
α
og dermed formlen.
2
19
.
2
α
2
α
2
, og når x
Supplement 7A Bevis for middelværdi ogspredning for hypergeometrisk fordeling
Testformler i appendix 5.6 for parameter µ i Poissonfordeling.
Lad X være en Poissonfordelt variabel p( µ ) , hvor
n med gennemsnit
appendix
7.1),
µ
er ukendt. Lad der foreligge en stikprøve på X af størrelsen
x . Lad Y være fordelt p(n ⋅ µ 0 ) , hvor µ 0
at
for n ⋅ µ 0 ≥ 10
kan
man
er en given konstant. Det erindres om, (se eventuelt
approksimere
Poissonfordelingen
normalfordelingen n(n ⋅ µ0 , n ⋅ µ0 ) .
Række 1:
Række 2:
Række 3:
Række 4:
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ >
p(n ⋅ µ 0 ) med
µ0
Ifølge definitionen på signifikansniveau, forkastes H0 , såfremt p = P(Y ≥ n ⋅ x ) < α
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ < µ 0 ,
Ifølge definitionen på signifikansniveau, forkastes H0 såfremt p = P(Y ≤ n ⋅ x ) < α
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ ≠ µ 0 .
Da E (Y ) = n ⋅ µ 0 følger heraf formlerne i denne række.
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ > µ 0
Er betingelserne for approksimation med normalfordelingen opfyldt, gælder
 n ⋅ x − 21 − n ⋅ µ 0 
 <α
P(Y ≥ n ⋅ x ) < α ⇔ 1 − P(Y < n ⋅ x ) < α ⇔ 1 − Φ 

n ⋅ µ0


 n ⋅ x − 21 − n ⋅ µ 0 
n ⋅ x − 21 − n ⋅ µ 0
 > 1 − α ⇔ u > u1−α , hvor u =
⇔ Φ 
.

n ⋅ µ0
n ⋅ µ0


Række 5:
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ <
µ0 ,
Er betingelserne for approksimation med normalfordelingen opfyldt, gælder
 n ⋅ x + 21 − n ⋅ µ 0 
n ⋅ x + 21 − n ⋅ µ 0
 < α ⇔ u < uα ⇔ u < − u1−α hvor u =
.
P(Y ≤ n ⋅ x ) < α ⇔ Φ 

n ⋅ µ0
n ⋅ µ0


Række 3:
Nulhypotese H 0 : µ = µ 0 . Alternativ hypotese H: µ ≠
µ0 .
Er betingelserne for approksimation med normalfordelingen opfyldt, haves
Hvis x ≥
µ 0 kan regningerne under række 4 gentages, og vi får u > u1− α .
2
Hvis x <
µ 0 kan regningerne under række 5 gentages, og vi får u < − u1− α
2
Generelt fås derfor, at u > u
1−
α
og dermed formlen.
2
20
Supplement 7C Bevisskitse for tæthedsfunktionen for Poissonfordelingen
SUPPLEMENT:
7C BEVISSKITSE FOR TÆTHEDSFUNKTIONEN FOR
POISSONFORDELINGEN.
SÆTNING 7.2 (Poissonfordeling). Lad X være en stokastisk variabel, som angiver antallet af impulser i et
givet tidsrum (eller areal, volumen, produktionsenhed osv.), idet ethvert tidspunkt i tidsrummet har samme mulighed
for at være impulstidspunkt som ethvert andet tidspunkt. Endvidere skal impulserne indtræffe tilfældigt og
uafhængigt af hinanden *).
Hvis det gennemsnitlige antal impulser i tidsrummet er µ > 0 , så siges X at være Poissonfordelt p ( µ ) med
sandsynlighedsfordelingen (tæthedsfunktionen) f(x) = P(X = x) bestemt ved
 µ x −µ

f ( x) =  x ! ⋅ e
 0
x ∈ {0,1,2,...}
for
ellers
Middelværdien for p( µ ) er E ( X ) =
µ
og spredningen er σ ( X ) = µ .
I formuleringen af de ovennævnte betingelser kan efter behov "et lille tidsrum
∆ l ", "et lille areal
∆ t" erstattes med "en lille længde
∆ A" eller "et lille volumen ∆ V".
*) Præcis formulering: Følgende 3 betingelser skal være opfyldt:
1) Sandsynligheden for netop én impuls i et meget lille tidsrum ∆ t er med tilnærmelse proportional med ∆ t .
P( X = 1)
= λ ( λ er en positiv konstant)
∆t
(Matematisk formulering lim
∆t →0
2) Sandsynligheden for 2 eller flere impulser i det meget lille tidsrum ∆ t er lille sammenlignet med ∆ t .
(Matematisk formulering lim
∆t →0
P( X > 1)
=0 )
∆t
3) Antal impulser i forskellige, ikke overlappende tidsrum er statistisk uafhængige.
Bevisskitse:
Lad
µ
være det gennemsnitlige antal impulser i tidsrummet [0 ; T], og lad X være det aktuelle antal impulser i samme
tidsrum.
T
. Ifølge forudsætning 2 er det muligt at vælge ∆ t så lille, at
n
sandsynligheden for at mere end 1 impuls indtræffer i ∆ t sekunder er praktisk taget 0. I ∆ t sekunder kan derfor kun
Intervallet [0 ;T ] opdeles i n delintervaller ∆t =
ske 2 ting:
A: netop 1 impuls , eller
A : netop 0 impulser.
X er derfor binomialfordelt b (n, P(A) ).
Da der i T sekunder i gennemsnit er
µ
impulser, vil der i
∆ t sekunder være µ ⋅ ∆t = µ ⋅ T
µ
Vi har derfor P( A) = . Vi foretager nu følgende omformning:
n
x
 n µ
µ
P( X = x ) =      1 − 
n
 x  n  
n− x
=
T
1 − µ 



n
T n
n
n ⋅ (n − 1)⋅...⋅(n − x + 1) µ x
⋅
x
x!
nx 
µ
1
−



n
21
=
µ
impulser.
n
Supplement 7C Bevisskitse for tæthedsfunktionen for Poissonfordelingen

µ
n⋅ln  1− 
µ x n ⋅ (n − 1)⋅...⋅(n − x + 1)
1
 n
⋅
⋅
e
=
x
x!
nx
1 − µ 



n
=
For n →
∞
µx 
1 
2 
3 
1
x − 1
⋅  1 −  ⋅  1 −  ⋅  1 −  ⋅...⋅ 1 −
⋅e
⋅
x
x! 
n 
n 
n 
n  
µ
1 − 

n
 µ
ln  1− 
 n
1
n
µ

ln 1 − 

n
vil tæller og nævner i brøken
gå mod 0. Man kan derfor bruge l’Hospitals regel.
1
n
µ
2
1
⋅ n
=
⋅ ( − µ ) → − µ for n → ∞
Vi får ved differentiation af tæller og nævner:
µ  1
µ
1−
 −  1−
n  n2 
n
1
1
µx
µ x −µ
⋅ 1 ⋅ 1⋅...⋅1 ⋅ e − µ =
⋅ e for n → ∞ .
x!
1
x!
Idet binomialfordelingen har middelværdien E ( X ) = n ⋅ p = µ og spredningen
Vi har derfor, at P( X = x ) →
σ ( X ) = n ⋅ p ⋅ (1 − p) = µ ⋅  1 −

µ
 , fås for n → ∞ , at Poissonfordelingen har middelværdien µ og spredningen
n
µ.
22