DET JYSKE MESTERSKAB I TIPNING
Transcription
DET JYSKE MESTERSKAB I TIPNING
Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniforma, b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: fx 1/b − a for x ∈ a, b Fordelingsfunktion: Fx x − a/b − a for a ≤ x ≤ b Middelværdi og varians: EX a b 2 b − a 2 VarX 12 Eksempler: 1. Kontinuert roulette: X Uniform0, 2. F.eks. vinklen på viseren på et ur som er gået i stå ved en naturkatastrofe. 2. Et job afbrydes helt tilfældigt af en strømafbrydelse. Så angiver X Uniform0, 1 den del af jobbet som var færdiggjort. R funktioner: dunifx, a, b punifx, a, b qunifprob, a, b runifn, a, b Eksponentialfordelingen Symbol: X E Beskrivelse: Ventetiden mellem to successive sjældne hændelser. Støtte: V X R Tæthedsfunktion: fx e −x for x 0 Fordelingsfunktion: Fx 1 − e −x for x 0 Middelværdi og varians: EX 1 VarX 12 0 1 2 3 x 4 5 0.0 0.5 1.0 Density 1.5 2.0 Eksempel: Tid mellem kraftige jordskælv Ventetiden (i dage) mellem kraftige jordskælv (over 7.5 på Richterskalaen) kan modelleres med en eksponentialfordeling med rate 0. 00229. Så er EX 436. 68 VarX 190 690 X 436. 68. Udregn sandsynligheden for at der kommer et kraftigt jordskælv inden for 10 dage. Svar: PX 10 1 − exp−0. 00229 10 0. 02264 går mere end 100 dage til næste kraftige jordskælv. Svar PX 100 1 − 1 − exp−0. 00229 100 0. 7953 R funktioner: dexpx, pexpx, qexpprob, rexpn, Standard normalfordelingen Symbol: Z N0, 1 Beskrivelse: Den normalfordeling, som har middelværdi 0 og varians 1. Støtte: V Z R Tæthedsfunktion: 2 /2 1 −z z e for z ∈ R 2 Bemærk symmetri: −z z er en pæn klokkeformet tæthedsfunktion: -4 -2 0 x 2 4 0.0 0.1 0.2 dnorm(x) 0.3 0.4 Middelværdi og varians: EZ 0 VarZ 1 Fordelingsfunktion: Findes i tabel D.3, side 482, z 1 e −t 2 /2 dt for z ∈ R z − 2 1. Bemærk symmetri: −z 1 − z. 2. Bemærk at er i familie med error function erf z 2 −t 2 dt. erf z e 0 (udled selv sammenhængen med , brug at 0 ½). Normalfordelingen Generelt Symbol: X N, 2 , parametre ∈ R og 2 0. Kaldes også den Gaussiske fordeling, efter C.F. Gauss. Beskrivelse: En sum af uendeligt mange uendeligt små uafhængige stød (den centrale grænseværdisætning). Støtte: V X R Tæthedsfunktion: x− 1 fx − 1 2 x− 2 1 e 2 for x ∈ R 2 2 Fordelingsfunktion: x− Fx for x ∈ R Middelværdi og varians: EX VarX 2 Eksempler: En tilfældig organismes højde i en population. R funktioner: dnormx, , pnormx, , qnormprob, , rnormn, , Eksempler på tæthedsfunktioner: -4 -2 0 x 2 4 0.0 0.2 0.4 Density 0.6 0.8 Se også følgende histogrammer med indlagte tætheder. 0.4 0.0 0.2 Density 0.4 0.2 0.0 Density 0.6 100 simulerede N(0,1) 0.6 25 simulerede N(0,1) -4 -2 0 2 4 -4 -2 .x1 2 4 .x2 0.4 0.2 0.0 0.0 0.2 Density 0.4 0.6 10000 simulerede N(0,1) 0.6 1000 simulerede N(0,1) Density 0 -4 -2 0 .x3 2 4 -4 -2 0 .x4 2 4 Standardisering: Hvis X N, 2 gælder X− Z N0, 1. Hvis Z N0, 1 gælder X Z N, 2 For standard normalfordelingen Z N0, 1: Pa Z ≤ b b − a. For en generel normalfordeling X N, 2 : b− a− − . Pa X ≤ b Giver samme resultat for alle kombinationer af og ≤. Eksempel 3.5 Studerendes højde Lad os antage, at en tilfældigt udtrukket studerendes højde har fordeling X N175, 10 2 . Udregn sandsynligheden for, at en tilfældigt udtrukket studerende er højere end 180 cm. Svar: PX 180 1 − PX ≤ 180 1 − 180 − 175 10 1 − 0. 6915 (tabel) 0. 3085 Find det tal x, så PX ≥ x 0. 1. Svar: så er PX ≤ x 0. 9, og 0. 9 PX ≤ x x − 175 10 Fra tabel fås x − 175 1. 28 10 så x 187. 8. Lineære transformationer: Hvis X N, 2 gælder aX b Na b, a 2 2 . Specielt gælder − X N−, 2 . Summer af normalfordelte variable: Hvis X 1 og X 2 er uafhængige og X 1 N 1 , 21 og X 2 N 2 , 22 , så gælder X 1 X 2 N 1 2 , 21 22 . Denne egenskab gør det meget let at regne med normalfordelingen. Den centrale grænseværdisætning Antag at X 1 , X 2 , … , X n uafhængige, identisk fordelte stokastiske variable alle med middelværdi og varians 2 . Afsnitssum: S n X 1 X 2 X n ES n n VarS n n 2 Standardiseret sum: S n − n Zn n n ∑ i1 Xi − n For n stor: sum af mange små uafhængige variable. Den centrale grænseværdisætning (CLT): for alle z ∈ R for n → . F Z n z → z Praktisk brug af CLT 1. For Z n gælder EZ n 0 VarZ n 1 Z n ≈ N0, 1. (≈ betyder approksimativt fordelt som). 2. For S n gælder tilsvarende ES n n VarS n n 2 S n n n Z n ≈ Nn, n 2 . Huskeregel: Brug den normalfordeling, som har den samme middelværdi og varians, som det du ønsker at approximere. Følgende grafer illustrerer konvergensen i to tilfælde. Gennemsnit af 2 Uniform(0,1) 0.4 0.0 Density 0.8 0.0 0.2 0.4 0.6 0.8 Density Uniform(0,1) -3 -2 -1 0 1 2 3 -3 -2 -1 .x Density .x 3 1 2 0.0 0.5 1.0 1.5 2.0 1.5 1.0 Density 0.5 0 2 Gennemsnit af 8 Uniform(0,1) 0.0 -1 1 .x Gennemsnit af 4 Uniform(0,1) -2 0 -1.0 -0.5 0.0 .x 0.5 1.0 0.0 0.4 Density 0.4 0.0 Density 0.8 Gennemsnit af 2 E(1) 0.8 Eksponential(1) -2 0 2 4 -2 0 .x 2 .x 4 0.0 0.5 1.0 1.5 2.0 Density 0.4 Density 0.8 Gennemsnit af 16 E(1) 0.0 0 4 .x Gennemsnit af 4 E(1) -2 2 -1 0 1 .x 2 3 Approximation til binomialfordeling: X bn, p Betingelse: n stor. I praksis skal np1 − p være mindst 5. Approximation: Hvis x er et heltal mellem 0 og n, PX ≤ x ≃ x − np 0. 5 np1 − p Leddet 0. 5 er en kontinuitetskorrektion. Baseret på CLT. Approximation til Poissonfordeling: X Poisson Betingelse: stor. I praksis skal være mindst 10. Approximation: Hvis x er et heltal større end 0 x − 0. 5 Leddet 0. 5 er en kontinuitetskorrektion. Baseret på CLT. PX ≤ x ≃ Modelcheck med QQ-plot Passer modellen godt til data x 1 , … , x n ? Sammenlign F med empirisk fordelingsfunktion: antal x i mindre end eller lig x F n x n Lad x 1 ≤ ≤ x n betegne de ordnede data. Bemærk at x i er en slags empirisk i/n-kvantil, i , F n x i ni ≈ n1 i For N, 2 er den teoretiske n1 -kvantil x i ≈ z i , (ret linie med hældning ), hvor i z i n1 QQ-plot: Tegn punkterne z i , x i op for i 1, … , n. Afvigelserne fra den rette linie bliver mindre, jo større n er. De største afvigelser ses i halerne. Man bør se efter S-formede afvigelser eller krumning. Har man flere datasæt, bør man se efter systematiske afvigelser plottene. Normal Q-Q Plot -1 0 1 1 0 -1 2 -2 -1 0 1 Theoretical Quantiles Normal Q-Q Plot Normal Q-Q Plot 2 -3 -1 0 1 Theoretical Quantiles 2 3 0 -2 -4 -1 Sample Quantiles 2 1 2 3 Theoretical Quantiles -3 Sample Quantiles -2 -2 Sample Quantiles 0.0 -1.0 -2.0 Sample Quantiles 1.0 2 Normal Q-Q Plot -4 -2 0 Theoretical Quantiles 2 4 2 -fordelingen Symbol: X 2 Beskrivelse: Lad X U 21 U 2 , hvor U 1 , … , U er uafhængige N0, 1 variable. Så er X 2 Ga/2, 1/2, dvs. et specialtilfælde af gammafordelingen. Støtte: V X R Tæthedsfunktion: fx /2 1 x /2−1 e −x/2 for x 0, 2 Γ/2 hvor Γ er gammafunktionen. Fordelingsfunktion: Tabel D.6 side 485. Middelværdi og varians: EX VarX 2 Eksempler: Bruges f.eks. til 2 -test. R funktioner: dchisqx, pchisqx, qchisqprob, rchisqn, Students t-fordeling Symbol: X t Beskrivelse: Lad U 1 N0, 1 og U 2 2 være uafhængige, og lad X U1 U 2 / Så er X t. Støtte: V X R Tæthedsfunktion: 2 Γ½ 1 x 1 fx Γ½ −1/2 Fordelingsfunktion: Tabel D.5 side 484. Middelværdi og varians: for x ∈ R EX 0 for 1 VarX for 2 −2 Eksempler: Bruges f.eks. til t-test. R funktioner: dtx, ptx, qtprob, rtn, Fishers F-fordeling Symbol: X F 1 , 2 Beskrivelse: Lad U 1 og U 2 være uafhængige 2 -variable 2 1 og 2 2 , respektivt, og lad U 1 / 1 X U 2 / 2 Så gælder X F 1 , 2 . Støtte: V X R Tæthedsfunktion: 1 /2−1 1 / 2 1 /2 x for x 0 fx /2 x 1 2 B½ 1 , ½ 2 1 1 2 Fordelingsfunktion: Tabel (f.eks. Erlang S) eller R. Middelværdi og varians: 2 for 2 2 2 − 2 2 22 1 2 − 2 VarX for 2 4 2 1 2 − 2 2 − 4 EX Eksempler: Bruges til F-test. R funktioner: dfx, 1 , 2 pfx, 1 , 2 qfprob, 1 , 2 rfn, 1 , 2 Andre kontinuerte fordelinger Trekantfordelingen Symbol: Beskrivelse: Tæthedsfunktionen er en ligesidet retvinklet trekant. Støtte: V X −1, 1 Tæthedsfunktion: fx 1 − |x | for |x | 1 Fordelingsfunktion: Fx 1 2 1− 1 x 2 1 2 Middelværdi og varians: 1 − x 2 for −1 ≤ x ≤ 0 for 0x≤1 EX 0 VarX 1/6 Eksempler: Bruges til at modellere måleusikkerhed. Indføres position og skala fås tætheden 1 1− x− fx for |x − | Betafordelingen Symbol: X Beta, Beskrivelse: Lad U 1 og U 2 være uafhængige gamma variable Ga, 1 og Ga, 1, respektivt, og lad U1 X U1 U2 Så gælder der X Beta, . Støtte: V X 0, 1 Tæthedsfunktion: 1 x −1 1 − x −1 for 0 x 1 fx B, hvor B, er betafunktionen. Fordelingsfunktion: Tabel eller R. Middelværdi og varians: EX VarX 2 1 Eksempler: Bruges til at modellere proportioner, f.eks. andelen af udvundet kobber i minedrift. R funktioner: dbetax, , pbetax, , qbetaprob, , rbetan, , Gammafordelingen Symbol: X Ga, Beskrivelse: Gammafordelingen X Ga, generaliserer både 2 -fordelingerne og eksponentialfordelingen. Støtte: V X R Tæthedsfunktion: fx x −1 e −x for x 0 Γ Fordelingsfunktion: Tabel eller R. Middelværdi og varians: EX VarX 2 Eksempler: Bruges til at modellere positive variable, som f.eks. størrelsen af en forsikringsudbetaling. R funktioner: dgammax, , 1/ pgammax, , 1/ qgammaprob, , 1/ rgamman, , 1/ Cauchyfordelingen Symbol: X C, Beskrivelse: Lad X U 1 /U 2 , hvor U 1 og U 2 er uafhængige N0, 1 variable. Så gælder X C0, 1. Støtte: V X R Tæthedsfunktion: 1 fx for x ∈ R x− 2 1 Fordelingsfunktion: x− 1 1 −1 Fx tan 2 Middelværdi og varians: for x ∈ R EX findes ikke VarX findes ikke Eksempler: Alternativ til normalfordelingen når variationen er meget stor. R funktioner: dcauchyx, , pcauchyx, , qcauchyprob, , rcauchyn, , Laplacefordelingen Symbol: X Lap, Beskrivelse: Forskellen mellem to uafhængige exponentialfordelte variable. Støtte: V X R Tæthedsfunktion: fx 1 e −|x−|/ for x ∈ R 2 Fordelingsfunktion: Fx 1 2 1− Middelværdi og varians: e x−/ 1 2 e −x−/ for x for x≥ EX VarX 2 2 Eksempler: Alternativ til normalfordelingen, når der bruges median i stedet for gennemsnit. Weibullfordelingen Symbol: X W, Beskrivelse: Grænsefordeling for minimum af uafhængige og identisk fordelte variable. Støtte: V X R Tæthedsfunktion: fx x −1 e −x for x 0 Fordelingsfunktion: Fx 1 − e −x for x 0 Middelværdi og varians: EX −1/ Γ1 1/ VarX −2/ Γ1 2/ − Γ 2 1 1/ Eksempler: Modellering af ekstremer (en kædes svageste led). Paretofordelingen Symbol: X Par, Beskrivelse: Fordeling med tyk hale. Støtte: V X R Tæthedsfunktion: 1 x/ −−1 for x ∈ R . fx Fordelingsfunktion: Fx 1 − 1 x/ − for x ∈ R . Middelværdi og varians: EX for 1 −1 2 for 2 VarX 2 − 1 − 2 Eksempler: Bruges til at modellere ekstremer. Lognormalfordelingen Symbol: X LogN, 2 . Beskrivelse: Lad X expV, hvor V N, 2 . Så gælder der X LogN, 2 . Støtte: V X R Tæthedsfunktion: 2 log x − 1 fx exp − for x 0 2 2 x 2 2 Fordelingsfunktion: Fx Middelværdi og varians: log x − for x 0. EX exp ½ 2 VarX exp2 2 2 e −1 Eksempler: Bruges til at modellere positive variable. R funktioner: dlnormx, , plnormx, , qlnormprob, , rlnormn, , Den todimensional normalfordeling Beskrivelse: Modellering af korrelerede normalfordelte variable. Støtte: V X,Y R 2 Tæthedsfunktion: For x, y ∈ R 2 er fx, y lig med 1 2 X Y 1 − 2 1 exp − 21 − 2 x − X X 2 x − X − 2 X Fordelingsfunktion: Marginale fordelinger: X N X , 2X Y N Y , 2Y y − Y Y y − Y Y 2 Betinget fordeling: Y|X x N Y|x , 2Y|x hvor Y x − Y|x Y X X 2Y|x 2Y 1 − 2 Middelværdi, varians, kovarians og korrelation: EX X og EX Y VarY 2X og VarY 2Y CovX, Y X Y X, Y Eksempler: Modellering af korrelerede målinger, som f.eks. højde og vægt for samme person.