Regler i statistikk
Transcription
Regler i statistikk
TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk - Betinget sannsynlighet - Regler for sannsynlighet - Bayes teorem - Uavhengige begivenheter - Telleregler: Kombinatorikk 3 4 4 4 5 5 Summenotasjon 6 Stokastiske(tilfeldige) variabler 7 - Varians og standardavvik - Kontinuerlige sannsynlighetsmodeller - Flere variable: Lineærkombinasjoner - Uavhengighet 7 7 8 8 Vanlige sannsynlighetsmodeller 9 - Binomisk fordeling - Normalfordeling - Standardnormalfordeling - Normaltilnærming av binomisk fordeling - Gjennomsnitt som en tilfeldig variabel - Sentralgrenseteoremet - Kjikvadratfordelingen - Student t-fordeling - Fisher F-fordeling - Frihetsgrader 9 9 10 10 11 11 11 12 12 12 Beskrive et utvalg 13 - Gjennomsnitt - Varians og standardavvik 13 13 Estimering og hypotesetesting 14 - Parametere - Forventningsrette estimatorer - Standardavvik til estimatorene - Estimatoren sin standardfeil - Konfidensintervall for en parameter - Hypotesetesting - Statistisk signifikans - p-verdi generelt - Tosidige tester - Test av p i binomisk fordeling - Oppsummering av hypotesetest av p 14 14 15 16 16 18 20 20 21 22 23 Sammenligning av grupper 24 - Parvis sammenligning - To uavhengige utvalg - Variansanalyse - Enveis variansanalyse - Kontraster og enveis variansanalyse - Analyse av kategoriske krysstabeller 24 25 27 27 30 32 Analyse av sammenhenger 35 - Generelt - Første møte med data - Vurdere spredningsplott - Tallfeste spredning - Korrelasjon - Lineær regresjon - Prediksjon innen lineær regresjon - Modellkritikk av lineær regresjon 35 35 35 36 36 38 42 43 Generelt 44 - Konfidensintervall - p-verdi - Ulike navn for estimert standardavvik - Forkastningsområde ved ulike tester - Skrivemåter ved utregning 44 44 44 45 45 Programmet “R” 46 - Ord og uttrykk 46 Tabeller 47 - Kumulativ binomisk sannsynlighet - Kumulativ poissonfordeling - Kumulativ standardnormalfordeling - Standardnormalfordelingens kvantiltabell - t-fordelingens kvantiltabell - Kjikvadratfordelingens kvantiltabell - Fisher F-fordeling 47 48 49 50 51 52 53 ~2~ SANNSYNLIGHETSREGNING Tilfeldighet: Individuelle hendelser som ikke kan forutsies. Allikevel et system som beskriver hvor ofte de opptrer i det lange løp. Sannsynlighet: Andel ganger en hendelse opptrer i det lange løp. Utfall: Resultat av et enkelt forsøk. Utfallsrom(S): Alle mulige utfall et forsøk kan ha. (S – Sample space) Begivenhet/hendelse: Ett eller flere utfall som tilfredsstiller visse karakteristika. En hendelse inntreffer hvis resultatet av forsøkene blir ett av de karakteristiske utfallene. Eks: ”Minst 3”, ”Partall” Diskrete utfallsrom: Utfall som kan nummereres. Kontinuerlige utfallsrom: Inkluderer alle verdier i et intervall på tallinjen. P(A): Sannsynligheten for en hendelse A. (Probability) Relativ frekvens: A etter n forsøk. Antall ganger A har inntruffet Totalt antall forsøk(n) Dersom n blir stor nærmer seg relativ frekvens Uniform sannsynlighet: Alle utfall har like stor sjanse for å inntreffe. P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall A B AUB = A og/eller B - Union A B A∩B = A og B - Snitt A B ̅ = Ikke A - Komplement A B Begge kan ikke - Disjunkte inntre samtidig A∩B = Ø (Den tomme mengde) ~3~ Betinget sannsynlighet A|B betyr - A dersom B allerede har skjedd/ - A dersom vi kjenner B/ - A gitt B P(A|B) betyr - sannsynligheten for A når vi vet at B har inntruffet - sannsynligheten for A gitt B Regler for sannsynligheter 0 ≤ P(A) ≤ 1 Dersom S er hele utfallsrommet er P(S) = 1 P(Ø) = O, der Ø er tom mengde og ikke kan skje P(A) = Antall gunstige utfall for hendelsen A Antall mulige utfall P(A) + P(̅ ) = 1 A P(AUB) = P(A) + P(B) – P(A∩B) B Telt to ganger P(A|B) = P(A∩B) = P(A|B)∙P(B) = P(B|A)∙P(A) P(A1∩A2∩A3) = P(A1)∙P(A2|A1)∙P(A3|A1∩A2) P(̅ |B) = 1 – P(A|B) (Gitt B. Enten A eller ̅) A ̅ B P(A∩B) P(̅ ∩B) ̅ P(A∩̅) P(̅ ∩̅) Antall A Antall ̅ Antall B Antall ̅ 1 Finne sannsynlighet: P(A) = P(A|B)∙P(B) + P(A|̅)∙P(̅) (1-P(B)) Bayes teorem: Finne P(A|B) når vi vet P(B|A) P(A|B) = ̅ ̅ Fordi: P(A|B) = = = ̅ ̅ ~4~ Uavhengige begivenheter A og B er uavhengige hvis P(A|B) = P(A) Kunnskap om at B har inntruffet endrer ikke sannsynligheten for A: P(A|B) = = P(A) Får man mynt 1 gang, påvirker det ikke neste kast. P(A∩B) = P(A)∙P(B) Disjunkthet er ikke det samme som uavhengighet. Telleregler – kombinatorikk Potensregelen: Vi trekker ut k enheter, med tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall er nk. Antall permutasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall kalles antall permutasjoner av k fra n, og er lik: Pn,k = n∙(n-1)∙…∙(n-k + 1) = Fakultet: Symbolet n! uttales ”n-fakultet” og er definert slik at 0! = 1 og at n! = n∙(n-1)∙…∙3∙2∙1 Antall rekkefølger: n forskjellige enheter kan organiseres i n! forskjellige rekkefølger. Antall kombinasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling med n merkede enheter. Totalt antall ikke-ordnede kombinasjoner av k fra n skrives Cn,k =( ) = Tilfeldig utvalg: Vi trekker ut k enheter, uten tilbakelegging, fre en samling med n merkede enheter. I hver trekning sørger vi for at alle gjenverende enheter har like stor sannsynlighet for å bli trukket ut. Da får vi et tilfeldig utvalg. Ved tilfeldig utvalg av k blant n gjelder: 1. Sannsynligheten for at en bestemt enhet blir trukket ut, er lik . 2. Sannsynligheten for at en bestemt enhet trekkes i rekning nummer i, er lik . 3. Alle enhetene har samme sannsynlighet for å bli trukket ut. ~5~ SUMMENOTASJON x1 = 1 y1 = 1 x2 = 2 y2 = 2 x3 = 3 y3 = 4 ∑ ∑ (∑ ) (∑ ) (∑ ) ∑ ~6~ STOKASTISKE(TILFELDIGE) VARIABLER Stokastisk variabel: En stokastisk variabel X knytter en bestemt tallverdi til ethvert utfall i utfallsrommet S. De følger lovmessigheter. De følger en viss sannsynlighet. En tilfeldig variabel er diskret dersom den bare kan ta ett endelig eller tellbart antall verdier. Ofte heltall. Kontinuerlig hvis den kan ta alle verdier i et intervall. Forventningsverdi: Forventningen til en diskret variabel X defineres som: Forventningsverdi = Sum av (verdi ∙ sannsynlighet) ∑ E(a) = a E(bX) = b E(X) E(a + bX) = a + b E(X) E(a + bX + cX2) = a + b E(X) + c E(X2) Varians og standardavvik Standardavviket er lik kvadratroten av variansen [ som defineres lik: ] ∑ X er en stokastisk variabel, mens a og b er konstanter. Da gjelder: Var(X) er aldri negativ Var(X + a) = Var(X) Var(bX) = b2 Var(X) Var(bX + a) = b2 Var(X) Kontinuerlige sannsynlighetsmodeller En kontinuerlig tilfeldig variabel kan ta alle mulige verdier i et intervall. Sannsynlighetstettheten f(x) beskriver fordelingen til en kontinuerlig variabel, og har følgende egenskaper: ~7~ Det totale arealet under kurven er lik 1. P(a ≤ X ≤ b) er lik arealet under kurven fra a til b. Kurven er aldri negativ, dvs. at f(x) ≥ 0 FORVENTNING OG VARIANS: En kontinuerlig stokastisk variabel X har forventningsverdi og varians lik ∫ ∫ Flere variable – Lineærkombinasjoner ∑ Ai-ene og b er kjente konstanter, og Xi-ene er tilfeldige uavhengige variable(Diskrete eller kontinuerlige) FORVENTNING OG VARIANS: ∑ ∑ √ Fordelingsfunksjon: Den kumulative fordelingsfunksjonen F er definert for alle verdier av x, slik: F(x) = P(X≤x) Uavhengighet To diskrete stokastiske variabler X og Y er uavhengige hvis og bare hvis følgende likning er tilfredstilt for alle mulige verdipar (x, y) i simultanfordelingen til X og Y. ~8~ VANLIGE SANNSYNLIGHETSMODELLER Binomisk fordeling: Vi har en binomisk forsøksrekke med n delforsøk dersom: 1. 2. 3. 4. Hvert delforsøk bare har to interessante utfall: A eller ikke A. Sannsynligheten p = P(A) er den samme i alle n delforsøkene. Delforsøkene er statistisk uavhengige av hverandre. X = antall ganger A inntrer i de n forsøkene. I løpet av hele forsøksrekken vil hendelsen A inntreffe totalt X ganger. Da er X en binomisk fordelt variabel: Punktsannsynligheten til X er gitt ved: ( ) for x = 0, 1, 2, 3, …, n Der antall kombinasjoner er: ( ) Her er n! = n∙(n-1)∙…∙3∙2∙1 Vi definerer 0! = 1 FORVENTNING OG VARIANS dersom X er binomisk fordelt (n,p) √ KUMULATIV BINOMISK SANNSYNLIGHET(SE TABELL): P(X ≤ k) for forskjellige valg av k, n og p. OBS! P(X ≥ k) = 1 - P(X ≤ k-1), f.eks. P(X ≥ 12) = 1 – P (X ≤ 11) Normalfordeling: En variabel X er normalfordelt med forventningsverdi sannsynlighetstettheten er lik: √ ~9~ og standardavvik hvis er populasjonsgjennmsnittet og populasjonsstandardavviket. En normalfordelt variabel er kontinuerlig og fordelinga er symmetrisk om er HVIS DATA ER NORMALFORDELTE/NÆR NORMALFORDELTE, VIL FØLGENDE VÆRE OPPFYLT: Ca 68% av observasjonene vil ligge i en avstand mindre enn fra . Ca 95% av observasjonene vil ligge i en avstand mindre enn 2 fra . Ca 99.7% av observasjonene vil ligge i en avstand mindre enn 3 fra . Standardnormalfordeling: La X være en observasjon fra en normalfordeling med forventning standardavvik . Den standardiserte verdien av X er: og KVANTILER – Invers tabellbruk Normaltilnærming av binomisk fordeling: La X være binomisk fordelt med n og p, der n er stor og p ikke for nære 0 eller 1. Da har vi følgende tilnærming: √ Når er n stor? np ≥ 5 n(1-p) ≥ 5 ~ 10 ~ Gjennomsnitt som en tilfeldig variabel: Anta at du har n uavhengige observasjoner(X1, X2,…, Xn) fra samme populasjon (tilfeldig utvalg). Dvs. av X-ene er uavhengige, med samme og . Gjennomsnittet er definert som: ∑ ̅ ̅ ̅ ̅ √ Sentralgrenseteoremet: La X1, X2,…, Xn være et tilfeldig utvalg fra normalfordeling med forventning standardavvik . Da er gjennomsnittet normalfordelt og √ Hvis de ikke er normalfordelt, men hvis n er stor nok, vil gjennomsnittet være tilnærmet normalfordelt √ Kjikvadratfordelingen Kjikvadratfordelingen har bare en parameter, som kalles fordelingens antall frihetsgrader. Jo ferre frihetsgrader, jo mer venstreskjev blir den. Med over 20 frihetsgrader blir den derimot tilnermet normalfordelt. La x1, x2, ..., xn være uavhengige standardnormalfordelte variabler. Da er summen α 2 kjikvadratfordelt med n frihetsgrader.Hvis x-ene er delvis avhengige av hverandre, vil Y være kjikvadratfordelt med et lavere antall frihetsgrader. OBS: Ikke viktig å kunne mye om fordelinga i seg selv, men man bruker den i analyse av kategoriske krysstabeller. Da har Q en tilnærmet kjikvadratfordeling med (r-1)∙(k-1) frihetsgrader, der r er antall rader og k antall kolonner. Se boka for mer informasjon om kjikvadratfordeling i seg selv. ~ 11 ~ Student t-fordeling En metode som passer bedre enn standardnormalfordeling når man har forsøk med små utvalg, men ellers ganske lik. Får derimot bredere spredningsintervall for T enn for Z. Begge har forventning 0, men variansen er større en 1 i t-fordelingen. Den er (n – 1)/(n – 3), men går mot 1 når n vokser. Har man mer enn 30 observasjoner kan man ikke se forskjell på de to fordelingene. Hvis vi har n observasjoner i et tilfeldig utvalg fra en populasjon som er er: ̅ √ hvor betyt t-fordelt med n-1 frihetsgrader. Fisher F-fordeling Brukes i f.eks. enveis variansanalyse (kommer senere). Den sammenligner to varianser ved å lage en brøk mellom utvalgsvariansene. OBS: Denne fordelingen er heller ikke så viktig i seg selv, men den brukes i enveis variansanalyse, som er et viktig emne. Frihetsgrader(df = degrees of freedom) Går ut på hvor mange ulike verdier de observerte dataene har mulighet til å ha når man f.eks. vet gjennomsnittet. Er ofte n-1 frihetsgrader, siden den siste verdien må stemme overens med de andre for å gi det riktige snittet. n er antall observasjoner. Man kan derfor regne seg frem til den siste verdien. I modeller hvor man får en linje som verdiene sprer seg rundt har man n-2 frihetsgrader. Det er fordi man bruker opp en i hver ende av linjen, mens resten av verdiene kan fordele seg rundt den. ILLUSTRASJON AV n-1 FRIHETSGRADER: ̅ ̅ ( ̅ ̅ ̅ ) x2 er ikke uavhengig. Den er låst siden vi vet at snittet skal være 85 og vet hva x1 er. Det er derfor ikke frihet igjen til x2. Her er det derfor n-1 = 2-1 = 1 frihetsgrader. ~ 12 ~ BESKRIVE ET UTVALG Et utvalg bør være representativt og uavhengig av hverandre. Du har en samling uavhengige observasjoner, alle trukket fra en ferdig definert populasjon. Da har vi observasjonene: x1, x2, …, xn, alle er realisasjoner av tilfeldige variable med samme fordeling og dermed samme forventning og samme standardavvik. Gjennomsnitt i utvalget: Gå ut i fra at vi har gjort n observasjoner eller målinger av en variabel, x1, x2, …, xn ̅ ∑ VARIANS OG STANDARDAVVIK ̅ √ ∑ ̅ ̅ ∑ ̅ Summetegn: Først subtrahere, så kvadrere, så summere, så dividere, så ta kvadratrot ̅ ~ 13 ~ ESTIMERING OG HYPOTESETESTING Parameter: En konstant som er med på å beskrive sannsynlighetsfordelingen. F.eks. forventning (populasjonsgjennomsnitt) Normalfordelinga lar seg beskrive av to parametre, forventning og standardavvik. Kjenner man disse parametrene, kjenner man verden. Det er derimot ofte umulig i praksis å finne den eksakte verdien til en parameter. I så fall må man undersøke hele populasjonen. Vi nøyer oss med å estimere (anslå) verdien av parameteren. Dette blir gjort ved å ta et tilfeldig utvalg frå populasjonen og la en funksjon av utvalget være estimatoren (den som anslår) til parameteren. Dermed vil estimatoren være en tilfeldig variabel, slik at to personer som estimerer samme parameter, vil få forskjellig estimat (anslag) hvis de har hvert sitt utvalg. Vi bruker ofte betegnelsen ^ (hatt) for estimatoren, slik at ̂ blir tolket som estimatoren for . ̅ ̂ Gjetter på at utvalget representerer virkeligheten. ̂ ̅ ̂ ̅ ̂ ̂ ̂ ( ) ( ) Forventningsrette estimatorer: Anta at man skal estimere en eller annen parameter, t.d. , ved hjelp av estimatoren . Siden ̂ er en funksjon av utvalget, er den selv en tilfeldig variabel, og dermed har den også en forventning. Dersom E( ̂) = , sier vi at estimatoren er forventningsrett. Denne egenskapen betyr at i det lange løp vil du verken underestimere eller overestimere dersom du bruker ̂. Du gjør med andre ord ingen systematiske feil. Eks: ̅ Dersom man velger ̅ ̂ får man et forventningsrett estimat av . ~ 14 ~ Standardavvik til estimatorene Estimatorene har en usikkerhet, representert ved deres standardavvik. Er dette stort, er estimatoren usikker og dermed dårlig. ̅ ̅ ̂ ̂ √ Tre krav til estimatorer Estimatoren skal være forventningsrett, Estimatoren skal ha minst mulig varians (evt. standardavvik) Estimatoren sin varians (evt. standardavvik) skal gå mot null når størrelsen på utvalget øker. ESTIMAT FOR (POPULASJONS)STANDARDAVVIKET; Siden (populasjons)variansen er variasjonen i hele populasjonen, er variansen i utvalget vår beste gjetting på populasjonens varians. ̂ ∑ ̅ (Viktig å dividere på n-1 og ikke n. Hvis man dividerer på n, blir forventningen ( ) ), altså en underestimering) PUNKTESTIMERING FOR SANNSYNLIGHETEN (p) I DEN BINOMISKE FORDELINGEN Vi gjør n forsøk der en aktuell hendelse A inntreffer X ganger. Da er X binomisk fordelt. Vi ønsker å estimere sannsynligheten: p = P(A). Vårt beste anslag på denne er den relative frekvensen siden p er andelen av A i populasjon. ̂ ̂ ̂ ̂ √ Estimatoren er forventningsrett, med varians som minker når tallet på forsøk (n) øker. For å halvere usikkerheten, må utvalget firedobles. ̂ har størst usikkerhet ved p=0,5. p=0 gir ingen usikkerhet Ingen man kan velge ut. p=1 gir ingen usikkerhet Alle like. Likt utvalg uansett. ~ 15 ~ Estimatoren sin standardfeil(SE): Ofte er standardavviket til estimatoren ukjent. ̅ ̂ √ er ukjent når √ er ukjent. er ukjent når er ukjent. Men standardavviket kan igjen estimeres ved henholdsvis: ̂ ̂ √ √ ̂̂ ̂ √ ̂ ̂ Disse kan regnes ut på bakgrunn av innsamlede data. Det er altså estimert usikkerhet til estimatet. Konfidensintervall(KI) for en parameter (Parameter er en ukjent størrelse som beskriver populasjonen) Et konfidensintervall for en parameter er et intervall på tallinja på formen [a, b], der a og b er tall som blir beregnet på grunnlag av observerte data(og dermed er også a og b tilfeldige, de vil variere hvis du gjentar forsøket.) Intervallet har en egenskap som blir kalt konfidensnivå, (1 P(a ≤ parameter ≤ b) = 1 Hvis er 0,05 vil 1 - være 0,95. Skal man si noe om en ukjent forventning , så er: P(a ≤ ≤ b) = 0,95 (a, b) er det vi kaller et 95 % KI for EGENSKAPER TIL ET KONFIDENSINTERVALL Konfidensintervallets grenser er tilfeldige (avhenger av de data du samler inn), mens den ukjente parameteren er konstant, og ligger fast på tallinja. Et konfidensintervall vil enten inneholde den ukjente parameteren eller ikke gjøre det. Vi vet ikke om et bestemt konfidensintervall inneholder den ukjente parameteren. Hvis vi gjentar samme datainnsamling mange ganger, antar vi at 95 % av konfidensintervallene ville inneholde den ukjente parameteren (gjelder 95 % konfidensintervall). KONFIDENSINTERVALL FOR EN FORVENTNING, DER VI HAR KJENT STANDARDAVVIK Anta at vi har et tilfeldig utvalg (X1, X2, …, Xn) fra en normalfordelt populasjon med forventning og standardavvik (der blir ansett som kjent, mens er ukjent). ~ 16 ~ Et 100(1 – ) % konfidensintervall for [̅ ̅ √ √ er gitt ved: ̅ ] √ Der er verdien standard normalfordeling, slik at arealet mellom lik (1 - ) VERDIER AV OG 100(1 – a) 90% 95% 99% 99.9% 0.050 0.025 0.005 0.0005 1.645 1.960 2.576 3.291 og er Kan ellers bruke tabell over standard normalfordeling til å finne andre verdier. BREDDE(LENGDE) TIL KONFIDENSINTERVALL ̂ Intervallet øker dersom konfidensgraden (1 – ,), øker og blir smalere dersom konfidensgraden, (1 – ,) blir mindre. Intervallet blir smalere dersom en øker antall observasjoner. Konfidensintervallet blir smalere dersom vi kan redusere standardavviket Dersom vi setter en øvre grense på lengden til intervallet til L, blir utvalgsstørrelsen (nødvendig antall målinger): ( ) KONFIDENSINTERVALL FOR p Anta at vi observerer en binomisk variabel X med n forsøk, men der p er ukjent. Husk normaltilnærming for binomisk variabel. Hvis X er tilnærmet normalfordelt, er også ̂ tilnærmet normalfordelt, der ̂ ̂ √ ̂ ̂ Da er et tilnærmet 100(1- ) % konfidensintervall for p gitt ved [ ̂ √ ̂ ̂ ̂ √ ̂ ̂ ] Der er verdien standard normalfordeling, slik at arealet mellom lik (1 - ) ~ 17 ~ og er BESTEMMELSE AV n – LENGDE AV INTERVALL Konfidensintervallets lengde L er gitt ved √ ̂ ̂ Dersom vi setter en øvre grense L, blir utvalgsstørrelsen(nødvendig antall målinger) ̂ ̂ ( ) Hvis vi ikke har noen idé om verdien av p, kan vi utnytte at ̂ ( ̂ uansett: ) Hypotesetesting Ønsker å teste om en ukjent parameter har bestemte verdier eller ligger i et bestemt område. Sett opp nullhypotese og alternativ hypotese. Test: En regel som avgjør om nullhypotesen skal forkastes eller ikke. Ikke forkast nullhypotesen før du er rimelig sikker på at denne er feil. FRAMGANGSMÅTE 1. Finn en passende sannsynlighetsmodell og formuler null hypotesen og den alternative hypotesen. 2. Finn en testobservator (noe du kjenner sannsynlighetsfordelingen til under null hypotesen.) 3. Velg hvor stor sannsynlighet for feilkonklusjon du kan akseptere. 4. Vedta forkastingsområdet sin kritiske grenseverdi. 5. Vi samler inn data, sammenligner observert verdi på testobservatoren med grenseverdien og konkluderer. 6. Eventuelt beregn hvor sannsynlig det observerte er, dersom nullhypotesen er sann TRE GENERELLE HYPOTESER OM EN FORVENTNING H 0: ≤ H 1: > H 0: ≥ H 1: < H 0: = H 1: ≠ Tosidig test en kjent verdi, f. eks 79 kg H1 er arbeidshypotesen vi vil teste, dvs. den påstanden som krever bevis. Blir kalt den alternative hypotesen. H0, nullhypotesen, er den motsatte påstanden. Vi anser Nullhypotesen er sann inntil det motsette er bevist. ~ 18 ~ ANTA DU SKAL TESTE: H 0: ≤ og H 1: > For en eller annen kjent verdi av Ta utgangspunkt i størrelsen: ̅ √ Naturlig å forkaste H0 dersom ̅ er stor. Dersom ̅ er stor vil Z være stor. Z er standard normalfordelt dersom H0 er sann, der (79 kg i ekempel) er forventning under H0. Ideen er å si at nullhypotesen må være feil dersom Z er stor. Problemet er å bestemme hvor stor Z må være for at vi skal forkaste H0 og påstå H1. FORKASTNINGSOMRÅDET Når er ̅ stor? Dersom H0 er sann, er Z standard normalfordelt og vi kan finne P(Z > z), der z er utregnet verdi. Med andre ord kan vi finne sannsynligheten for det som har inntruffet (eller noe enda mer ekstremt) dersom H0 er sann. Eller vi kan finne en konstant som har sannsynlighet a for at Z er større enn denne. Da finner vi forkastningsområdet TRE GENERELLE HYPOTESER H 0: ≤ H 1: > Forkast H0 hvis Z er stor (≥ k1). H 0: ≥ H 1: < Forkast H0 hvis Z er liten (≤ k2). H 0: = H 1: ≠ Forkast H0 hvis Z er liten (≤ k3) eller stor (≥ k4). ~ 19 ~ TYPER FEIL VED HYPOTESETESTING Naturen/sannheten Din påstand H0 rett H0 feil H0 rett OK Type II-feil H0 feil Type I-feil OK Type I-feil: Forkaster H0, selv om den er rett. Type II-feil: Forkaster ikke H0, selv om den er feil. Type I-feil mer alvorlig enn Type II-feil. Hvis man er for redd for å gjøre Type I-feil, gjør man nesten alltid Type II-feil. Statistisk signifikans I hypotesetesting er det vanlig å stille krav til en test. = P(forkaste H0 dersom H0 er sann). Det er det samme som = P(type 1 feil). blir kalt signifikansnivået til testen. Det er denne feilen vi vil ha kontroll på. Det er vanlig å velge signifikansnivået = 0.05, men mange andre nivå er mulig å velge. Hvis = 0.05 er k 1.64 SIGNIFIKANS OG FORKASTNINGSOMRÅDE Dersom du tester: H 0: ≤ H 1: > med signifikansnivå . Finn en k slik at P(Z ≥ k) = , Forkast H0 dersom Z ≥ k, eventuelt √ . Alle må kunne finne k, og dermed teste sitt forkastningsområde. Testen sitt signifikansnivå er , det samme som maksimalt sannsynlighet for type I-feil. P-VERDI – GENERELT Sannsynligheten for at testobservatoren har den utregnede verdien eller en mer ekstrem, dersom en antar at H0 er sann, blir kalt for p-verdien. p-verdien forteller oss hvor stor grunn vi har til å tvile på H0. Dersom p-verdien er liten, blir H0 forkasta og vi påstår at H1 er den mest riktige konklusjonen. Grensa for p -verdien blir gjerne sett ved 0.05 eller 0.01. ~ 20 ~ SAMMENHENG MELLOM BRUK AV p-VERDI OG SIGNIFIKANSTESTING P -verdi: Sannsynligheten for å få et resultat som er minst like ekstremt som det observerte resultatet hvis H0 er rett. Signifikansnivå : Den største Sannsynligheten for å feilaktig forkaste H0 som vi er villige til å akseptere. Dersom p-verdien for en testobservator er lik eller mindre enn signifikansnivå , sier at data gir grunnlag for å forkaste nullhypotesen med statistisk signifikans . Altså: Bestem signifikansnivå , og forkast H0 dersom p-verdien er mindre enn . MER OM p-VERDI OG SIGNIFIKANSNIVÅ Dersom H0 er sann, er Z standard normalfordelt og vi kan finne Enten en konstant k, som er slik at P(Z > k) = Eller vi kan gå rett på det observerte P(Z > observert ) Med andre ord kan vi finne sannsynligheten for det som har inntreffet (eller noe enda mer ekstremt) dersom H0 er sann. Det første kalles testing på signifikansnivå, det andre p-verdi Tosidige tester (Alternativet er ulikt fra ensidige tester) H 0: = H 1: ≠ TOSIDIGE TESTER – p-VERDI ̅ √ Dersom H0 er sann, er Z standard normalfordelt. At ̅ er stor eller liten, er det samme som at er stor. Merk at p-verdien blir dobbelt så stor som for en ensidig test, Z er lik. TOSIDIGE TESTER – SVIGNIFIKANSNIVÅ = 0.05 Finn en k slik at P(|Z| > k) = . /2 = 0,025 Da må k = F.eks = 0.05, da må = 1,96 = 1.960. Ved ensidig test er det nok at = 1.645. ~ 21 ~ Nivå ( ) 0.100 0.050 0.025 0.010 0.005 0.001 1.282 1.645 1.960 2.326 2.576 3.090 Ved tosidige tester, finn halve nivået slik at du har Eks: nivå 0.1 (10%) tosidig test, da . = 1.645. SAMMENHENG MELLOM TOSIDIGE TESTER OG KONFIDENSINTERVALL H 0: = H 1: ≠ Tosidig test: Test denne på nivå , da vil alle verdier av % KI bli forkastet. som faller utenfor et (1 – )100 Et konfidensintervall kan betraktes som en samling tosidige tester som ikke kan forkastes p = 0,182 90 % KI - intervall dekker 80 % KI - intervall dekker ikke. Test av p i binomisk fordeling Anta X er binomisk fordelt (n, p) For eksempel ønsker vi å teste H 0: p ≤ p 0 H1: p > p0. der p0 er en kjent verdi Hvis n er liten, kan du regne ut testens p-verdi direkte. Dersom du observerer at X = k, finn P(X ≥ k) dersom H0 er sann. Husk at p-verdien er sannsynligheten for det observerte eller noe som er enda mer ekstremt. TEST AV BINOMISK SANNSYNLIGHET NÅR n ER STOR Vi har tidligere sett at når n er stor nok, så kan du tilnærme med normalfordeling. √ ~ 22 ~ ̂ √ Under H0: p = p0, vil ̂ √ Oppsummering hypotesetest av p Ved signifikansnivå . Anta du skal teste H0: p = p0. Alternativ hypotese o Dersom H1: p > p0, forkast H0 dersom Z > o Dersom H1: p < p0, forkast H0 dersom Z < o Dersom H1: p ≠ p0, forkast H0 dersom |Z| > der: ̂ √ √ ~ 23 ~ SAMMENLIGNING AV GRUPPER Parvis sammenligning Et par er en organisering av forsøket som gjør at gruppene blir sammenlignet under relativt homogene betingelser. Målet er å fjerne (eller redusere) uønsket variasjon som ikke er av interesse for forsøke, men som vil forkludre resultatet. Observasjoner innen par vil da være avhengige, mens det er uavhengighet mellom par. Avhengigheten innen par gjør at man får tilnærmet like betingelser for testene. EKSEMPLER PÅ PAR: - Høyre og venstre fot kan teste hver sin joggesko - To griser fra samme kull kan teste hvert sitt fôr. - To arealer ved siden av hverandre kan ha hver sin sort korn. - Før og etter resultater hos en enkeltperson kan si noe om treningsmetode. METODEN: Metoden går ut på å sammenligne differansen innad i parene, noe som gjør at man ikke får støy i forhold til at noen par i utgangspunktet er flinkere, bedre etc. Vi har følgende par av X og Y, samt differansen. Par 1 2 . . n X X1 X2 . . Xn Y Y1 Y2 . . Yn Differanse D1 = X1 - Y1 D2 = X2 - Y2 . . Dn = Xn – Yn Di = Xi – Yi i = 1, 2, ..., n E(Xi) = µ1 og E(Yi) = µ2 E(Di) = µ1 - µ2 = µd Var(Di) = σd2 ̅ ̅ Di~N(µd, σd) ̅ ̂ ̅ ̂ µd - Gjennomsnittlig forskjell i par µd = 0 betyr at det ikke er forskjell µd > 0 betyr at µ1 er større enn µ2 ̅ √ HYPOTESETEST AV µd ved signifikansnivå α ~ 24 ~ √ ∑ ̅ Alternative hypoteser: - Dersom µ1 > µ2, forkast H0 dersom T > tα - Dersom µ1 < µ2, forkast H0 dersom T < -tα - Dersom µ1 ≠ µ2, forkast H0 dersom |T| > tα/2 der: ̅ √ som er t-fordelt med n-1 frihetsgrader under H0, der n er antall par. Når man tester under H0 forsvinner den ukjente variabler: ̅ ( ̅ √ √ og vi står igjen med kjente ) Man slår opp verdier i tabell eller lar dataen regne. p-verdi k KONFIDENSINTERVALL FOR FORVENTET DIFFERANSE VED PARVISE DATA Et 100(1 – α) % konfidensintervall for µd er gitt ved ̅ 0,95 √ -k 0 k √ Verdien 0 har her stor fokus, siden 0 betyr at det ikke er noen differanse. Hvis konfidensintervallet inneholder 0 gjør det at man ikke kan forkaste H0. To uavhengige utvalg Man har ikke en type data som gjør det naturlig å konstruere par. Ethvert forsøk på å skape par vil være unaturlig og ikke fungere til å teste parvis. I uavhengige utvalg kan man ha stor variasjon innad, noe som gjør at forskjell mellom A og B kan drukne. Man sammenligner forventningene i to grupper, som for parvis sammenligning, men her er det også uavhengighet innen gruppene i tilegg til mellom gruppene. Vi har full randomisering. POPULASJON Gruppe 1 2 Variabel X Y Snitt µ1 µ2 ~ 25 ~ Standardavvik σ1 σ2 UTVALG/DATA Gruppe 1 2 Observasjoner n1 n2 Snitt ̅ ̅ Standardavvik S1 S2 Vi ønsker å undersøke differansen µ1 - µ2, men vi ser ikke på differansen mellom enkeltobservasjoner. ESTIMERING AV µ1 - µ2 OG σ ̅ ̅ ̂ ̂ ̅ ̅ ̅ ̅ ̅ ̅ Felles (interpolert) varians(Spooled) blir da estimert med: Hvis n1 = n2 = n: ̅ ∑ ̂ ∑ ̅ ̂ ̅ ̅ √ OBS: At σ1 = σ2, dvs. samme standardavvik i begge grupper, er en modellantagelse. Den kan enten grunngis ved fagkunnskap, eller ved å se etter om S1 og S2 er relativt like. De vil derimot ikke bli helt like selv om standardavviket er likt, siden S1 og S2 er basert på observasjoner. En (veldig) grov tommelfingerregel er at hvis med moderat antall observasjoner, kan man anta at σ1 = σ2 FORDELINGSEGENSKAPER ̅ ̅ √ er t-fordelt med (n1 + n2 - 2) frihetsgrader ~ 26 ~ Kan brukes til å teste hypotesene som er det samme som ET 100 %(1 - α) KONFIDENSINTERVALL FOR DIFFERANSEN ̅ der ̅ √ er en tabellverdi med (n1 + n2 - 2) frihetsgrader. Hvis intervallet dekker 0 kan man ikke si at det er en forskjell. Variansanalyse Varians inne i gruppe er uforklart og kan omtales som støy. Vi har ikke data som kan forklare det. Variasjon mellom gruppene forklares ved hjelp av faktoren/gruppen de sorteres etter. Variansanalysen er en generalisering av to-utvalgs T-testen og benyttes for å kunne sammenligne gjennomsnitt i mange grupper samtidig. Analysen kalles ofte ANOVA – Analysis of variance Hovedpoenget med variansanalysen er å sammenligne variasjonen innad i gruppene med variasjonen mellom gruppene. Enveis variansanalyse Vi har k grupper vi vil sammenligne med hensyn på en eller annen respons. La Yij være observasjon nr. j fra gruppe i. der i = 1, 2, .., k og j = 1, 2, 3, ..., n Antall observasjoner: N = n1, n2, n3, ..., nk Totalt gjennomsnitt: ̅ Totalt standardavvik: ST ̅ Gjennomsnitt i gruppe i: Standardavvik i gruppe i: Si ~ 27 ~ OPPSPLITTING AV DATA Observasjon = signal(det jeg forstår) + støy(det jeg ikke forstår) ̅ ( ̅) Vi kan trekke fra totalgjennomsnittet ̅ på hver side: ̅ ̅ ̅ ̅) ( Avvik fra totalt snitt = gruppas avvik fra totalt snitt + tilfeldig avvik i hver gruppe KVADRATSUMMER Kvadrer begge sider av likhetstegnet. Summer deretter begge sider av likningen for alle verdier av i og j. Da får du følgende tre kvadratsummer: ∑ ∑( ∑ ̅ ̅) ̅ ∑ SSG er da et uttrykk for variasjon mellom grupper SSE er et uttrykk for variasjon innen grupper SST = SSG + SSE Dvs. Total variasjon = forklart variasjon + uforklart variasjon Hvis SSG er stor i forhold til SSE er det naturlig å anta forskjell mellom grupper. MODELL FOR ENVEIS VARIANSANALYSE Anta at vi har k grupper med ni observasjoner i gruppe i. Anta at disse er et tilfeldig utvalg fra en normalfordeling med forventning µi, i = 1, 2, …, k og standardavvik σ (merk at standardavviket antas likt i alle grupper). Dvs: eller ESTIMERING AV PARAMETRE Modellen i enveis variansanalyse inneholder k + 1 parametre. Dvs. alle k gruppene og standardavviket. ~ 28 ~ Forventning i hver gruppe blir estimert ved utvalgsgjennomsnittet ̅ ̂ Felles standardavvik blir estimert ved: ̂ ∑ √ √ ̂ ∑ √ Varians er , også kjent som MSE som nevnt ovenfor. Dette er vårt beste estimat på den ukjente variansen σ2. Standardfeilen til ̂ er: ̂ √ Altså: ̂ ̅ ̂ √ ∑ ̂ √ ANDEL FORKLART VARIASJON: Andelen variasjon som er forklart av modellen(gruppene) VARIANSANALYSETABELL SS df MS F P Variasjonskilde Kvadratsum Frihetsgrader Varians F-verdi p-verdi Mellom gr. SSG k–1 Innad i gr. SSE N–k Total SST N–1 HYPOTESETESTING ~ 29 ~ Under H0 vil alt være helt likt. H1 sier ikke noe om hvor forskjellen ligger, bare at minst to av gruppeforventningene er ulike. FORKASTE H0 - Hvis vi observerer SST er det naturlig å forkaste H0 hvis SSG er stor. Det er det samme som at SSE må være liten, siden summen er fast. Derfor er det også naturlig å forkaste H0 hvis SSG/SSE er stor Blir naturlig å forkaste H0 dersom er stor: NÅR F ER STOR Under H0 er F Fisher-fordelt (f-fordelt) med (k – 1) og (N – k) frihetsgrader. Lat som om H0 er sann. Da har F en kjent fordeling, og vi kan regne ut sannsynligheten for å få en stå stor F som den vi fikk. Hvis det er veldig usannsynlig, forkaster vi H0. Verdier for F finner man ved å bruke tabellen som ligger vedlagt. (k-1) settes som v1. (N-k) settes som v2. α er sannsynligheten for å få verdien Fα. α er p-verdien. Kontraster og enveis variansanalyse Hvis vi forkaster H0, vet vi allikevel ikke hvor forskjellen mellom gruppene ligger. Kontraster til forventningene sier noe om dette. Kontraster er lineærkombinasjoner av forventninger som uttrykker det vi er interessert i. Den ser på forskjellen mellom gruppene. En forskjell mellom forventningene i de k gruppene kan måles på forskjellige måter, for eksempel ved: ~ 30 ~ ( ) ( ) Det er viktig at summen av parametrene blir 0, dvs. at alle parametrene teller like mye så man finner forskjellen mellom dem. Slike lineære funksjoner kalles kontraster, i parametrene 1, 2, 3, …, k. De er viktige og mye brukt i variansanalysen. Generelt er en slik kontrast en lineær funksjon på formen: ∑ der er konstanter og oppfyller betingelsen at ∑ er tallene man ganger µ med for å balansere den lineære funksjonen. Det er naturlig å estimere forventningene i hver gruppe med tilsvarende gjennomsnittene i observasjonen, dvs: ̂ ̅ En fornuftig estimator for kontrasten θ er dermed: ̂ ̅ ̅ ̅ ∑ ̅ ̂ er forventningsrett, mens var( ̂) kan estimeres forventningsrett ved: ( ̂) ( ̂) ∑ √ ̂ ̂ ̂ T kan brukes til å teste hypoteser, f.eks. ~ 31 ~ Analyse av kategoriske krysstabeller (toveistabeller) En krysstabell (kontigenstabell) er en tabell som oppsummerer resultatet fra et forsøk der en registrerer to kategoriske variable. Individene blir kvalifisert etter disse to variablene. I tabellen teller vi opp hvor mange som kommer i snittet av to kategorier. En variabel kalles rad-variabel og den andre kalles kolonne-variabel. En har r kategorier for rad-variabelen og k kategorier for kolonne-variabelen. I eksempelet er status kolonne-variabel og røykevaner er rad-variabelen. OBS: Fordelingen er binomisk. BETINGET FORDELINGSRESULTAT DATASTRUKTUR ~ 32 ~ Ri – totalt antall enheter med radkjennetegn Ai Kj – totalt antall enheter med kolonnekjennetegn Bj HYPOTESER I TOVEISTABELLER H0: Det er ingen sammenheng mellom kolonne- og radvariable, de er uavhengige. H1: Det er sammenheng mellom kolonne- og radvariable, de er avhengige. - Vi har n (uavhengige og tilfeldig valgte) observasjoner fra en populasjon og noterer hvilken kategori hver av disse kommer i for to kategoriske variable. Variabel 1 (radvariabelen) har kategori A1, A2, …, Ar. Variabel 2 (kolonnevariabelen) har kategori B1, B2, …, Bk. Tell deretter opp hvor mange som har kommet i snittet (Ai, Bj) for alle par i og j. Kall dette antallet Xij. Denne er binomisk fordelt med n og sannsynlighet pij = P (Ai Bj). - Hvis begivenhetene Ai og Bj er uavhengige, vil ( Vi får dermed: ( ) ( ) ( ) ( ) ) ( ) UAVHENGIGHET MELLOM TO VARIABLE Vi kan estimere slik: ( ) Dersom det er uavhengighet mellom kolonnevariabelen og radvariabelen, dvs. hvis H0 er sann, vil forventet antall ( ( ( ) ( ) )) observasjoner i celle (i, j) bli ( ) EKSEMPEL – OBSERVERTE OG FORVENTEDE VERDIER ~ 33 ~ ( ) FORKASTE H0 Vi forkaster H0 dersom det er store avvik mellom de observerte verdiene xij og de forventa (under H0) verdiene Eij. Da er følgende stor: ∑∑ ( ) ∑ FORDELING UNDER NULLHYPOTESEN Vi har sannsynlighetsfordelinga til Q under H0. Dermed kan vi finne en konstant, k, som er slik at dersom H0 er sann, er det sannsynlighet α for at Q skal bli større enn denne. Dvs. P(det inntrufne) dersom H0 er sann. Hvis H0 er sann, følger Q (tilnærmet) det vi kaller en kjikvadratfordeling med (r-1)∙(k-1) frihetsgrader, der r er antall rader og k er antall kolonner. α 2 Kjikvadratfordeling skrives og fordelingen finner man i en tabell. ~ 34 ~ ANALYSE AV SAMMENHENGER Generelt Noen ganger er det forskjell på betydningen av to variable, X og Y: RESPONSVARIABELEN (Y) er selve målet for den undersøkelsen vi foretar. Den blir ofte kalt den avhengige variabelen. FORKLARINGSVARIABELEN (X) forklarer eller gir årsaken til noe av variasjonen i responsvariabelen. Den blir ofte kalt den uavhengige variabelen. Vanligvis oppfatter vi den ene variabelen Y som en funksjon av den andre, X. Det fremgår vanligvis av teksten hva som er hva. EKSEMPLER VEKT OG HØYDE Respons er vekt, forklaringsvariabel er høyde Man kan da se på hvordan høyde påvirker vekt, og se hvordan vekten øker når man blir høyere. Det blir mindre fornuftig å se på hvorda vekt bestemmer høyde. Her er begge kontinuerlige. VEKT OG KJØNN Respons er vekt, forklaringsvariabel er kjønn. Her kan man se på hvor stor vektforskjell det er mellom kjønn. Forklaringsvariabelen er her kategorisk(“jente” og “ikke jente”) SJUKDOM OG KJØNN Respons er sjuk/ikke sjuk, forklaringsvariabelen er kjønn Her er begge kategoriske. Første møte med data Hvis man skal studere sammenhenger mellom to numeriske variable tegner man et spredningsplott(scatterplot). Et spredningsplott viser sammenhengen mellom to variable som er målt på de samme objektene. Verdiene til de to variablene finner man på x-aksen og y-aksen, og hvert objekt opptrer som et punkt i plottet. Plasseringen er da bestemt med verdier fra begge variablene. Målet er å finne matematiske modeller for å beskrive sammenhengen mellom to variable. Det kan f.eks. være en lineær linje eller en 2. gradskurve. Vurdere et spredningsplott Når man har et spredningsplott ser man etter mønstre eller avvik fra slike mønstre. Det man ofte bruker for å beskrive det er: - Retning - Form - Styrke ~ 35 ~ Tallfeste spredning Det holder ikke å bare vite senter og spredning for å studere sammenheng mellom variable. Dette ser man av eksempelet under hvor man har samme gjennomsnitt og standardavvik for både Y1 og Y2. Descriptive Statistics: X; Y1; Y2 Variable N Mean StDev X 10 5.500 3.028 Y1 10 5.500 3.028 Y2 10 5.500 3.028 Korrelasjon Tallfesting av sammenheng mellom to variable. Korrelasjon måler styrke og retning av den lineære sammenhengen. Korrelasjonskoeffisien blir vanligvis kalt r, og er gitt ved: ∑ √∑ ̅ ̅ √∑ ̅ ̅ Vi har n observasjonspar (x1, y1), (x2, y2), ..., (xn, yn) Sxy er en estimator for kovariansen Cov(x, y) og defineres ∑ ̅ ̅ sx og sy er standardavvik. Får man oppgitt sxx og syy tar man kvadratroten. OBS: Dette pleier man å la dataen regne ut. ~ 36 ~ KORRELASJONSKOEFFISIENTEN(r): - Skiller ikke mellom variablene. Krever at begge variable er kvantitative(numeriske) Blir ikke forandret dersom vi forandrer skala Dersom r > 0 indikerer det at det er en positiv sammenheng mellom variable Dersom r < 0 indikerer det en negativ sammenheng mellom variable. Dersom r = 0 er det ingen lineær sammenheng mellom variable. r vil alltid være et tall mellom -1 og +1 r måler styrken av den lineære sammenhengen mellom to kvantitative variable r beskriver ikke sammenhengen mellom to variable der denne har form som en ikke-lineær kurve. ULIKE FORMER FOR SAMMENHENG MELLOM TO VARIABLE SVAKHETER - - Sier ikke noe om årsak/virkning. En linje som følger en 2. gradsfunksjon kan f.eks. få r = 0, se illustrasjon Data som følger en rett linje kan får en lavere r hvis man har fått inn feildata som gjør at en enkelt observasjon skiller seg ut. Har mange svakheter, så man må se dottplottet i tilegg. ~ 37 ~ Lineær regresjon En regresjonslinje er en rett linje som beskriver hvordan responsvariabel(y) forandrer seg når forklaringsvariabelen (x) forandrer seg α er der linja skjærer y-aksen og verdien man får når x = 0. Er ikke alltid man kan tolke denne på en fornuftig måte, men gir mening i noen tilfeller. β er stigningstallet til linja. Det er den verdien Y øker med når x øker med 1. MODELL FOR LINEÆR REGRESJON Anta at du har n uavhengige observasjoner av (Y, x). For hver av disse antar vi: ei-ene er enkeltmålingenes avvik fra linjen. Hvis man ikke tar med dette leddet antar man at alle med samme x-verdi får samme y-verdi, altså ingen spredning. Y kan deles inn i en forklart del og en uforklart del. Feilleddet er en tilfeldig størrelse som forstyrrer den lineære sammenhengen. Modellen medfører: Yi-ene er uavhengige Yi er normalfordelt som skal bli forstått Y|x PARAMETRE I REGRESJONSMODELLEN Modellen har 3 ukjente parametre som må tolkes konkret for datamaterialet man jobber med: α, β og σ ESTIMERING AV PARAMETRE: MINSTE KVADRATERS REGRESJONSLINJE Vanligvis er parametre ukjente og må dermed estimeres. Minste kvadraters metode for å estimere regresjonslinja går ut på å tilpasse den linja som passer best mulig til data etter følgende kriterium: - Bestem estimatene for α og β (og dermed linja) slik at kvadratsummen av alle vertikale avvik mellom de observerte datapunktene og linja blir minst mulig. ~ 38 ~ ∑ ∑ Minste kvadraters linje er ̂ ̂ ̂ ̂ ∑ ̅ ∑ ̂ ̅ ̅ ̅ ̂ ̅ Legg merke til at stigningstallet er proporsjonalt med korrelasjonen Legg merke til at linja går gjennom punktet ̅ ̅ FORKLART OG UFORKLART DEL Vi har modellen Vi kan dele opp den observerte Yi: - Forklart del: Uforklart del: er ukjent. Derimot kan den anslås ved det vi kaller residual: ̂ (̂ ̂ ) ̂ KVADRATSUMMER(SS – sum of squares) ̂ Vi har ̂ (̂ ̂ ) ̂ eventuelt ̂ Da kan vi også skrive: ̅ (̂ ̅) ̂ (̂ ̅) ( ̂) ∑ ̅ ̂ ∑( ̂ ∑( ~ 39 ~ ̂ ̅) ̂ ) ∑( ̂ ∑( ̅) ̂) ESTIMERING AV σ: ∑ ̂ ̂ ( ̂ ̂ ) ∑ ̂ √ ANDEL VARIASJON FORKLART AV MODELLEN(r2) r2 er lik korrelasjonen opphøyd i annen. Hvis r = 0,9 vil man derfor kunne forklare 81 % av variasjonen ved en lineær sammenheng. Stor σ gir liten r2, og stor r2 gir liten σ. KVALITET PÅ ESTIMATENE Estimatene er normalfordelte og forventningsrette, men ̂ og ̂ ikke uavhengige. ̂ ( ̂) Variansen til regresjonskoeffisienten: ( ̂) ∑ ̅ Variansen blir mindre hvis man får en større n. Det gir mindre variasjon.. Standardfeilen til ̂ (̂) √ ∑ ̅ √ ( ̂) ( ̂) ̂ FORDELINGSRESULTAT FOR ̂ Vi har resultat: - ̂ er forventningsrett estimat for ̂ ( ( ̂ )) Da er ̂ ̂ ̂ √∑ ̅ (̂) SAMMENHENG MELLOM X OG Y - HYPOTESER Man vurderer om det er en sammenheng eller tilfeldigheter som gjør at den estimerte regresjonslinjens stigningstall er forskjellig fra null. ~ 40 ~ Hvis β = 0 betyr det ingen sammenheng mellom de to variablene x og Y, siden xleddet forsvinner. FORKASTE H0 VED SIGNIFIKANSNIVÅ α: - TESTING AV β ̂ (̂) Hvis man tester ̂ mot et eller annet alternaltiv, vil (̂) Dermed har man bare kjente verdier og kan regne ut T. Se tabellverdi. KONFIDENSINTERVALL FOR β Et 100(1-α)% konfidensintervall for β er gitt ved: ̂ ( ̂) Det er interessant om intervallet dekker 0, siden dette sier noe om det er sammenheng mellom x og Y. kan forkastes hvis 0 ikke befinner seg inne i intervallet, siden det er innholdet i intervallet man tror på. FORVENTET RESPONS NÅR VI KJENNER X – ESTIMERING AV E(Y|X0) Et naturlig estimat for dette er ̂ ̂ ̂ Standardfeilen for estimatet er gitt ved ( ̂) √ ( ̅ ) ̂ √ ̅ ∑ ̅ ~ 41 ~ ˆ KONFIDENSINTERVALL FOR FORVENTET RESPONS Et 100(1 – α)% konfidensintervall for E(Y|x0) er gitt ved (̂ ̂ √ ) ̅ ∑ ̂ ̅ ( ̂) Prediksjon innen lineær regresjon Anslå verdien av en enkelt observasjon. Vi har sett på forventet respons(i betydning gjennomsnitt for hele populasjonen) for en gitt verdi av x. Nå skal vi se på en enkelt observasjon. En av hovedmålsettingene ved regresjonsanalyse er å utføre prediksjon, dvs. beregne verdier av ukjent Y på grunnlag av den kjente x. Eks. Hvor mye man anslår at en person veier når vi kjenner høyden. ̂ ̂ ̂ Vi kan regne ut et intervall som med en viss sikkerhet inneholder den ukjente responsen, et prediksjonsintervall. FORSKJELL PÅ ESTIMERING OG PREDIKSJON Merk at i den ene situasjonen skal vi estimere en forventning E(Y|x0), populasjonsgjennomsnittet for Y for alle med samme x, altså hvor linja går i det punktet. I den andre situasjonen skal vi prøve å anslå verdien på en tilfeldig variabel, Y, når vi kjenner x. Vi bruker ̂ ̂ ̂ i begge situasjonene. Hver enkelt observasjon er mer usikker enn gjennomsnittet, siden det i snitt vil jevne seg ut. En enkelt observasjon kan derimot ha store avvik, både til den ene og den andre siden. I tilegg til usikkerheten knyttet til hvor linja skal gå, må vi ta hensyn til usikkerheten som skylder feilleddet e. Derfor er prediksjonsintervallet(for observasjonene) bredere enn konfidensintervallet(for den ukjente linja) PREDIKSJONSINTERVALL Et 100(1 – α)% prediksjonsintervall er gitt ved (̂ ̂ ) √ ̅ ∑ ̅ Forskjellen fra konfidensintervallet er at man legger til 1 under rottegnet. ~ 42 ~ BREDDEN TIL INTERVALLENE Konfidensintervall: n∞ Bredden 0 hos KI for E(Y|x0) Prediksjonsintervall: n∞ Bredden Hvis s = 0 rett linje Prediksjonsintervallene blir ofte veldig brede, med stor usikkerhet. Det er mange usikre elementer. Modellkritikk av lineær regresjon - Følger ikke alltid en rett linje ̂ ̂ - ̂ (residual) Residualene summerer seg alltid til 0. Dermed er snittet lik 0. Er ikke nødvendigvis konstant varians Forutsetning for residualene hos modellen o Uavhengige o o Konstanten er uavhengig av x o Dottplottet skal heller ikke vise mønster Støy har ingen struktur! ~ 43 ~ GENERELT Konfidensintervall Bredden varierer med n: Flere frihetsgrader gir en annen t. Flere data gir et smalere intervall ENSIDIG OG TOSIDIG TEST I statistikkprogrammer får man oppgitt p-verdien til tosidig test. Hvis man halvverer verdien kan man få ensidig test. Hvis man har p-verdien til en ensidig test, kan man doble verdien for å finne for tosidig test. p-verdi p-verdi er sannsynligheten for det observerte eller noe enda mer ekstremt hvis H0 er sann. Dvs. sannsynligheten for å observere det man observerer, som kan ligge ganske langt unna hypotesen, hvis H0 er sann. Hvis p-verdien er veldig liten, kan man forkaste H0. Hvor liten bestemmes av hvor stor sikkerhet man godtar og om det er en ensidig eller tosidig test. Det er vanlig å forkaste H0 hvis p-verdien er mindre enn 0,050. α-VERDIEN sier hvor stor usikkerhet man har, f.eks. 0,050, som er 5 % usikkerhet. Merk: tester man tosidig, må man bruke α/2, siden man får en usikkerhet i hver ende av skalaen. α = 0,050 i en ensidig test gir 95 % sikkerhet. For å få samme sikkerheten i en tosidig test må man ha α = 0,025, siden den usikkerheten i hver ende etterlater et sikkert intervall på 95 %. SAMMENHENG MELLOM α-VERDI OG P-VERDI p-verdien er det minste valget av α-verdien som vil lede til forkastning av H0 på grunn av de observerte data. VERDIER PÅ GRAFEN I de ulike modellene regner man ofte ut en verdi, f.eks. T, og sammenligner så mot tabellverdien for metoden. Tabellverdien settes som k og hvis T-verdien befinner seg utenfor, altså er større i forhold til illustrasjonen, forkastes H 0. Arealet α er da sikkerheten man tester på, og man ser om sannsynligheten er større eller mindre. Hvis man regner ut på data, kan derimot den finne den eksakte p-verdien til resultatet. Setter man resultatet som k er dermed arealet α lik p-verdien og den eksakte sannsynligheten for det observerte. Ulike navn for estimert standardavvik ̂ ~ 44 ~ Forkastningsområde ved ulike tester Her er et eksempel fra lineær regresjon, men forkastningsområdene er det samme i andre tester også. Hypotesene vil bare skrives annerledes: - Skrivemåter ved utregning MODELLBRUK Når man regner ut er det viktig å ta med hvilke modell man bruker, og forklare de ulike verdiene og parametrene. EKSEMPEL PÅ FØRING AV MODELL Yi = + xi + ei der ei-ene er uavhengige og N(0, ). Yi er avling nr. i, og xi er såtid nr i. i = 1, 2, . . . .14. Estimater (fra utskrift) ˆ 554.5 ˆ 2,82 ˆ 21.8 Dersom vi sår 1, april estimerer vi gjennomsnittsavling til 554,5 kg Foreventet tap i avling pr sådag utsatt estimeres til 2,82 kg. Spredning (standardavvik) for avling med samme såtid estimeres til 21,8 kg. GJENNOMFØRING AV ULIKE TESTER Når man bruker ulike tester, f.eks. T-test, bør man få med hvilke nivå man tester på, antall frihetsgrader etc. En grei måte å skrive dette på er: ̅ ̅ √ EKSEMPEL PÅ FØRING AV T-TEST T= y1 y 2 Sp 1 n1 1 n2 = 4.51 3.93 0.4715 1 10 101 = 2,75 > t0.05,27 = 1.703 ~ 45 ~ PROGRAMMET “R” Ord og uttrykk ̂ I LINEÆRREGRESJON: ̂ ̂ KJIKVADRATFORDELING ~ 46 ~ TABELLER Kumulativ binomisk sannsynlighet KUMULATIV SANNSYNLIGHET P(X ≤ k) finnes i tabellen P(X ≥ k) = 1 - P(X ≤ k-1) ~ 47 ~ Kumulativ poissonfordeling ~ 48 ~ Kumulativ standardnormalfordeling ~ 49 ~ Standardnormalfordelingens kvantiltabell ~ 50 ~ t-fordelingens kvantiltabell TABELL TIL NÅR σ ER UKJENT 5 frihetsgrader, =0,05 og ukjent σ gir t = 2,015 5 frihetsgrader, =0,05 og kjent σ gir t = 1,645 ~ 51 ~ Kjikvadratfordelingens kvantiltabell ~ 52 ~ Tabell for Fisher F-fordeling ~ 53 ~