Grundläggande statistik
Transcription
Grundläggande statistik
Grundläggande Biostatistik Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet Formell analys Informell data analys Design and mätning Problem Formell analys Informell data analys Hur samlas data in? Design och mätning Formell analys Informell data analys Hur samlas data in? Design och mätning Mätskalor reliabilitet validitet Formell analys Informell data analys Hur samlas data in? Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet Konfidensintervall P-värden Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet Modellbaserad analys Regression Logistisk regression Överlevnadsanalys Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Konfidensintervall P-värden (enkla tester) Formell analys Informell data analys Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet Problem – syfte • Skatta prevalenser och risker för insjuknande av sjukdom • Jämföra utfall av behandling tex läkemedel/ rehabiliteringsmetoder • Kartlägga riskfaktorer, dvs faktorer som ökar risken för sjukdom • Följa förlopp - tillväxtkurvor Studiedesign Experiment Klinisk prövning Observationsstudie Tvärsnittsundersökning Longitudinell undersökning Kohortstudie Fall-kontroll studie Randomiserad kontrollerad studie Behandling Patienter Utfall Randomisering Kontroll/ Placebo Fler armar kan förekomma Utfall Kohort studie Exponerade Utfall Ej exponerade Utfall Population Fall kontroll studie Exponerade Ej exponerade Fall Kontroller Tvärsnitts-studie Mätningar Population Urval Hypotesprövning Vid prövning av behandlingsmetod på två grupper: H0: ingen skillnad mellan grupper HA: skillnad mellan grupper När väljer vi nollhypotesen och när förkastar vi den till fördel för den alternativa hypotesen? Typ I och II fel H0: gruop1=gruop2 HA: gruop1≠gruop2 Null Hypothesis is true (H0) Alternative Hypothesis is true (HA) Reject Null Hypothesis - Negative Right decision Type 2 error (β) Reject Null Hypothesis - Positive Type 1 error (α) Right decision Type 1 error is referred to as false positive Type 2 error is referred to as false negative Standard normal distribution α = 0.1, P(Z>1.28)=0.1 Hypotesprövning v α är sannolikheten för typ 1 fel: α = P(Type 1 error) = P(reject H0 | H0 true) v β är sannolikheten för typ 2 fel: β = P(Type 2 error) = P(fail to reject H0| H1 true) = 1 – P(reject H0 | H1 true) = 1 - (power of the test) v Power eller styrkan för testet = 1 - β Begreppet power – studiens styrka • Sannolikheten att kunna påvisa en skillnad mellan grupper (tex behandlingsgrupper) om den finns där • Utgör en komponent vid bestämning av studiens storlek • Andra komponenter är: • Den minsta skillnad vi vill kunna påvisa • Risk för ett falskt positivt fynd (alfa-fel) • Storleken av spridningen i utfallet Mätning Variabel Kvantitativ Diskret Kontinuerlig Kategorisk Ordnad Ej ordnad Datanivå Kvot +++ Intervall ++Ordinal +-Nominal --- Ordning Avstånd Absolut nollpunkt Variabel Kategorier Typ av variabel Datanivå Kön Man/Kvinna Kat Nominal Binär Blodgrupp O, A, B, AB Kat Nominal VIKT Mätt i kg Kvant Kontinuerlig Rökare Nej, Ja Kat Nominal Binär Smärta Obetydlig, Måttlig, Svår, Outhärdlig Kat Ordinal Vårddagar Antal vårdagar Kvant Diskret ID Grupper av variabler • Utfallsvariabler – primära/sekundära • Behandlingsvariabler/riskfaktorer – variabler som påverkar utfallet • Bakgrundsvariabler – demografiska variabler • Förväxlingsvariabler – confounders/inflytelserika men ej intressanta variabler för frågeställningen Presentation av data Bild Mått Tabell Val styrs av variabeltyp Exempel: Kroppstemperatur Vi har lärt oss att normal kroppstemperatur, när man är frisk, skall vara 37 grader C. Stämmer det? En studie av detta gjordes i USA för ca 20 år sedan. Design: Tvärsnittsstudie Utfallsvariabel: Kroppstemperatur (vid fix tid på dagen) Andra variabler: Kön, ålder, … Lägesmått n Medelvärde Median ∑x i x= i =1 n Mittersta värdet 36.8 gr C 36.8 gr C Variationsmått n Standardavvikelse Kvartilavstånd (IQR) Variationsvidd (Range) s= 2 ( x − x ) ∑ i i =1 s = 4.13 år n −1 q1 = 36.56, q3 = 37.06 IQR= 0.5 grC max =38.22, min = 35.72 VV = 2.5 Grafisk beskrivning: Histogram 0 . 4 0 . 3 Y 0 . 2 0 . 1 0 . 0 3 2 1 0 1 2 3 4 X Referens Grafisk beskrivning: Boxplot Tabellpresentation Jämförelse mellan grupper Analys Inferens Ska7ning av sant medelvärde Sant medelvärde Urvalsmetod Popula1on Urval Inferens 1: Konfidensintervall • Ska7ningar är osäkra på grund av a7 vi studerar en del av popula1onen. • Ska7ningar kan ges med FELMARGINAL. • Det kallas KONFIDENSINTERVALL. • Konfidensintervallet anges med grad av osäkerhet som kallas konfidensnivå (95%, 99%, etc) Inferens 1: Konfidensintervall intervall som inkluderar det sanna medelvärdet nästan säkert (95%). Kroppstemperatur Konfidensintervallet blir 36.73 – 36.88 De7a intervall inkluderar popula1onens medelvärde nästan säkert (med 95% konfidens) Inferens 2: Hypotesprövning Skiljer sig män och kvinnor åt vad avser kroppstemperatur? Report temp_c sex Man Mean 36,7248 N Kvinna 36,8855 65 ,41305 Total 36,8051 130 ,40732 P-värde = 0.024 Slutsats: ? Std. Deviation 65 ,38820 P-värde • Sannolikheten a7 få det uZall vi få7 (eller mer avvikande) under förutsä7ning a7 nollhypotesen stämmer • motsvarar typ I fel Praxis för bedömning av p-värden p > 0.05 ingen skillnad (ej signifikant) 0.05>p>0.01 skillnad (signifikant *) 0.01>p>0.001 skillnad (signifikant **) 0.001>p skillnad (signifikant ***) Tre grupper eller fler -ANOVA Vid en hälsoundersökning mättes midjemåttet på knappt 1600 individer. Tre åldersgrupper jämförs. Skiljer Sig åldersgrupperna åt? Descriptives Midjemått i cm N Mean Std. Deviation 95% Confidence Interval for Mean Std. Error Lower Bound Upper Bound Minimum Maximum -39 557 81,715 11,32893 ,48002 80,7727 82,6585 58,50 122,00 40-59 808 86,597 11,56607 ,40689 85,7988 87,3962 61,50 140,50 60+ 212 89,872 11,39584 ,78267 88,3298 91,4155 61,50 130,00 Total 1577 85,313 11,80601 ,29729 84,7304 85,8966 58,50 140,50 P<0.001 Parvisa test En grupp barn har undersökts med avseende på styrka i höger respektive vänster hand. Skiljer sig styrkan åt? Paired Samples Statistics Pair 1 Mean Handstyrka höger 14,878 (kg) Handstyrka vänster (kg) p<0.001 13,469 Std. Std. Error Deviation Mean N 67 4,2883 ,5239 67 3,9734 ,4854 Linjär regression • för att beskriva sambandet mellan kontinuerliga utfalls variabler och kontinuerliga samt kategoriska förklaringsvariabler • antar normalfördelning • kan inkludera flera förklaringsvariabler och bakgrundsvariabler (crude/adjusted) • Vid studie av enbart två variabler liknar det och kan jämföras med korrelationsanalys • Annars kan det ses som en utveckling av ANOVA • Beräknar linjära samband i skala av utfallet Logistisk regression • för att beskriva sambandet mellan binära (ja/nej) utfallsvariabler samt kontinuerliga eller kategoriska förklaringsvariabler • kan inkludera flera förklaringsvariabler och bakgrundsvariabler (crude/adjusted) • Vid studie av enbart en kategorisk förklaringsvariabel kan det liknas vid korstabell/ kontigenstabell (chi-2) • Kan ses som en utveckling av korstabeller • Vanligt i tvärsnittsstudier • Beräknar Odds Ratio Survival eller time to event analys • Utfallet är binärt (ja, nej) och förklaringsvariabler kan vara katergoriska (Kaplan-Meier) och kontinuerliga (Cox Proportional Hazards) • Inbegriper person-tid av exponering i olika grupper • Vanligt i kohortstudier • Kan inkludera flera förklaringsvariabler (Cox PH) • Cox PH antar proportionella risker i grupper eller över skalor • Beräknar Hazard Ratio/Incidence Rate Ratio/ Relative Risk (t.ex. mellan grupper)