Vejledende besvarelse af hjemmeopgave, forår 2015
Transcription
Vejledende besvarelse af hjemmeopgave, forår 2015
Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal15_1/hjemmeopgave.html ligger data fra de i alt 130 personer, med variablenavne id: Personens løbenummer (observationsnummer) gender: Personens køn (M: mand, K: kvinde) bodytemp: Personens kropstemperatur (angivet i Fahrenheit) heartrate: Personens puls (slag pr. minut) Opgaven er at se på, om kropstemperatur og puls hænger sammen, samt om der er nogle forskelle på kønnene, enten for hver af disse to variable, eller i deres indbyrdes relation. Vi starter med at indlæse data direkte fra hjemmesiden: data a1; infile "http://staff.pubhealth.ku.dk/~lts/basal/hjemmeopgave/hjemmeopgave.txt" URL firstobs=2; input id gender$ bodytemp heartrate; run; hvorved vi har dannet datasættet med det korte navn a1. 1. Først skal vi se på pulsen blandt kvinderne: (a) Udregn passende størrelser til beskrivelse af fordelingen af puls blandt kvinderne, og suppler med en figur, der illustrerer denne fordeling. For at få medianen med, når vi bruger proc means; må vi skrive lidt mere udførligt, hvad vi gerne vil se. Her har vi (foruden de sædvanlige, altså gennemsnit, spredning, minimum og maximum) valgt at udregne 25, 50 og 75% fraktilerne, idet medianen jo er 50% fraktilen. 1 Desuden vil vi gerne have et visuelt indtryk af fordelingen, fordi vi lige om lidt skal udregne et normalområde, så vi tilføjer et sgplot til fremstilling af et histogram med overlejret normalfordelingstæthed: proc means N mean P25 median P75 stddev min max; class gender; var heartrate; run; proc sgplot data=a1; where gender=’K’; histogram heartrate; density heartrate; run; The MEANS Procedure Analysis Variable : heartrate N gender Obs N Mean 25th Pctl Median 75th Pctl -------------------------------------------------------------------------K 65 65 74.1538462 68.0000000 76.0000000 80.0000000 M 65 65 73.3692308 70.0000000 73.0000000 78.0000000 -------------------------------------------------------------------------N gender Obs Std Dev Minimum Maximum ----------------------------------------------------------K 65 8.1052274 57.0000000 89.0000000 M 65 5.8751841 58.0000000 86.0000000 ----------------------------------------------------------- Vi har brugt konstruktionen class gender; og får derfor oplysningerne for såvel mænd som kvinder, men vi fokuserer her alene på kvinderne. Her ser vi, at gennemsnit og median er rimeligt tæt på hinanden (faktisk ligger medianen højest, hvilket ikke er helt almindeligt, idet det tyder på en fordeling med en hale mod venstre). Til gengæld ligger 25- og 75% fraktilerne ikke helt symmetrisk omkring medianen, men snarere om gennemsnittet. Histogrammet nedenfor viser også tendensen til hale mod venstre, men det tilhørende fraktildiagram (som kommer ud fra T-testet i spørgsmål 1c) ser faktisk ret nydeligt ud. 2 (b) Udregn et 95% normalområde for kvinders puls. Er det almindeligt at støde på kvinder med en puls på 80? Baseret på de ovenstående betragtninger vedrørende fordelingen, ser det ikke helt skævt ud at udregne et normalområde baseret på en normalfordelingsantagelse. Det er i hvert fald ikke muligt at gøre andet, da en direkte udregning af 2.5% og 97.5% fraktiler ville være for ustabil på så lille et datamateriale. Vi udregner derfor efter formlen gennemsnit ± 2 SD og finder 74.154 ± 2 × 8.105 = (57.044, 90.364) Det er således ganske almindeligt at træffe på kvinder med en puls på 80 (hvilket selvfølgelig også ses direkte af histogrammet). Faktisk så vi også ovenfor, at 75% fraktilen netop var 80, så der er altså 25% af kvinderne, der har en puls, der ligger højere end 80. (c) Nu er en stikprøve på 65 jo ikke alverden, men nok til at give et skøn over middelværdien af puls i den kvindelige befolkning. Angiv et estimat for denne, med 95% konfidensgrænser. Kan middelværdien tænkes at være 80? Dette spørgsmål kunne besvares meget hurtigt ved at tilføje clm i proc means ovenfor, men her benyttes en anden konstruktion, nemlig et T-test til test af hypotesen om middelværdi 80, med tilhørende plot, der illustrerer denne hypotese. Vi skriver 3 proc ttest h0=80 plots(showh0) data=a1; where gender=’K’; var heartrate; run; og finder derved The TTEST Procedure Variable: N 65 heartrate Mean 74.1538 Mean 74.1538 DF 64 Std Dev 8.1052 Std Err 1.0053 95% CL Mean 72.1455 76.1622 t Value -5.82 Std Dev 8.1052 Minimum 57.0000 Maximum 89.0000 95% CL Std Dev 6.9120 9.8003 Pr > |t| <.0001 Bemærk, at T-testet for en gangs skyld ikke er et test for middelværdi 0, fordi vi eksplicit har bedt om at få testet hypotesen om, at middelværdien er 80. Dette ses at blive forkastet med en meget lille P-værdi (P < 0.0001). Svarende til dette har vi da også 95% konfidensintervallet (72.15, 76.16), som klart ikke indeholder 80. På den tilhørende figur nedenfor illustreres fordelingen, dels med en overlejret normalfordelingskurve (den blå) og dels med en såkaldt kerneudglattet tæthed (den røde), der ses at afvige en anelse, svarende til den tidligere konstaterede tendens til hale mod venstre. Forneden på figuren ses desuden et boxplot af fordelingen (lyseblåt) samt konfidensintervallet for middelværdien (grønt). Hypoteseværdien 80 er markeret med en lodret streg, der ligger et godt stykke væk fra konfidensintervallet. Middelværdien af kvinders puls er således ikke 80, men derfor kan der selvfølgelig sagtens være kvinder, der har en puls på 80, eller endda væsentligt over. Det illustrerer forskellen på normalområde (til beskrivelse af enkelt individer) og konfidensinterval (til angivelse af, hvor middelværdien befinder sig). 4 2. Er der evidens for en systematisk forskel i puls for mænd og kvinder? Her er der lagt op til at sammenligne to gruppers middelværdier for et kvantitativt outcome, dvs. et T-test. Vi har allerede set, at normalfordelingen ser fornuftig ud, og under alle omstændigheder er det ikke specielt kritisk med denne antagelse, når vi bare skal sammenligne to middelværdier. Vi udfører derfor et T-test til sammenligning af mænd og kvinder: proc ttest plots=all data=a1; class gender; var heartrate; run; og finder outputtet The TTEST Procedure Variable: heartrate gender K M Diff (1-2) N 65 65 gender K M Diff (1-2) Diff (1-2) Method Mean 74.1538 73.3692 0.7846 Pooled Satterthwaite Std Dev 8.1052 5.8752 7.0786 Std Err 1.0053 0.7287 1.2417 Mean 74.1538 73.3692 0.7846 0.7846 5 Minimum 57.0000 58.0000 95% CL Mean 72.1455 76.1622 71.9134 74.8250 -1.6722 3.2415 -1.6745 3.2437 Maximum 89.0000 86.0000 Std Dev 8.1052 5.8752 7.0786 gender K M Diff (1-2) Diff (1-2) Method Pooled Satterthwaite Method Pooled Satterthwaite Variances Equal Unequal 95% CL Std Dev 6.9120 9.8003 5.0103 7.1038 6.3075 8.0661 DF 128 116.7 t Value 0.63 0.63 Pr > |t| 0.5286 0.5287 Equality of Variances Method Folded F Num DF 64 Den DF 64 F Value 1.90 Pr > F 0.0110 Vi bemærker, at der er en del mindre spredning i pulsfordelingen hos mænd sammenlignet med kvinder. Dette ses enten af spredningsestimaterne (i T-testet ovenfor, hvor de tillige sammenlignes og findes signifikant forskellige med P=0.011) eller allerede i proc means fra spørgsmål 1. Vi benytter derfor linierne svarende til Satterthwaite og Unequal og finder, at de to middelværdier ikke adskiller sig signifikant fra hinanden (P=0.53). Estimatet for differensen mellem disse middelværdier (kvinder minus mænd) er 0.7846, med et 95% konfidensinterval på (-1.6745, 3.2437). 6 (a) Hvad er P-værdien for test af nulhypotesen om ens middelværdier? P = 0.53 (b) Angiv estimatet for forskellen på de to middelværdier, med 95% konfidensgrænser. 0.7846 CI=(−1.6745, 3.2437) 3. Vi vil studere sammenhængen mellem puls og kropstemperatur, i første omgang for kvinderne alene: Det første, man bør gøre, når man skal se på effekten af en kvantitativ forklarende variabel (kropstemperatur) på en anden kvantitativ variabel (puls), er at tegne. Her er valgt et scatterplot med en såkaldt loess-kurve (en udglattet kurve til beskrivelse af sammenhængen mellem de to variable): proc sgplot data=a1; where gender=’K’; loess Y=heartrate X=bodytemp / smooth=1 group=gender; run; Ud fra den udglattede kurve synes der at være en vis sammenhæng mellem de to variable, men om den er lineær er noget svært at bedømme. Det ser ud som om den knækker ved en kropstemparetur omkring 99◦ F, men dette tilsyneladende knæk er bestemt af ret få observationer. 7 (a) Under antagelse om en lineær effekt af kropstemperatur på puls ønskes et estimat (med 95% konfidensgrænser) for den forventede ◦ puls for en kvinde med en kropstemperatur på 37 12 C. Vi udfører nu den lineære regressionsanalyse, idet vi samtidig laver nogle modelkontrol plots samt udregner to ekstra estimater. Det ene af disse er den forventede puls for en kvinde med en kro◦ pstemperatur på 37 12 C. For at indse dette, skal vi først omregne ◦ 37 21 C til Fahrenheit. Dette gøres ved at gange med 9, dividere med 5 og tilsidst lægge 32 til, altså 37.5 ∗ 9/5 + 32 = 99.5. proc glm plots=DiagnosticsPanel data=a1; where gender=’K’; class gender; model heartrate=bodytemp / solution clparm; estimate ’forventet ved 37 1/2 grad’ intercept 1 bodytemp 99.5; estimate ’effekt af 1/2 grad’ bodytemp 0.9; run; Vi finder hermed outputtet: The GLM Procedure Dependent Variable: heartrate Source Model Error Corrected Total R-Square 0.082329 Coeff Var 10.55345 DF 1 63 64 Sum of Squares 346.151163 3858.310375 4204.461538 Root MSE 7.825792 Mean Square 346.151163 61.243022 Standard Error 1.74939038 1.18415079 Estimate 77.6139141 2.8152152 Parameter forventet ved 37 1/2 grad effekt af 1/2 grad 95% Confidence Limits 74.1180364 81.1097918 0.4488787 5.1815517 Standard Error 129.4626953 1.3157231 Estimate -233.6237682 3.1280169 Parameter Intercept bodytemp 95% Confidence Limits -492.3343209 25.0867845 0.4987541 5.7572797 8 Pr > F 0.0205 heartrate Mean 74.15385 Parameter forventet ved 37 1/2 grad effekt af 1/2 grad Parameter Intercept bodytemp F Value 5.65 t Value -1.80 2.38 t Value 44.37 2.38 Pr > |t| <.0001 0.0205 Pr > |t| 0.0759 0.0205 Vi bemærker, at der faktisk er en signifikant effekt af kropstemperatur på puls (P=0.02), og hældningen beskriver, at ved en stigning på 1◦ F vil pulsen forventeligt stige med 3.13 slag pr. minut. ◦ Den forventede puls for kvinder med en kropstemperatur på 37 12 C ses at blive estimeret til 77.61, med konfidensgrænser (74.12, 81.11). (b) Hvad er prediktionsgrænserne for kvinder med denne kropstemperatur? Sammenlign dette med normalområdet fra spm 1B. Såvel konfidensgrænser for den estimerede linie, samt prediktionsgrænser illustreres af nedenstående figur. Ved at benytte Root MSE=7.826 fra regressionsanalyse outputtet, kan vi desuden udregne prediktionsgrænserne for kvinder med kro◦ pstemperatur 37 12 C til 77.614 ± 2 × 7.826 = (61.962, 93.266) Sammenlignet med normalområdet fra spørgsmål 1B ses dette interval at ligge noget højere (fordi vi ser på kvinder med en høj kropstemperatur), men også at det er en anelse smallere, hvilket skyldes, at vi har forklaret noget af variationen i puls vha kropstemperaturen. 9 (c) Hvad er den forventede effekt på pulsen af en øgning i kropstem◦ peratur på 12 C? Vi har umiddelbart estimatet for effekten af en øgning på 1◦ F, ◦ men vi skal i stedet finde effekten af 12 C=0.5 ∗ 9/5 = 0.9◦ F. Vi kunne derfor blot gange hældningen (og det tilhørende konfidensinterval) med 0.9, men vi kunne også være dovne og bruge estimate-sætningen, som vist ovenfor, hvorved det ses, at svaret er en pulsøgning på 2.82 (0.449, 5.182). (d) Er der nogen indflydelsesrige observationer, du ville kigge nærmere efter i sømmene? På det diagnostiske plot nedenfor ses en figur af Cook’s D, plottet mod observationsnummeret. Hvis vi vil have yderligere at vide, må vi tilføje en sætning i vores regressionsanalyse output out=ny cookd=cook; og så efterfølgende f.eks. skrive proc print data=ny; where cook>0.06; run; Herved ville man finde ud af, at den pågældende observation er kvinde nr. 6 (i den originale nummerering), med en kropstemperatur på 97.4 og en puls på 57. Denne kvinde er farvet rød på scatterplottet ovenfor, og det er måske umiddelbart lidt overraskende, at netop denne kvinde har den største indflydelse, da andre ligger længere fra linien eller mere yderligt i kovariat-værdier. Men der må være tale om en kombination af en lav puls og så det, at hendes kropstempertaur samtidig befinder sig i et område, hvor der ikke er så mange andre, og hver enkelt derfor får en større betydning. Og faktisk er hendes indflydelse heller ikke så meget større end adskillige af de øvriges. 10 4. Definer en dikotom variabel (en 0-1-variabel), der angiver, hvorvidt en person har feber eller ej. Vi sætter grænsen for dette til 37◦ C. Febergrænsen på 37◦ C giver 37 ∗ 9/5 + 32 = 98.6◦ F, og vi definerer nu en ny variabel kaldet feber ved at tilføje sætningen feber=(bodytemp>98.6); inden det første run; i programmet. Her kan det gøre en forskel, om man definerer folk lige på grænsen som havende feber eller ej.... (a) Angiv hyppighederne af feber for hvert køn, med 95% konfidensgrænser. Ser de ens ud? Med vores nye variable, der er et 1-tal for folk med feber, og et 0 for folk uden feber, kan vi nu danne en 2-gange-2 tabel, med tilhørende associationsmål for feber og køn: proc freq data=a1; 11 tables gender*feber / nopercent nocol expected chisq riskdiff relrisk; run; Herved får vi et ganske stort output, som her er beskåret noget: The FREQ Procedure Table of gender by feber gender feber Frequency| Expected | Row Pct | 0| 1| ---------+--------+--------+ K | 40 | 25 | | 45.5 | 19.5 | | 61.54 | 38.46 | ---------+--------+--------+ M | 51 | 14 | | 45.5 | 19.5 | | 78.46 | 21.54 | ---------+--------+--------+ Total 91 39 Total 65 65 130 Statistics for Table of gender by feber Statistic DF Value Prob -----------------------------------------------------Chi-Square 1 4.4322 0.0353 Likelihood Ratio Chi-Square 1 4.4780 0.0343 Continuity Adj. Chi-Square 1 3.6630 0.0556 Fisher’s Exact Test ---------------------------------Two-sided Pr <= P 0.0549 Statistics for Table of gender by feber Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits ------------------------------------------------------------------------Row 1 0.3846 0.0603 0.2663 0.5029 0.2665 0.5136 Row 2 0.2154 0.0510 0.1154 0.3153 0.1231 0.3349 Total 0.3000 0.0402 0.2212 0.3788 0.2228 0.3866 Difference 0.1692 0.0790 0.0144 0.3241 Difference is (Row 1 - Row 2) Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------------------------------------------------------------Case-Control (Odds Ratio) 0.4392 0.2025 0.9526 12 Cohort (Col1 Risk) Cohort (Col2 Risk) 0.7843 1.7857 0.6228 1.0234 0.9877 3.1157 Sample Size = 130 Vi ser, at der er 38.46% af kvinderne, der har (let) feber, medens der kun er 21.54% af mændene, der har det. Ud af 100 mænd og 100 kvinder, vil vi altså umiddelbart forvente 38.46 − 21.54 = 16.92 ≈ 17 flere kvinder end mænd med let feber. (b) Er der evidens for forskel på hyppigheden af let feber blandt mænd og kvinder? Tja, χ2 -testet giver P = 0.035, men Fishers eksakte test giver P = 0.0549. Baseret på de foventede værdier, der alle er større end 5, må vi godt bruge det approksimative χ2 -test, men når den kontinuitetskorrigerede version af dette, samt Fishers eksakte test ikke mener, at der er signifikant forskel, så ville jeg ikke satse mange penge på, at den var der. (c) Angiv estimater (med 95% konfidensgrænser) for sammenligning af de to frekvenser, udtrykt dels i form af differensen på febersandsynlighederne og dels i form af odds ratio og relativ risiko for feber. Prøv så vidt muligt at formulere konklusionen i ord. Differensen mellem feberhyppighederne (kvinder minus mænd) aflæses af Column 2 Risk Estimates ovenfor til at være 0.1692, med 95% konfidensinterval (0.0144, 0.3241), altså ca. 17% (1.4%, 32.4%) Denne differens er allerede kommenteret ovenfor. Hvis vi dividerer hyppigheden af feber blandt kvinder med den tilsvarende hyppighed for mænd, har vi estimatet for den relative risiko for feber, for kvinder vs. mænd. Denne ses i afsnittet Estimates of the Relative Risk (Row1/Row2) under Cohort (Col2 Risk), og estimeres altså til 1.78, med 95% konfidensinterval på (1.02, 3.12) Vores bedste gæt er således, at feber er 1.78 gange så hyppigt blandt kvinder i forhold til mænd, men vi er ikke særligt sikre på dette estimat, da den sande værdi også kunne tænkes at være helt ned til ca. 1.02 og op til 3.12, en ganske betragtelig spændvidde. 13 Ratioen 1 ligger lige netop udenfor dette interval, svarende til, at χ2 -testet gav en signifikant forskel på mænd og kvinder. Vi kan også vælge at udtrykke forskellen som en odds ratio, men denne ses at være angivet som 0.4392, altså mindre end 1. Det er fordi den udtrykker odds for ikke at have feber for kvinder vs. mænd, så for at få den til at være sammenlignelig med den relative risiko ovenfor, er vi nødt til at tage den inverse, altså lave 1 = 2.28, og tilsvarende for konfidensgrænserne udregningen 0.4392 1 1 ( 0.9526 , 0.2025 ) = (1.05, 4.94). Odds for at en kvinde har let feber estimeres altså til at være mere end dobbelt så stor som odds for en mand, men igen med ganske brede konfidensgrænser. (d) Kan der være tale om dobbelt så stor risiko for feber for det ene køn? Ja, det så vi ovenfor, idet konfidensintervallet for den relative risiko for feber for kvinder vs. mænd blev fundet til (1.02, 3.12). Der kan altså snildt være en 3 gange så stor risiko for kvinder. 5. I spm 3 så vi på en lineær regression af puls på kropstemperatur for kvinder, men vi skal nu se, om denne linie evt kunne tænkes at have et knæk ved feber-grænsen 37◦ C: Figuren med den udglattede loess-kurve tydede på en vis affladning, eller måske et knæk. (a) Konstruer en ekstra kovariat, der angiver graden af feber (dvs enten 0 eller kropstemperatur minus 37) og fit en lineær spline. Vi har tidligere konstateret, at 37◦ C=98.6◦ F, og vi definerer derfor den nye variabel over_feber ved at skrive over_feber=feber*(bodytemp-98.6); igen inden det første run; i programmet. Da feber er en 0-1variabel, vil over_feber være 0 for de, der ikke har feber (fordi 14 vi ganger med 0), men for dem med feber, ganger vi med et 1-tal, dvs. så får vi værdien bodytemp-98.6, altså hvor mange ◦ F, man ligger over febergrænsen. Vi fitter nu den lineære spline (en “linie”, der knækker i 98.6◦ F) ved at benytte såvel bodytemp som over_feber som forklarende variable: proc glm plots=all data=a1; by gender; where gender=’K’; model heartrate=bodytemp over_feber / solution clparm; estimate "forventet 37 1/2 grad" intercept 1 bodytemp 99.5 over_feber 0.9; output out=pred p=forventet; run; I ovenstående kode har vi også tilføjet en estimate-sætning, samt en output-sætning. Disse vil blive kommenteret senere. Der er også tilføjet to sætninger by gender; og where gender=’K’;. Vi skal jo kun se på kvinderne, så egentlig ville where gender=’K’; være tilstrækkeligt, men by gender; er medtaget for at få overskrift på outputtet, så man kan se, at der kun er tale om kvinderne. Outputtet bliver: gender=K The GLM Procedure Number of Observations Read Number of Observations Used 65 65 Dependent Variable: heartrate Source Model Error Corrected Total R-Square 0.113689 Coeff Var 10.45487 DF 2 62 64 Sum of Squares 477.999905 3726.461634 4204.461538 Root MSE 7.752691 Mean Square 238.999952 60.104220 F Value 3.98 Pr > F 0.0237 heartrate Mean 74.15385 Source bodytemp over_feber DF 1 1 Type I SS 346.1511633 131.8487415 Mean Square 346.1511633 131.8487415 F Value 5.76 2.19 Pr > F 0.0194 0.1436 Source bodytemp over_feber DF 1 1 Type III SS 431.5005375 131.8487415 Mean Square 431.5005375 131.8487415 F Value 7.18 2.19 Pr > F 0.0094 0.1436 15 Standard Error 2.05368433 Parameter forventet 37 1/2 grad Estimate 75.9819019 Parameter forventet 37 1/2 grad 95% Confidence Limits 71.8766454 80.0871584 Standard Error 198.3882385 2.0216981 3.9046700 Parameter Intercept bodytemp over_feber Estimate -457.7993126 5.4169459 -5.7832219 Parameter Intercept bodytemp over_feber 95% Confidence Limits -854.3717507 -61.2268744 1.3756289 9.4582628 -13.5885461 2.0221024 t Value 37.00 t Value -2.31 2.68 -1.48 Pr > |t| <.0001 Pr > |t| 0.0244 0.0094 0.1436 (b) Hvad giver denne model som prediktion for pulsen hos en kvinde ◦ med kropstemperatur på 37 12 C? Sammenlign svaret med det fra spørgsmål 3A. Dette spørgsmål løses med den angivne estimate-sætning: estimate "forventet 37 1/2 grad" intercept 1 bodytemp 99.5 over_feber 0.9; ◦ ◦ idet kvinder med kropstemperatur på 37 12 C=99 12 F ligger 0.9◦ F over febergrænsen på 98.6◦ F Estimatet aflæses til 75.98, med 95% prediktionsgrænser, som udregnes ud fra Root MSE til 75.982 ± 2 × 7.753 = (60.476, 91.488) I spørgsmål 3A (den simple lineære regression) fik vi dette prediktionsinterval til (61.962, 93.266). I modellen med den lineære spline har vi altså flyttet grænserne lidt nedad, og gjort dem endnu en tak smallere (da vi har reduceret residualvariationen med den ekstra forklarende variabel). (c) Er der evidens for et knæk på linien, og i givet fald i hvilken retning? 16 Nej, der er ikke evidens for et knæk på linien, idet den ekstra forklarende variabel over_feber ikke er signifikant (P = 0.14). Men selvfølgelig kan vi heller ikke udelukke et knæk, idet der jo sagtens kunne være tale om en type 2 fejl. Hvis der er et knæk, vil vi gætte på, at linien knækker til at blive mindre stejl, idet koefficienten til over_feber estimeres til at være negativ. Den estimerede sammenhæng mellem kropstemperatur og puls kan illustreres ved at tegne de predikterede værdier af puls mod kropstemperaturen. Derfor er der ovenfor dannet et nyt datasæt (pred) ved at tilføje sætningen output out=pred p=forventet; Herefter kan vi tegne ved at skrive proc sgplot data=pred; series Y=forventet x=bodytemp; run; hvorved vi får figuren der klart viser knækket nedad (som dog altså ikke er signifikant). 17 6. Vi skal nu sammenligne kropstemperaturen for mænd og kvinder: Her er igen lagt op til en sammenligning af to grupper, og variablen bodytemp er kvantitativ, så et T-test vil være det oplagte valg. (a) Lav en passende illustration til at belyse en evt. forskel i kropstemperatur hos mænd og kvinder. Her er brugt plottet fra det efterfølgende T-test, idet det på udmærket vis illustrerer fordelingerne, både med histogram, overlejrede tætheder og box plots. (b) Er der evidens for forskel på middelværdierne for de to køn? T-testet udføres: proc ttest plots=all data=a1; class gender; var bodytemp; run; og giver outputtet 18 The TTEST Procedure Variable: bodytemp gender K M Diff (1-2) N 65 65 Mean 98.3938 98.1046 0.2892 gender K M Diff (1-2) Diff (1-2) Method gender K M Diff (1-2) Diff (1-2) Method Pooled Satterthwaite Pooled Satterthwaite Method Pooled Satterthwaite Variances Equal Unequal Std Dev 0.7435 0.6988 0.7215 Mean 98.3938 98.1046 0.2892 0.2892 Std Err 0.0922 0.0867 0.1266 Minimum 96.4000 96.3000 95% CL Mean 98.2096 98.5781 97.9315 98.2778 0.0388 0.5396 0.0388 0.5396 Maximum 100.8 99.5000 Std Dev 0.7435 0.6988 0.7215 95% CL Std Dev 0.6340 0.8990 0.5959 0.8449 0.6429 0.8221 DF 128 127.51 t Value 2.29 2.29 Pr > |t| 0.0239 0.0239 Equality of Variances Method Folded F Num DF 64 Den DF 64 F Value 1.13 Pr > F 0.6211 Her ses spredningerne at være ret ens i de to grupper (P=0.62 for test af identitet), men middelværdierne ser ikke ens ud (P=0.024), idet kvinder har en noget højere kropstemperatur end mænd. (c) Angiv estimatet (med 95% konfidensinterval) for forskellen i middelværdi for mænd vs. kvinder. Vil du vurdere denne forskel til at være vigtig? Kan den tænkes at skævvride sammenligningen af mænds og kvinders puls (fra spørgsmål 2B)? Forklar. Forskellen i middelværdier ses at blive estimeret til 0.29◦ F, hvilket ikke synes at være ret meget. Konfidensintervallet går fra 0.04◦ F til 0.54◦ F. Omregnet til Celcius er dette en forskel på op til 0.3◦ C, hvilket ville svare til en øgning i puls på ca. 1 21 slag pr. minut, hvilket ikke ser vigtigt ud (men som faktisk er en hel del i forhold til den ganske lille forskel, vi tidligere fandt på pulsen for mænd og kvinder). Men som altid skal man huske, at der er tale om to forskellige spørgsmål, alt efter om man foretager den direkte sammenligning 19 af mænds og kvinders puls (som vi gjorde det i spm. 2) eller om man justerer for kropstemperatur (som vi senere gør, når vi inddrager denne som kovariat i spm. 7). 7. Tegn nu pulsmålingen op mod målingen af kropstemperatur, med symboler svarende til køn og indlæg regressionslinier for hvert køn for sig. Koden proc sgplot data=a1; reg Y=heartrate X=bodytemp / group=gender; run; giver figuren der ikke viser nogen slående forskel på de to regressionslinier. (a) Hvis vi antager samme effekt af kropstemperatur på puls for begge køn, hvor stor er så den forventede øgning i puls ved en tempera◦ turstigning på 12 C. Er denne signifikant forskellig fra 0? Og hvor stor er forskellen på kønnene, i sammenligning med resultatet fra spørgsmål 2B? 20 En model, der antager, at effekten af kropstemperatur på puls er den samme for begge køn, er en additiv model, altså en model uden interaktion, med med såvel bodytemp som gender som forklarende variable: proc glm plots=all data=a1; class gender; model heartrate=bodytemp gender / solution clparm; estimate ’forskel ved 37 1/2 grad’ gender 1 -1; estimate ’effekt af 1/2 grad’ bodytemp 0.9; run; Vi får outputtet The GLM Procedure Class Level Information Class gender Levels 2 Values K M Number of Observations Read Number of Observations Used 130 130 The GLM Procedure Dependent Variable: heartrate Source Model Error Corrected Total R-Square 0.064374 Coeff Var 9.333547 DF 2 127 129 Sum of Squares 414.153989 6019.453703 6433.607692 Root MSE 6.884568 Mean Square 207.076995 47.397273 F Value 4.37 Pr > F 0.0146 heartrate Mean 73.76154 Source bodytemp gender DF 1 1 Type I SS 413.9484238 0.2055653 Mean Square 413.9484238 0.2055653 F Value 8.73 0.00 Pr > F 0.0037 0.9476 Source bodytemp gender DF 1 1 Type III SS 394.1462968 0.2055653 Mean Square 394.1462968 0.2055653 F Value 8.32 0.00 Pr > F 0.0046 0.9476 Parameter forskel ved 37 1/2 grad effekt af 1/2 grad Parameter forskel ved 37 1/2 grad effekt af 1/2 grad Estimate 0.08113686 2.18901563 Standard Error 1.23202625 0.75909620 95% Confidence Limits -2.35682076 2.51909447 0.68690125 3.69113002 Standard 21 t Value 0.07 2.88 Pr > |t| 0.9476 0.0046 Parameter Intercept bodytemp gender K gender M Estimate -165.2446989 B 2.4322396 0.0811369 B 0.0000000 B Error 82.74978455 0.84344022 1.23202625 . Parameter Intercept bodytemp gender K gender M 95% Confidence Limits -328.9915891 -1.4978087 0.7632236 4.1012556 -2.3568208 2.5190945 . . t Value -2.00 2.88 0.07 . Pr > |t| 0.0480 0.0046 0.9476 . ◦ Den forventede øgning i puls ved en temperaturstigning på 12 C estimeres ved den sidste af de to estimate-sætninger til 2.189, med konfidensinterval (0.687, 3.691), og tilhørende P-værdi P = 0.0046, altså signifikant forskellig fra 0. Der er altså stadig en signifikant effekt af kropstemperatur, selv om vi nu har medtaget mændene, der ses at have en lidt fladere linie. Til gengæld har det forøget antallet af observationer, og dermed medvirket til at sænke P-værdien. Da vi har at gøre med en additiv model, er forskellen på mænd og kvinder antaget at være den samme for alle kropstemperaturer (linierne er antaget at være parallelle). Derfor havde vi slet ikke behøvet den første af de to estimate-sætninger, idet vi bare kunne aflæse estimatet under "gender K". Forskellen (kvinder minus mænd) estimeres til 0.0811(−2.357, 2.519), P = 0.95. Der er altså (stadig) ikke nogen signifikant forskel på mænd og kvinder, når vi sammenligner nogle med samme kropstemperatur, og faktisk er de to linier svære at skelne fra hinanden på plottet nedenfor. 22 (b) Er der evidens for, at relationen mellem kropstemperatur og puls afhænger af, om man er mand eller kvinde? Hvis effekten af kropstemperatur afhænger af, om man er mand eller kvinde, har vi at gøre med interaktion. Så nu vil vi undersøge om der er evidens for interaktion (mellem køn og kropstemperatur) ved at inkludere leddet gender*bodytemp i model-sætningen: proc glm plots=all data=a1; class gender; model heartrate=bodytemp gender gender*bodytemp / solution clparm; estimate ’forskel ved 37 1/2 grad’ gender 1 -1 gender*bodytemp 99.5 -99.5; run; Herved får vi et masse output: The GLM Procedure Class Level Information Class gender Levels 2 Values K M Number of Observations Read Number of Observations Used 130 130 Dependent Variable: heartrate Source Model Error Corrected Total R-Square 0.070049 Coeff Var 9.342046 Source bodytemp gender bodytemp*gender Parameter forskel ved 37 1/2 grad effekt af 1/2 grad Parameter forskel ved 37 1/2 grad effekt af 1/2 grad DF 3 126 129 Sum of Squares 450.669897 5982.937795 6433.607692 Root MSE 6.890837 DF 1 1 1 Mean Square 377.9320645 36.4732525 36.5159083 Standard Error 2.46211621 0.76125062 95% Confidence Limits -2.92252170 6.82238950 0.64115272 3.65413793 Standard 23 F Value 3.16 Pr > F 0.0269 F Value 7.96 0.77 0.77 Pr > F 0.0056 0.3825 0.3822 heartrate Mean 73.76154 Type III SS 377.9320645 36.4732525 36.5159083 Estimate 1.94993390 2.14764532 Mean Square 150.223299 47.483633 t Value -0.79 2.82 Pr > |t| 0.4299 0.0056 Parameter Intercept bodytemp gender gender bodytemp*gender bodytemp*gender K M K M Estimate -87.9665807 1.6445282 -145.6571876 0.0000000 1.4834887 0.0000000 Parameter Intercept bodytemp gender gender bodytemp*gender bodytemp*gender B B B B B B Error 120.9363530 1.2326977 166.1944991 . 1.6916681 . t Value -0.73 1.33 -0.88 . 0.88 . Pr > |t| 0.4683 0.1846 0.3825 . 0.3822 . 95% Confidence Limits K M K M -327.2960679 -0.7949442 -474.5512154 . -1.8642727 . 151.3629066 4.0840007 183.2368403 . 4.8312500 . Testet for om interaktionen er 0 giver P = 0.38, så der er altså her ingen evidens for, at de to liniers hældninger skulle være forskellige. Vi bemærker dog (svarende til figuren med de to regresssionslinier), at linien svarende til kvinderne er 1.48 (slag pr. ◦ F) stejlere end den for mændene, og den kunne faktisk være helt op til 4.83 stejlere.... (c) Hvad er den forventede forskel i puls på en mand og en kvinde med ◦ kropstemperatur på 37 21 C? Dette ønskes udregnet i to forskellige modeller, nemlig med og uden interaktionen gender*bodytemp. Kommenter forskellen på disse to (og evt. også svaret på spørgsmål 2B). Vi har allerede udregnet dette estimat i den additive model ovenfor, men nu skal vi gøre det i interaktionsmodellen, hvilket er en hel del sværere. Her har vi nemlig to forklarende variable i modellen, der vedrører sammenligningen mellem mænd og kvinder, nemlig dels gender i sig selv og dels interaktionen bodytemp*gender. Vi benytter en (noget indviklet) estimate-sætning: estimate ’forskel ved 37 1/2 grad’ gender -1 1 gender*bodytemp -99.5 99.5; Parameter forskel ved 37 1/2 grad Estimate 1.94993390 24 Standard Error 2.46211621 t Value -0.79 Pr > |t| 0.4299 Parameter forskel ved 37 1/2 grad 95% Confidence Limits -2.92252170 6.82238950 Dette giver en estimeret forskel på kønnene (kvinder minus mænd) på 1.95, med konfidensgrænser (-2.92, 6.82). Sammenlignet med den additive model springer det først og fremmest i øjnene, at intervallet er blevet meget bredere. Det skyldes, at vi har øget usikkerheden på prediktionerne betragteligt ved at tillade to forskellige hældninger på linierne. Vi sammenfatter de estimerede forskelle på kvinder og mænd (ved ◦ en kropstemperatur på 37 21 C) i en lille tabel: Spørgsmål 2B 7A 7B Estimeret forskel 0.78 0.08 1.95 25 Konfidensinterval (-1.67, 3.24) (-2.36, 2.52) (-2.92, 6.82)