Vejledende besvarelse af hjemmeopgave, forår 2015

Transkript

1 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden ligger data fra de i alt 130 personer, med variablenavne id: Personens løbenummer (observationsnummer) gender: Personens køn (M: mand, K: kvinde) bodytemp: Personens kropstemperatur (angivet i Fahrenheit) heartrate: Personens puls (slag pr. minut) Opgaven er at se på, om kropstemperatur og puls hænger sammen, samt om der er nogle forskelle på kønnene, enten for hver af disse to variable, eller i deres indbyrdes relation. Vi starter med at indlæse data direkte fra hjemmesiden: data a1; infile " URL firstobs=2; input id gender$ bodytempf heartrate; bodytemp=5*(bodytempf-32)/9; hvorved vi har dannet datasættet med det korte navn a1. Samtidig har vi omregnet fra Fahrenheit til Celcius. 1. Først skal vi se på pulsen blandt kvinderne: (a) Udregn passende størrelser til beskrivelse af fordelingen af puls blandt kvinderne, og suppler med en figur, der illustrerer denne fordeling. For at få medianen med, når vi bruger proc means; må vi skrive lidt mere udførligt, hvad vi gerne vil se. Her har vi (foruden de sædvanlige, altså gennemsnit, spredning, minimum og maximum) valgt at udregne 25, 50 og 75% fraktilerne, idet medianen jo er 1

2 50% fraktilen. Desuden vil vi gerne have et visuelt indtryk af fordelingen, fordi vi lige om lidt skal udregne et normalområde, så vi tilføjer et sgplot til fremstilling af et histogram med overlejret normalfordelingstæthed: proc means N mean P25 median P75 stddev min max; class gender; var heartrate; proc sgplot data=a1; where gender= K ; histogram heartrate; density heartrate; The MEANS Procedure Analysis Variable : heartrate N gender Obs N Mean 25th Pctl Median 75th Pctl K M N gender Obs Std Dev Minimum Maximum K M Vi har brugt konstruktionen class gender; og får derfor oplysningerne for såvel mænd som kvinder, men vi fokuserer her alene på kvinderne. Her ser vi, at gennemsnit og median er rimeligt tæt på hinanden (faktisk ligger medianen højest, hvilket ikke er helt almindeligt, idet det tyder på en fordeling med en hale mod venstre). Til gengæld ligger 25- og 75% fraktilerne ikke helt symmetrisk omkring medianen, men snarere om gennemsnittet. Histogrammet nedenfor viser også tendensen til hale mod venstre, men det tilhørende fraktildiagram (som kommer ud fra T-testet i 2

3 spørgsmål 1c) ser faktisk ret nydeligt ud. (b) Udregn et 95% normalområde for kvinders puls. Er det almindeligt at støde på kvinder med en puls på 80? Baseret på de ovenstående betragtninger vedrørende fordelingen, ser det ikke helt skævt ud at udregne et normalområde baseret på en normalfordelingsantagelse. Det er i hvert fald ikke muligt at gøre andet, da en direkte udregning af 2.5% og 97.5% fraktiler ville være for ustabil på så lille et datamateriale. Vi udregner derfor efter formlen gennemsnit ± 2 SD og finder ± = (57.044, ) Det er således ganske almindeligt at træffe på kvinder med en puls på 80 (hvilket selvfølgelig også ses direkte af histogrammet). Faktisk så vi også ovenfor, at 75% fraktilen netop var 80, så der er altså 25% af kvinderne, der har en puls, der ligger højere end 80. (c) Nu er en stikprøve på 65 jo ikke alverden, men nok til at give et skøn over middelværdien af puls i den kvindelige befolkning. Angiv et estimat for denne, med 95% konfidensgrænser. Kan middelværdien tænkes at være 80? Dette spørgsmål kunne besvares meget hurtigt ved at tilføje clm i proc means ovenfor, men her benyttes en anden konstruktion, 3

4 nemlig et T-test til test af hypotesen om middelværdi 80, med tilhørende plot, der illustrerer denne hypotese. Vi skriver proc ttest h0=80 plots(showh0) data=a1; where gender= K ; var heartrate; og finder derved The TTEST Procedure Variable: heartrate N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t <.0001 Bemærk, at T-testet for en gangs skyld ikke er et test for middelværdi 0, fordi vi eksplicit har bedt om at få testet hypotesen om, at middelværdien er 80. Dette ses at blive forkastet med en meget lille P-værdi (P < ). Svarende til dette har vi da også 95% konfidensintervallet (72.15, 76.16), som klart ikke indeholder 80. På den tilhørende figur nedenfor illustreres fordelingen, dels med en overlejret normalfordelingskurve (den blå) og dels med en såkaldt kerneudglattet tæthed (den røde), der ses at afvige en anelse, svarende til den tidligere konstaterede tendens til hale mod venstre. Forneden på figuren ses desuden et boxplot af fordelingen (lyseblåt) samt konfidensintervallet for middelværdien (grønt). Hypoteseværdien 80 er markeret med en lodret streg, der ligger et godt stykke væk fra konfidensintervallet. Middelværdien af kvinders puls er således ikke 80, men derfor kan der selvfølgelig sagtens være kvinder, der har en puls på 80, eller endda væsentligt over. Det illustrerer forskellen på normalområde 4

5 (til beskrivelse af enkelt individer) og konfidensinterval (til angivelse af, hvor middelværdien befinder sig). 2. Er der evidens for en systematisk forskel i puls for mænd og kvinder? Her er der lagt op til at sammenligne to gruppers middelværdier for et kvantitativt outcome, dvs. et T-test. Vi har allerede set, at normalfordelingen ser fornuftig ud, og under alle omstændigheder er det ikke specielt kritisk med denne antagelse, når vi bare skal sammenligne to middelværdier. Vi udfører derfor et T-test til sammenligning af mænd og kvinder: proc ttest plots=all data=a1; class gender; var heartrate; og finder outputtet The TTEST Procedure Variable: heartrate gender N Mean Std Dev Std Err Minimum Maximum K M Diff (1-2)

6 gender Method Mean 95% CL Mean Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite gender Method 95% CL Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Vi bemærker, at der er en del mindre spredning i pulsfordelingen hos mænd sammenlignet med kvinder. Dette ses enten af spredningsestimaterne (i T-testet ovenfor, hvor de tillige sammenlignes og findes signifikant forskellige med P=0.011) eller allerede i proc means fra spørgsmål 1. Vi benytter derfor linierne svarende til Satterthwaite og Unequal 6

7 og finder, at de to middelværdier ikke adskiller sig signifikant fra hinanden (P=0.53). Estimatet for differensen mellem disse middelværdier (kvinder minus mænd) er , med et 95% konfidensinterval på ( , ). (a) Hvad er P-værdien for test af nulhypotesen om ens middelværdier? P = 0.53 (b) Angiv estimatet for forskellen på de to middelværdier, med 95% konfidensgrænser CI=( , ) 3. Vi vil studere sammenhængen mellem puls og kropstemperatur, i første omgang for kvinderne alene: Det første, man bør gøre, når man skal se på effekten af en kvantitativ forklarende variabel (kropstemperatur) på en anden kvantitativ variabel (puls), er at tegne. Her er valgt et scatterplot med en såkaldt loess-kurve (en udglattet kurve til beskrivelse af sammenhængen mellem de to variable): proc sgplot data=a1; where gender= K ; loess Y=heartrate X=bodytemp / smooth=1 group=gender; 7

8 Ud fra den udglattede kurve synes der at være en vis sammenhæng mellem de to variable, men om den er lineær er noget svært at bedømme. Det ser ud som om den knækker ved en kropstemparetur omkring 37 C, men dette tilsyneladende knæk er bestemt af ret få observationer. (a) Under antagelse om en lineær effekt af kropstemperatur på puls ønskes et estimat (med 95% konfidensgrænser) for den forventede puls for en kvinde med en kropstemperatur på C. Vi udfører nu den lineære regressionsanalyse, idet vi samtidig laver nogle modelkontrol plots samt udregner to ekstra estimater. Det ene af disse er den forventede puls for en kvinde med en kropstemperatur på C. proc glm plots=diagnosticspanel data=a1; where gender= K ; class gender; model heartrate=bodytemp / solution clparm; estimate forventet ved 37 1/2 grad intercept 1 bodytemp 37.5; estimate effekt af 1/2 grad bodytemp 0.5; Vi finder hermed outputtet: The GLM Procedure Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Standard Parameter Estimate Error t Value Pr > t forventet ved 37 1/2 grad <.0001 effekt af 1/2 grad Parameter 95% Confidence Limits forventet ved 37 1/2 grad effekt af 1/2 grad Standard 8

9 Parameter Estimate Error t Value Pr > t Intercept bodytemp Parameter 95% Confidence Limits Intercept bodytemp Vi bemærker, at der faktisk er en signifikant effekt af kropstemperatur på puls (P=0.02), og hældningen beskriver, at ved en stigning på 1 C vil pulsen forventeligt stige med 5.63 slag pr. minut. Den forventede puls for kvinder med en kropstemperatur på C ses at blive estimeret til 77.61, med konfidensgrænser (74.12, 81.11). (b) Hvad er prediktionsgrænserne for kvinder med denne kropstemperatur? Sammenlign dette med normalområdet fra spm 1B. Såvel konfidensgrænser for den estimerede linie, samt prediktionsgrænser illustreres af nedenstående figur. Ved at benytte Root MSE=7.826 fra regressionsanalyse outputtet, kan vi desuden udregne prediktionsgrænserne for kvinder med kropstemperatur C til ± = (61.962, ) Sammenlignet med normalområdet fra spørgsmål 1B ses dette interval at ligge noget højere (fordi vi ser på kvinder med en høj kropstemperatur), men også at det er en anelse smallere, hvilket 9

10 skyldes, at vi har forklaret noget af variationen i puls vha kropstemperaturen. (c) Hvad er den forventede effekt på pulsen af en øgning i kropstemperatur på 1 2 C? Vi har umiddelbart estimatet for effekten af en øgning på 1 C, og derfor skal vi bare dividere med 2, men vi kunne også være dovne og bruge estimate-sætningen, som vist ovenfor, hvorved det ses, at svaret er en pulsøgning på 2.82 (0.449, 5.182). (d) Er der nogen indflydelsesrige observationer, du ville kigge nærmere efter i sømmene? På det diagnostiske plot nedenfor ses en figur af Cook s D, plottet mod observationsnummeret. Hvis vi vil have yderligere at vide, må vi tilføje en sætning i vores regressionsanalyse output out=ny cookd=cook; og så efterfølgende f.eks. skrive proc print data=ny; where cook>0.06; Herved ville man finde ud af, at den pågældende observation er kvinde nr. 6 (i den originale nummerering), med en kropstemperatur på 36.3 og en puls på 57. Denne kvinde er farvet rød på scatterplottet ovenfor, og det er måske umiddelbart lidt overraskende, at netop denne kvinde har den største indflydelse, da andre ligger længere fra linien eller mere yderligt i kovariat-værdier. Men der må være tale om en kombination af en lav puls og så det, at hendes kropstempertaur samtidig befinder sig i et område, hvor der ikke er så mange andre, og hver enkelt derfor får en større betydning. Og faktisk er hendes indflydelse heller ikke så meget større end adskillige af de øvriges. 10

11 4. Definer en dikotom variabel (en 0-1-variabel), der angiver, hvorvidt en person har feber eller ej. Vi sætter grænsen for dette til 37 C. Vi definerer nu en ny variabel kaldet feber ved at tilføje sætningen feber=(bodytemp>37); inden det første i programmet. Her kan det gøre en forskel, om man definerer folk lige på grænsen som havende feber eller ej... (a) Angiv hyppighederne af feber for hvert køn, med 95% konfidensgrænser. Ser de ens ud? Med vores nye variable, der er et 1-tal for folk med feber, og et 0 for folk uden feber, kan vi nu danne en 2-gange-2 tabel, med tilhørende associationsmål for feber og køn: proc freq data=a1; tables gender*feber 11

12 / nopercent nocol expected chisq riskdiff relrisk; Herved får vi et ganske stort output, som her er beskåret noget: The FREQ Procedure Table of gender by feber gender feber Frequency Expected Row Pct 0 1 Total K M Total Statistics for Table of gender by feber Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Fisher s Exact Test Two-sided Pr <= P Statistics for Table of gender by feber Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk)

13 Cohort (Col2 Risk) Sample Size = 130 Vi ser, at der er 38.46% af kvinderne, der har (let) feber, medens der kun er 21.54% af mændene, der har det. Ud af 100 mænd og 100 kvinder, vil vi altså umiddelbart forvente = flere kvinder end mænd med let feber. (b) Er der evidens for forskel på hyppigheden af let feber blandt mænd og kvinder? Tja, χ 2 -testet giver P = 0.035, men Fishers eksakte test giver P = Baseret på de foventede værdier, der alle er større end 5, må vi godt bruge det approksimative χ 2 -test, men når den kontinuitetskorrigerede version af dette, samt Fishers eksakte test ikke mener, at der er signifikant forskel, så ville jeg ikke satse mange penge på, at den var der. (c) Angiv estimater (med 95% konfidensgrænser) for sammenligning af de to frekvenser, udtrykt dels i form af differensen på febersandsynlighederne og dels i form af odds ratio og relativ risiko for feber. Prøv så vidt muligt at formulere konklusionen i ord. Differensen mellem feberhyppighederne (kvinder minus mænd) aflæses af Column 2 Risk Estimates ovenfor til at være , med 95% konfidensinterval (0.0144, ), altså ca. 17% (1.4%, 32.4%) Denne differens er allerede kommenteret ovenfor. Hvis vi dividerer hyppigheden af feber blandt kvinder med den tilsvarende hyppighed for mænd, har vi estimatet for den relative risiko for feber, for kvinder vs. mænd. Denne ses i afsnittet Estimates of the Relative Risk (Row1/Row2) under Cohort (Col2 Risk), og estimeres altså til 1.78, med 95% konfidensinterval på (1.02, 3.12) Vores bedste gæt er således, at feber er 1.78 gange så hyppigt blandt kvinder i forhold til mænd, men vi er ikke særligt sikre på dette estimat, da den sande værdi også kunne tænkes at være helt ned til ca og op til 3.12, en ganske betragtelig spændvidde. 13

14 Ratioen 1 ligger lige netop udenfor dette interval, svarende til, at χ 2 -testet gav en signifikant forskel på mænd og kvinder. Vi kan også vælge at udtrykke forskellen som en odds ratio, men denne ses at være angivet som , altså mindre end 1. Det er fordi den udtrykker odds for ikke at have feber for kvinder vs. mænd, så for at få den til at være sammenlignelig med den relative risiko ovenfor, er vi nødt til at tage den inverse, altså lave 1 udregningen = 2.28, og tilsvarende for konfidensgrænserne (, 1 ) = (1.05, 4.94) Odds for at en kvinde har let feber estimeres altså til at være mere end dobbelt så stor som odds for en mand, men igen med ganske brede konfidensgrænser. (d) Kan der være tale om dobbelt så stor risiko for feber for det ene køn? Ja, det så vi ovenfor, idet konfidensintervallet for den relative risiko for feber for kvinder vs. mænd blev fundet til (1.02, 3.12). Der kan altså snildt være en 3 gange så stor risiko for kvinder. 5. I spm 3 så vi på en lineær regression af puls på kropstemperatur for kvinder, men vi skal nu se, om denne linie evt kunne tænkes at have et knæk ved feber-grænsen 37 C: Figuren med den udglattede loess-kurve tydede på en vis affladning, eller måske et knæk. (a) Konstruer en ekstra kovariat, der angiver graden af feber (dvs enten 0 eller kropstemperatur minus 37) og fit en lineær spline. Vi definerer den nye variabel over_feber ved at skrive over_feber=feber*(bodytemp-37); igen inden det første i programmet. Da feber er en 0-1- variabel, vil over_feber være 0 for de, der ikke har feber (fordi 14

15 vi ganger med 0), men for dem med feber, ganger vi med et 1-tal, dvs. så får vi værdien bodytemp-37, altså hvor mange C, man ligger over febergrænsen. Vi fitter nu den lineære spline (en linie, der knækker i 37 C) ved at benytte såvel bodytemp som over_feber som forklarende variable: proc glm plots=all data=a1; by gender; where gender= K ; model heartrate=bodytemp over_feber / solution clparm; estimate "forventet 37 1/2 grad" intercept 1 bodytemp 37.5 over_feber 0.5; output out=pred p=forventet; I ovenstående kode har vi også tilføjet en estimate-sætning, samt en output-sætning. Disse vil blive kommenteret senere. Der er også tilføjet to sætninger by gender; og where gender= K ;. Vi skal jo kun se på kvinderne, så egentlig ville where gender= K ; være tilstrækkeligt, men by gender; er medtaget for at få overskrift på outputtet, så man kan se, at der kun er tale om kvinderne. Outputtet bliver: gender=k The GLM Procedure Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp over_feber Source DF Type III SS Mean Square F Value Pr > F bodytemp over_feber Standard 15

16 Parameter Estimate Error t Value Pr > t forventet 37 1/2 grad <.0001 Parameter 95% Confidence Limits forventet 37 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept bodytemp over_feber Parameter 95% Confidence Limits Intercept bodytemp over_feber (b) Hvad giver denne model som prediktion for pulsen hos en kvinde med kropstemperatur på C? Sammenlign svaret med det fra spørgsmål 3A. Dette spørgsmål løses med den angivne estimate-sætning: estimate "forventet 37 1/2 grad" intercept 1 bodytemp 37.5 over_feber 0.5; idet kvinder med kropstemperatur på C ligger 0.5 C over febergrænsen på 37 C Estimatet aflæses til 75.98, med 95% prediktionsgrænser, som udregnes ud fra Root MSE til ± = (60.476, ) I spørgsmål 3A (den simple lineære regression) fik vi dette prediktionsinterval til (61.962, ). I modellen med den lineære spline har vi altså flyttet grænserne lidt nedad, og gjort dem endnu en tak smallere (da vi har reduceret residualvariationen med den ekstra forklarende variabel). (c) Er der evidens for et knæk på linien, og i givet fald i hvilken retning? Nej, der er ikke evidens for et knæk på linien, idet den ekstra forklarende variabel over_feber ikke er signifikant (P = 0.14). 16

17 Men selvfølgelig kan vi heller ikke udelukke et knæk, idet der jo sagtens kunne være tale om en type 2 fejl. Hvis der er et knæk, vil vi gætte på, at linien knækker til at blive mindre stejl, idet koefficienten til over_feber estimeres til at være negativ. Den estimerede sammenhæng mellem kropstemperatur og puls kan illustreres ved at tegne de predikterede værdier af puls mod kropstemperaturen. Derfor er der ovenfor dannet et nyt datasæt (pred) ved at tilføje sætningen output out=pred p=forventet; Herefter kan vi tegne ved at skrive proc sgplot data=pred; series Y=forventet x=bodytemp; hvorved vi får figuren der klart viser knækket nedad (som dog altså ikke er signifikant). 6. Vi skal nu sammenligne kropstemperaturen for mænd og kvinder: 17

18 Her er igen lagt op til en sammenligning af to grupper, og variablen bodytemp er kvantitativ, så et T-test vil være det oplagte valg. (a) Lav en passende illustration til at belyse en evt. forskel i kropstemperatur hos mænd og kvinder. Her er brugt plottet fra det efterfølgende T-test, idet det på udmærket vis illustrerer fordelingerne, både med histogram, overlejrede tætheder og box plots. (b) Er der evidens for forskel på middelværdierne for de to køn? T-testet udføres: proc ttest plots=all data=a1; class gender; var bodytemp; og giver outputtet The TTEST Procedure 18

19 Variable: bodytemp gender N Mean Std Dev Std Err Minimum Maximum K M Diff (1-2) gender Method Mean 95% CL Mean Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Her ses spredningerne at være ret ens i de to grupper (P=0.62 for test af identitet), men middelværdierne ser ikke ens ud (P=0.024), idet kvinder har en noget højere kropstemperatur end mænd. (c) Angiv estimatet (med 95% konfidensinterval) for forskellen i middelværdi for mænd vs. kvinder. Vil du vurdere denne forskel til at være vigtig? Kan den tænkes at skævvride sammenligningen af mænds og kvinders puls (fra spørgsmål 2B)? Forklar. Forskellen i middelværdier ses at blive estimeret til 0.16 C, hvilket ikke synes at være ret meget. Konfidensintervallet går fra 0.02 C til 0.30 C, altså højst svarende til en øgning i puls på ca slag pr. minut, hvilket ikke ser vigtigt ud (men som faktisk er en hel del i forhold til den ganske lille forskel, vi tidligere fandt på pulsen for mænd og kvinder). Men som altid skal man huske, at der er tale om to forskellige spørgsmål, alt efter om man foretager den direkte sammenligning af mænds og kvinders puls (som vi gjorde det i spm. 2) eller om man justerer for kropstemperatur (som vi senere gør, når vi inddrager denne som kovariat i spm. 7). 7. Tegn nu pulsmålingen op mod målingen af kropstemperatur, med symboler svarende til køn og indlæg regressionslinier for hvert køn for sig. 19

20 Koden proc sgplot data=a1; reg Y=heartrate X=bodytemp / group=gender; giver figuren der ikke viser nogen slående forskel på de to regressionslinier. (a) Hvis vi antager samme effekt af kropstemperatur på puls for begge køn, hvor stor er så den forventede øgning i puls ved en temperaturstigning på 1 2 C. Er denne signifikant forskellig fra 0? Og hvor stor er forskellen på kønnene, i sammenligning med resultatet fra spørgsmål 2B? En model, der antager, at effekten af kropstemperatur på puls er den samme for begge køn, er en additiv model, altså en model uden interaktion, med med såvel bodytemp som gender som forklarende variable: proc glm plots=all data=a1; 20

21 class gender; model heartrate=bodytemp gender / solution clparm; estimate forskel ved 37 1/2 grad gender 1-1; estimate effekt af 1/2 grad bodytemp 0.5; Vi får outputtet The GLM Procedure Class Level Information Class Levels Values gender 2 K M Number of Observations Read 130 Number of Observations Used 130 Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp gender Source DF Type III SS Mean Square F Value Pr > F bodytemp gender Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad effekt af 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad effekt af 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept B bodytemp gender K B gender M B... Parameter 95% Confidence Limits Intercept bodytemp gender K gender M.. 21

22 Den forventede øgning i puls ved en temperaturstigning på 1 2 C estimeres ved den sidste af de to estimate-sætninger til 2.189, med konfidensinterval (0.687, 3.691), og tilhørende P-værdi P = , altså signifikant forskellig fra 0. Der er altså stadig en signifikant effekt af kropstemperatur, selv om vi nu har medtaget mændene, der ses at have en lidt fladere linie. Til gengæld har det forøget antallet af observationer, og dermed medvirket til at sænke P-værdien. Da vi har at gøre med en additiv model, er forskellen på mænd og kvinder antaget at være den samme for alle kropstemperaturer (linierne er antaget at være parallelle). Derfor havde vi slet ikke behøvet den første af de to estimate-sætninger, idet vi bare kunne aflæse estimatet under "gender K". Forskellen (kvinder minus mænd) estimeres til ( 2.357, 2.519), P = Der er altså (stadig) ikke nogen signifikant forskel på mænd og kvinder, når vi sammenligner nogle med samme kropstemperatur, og faktisk er de to linier svære at skelne fra hinanden på plottet nedenfor. (b) Er der evidens for, at relationen mellem kropstemperatur og puls afhænger af, om man er mand eller kvinde? Hvis effekten af kropstemperatur afhænger af, om man er mand eller kvinde, har vi at gøre med interaktion. Så nu vil vi undersøge om der er evidens for interaktion (mellem køn og kropstemperatur) ved at inkludere leddet gender*bodytemp i model-sætningen: 22

23 proc glm plots=all data=a1; class gender; model heartrate=bodytemp gender gender*bodytemp / solution clparm; estimate forskel ved 37 1/2 grad gender 1-1 gender*bodytemp ; Herved får vi et masse output: The GLM Procedure Class Level Information Class Levels Values gender 2 K M Number of Observations Read 130 Number of Observations Used 130 Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp gender bodytemp*gender Source DF Type III SS Mean Square F Value Pr > F bodytemp gender bodytemp*gender Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept B bodytemp B gender K B gender M B... bodytemp*gender K B bodytemp*gender M B... Parameter 95% Confidence Limits 23

24 Intercept bodytemp gender K gender M.. bodytemp*gender K bodytemp*gender M.. Testet for om interaktionen er 0 giver P = 0.38, så der er altså her ingen evidens for, at de to liniers hældninger skulle være forskellige. Vi bemærker dog (svarende til figuren med de to regresssionslinier), at linien svarende til kvinderne er 2.67 (slag pr. C) stejlere end den for mændene, og den kunne faktisk være helt op til 8.70 stejlere... (c) Hvad er den forventede forskel i puls på en mand og en kvinde med kropstemperatur på C? Dette ønskes udregnet i to forskellige modeller, nemlig med og uden interaktionen gender*bodytemp. Kommenter forskellen på disse to (og evt. også svaret på spørgsmål 2B). Vi har allerede udregnet dette estimat i den additive model ovenfor, men nu skal vi gøre det i interaktionsmodellen, hvilket er en hel del sværere. Her har vi nemlig to forklarende variable i modellen, der vedrører sammenligningen mellem mænd og kvinder, nemlig dels gender i sig selv og dels interaktionen bodytemp*gender. Vi benytter en (noget indviklet) estimate-sætning: estimate forskel ved 37 1/2 grad gender -1 1 gender*bodytemp ; Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad Dette giver en estimeret forskel på kønnene (kvinder minus mænd) på 1.95, med konfidensgrænser (-2.92, 6.82). Sammenlignet med den additive model springer det først og fremmest i øjnene, at intervallet er blevet meget bredere. Det skyldes, at vi har øget 24

25 usikkerheden på prediktionerne betragteligt ved at tillade to forskellige hældninger på linierne. Vi sammenfatter de estimerede forskelle på kvinder og mænd (ved en kropstemperatur på C) i en lille tabel: Spørgsmål Estimeret forskel Konfidensinterval 2B 0.78 (-1.67, 3.24) 7A 0.08 (-2.36, 2.52) 7B 1.95 (-2.92, 6.82) 25