Vejledende besvarelse af hjemmeopgave, forår 2015

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave, forår 2015"

Transkript

1 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden ligger data fra de i alt 130 personer, med variablenavne id: Personens løbenummer (observationsnummer) gender: Personens køn (M: mand, K: kvinde) bodytemp: Personens kropstemperatur (angivet i Fahrenheit) heartrate: Personens puls (slag pr. minut) Opgaven er at se på, om kropstemperatur og puls hænger sammen, samt om der er nogle forskelle på kønnene, enten for hver af disse to variable, eller i deres indbyrdes relation. Vi starter med at indlæse data direkte fra hjemmesiden: data a1; infile " URL firstobs=2; input id gender$ bodytempf heartrate; bodytemp=5*(bodytempf-32)/9; hvorved vi har dannet datasættet med det korte navn a1. Samtidig har vi omregnet fra Fahrenheit til Celcius. 1. Først skal vi se på pulsen blandt kvinderne: (a) Udregn passende størrelser til beskrivelse af fordelingen af puls blandt kvinderne, og suppler med en figur, der illustrerer denne fordeling. For at få medianen med, når vi bruger proc means; må vi skrive lidt mere udførligt, hvad vi gerne vil se. Her har vi (foruden de sædvanlige, altså gennemsnit, spredning, minimum og maximum) valgt at udregne 25, 50 og 75% fraktilerne, idet medianen jo er 1

2 50% fraktilen. Desuden vil vi gerne have et visuelt indtryk af fordelingen, fordi vi lige om lidt skal udregne et normalområde, så vi tilføjer et sgplot til fremstilling af et histogram med overlejret normalfordelingstæthed: proc means N mean P25 median P75 stddev min max; class gender; var heartrate; proc sgplot data=a1; where gender= K ; histogram heartrate; density heartrate; The MEANS Procedure Analysis Variable : heartrate N gender Obs N Mean 25th Pctl Median 75th Pctl K M N gender Obs Std Dev Minimum Maximum K M Vi har brugt konstruktionen class gender; og får derfor oplysningerne for såvel mænd som kvinder, men vi fokuserer her alene på kvinderne. Her ser vi, at gennemsnit og median er rimeligt tæt på hinanden (faktisk ligger medianen højest, hvilket ikke er helt almindeligt, idet det tyder på en fordeling med en hale mod venstre). Til gengæld ligger 25- og 75% fraktilerne ikke helt symmetrisk omkring medianen, men snarere om gennemsnittet. Histogrammet nedenfor viser også tendensen til hale mod venstre, men det tilhørende fraktildiagram (som kommer ud fra T-testet i 2

3 spørgsmål 1c) ser faktisk ret nydeligt ud. (b) Udregn et 95% normalområde for kvinders puls. Er det almindeligt at støde på kvinder med en puls på 80? Baseret på de ovenstående betragtninger vedrørende fordelingen, ser det ikke helt skævt ud at udregne et normalområde baseret på en normalfordelingsantagelse. Det er i hvert fald ikke muligt at gøre andet, da en direkte udregning af 2.5% og 97.5% fraktiler ville være for ustabil på så lille et datamateriale. Vi udregner derfor efter formlen gennemsnit ± 2 SD og finder ± = (57.044, ) Det er således ganske almindeligt at træffe på kvinder med en puls på 80 (hvilket selvfølgelig også ses direkte af histogrammet). Faktisk så vi også ovenfor, at 75% fraktilen netop var 80, så der er altså 25% af kvinderne, der har en puls, der ligger højere end 80. (c) Nu er en stikprøve på 65 jo ikke alverden, men nok til at give et skøn over middelværdien af puls i den kvindelige befolkning. Angiv et estimat for denne, med 95% konfidensgrænser. Kan middelværdien tænkes at være 80? Dette spørgsmål kunne besvares meget hurtigt ved at tilføje clm i proc means ovenfor, men her benyttes en anden konstruktion, 3

4 nemlig et T-test til test af hypotesen om middelværdi 80, med tilhørende plot, der illustrerer denne hypotese. Vi skriver proc ttest h0=80 plots(showh0) data=a1; where gender= K ; var heartrate; og finder derved The TTEST Procedure Variable: heartrate N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t <.0001 Bemærk, at T-testet for en gangs skyld ikke er et test for middelværdi 0, fordi vi eksplicit har bedt om at få testet hypotesen om, at middelværdien er 80. Dette ses at blive forkastet med en meget lille P-værdi (P < ). Svarende til dette har vi da også 95% konfidensintervallet (72.15, 76.16), som klart ikke indeholder 80. På den tilhørende figur nedenfor illustreres fordelingen, dels med en overlejret normalfordelingskurve (den blå) og dels med en såkaldt kerneudglattet tæthed (den røde), der ses at afvige en anelse, svarende til den tidligere konstaterede tendens til hale mod venstre. Forneden på figuren ses desuden et boxplot af fordelingen (lyseblåt) samt konfidensintervallet for middelværdien (grønt). Hypoteseværdien 80 er markeret med en lodret streg, der ligger et godt stykke væk fra konfidensintervallet. Middelværdien af kvinders puls er således ikke 80, men derfor kan der selvfølgelig sagtens være kvinder, der har en puls på 80, eller endda væsentligt over. Det illustrerer forskellen på normalområde 4

5 (til beskrivelse af enkelt individer) og konfidensinterval (til angivelse af, hvor middelværdien befinder sig). 2. Er der evidens for en systematisk forskel i puls for mænd og kvinder? Her er der lagt op til at sammenligne to gruppers middelværdier for et kvantitativt outcome, dvs. et T-test. Vi har allerede set, at normalfordelingen ser fornuftig ud, og under alle omstændigheder er det ikke specielt kritisk med denne antagelse, når vi bare skal sammenligne to middelværdier. Vi udfører derfor et T-test til sammenligning af mænd og kvinder: proc ttest plots=all data=a1; class gender; var heartrate; og finder outputtet The TTEST Procedure Variable: heartrate gender N Mean Std Dev Std Err Minimum Maximum K M Diff (1-2)

6 gender Method Mean 95% CL Mean Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite gender Method 95% CL Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Vi bemærker, at der er en del mindre spredning i pulsfordelingen hos mænd sammenlignet med kvinder. Dette ses enten af spredningsestimaterne (i T-testet ovenfor, hvor de tillige sammenlignes og findes signifikant forskellige med P=0.011) eller allerede i proc means fra spørgsmål 1. Vi benytter derfor linierne svarende til Satterthwaite og Unequal 6

7 og finder, at de to middelværdier ikke adskiller sig signifikant fra hinanden (P=0.53). Estimatet for differensen mellem disse middelværdier (kvinder minus mænd) er , med et 95% konfidensinterval på ( , ). (a) Hvad er P-værdien for test af nulhypotesen om ens middelværdier? P = 0.53 (b) Angiv estimatet for forskellen på de to middelværdier, med 95% konfidensgrænser CI=( , ) 3. Vi vil studere sammenhængen mellem puls og kropstemperatur, i første omgang for kvinderne alene: Det første, man bør gøre, når man skal se på effekten af en kvantitativ forklarende variabel (kropstemperatur) på en anden kvantitativ variabel (puls), er at tegne. Her er valgt et scatterplot med en såkaldt loess-kurve (en udglattet kurve til beskrivelse af sammenhængen mellem de to variable): proc sgplot data=a1; where gender= K ; loess Y=heartrate X=bodytemp / smooth=1 group=gender; 7

8 Ud fra den udglattede kurve synes der at være en vis sammenhæng mellem de to variable, men om den er lineær er noget svært at bedømme. Det ser ud som om den knækker ved en kropstemparetur omkring 37 C, men dette tilsyneladende knæk er bestemt af ret få observationer. (a) Under antagelse om en lineær effekt af kropstemperatur på puls ønskes et estimat (med 95% konfidensgrænser) for den forventede puls for en kvinde med en kropstemperatur på C. Vi udfører nu den lineære regressionsanalyse, idet vi samtidig laver nogle modelkontrol plots samt udregner to ekstra estimater. Det ene af disse er den forventede puls for en kvinde med en kropstemperatur på C. proc glm plots=diagnosticspanel data=a1; where gender= K ; class gender; model heartrate=bodytemp / solution clparm; estimate forventet ved 37 1/2 grad intercept 1 bodytemp 37.5; estimate effekt af 1/2 grad bodytemp 0.5; Vi finder hermed outputtet: The GLM Procedure Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Standard Parameter Estimate Error t Value Pr > t forventet ved 37 1/2 grad <.0001 effekt af 1/2 grad Parameter 95% Confidence Limits forventet ved 37 1/2 grad effekt af 1/2 grad Standard 8

9 Parameter Estimate Error t Value Pr > t Intercept bodytemp Parameter 95% Confidence Limits Intercept bodytemp Vi bemærker, at der faktisk er en signifikant effekt af kropstemperatur på puls (P=0.02), og hældningen beskriver, at ved en stigning på 1 C vil pulsen forventeligt stige med 5.63 slag pr. minut. Den forventede puls for kvinder med en kropstemperatur på C ses at blive estimeret til 77.61, med konfidensgrænser (74.12, 81.11). (b) Hvad er prediktionsgrænserne for kvinder med denne kropstemperatur? Sammenlign dette med normalområdet fra spm 1B. Såvel konfidensgrænser for den estimerede linie, samt prediktionsgrænser illustreres af nedenstående figur. Ved at benytte Root MSE=7.826 fra regressionsanalyse outputtet, kan vi desuden udregne prediktionsgrænserne for kvinder med kropstemperatur C til ± = (61.962, ) Sammenlignet med normalområdet fra spørgsmål 1B ses dette interval at ligge noget højere (fordi vi ser på kvinder med en høj kropstemperatur), men også at det er en anelse smallere, hvilket 9

10 skyldes, at vi har forklaret noget af variationen i puls vha kropstemperaturen. (c) Hvad er den forventede effekt på pulsen af en øgning i kropstemperatur på 1 2 C? Vi har umiddelbart estimatet for effekten af en øgning på 1 C, og derfor skal vi bare dividere med 2, men vi kunne også være dovne og bruge estimate-sætningen, som vist ovenfor, hvorved det ses, at svaret er en pulsøgning på 2.82 (0.449, 5.182). (d) Er der nogen indflydelsesrige observationer, du ville kigge nærmere efter i sømmene? På det diagnostiske plot nedenfor ses en figur af Cook s D, plottet mod observationsnummeret. Hvis vi vil have yderligere at vide, må vi tilføje en sætning i vores regressionsanalyse output out=ny cookd=cook; og så efterfølgende f.eks. skrive proc print data=ny; where cook>0.06; Herved ville man finde ud af, at den pågældende observation er kvinde nr. 6 (i den originale nummerering), med en kropstemperatur på 36.3 og en puls på 57. Denne kvinde er farvet rød på scatterplottet ovenfor, og det er måske umiddelbart lidt overraskende, at netop denne kvinde har den største indflydelse, da andre ligger længere fra linien eller mere yderligt i kovariat-værdier. Men der må være tale om en kombination af en lav puls og så det, at hendes kropstempertaur samtidig befinder sig i et område, hvor der ikke er så mange andre, og hver enkelt derfor får en større betydning. Og faktisk er hendes indflydelse heller ikke så meget større end adskillige af de øvriges. 10

11 4. Definer en dikotom variabel (en 0-1-variabel), der angiver, hvorvidt en person har feber eller ej. Vi sætter grænsen for dette til 37 C. Vi definerer nu en ny variabel kaldet feber ved at tilføje sætningen feber=(bodytemp>37); inden det første i programmet. Her kan det gøre en forskel, om man definerer folk lige på grænsen som havende feber eller ej... (a) Angiv hyppighederne af feber for hvert køn, med 95% konfidensgrænser. Ser de ens ud? Med vores nye variable, der er et 1-tal for folk med feber, og et 0 for folk uden feber, kan vi nu danne en 2-gange-2 tabel, med tilhørende associationsmål for feber og køn: proc freq data=a1; tables gender*feber 11

12 / nopercent nocol expected chisq riskdiff relrisk; Herved får vi et ganske stort output, som her er beskåret noget: The FREQ Procedure Table of gender by feber gender feber Frequency Expected Row Pct 0 1 Total K M Total Statistics for Table of gender by feber Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Fisher s Exact Test Two-sided Pr <= P Statistics for Table of gender by feber Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk)

13 Cohort (Col2 Risk) Sample Size = 130 Vi ser, at der er 38.46% af kvinderne, der har (let) feber, medens der kun er 21.54% af mændene, der har det. Ud af 100 mænd og 100 kvinder, vil vi altså umiddelbart forvente = flere kvinder end mænd med let feber. (b) Er der evidens for forskel på hyppigheden af let feber blandt mænd og kvinder? Tja, χ 2 -testet giver P = 0.035, men Fishers eksakte test giver P = Baseret på de foventede værdier, der alle er større end 5, må vi godt bruge det approksimative χ 2 -test, men når den kontinuitetskorrigerede version af dette, samt Fishers eksakte test ikke mener, at der er signifikant forskel, så ville jeg ikke satse mange penge på, at den var der. (c) Angiv estimater (med 95% konfidensgrænser) for sammenligning af de to frekvenser, udtrykt dels i form af differensen på febersandsynlighederne og dels i form af odds ratio og relativ risiko for feber. Prøv så vidt muligt at formulere konklusionen i ord. Differensen mellem feberhyppighederne (kvinder minus mænd) aflæses af Column 2 Risk Estimates ovenfor til at være , med 95% konfidensinterval (0.0144, ), altså ca. 17% (1.4%, 32.4%) Denne differens er allerede kommenteret ovenfor. Hvis vi dividerer hyppigheden af feber blandt kvinder med den tilsvarende hyppighed for mænd, har vi estimatet for den relative risiko for feber, for kvinder vs. mænd. Denne ses i afsnittet Estimates of the Relative Risk (Row1/Row2) under Cohort (Col2 Risk), og estimeres altså til 1.78, med 95% konfidensinterval på (1.02, 3.12) Vores bedste gæt er således, at feber er 1.78 gange så hyppigt blandt kvinder i forhold til mænd, men vi er ikke særligt sikre på dette estimat, da den sande værdi også kunne tænkes at være helt ned til ca og op til 3.12, en ganske betragtelig spændvidde. 13

14 Ratioen 1 ligger lige netop udenfor dette interval, svarende til, at χ 2 -testet gav en signifikant forskel på mænd og kvinder. Vi kan også vælge at udtrykke forskellen som en odds ratio, men denne ses at være angivet som , altså mindre end 1. Det er fordi den udtrykker odds for ikke at have feber for kvinder vs. mænd, så for at få den til at være sammenlignelig med den relative risiko ovenfor, er vi nødt til at tage den inverse, altså lave 1 udregningen = 2.28, og tilsvarende for konfidensgrænserne (, 1 ) = (1.05, 4.94) Odds for at en kvinde har let feber estimeres altså til at være mere end dobbelt så stor som odds for en mand, men igen med ganske brede konfidensgrænser. (d) Kan der være tale om dobbelt så stor risiko for feber for det ene køn? Ja, det så vi ovenfor, idet konfidensintervallet for den relative risiko for feber for kvinder vs. mænd blev fundet til (1.02, 3.12). Der kan altså snildt være en 3 gange så stor risiko for kvinder. 5. I spm 3 så vi på en lineær regression af puls på kropstemperatur for kvinder, men vi skal nu se, om denne linie evt kunne tænkes at have et knæk ved feber-grænsen 37 C: Figuren med den udglattede loess-kurve tydede på en vis affladning, eller måske et knæk. (a) Konstruer en ekstra kovariat, der angiver graden af feber (dvs enten 0 eller kropstemperatur minus 37) og fit en lineær spline. Vi definerer den nye variabel over_feber ved at skrive over_feber=feber*(bodytemp-37); igen inden det første i programmet. Da feber er en 0-1- variabel, vil over_feber være 0 for de, der ikke har feber (fordi 14

15 vi ganger med 0), men for dem med feber, ganger vi med et 1-tal, dvs. så får vi værdien bodytemp-37, altså hvor mange C, man ligger over febergrænsen. Vi fitter nu den lineære spline (en linie, der knækker i 37 C) ved at benytte såvel bodytemp som over_feber som forklarende variable: proc glm plots=all data=a1; by gender; where gender= K ; model heartrate=bodytemp over_feber / solution clparm; estimate "forventet 37 1/2 grad" intercept 1 bodytemp 37.5 over_feber 0.5; output out=pred p=forventet; I ovenstående kode har vi også tilføjet en estimate-sætning, samt en output-sætning. Disse vil blive kommenteret senere. Der er også tilføjet to sætninger by gender; og where gender= K ;. Vi skal jo kun se på kvinderne, så egentlig ville where gender= K ; være tilstrækkeligt, men by gender; er medtaget for at få overskrift på outputtet, så man kan se, at der kun er tale om kvinderne. Outputtet bliver: gender=k The GLM Procedure Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp over_feber Source DF Type III SS Mean Square F Value Pr > F bodytemp over_feber Standard 15

16 Parameter Estimate Error t Value Pr > t forventet 37 1/2 grad <.0001 Parameter 95% Confidence Limits forventet 37 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept bodytemp over_feber Parameter 95% Confidence Limits Intercept bodytemp over_feber (b) Hvad giver denne model som prediktion for pulsen hos en kvinde med kropstemperatur på C? Sammenlign svaret med det fra spørgsmål 3A. Dette spørgsmål løses med den angivne estimate-sætning: estimate "forventet 37 1/2 grad" intercept 1 bodytemp 37.5 over_feber 0.5; idet kvinder med kropstemperatur på C ligger 0.5 C over febergrænsen på 37 C Estimatet aflæses til 75.98, med 95% prediktionsgrænser, som udregnes ud fra Root MSE til ± = (60.476, ) I spørgsmål 3A (den simple lineære regression) fik vi dette prediktionsinterval til (61.962, ). I modellen med den lineære spline har vi altså flyttet grænserne lidt nedad, og gjort dem endnu en tak smallere (da vi har reduceret residualvariationen med den ekstra forklarende variabel). (c) Er der evidens for et knæk på linien, og i givet fald i hvilken retning? Nej, der er ikke evidens for et knæk på linien, idet den ekstra forklarende variabel over_feber ikke er signifikant (P = 0.14). 16

17 Men selvfølgelig kan vi heller ikke udelukke et knæk, idet der jo sagtens kunne være tale om en type 2 fejl. Hvis der er et knæk, vil vi gætte på, at linien knækker til at blive mindre stejl, idet koefficienten til over_feber estimeres til at være negativ. Den estimerede sammenhæng mellem kropstemperatur og puls kan illustreres ved at tegne de predikterede værdier af puls mod kropstemperaturen. Derfor er der ovenfor dannet et nyt datasæt (pred) ved at tilføje sætningen output out=pred p=forventet; Herefter kan vi tegne ved at skrive proc sgplot data=pred; series Y=forventet x=bodytemp; hvorved vi får figuren der klart viser knækket nedad (som dog altså ikke er signifikant). 6. Vi skal nu sammenligne kropstemperaturen for mænd og kvinder: 17

18 Her er igen lagt op til en sammenligning af to grupper, og variablen bodytemp er kvantitativ, så et T-test vil være det oplagte valg. (a) Lav en passende illustration til at belyse en evt. forskel i kropstemperatur hos mænd og kvinder. Her er brugt plottet fra det efterfølgende T-test, idet det på udmærket vis illustrerer fordelingerne, både med histogram, overlejrede tætheder og box plots. (b) Er der evidens for forskel på middelværdierne for de to køn? T-testet udføres: proc ttest plots=all data=a1; class gender; var bodytemp; og giver outputtet The TTEST Procedure 18

19 Variable: bodytemp gender N Mean Std Dev Std Err Minimum Maximum K M Diff (1-2) gender Method Mean 95% CL Mean Std Dev K M Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Her ses spredningerne at være ret ens i de to grupper (P=0.62 for test af identitet), men middelværdierne ser ikke ens ud (P=0.024), idet kvinder har en noget højere kropstemperatur end mænd. (c) Angiv estimatet (med 95% konfidensinterval) for forskellen i middelværdi for mænd vs. kvinder. Vil du vurdere denne forskel til at være vigtig? Kan den tænkes at skævvride sammenligningen af mænds og kvinders puls (fra spørgsmål 2B)? Forklar. Forskellen i middelværdier ses at blive estimeret til 0.16 C, hvilket ikke synes at være ret meget. Konfidensintervallet går fra 0.02 C til 0.30 C, altså højst svarende til en øgning i puls på ca slag pr. minut, hvilket ikke ser vigtigt ud (men som faktisk er en hel del i forhold til den ganske lille forskel, vi tidligere fandt på pulsen for mænd og kvinder). Men som altid skal man huske, at der er tale om to forskellige spørgsmål, alt efter om man foretager den direkte sammenligning af mænds og kvinders puls (som vi gjorde det i spm. 2) eller om man justerer for kropstemperatur (som vi senere gør, når vi inddrager denne som kovariat i spm. 7). 7. Tegn nu pulsmålingen op mod målingen af kropstemperatur, med symboler svarende til køn og indlæg regressionslinier for hvert køn for sig. 19

20 Koden proc sgplot data=a1; reg Y=heartrate X=bodytemp / group=gender; giver figuren der ikke viser nogen slående forskel på de to regressionslinier. (a) Hvis vi antager samme effekt af kropstemperatur på puls for begge køn, hvor stor er så den forventede øgning i puls ved en temperaturstigning på 1 2 C. Er denne signifikant forskellig fra 0? Og hvor stor er forskellen på kønnene, i sammenligning med resultatet fra spørgsmål 2B? En model, der antager, at effekten af kropstemperatur på puls er den samme for begge køn, er en additiv model, altså en model uden interaktion, med med såvel bodytemp som gender som forklarende variable: proc glm plots=all data=a1; 20

21 class gender; model heartrate=bodytemp gender / solution clparm; estimate forskel ved 37 1/2 grad gender 1-1; estimate effekt af 1/2 grad bodytemp 0.5; Vi får outputtet The GLM Procedure Class Level Information Class Levels Values gender 2 K M Number of Observations Read 130 Number of Observations Used 130 Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp gender Source DF Type III SS Mean Square F Value Pr > F bodytemp gender Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad effekt af 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad effekt af 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept B bodytemp gender K B gender M B... Parameter 95% Confidence Limits Intercept bodytemp gender K gender M.. 21

22 Den forventede øgning i puls ved en temperaturstigning på 1 2 C estimeres ved den sidste af de to estimate-sætninger til 2.189, med konfidensinterval (0.687, 3.691), og tilhørende P-værdi P = , altså signifikant forskellig fra 0. Der er altså stadig en signifikant effekt af kropstemperatur, selv om vi nu har medtaget mændene, der ses at have en lidt fladere linie. Til gengæld har det forøget antallet af observationer, og dermed medvirket til at sænke P-værdien. Da vi har at gøre med en additiv model, er forskellen på mænd og kvinder antaget at være den samme for alle kropstemperaturer (linierne er antaget at være parallelle). Derfor havde vi slet ikke behøvet den første af de to estimate-sætninger, idet vi bare kunne aflæse estimatet under "gender K". Forskellen (kvinder minus mænd) estimeres til ( 2.357, 2.519), P = Der er altså (stadig) ikke nogen signifikant forskel på mænd og kvinder, når vi sammenligner nogle med samme kropstemperatur, og faktisk er de to linier svære at skelne fra hinanden på plottet nedenfor. (b) Er der evidens for, at relationen mellem kropstemperatur og puls afhænger af, om man er mand eller kvinde? Hvis effekten af kropstemperatur afhænger af, om man er mand eller kvinde, har vi at gøre med interaktion. Så nu vil vi undersøge om der er evidens for interaktion (mellem køn og kropstemperatur) ved at inkludere leddet gender*bodytemp i model-sætningen: 22

23 proc glm plots=all data=a1; class gender; model heartrate=bodytemp gender gender*bodytemp / solution clparm; estimate forskel ved 37 1/2 grad gender 1-1 gender*bodytemp ; Herved får vi et masse output: The GLM Procedure Class Level Information Class Levels Values gender 2 K M Number of Observations Read 130 Number of Observations Used 130 Dependent Variable: heartrate Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE heartrate Mean Source DF Type I SS Mean Square F Value Pr > F bodytemp gender bodytemp*gender Source DF Type III SS Mean Square F Value Pr > F bodytemp gender bodytemp*gender Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad Standard Parameter Estimate Error t Value Pr > t Intercept B bodytemp B gender K B gender M B... bodytemp*gender K B bodytemp*gender M B... Parameter 95% Confidence Limits 23

24 Intercept bodytemp gender K gender M.. bodytemp*gender K bodytemp*gender M.. Testet for om interaktionen er 0 giver P = 0.38, så der er altså her ingen evidens for, at de to liniers hældninger skulle være forskellige. Vi bemærker dog (svarende til figuren med de to regresssionslinier), at linien svarende til kvinderne er 2.67 (slag pr. C) stejlere end den for mændene, og den kunne faktisk være helt op til 8.70 stejlere... (c) Hvad er den forventede forskel i puls på en mand og en kvinde med kropstemperatur på C? Dette ønskes udregnet i to forskellige modeller, nemlig med og uden interaktionen gender*bodytemp. Kommenter forskellen på disse to (og evt. også svaret på spørgsmål 2B). Vi har allerede udregnet dette estimat i den additive model ovenfor, men nu skal vi gøre det i interaktionsmodellen, hvilket er en hel del sværere. Her har vi nemlig to forklarende variable i modellen, der vedrører sammenligningen mellem mænd og kvinder, nemlig dels gender i sig selv og dels interaktionen bodytemp*gender. Vi benytter en (noget indviklet) estimate-sætning: estimate forskel ved 37 1/2 grad gender -1 1 gender*bodytemp ; Standard Parameter Estimate Error t Value Pr > t forskel ved 37 1/2 grad Parameter 95% Confidence Limits forskel ved 37 1/2 grad Dette giver en estimeret forskel på kønnene (kvinder minus mænd) på 1.95, med konfidensgrænser (-2.92, 6.82). Sammenlignet med den additive model springer det først og fremmest i øjnene, at intervallet er blevet meget bredere. Det skyldes, at vi har øget 24

25 usikkerheden på prediktionerne betragteligt ved at tillade to forskellige hældninger på linierne. Vi sammenfatter de estimerede forskelle på kvinder og mænd (ved en kropstemperatur på C) i en lille tabel: Spørgsmål Estimeret forskel Konfidensinterval 2B 0.78 (-1.67, 3.24) 7A 0.08 (-2.36, 2.52) 7B 1.95 (-2.92, 6.82) 25

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25.

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. marts) En stikprøve bestående af 65 mænd og 65 kvinder

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

CLASS temp medie; MODEL rate=temp medie/solution; RUN; Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE Økonomisk Kandidateksamen Teoretisk Statistik Eksamenstermin: Sommer 2004, dato: 3. juni 4 timers prøve med alle hjælpemidler, besvarelse på Dansk Opgave En simpel tilfældig stikprøve på 500 udtrukket

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017 Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end

Læs mere

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual Faculty of Health Sciences Selve sproget Basal statistik Lille SAS Manual Lene Theil Skovgaard 5. september 2017 Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Epidemiologi og Biostatistik Kliniske målinger (Kapitel. +.1 + 11.-11 + 1.1-) Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport Rapport Projekt: Fedtkvalitet i moderne svineproduktion Betdning af jodtal for udbtter af kogeskinker Lars Kristensen, Eva Honnens de Lichtenberg Broge, Eli Vibeke Olsen, Chris Claudi- Magnussen 2. januar

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Restsaltmængdernes afhængighed af trafikken,

Restsaltmængdernes afhængighed af trafikken, Restsaltmængdernes afhængighed af trafikken, Thomas Glue, marts 2. Trafikintensitet...2 Indledende definitioner...2 Regressionsanalyser på trafikintensiteten...6 Justering af restsaltmængder i henhold

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere