Vejledende besvarelse af hjemmeopgave, forår 2017
|
|
- Lars Bundgaard
- 5 år siden
- Visninger:
Transkript
1 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldte Mor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt sample på 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42, og som ikke drak alkohol under graviditeten. Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne er angivet i 1. linie. Disse er: idnr: Nummer på kvinden (blot til brug for identifikation) alder: Kvindens alder ryger: Er kvinden ryger? (ja/nej) kaffe: Er kvinden kaffedrikker? (ja/nej) uge: Gestationsalder ved fødslen vaegt: Barnets vægt i gram laengde: Barnets længde i cm Der er i nedenstående besvarelse ikke udeladt nogen observationer. Der er anvendt ods graphics i mange sammenhænge, hvor det (for nogle) ikke vil være nødvendigt at skrive dette. Opgaven er at beskrive fødselsvægten, forskellige prediktorer for denne, samt disses samspil. Først må vi jo indlæse vores data, og vi benytter de samme variabelbetegnelser som angivet ovenfor: data a1; infile " hjemmeopgave/hjemmeopgave.txt" URL firstobs=2; input idnr alder ryger$ kaffe$ uge vaegt laengde; if vaegt ge 2700 then low_weight="nej"; 1
2 else low_weight="ja"; ga=uge; kvadratled=(ga-40)**2; Udover indlæsningen har vi også lavet et par nye variable, dels en kopi af gestationsalderen (ga=uge, som skal bruges til modelkontrol i spørgsmål 4d), et kvadratled baseret på gestationsalderen (kvadratled=(ga-40)**2, som ligeledes skal bruges til modelkontrol i spørgsmål 4d) samt en dikotomisering af fødselsvægten (low_weight, som skal bruges i spørgsmål 2). 1. Beskriv fordelingen af fødselsvægt i det totale materiale. (a) Lav først en grafisk illustration. Da der kun er tale om en enkelt gruppe, vælges et histogram: title SPM 1 ; title2 SPM 1A ; proc sgplot data=a1; histogram vaegt; Her ser vi en pæn normalfordelingslignende fordeling, centreret omkring en fødselsvægt på ca gram. 2
3 (b) Udregn dernæst passende valgte summary statistics, som om du skulle lave en Tabel 1 til en artikel, og forklar kort hvorfor du vælger netop disse. Det er fristende blot at benytte de default-værdier, som SAS mener er fornuftige, når man benytter proc means, men vi supplerer her med median og kvartiler: title2 SPM 1B ; proc means N mean median stddev Q1 Q3 min max data=a1; var vaegt; hvorved vi får outputtet: SPM 1B The MEANS Procedure Analysis Variable : vaegt Lower Upper N Mean Median Std Dev Quartile Quartile Analysis Variable : vaegt Minimum Maximum Vi ser her, at gennemsnit og median er næsten sammenfaldende, samt at Q1/Q3 (og faktisk også min/max) ligger pænt symmetrisk omkring gennemsnittet. Dette passer fint med vores vurdering af normalfordelingstilpasningen ovenfor. For en ordens skyld vil vi dog lige checke hvordan fraktildiagrammet ser ud, idet et sådant er bedre til at vurdere evt afvigelser fra normalfordelingen: proc univariate noprint data=a1; qqplot vaegt; 3
4 Fraktildiagrammet kommer til at se rigtigt nydeligt ud: og man ville derfor roligt kunne indsætte gennemsnit og spredning i sin Tabel 1 i dette tilfælde. Bemærk i øvrigt, at histogram og fraktildiagram også kan fås ved at bruge proceduren ttest, selv om vi slet ikke er interesseret i noget test for middelværdien af fødselsvægten: proc ttest data=a1; var vaegt; hvilket giver figurerne Ofte viser man også oplyninger om de øvrige variable i Tabel 1, f.eks. således: 4
5 title2 SPM 1B ; proc means N mean median stddev Q1 Q3 min max data=a1; class ryger; var vaegt uge laengde; der giver outputtet: SPM 1B The MEANS Procedure N ryger Obs Variable N Mean Median Std Dev ja 115 vaegt uge laengde nej 285 vaegt uge laengde N Lower Upper ryger Obs Variable Quartile Quartile Minimum ja 115 vaegt uge laengde nej 285 vaegt uge laengde N ryger Obs Variable Maximum ja 115 vaegt uge laengde nej 285 vaegt uge laengde (c) Hvor stor en procentdel af børnene havde en fødselsvægt under 2700 gram? Kan det siges at være usædvanligt? 5
6 Her skal vi benytte variablen low_weight, som vi definerede allerede under indlæsningen. Denne variabel antager værdien ja for børn med en fødselsvægt under 2700 gram og nej ellers. Vi laver en lille tabel over denne variabel title2 SPM 1C ; proc freq data=a1; tables low_weight; og finder outputtet SPM 1C The FREQ Procedure low_ Cumulative Cumulative weight Frequency Percent Frequency Percent ja nej Der er altså netop 2 1 % af børnene, der fødes med en vægt under gram, så det må siges at være rimeligt usædvanligt. Der er naturligvis en vis usikkerhed på denne proportion, og den kan kvantificeres ved at tilføje option binomial(exact) til tablessætningen ovenfor proc freq data=a1; tables low_weight / list binomial(exact); hvorved man får udregnet et eksakt konfidensinterval, som ses (nederst) at være CI=(1.21%, 4.55%): 6
7 SPM 1C The FREQ Procedure Binomial Proportion low_weight = ja Proportion ASE Confidence Limits for the Binomial Proportion Proportion = Type 95% Confidence Limits Clopper-Pearson (Exact) Ved vurderingen af, om så lav en fødselsvægt er usædvanlig, er det også naturligt at sammenligne med et normalområde, baseret på de 400 fødselsvægte. Da vi ovenfor fandt en god normalfordelingstilpasning kan vi benytte konstruktionen med ±2 SD, og finder ± = ( , ) Baseret på dette interval er det ikke virkelig usædvanligt at finde en så lav fødselsvægt. Da vi har så mange observationer, kan vi også udregne et eksakt 95% normalområde ud fra fraktilerne proc univariate data=a1; var vaegt; output out=spm1b pctlpts= pctlpre=frak_ pctlname=lower upper; proc print data=spm1b; og vi finder outputtet SPM 1C frak_ frak_ Obs lower upper
8 Vi ser her en rigtig god overensstemmelse til det normalfordelingsbaserede normalområde, samt at 2.5%-fraktilen virkelig er meget tæt på 2700 (grunden til, at den ikke er præcis 2700 er, at barnet med den tiende mindste fødselsvægt vejer 2670 gram, medens den 11. mindste vejer 2700 gram, og der bliver så interpoleret mellem disse værdier). 2. I dette spørgsmål skal vi se nærmere på risikoen for at føde et barn med en vægt under 2700 gram (i det følgende kaldet letvægtere): (a) Er der større risiko for at føde en letvægter, hvis man er ryger i forhold til, hvis man er ikke-ryger? Her skal vi sammenholde to binære variable, nemlig ryger ja/nej og letvægter ja/nej. Vi opstiller derfor 2x2 tabellen med rygergrupperne (ja/nej) som rækker og vægtgrupperne (ja/nej til letvægter) som søjler. Desuden beder vi om et χ 2 -test (og dermed automatisk også et Fishers eksakt test) samt om diverse kvantificeringer af forskellen på de to sandsynligheder for at føde en letvægter. Herudover undertrykker vi søjleprocenter (nocol) og overall tabelprocenter (nopercent): title SPM 2 ; title2 SPM 2A ; proc freq data=a1; table ryger*low_weight / nopercent nocol chisq riskdiffc relrisk; Herved får vi en hel del output, her lettere beskåret. Vi starter med at se på den første del, bestående af selve tabellen, samt testet for uafhængighed (test af identitet for de to sandsynligheder for at føde en letvægter): The FREQ Procedure Table of ryger by low_weight 8
9 ryger low_weight Frequency Row Pct ja nej Total ja nej Total Statistics for Table of ryger by low_weight Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square WARNING: 25% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Fisher s Exact Test Cell (1,1) Frequency (F) 6 Two-sided Pr <= P Vi ser, at χ 2 -testet giver en advarsel, fordi der er tale om små antal. Bemærk, at det er det forventede antal i kategorien af letvægtere blandt rygende mødre, der er problemet, idet denne er = < 5), hvorimod det tilsvarende forventede antal 400 blandt ikke-rygende mødre er = > 5). 400 På grund af den tynde tabel, benytter vi Fishers eksakte test til sammenligning af de to sandsynligheder, og finder hermed P=0.037, altså en signifikant forskel. Vi må konkludere, at rygende kvinder har en større risiko for at føde letvægtere end ikke-rygende kvinder (5.22% vs. 1.40%). Angiv estimater med tilhørende konfidensgrænser for sammenligningen af sandsynlighederne for rygere vs. ikke-rygere, dels i form af differensen mellem sandsynlighederne og dels i form af relativ risiko (og evt. odds ratio). Kan der være op til en faktor 10 til forskel på de to sandsyn- 9
10 ligheder? Formuler også konklusionen i ord. Vi så allerede ovenfor på de estimerede sandsynligheder for at føde en letvægter, nemlig 5.22% for rygende kvinder og 1.40% for ikke-rygende kvinder. Det svarer til en forskel på 3.81%point. Option riskdiffc (eller bare riskdiff) i koden ovenfor bekræfter denne forskel, i nederste linie af Column 1 Risk Estimates: The FREQ Procedure Column 1 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) The asymptotic confidence limits include a continuity correction Difference Difference is (Row 1 - Row 2) ovenfor. I outputtet får vi i tilgift 95% konfidensgrænser på dette tal, nemlig CI=(-1.08%, 8.71%). Bemærk, at CI og P-værdi her ikke passer helt sammen, fordi der er tale om en eksakt procedure sammenlignet med to forskellige approksimative. Bemærk, at denne differens altid angiver Row1 - Row2, altså her rygere minus ikke-rygere. Hvis rækkerne var byttet om, ville differensen blot skifte fortegn. Den relative risiko er ligeledes angivet som Row1 vs. Row2, og derfor er den (for Column 1, som stadig er den relevante at 10
11 se på) 3.72 (se nedenfor, hvor outputtet fra option relrisk er vist), hvilket betyder, at rygerne har 3.72 gange større risiko for at føde en letvægter, sammenlignet med ikke-rygerne. Dette tal kunne vi selv have udregnet ganske simpelt som ratio en mellem de to frekvenser, = 3.73 (der er lidt med afrunding her), men konfidensgrænserne er lidt besværlige at udreg ne, så derfor foretrækkes udregningen via SAS. Konfidensgrænserne ses at blive (1.07, 12.93), altså meget brede! Dette skyldes det lave antal letvægtere i materialet. Og ja, der kan altså godt tænkes at være en faktor 10 til forskel på sandsynlighederne for at føde en letvægter i de to grupper. The FREQ Procedure Odds Ratio and Relative Risks Statistic Value 95% Confidence Limits Odds Ratio Relative Risk (Column 1) Relative Risk (Column 2) Sample Size = 400 Hvis vi i stedet benytter odds ratio, får vi estimatet 3.87, med CI=(1.07,13.97), altså næsten det samme som den relative risiko. Det skyldes, at fødsel af en letvægter er en sjælden begivenhed. Men her er fortolkningen altså, at odds for at få en letvægter er 3.87 gange højere, hvis man er ryger i forhold til, hvis man ikke er ryger. 3. I stedet for at dikotomisere fødselsvægten i over eller under 2700 gram, ser vi nu igen på fødselsvægten som en kvantitativ størrelse: (a) Er der en sammenhæng mellem fødselslængde og fødselsvægt? Vi starter med et simpelt scatter plot: title SPM 3 ; 11
12 title2 SPM 3A ; proc sgplot data=a1; scatter Y=vaegt X=laengde; Da figuren ser rimelig lineær ud, fortsætter vi med at foretage en lineær regression af fødselsvægt, med fødselslængde som kovariat. I samme omgang sørger vi også for at få passende figurer til modelkontrol, samt inkluderer en estimate-sætning, som vi skal bruge i spørgsmål 3c: title2 SPM 3A+C ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; model vaegt=laengde / solution clparm; estimate "laengde 48 cm" intercept 1 laengde 48; Vi finder herved nedenstående output (lettere beskåret): SPM 3A+C The GLM Procedure Number of Observations Read 400 Number of Observations Used 400 The GLM Procedure Dependent Variable: vaegt Sum of 12
13 Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE vaegt Mean Standard Parameter Estimate Error t Value Pr > t laengde 48 cm <.0001 Parameter 95% Confidence Limits laengde 48 cm Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 laengde <.0001 Parameter 95% Confidence Limits Intercept laengde Det ses, at længde og vægt hænger tydeligt sammen (P < for test af hældning 0). Det var vi nu heller ikke rigtigt i tvivl om efter at have set tegningen ovenfor. Interceptet vil vi afstå fra at fortolke, idet det henviser til den forventede fødselsvægt for et barn på 0 cm. Modelkontroltegningerne for dette fit giver ikke anledning til bekymring: 13
14 og plot af fittet med prediktionsgrænser ser også rigtigt fornuftigt ud 14
15 (b) Hvad er den estimerede vægtforøgelse for hver cm forøgelse af længden? Denne aflæses direkte som hældningen i ovenstående analyse, dvs Det betyder, at for hver ekstra cm, barnet er langt, forventer vi, at det vejer g mere. Konfidensintervallet for denne størrelse er angivet som (148.1, 177.0) g. (c) Bestem et 95% prediktionsinterval for fødselsvægt for børn med en længde på 48 cm. Først skal vi estimere fødselsvægten for børn med længde 48 cm. Dette kan vi nemt gøre direkte ved at bruge liniens ligning: = men af hensyn til nøjagtighed, og allervigtigst: for at få konfidensgrænser på, benytter vi i stedet estimate-sætningen: estimate "laengde 48 cm" intercept 1 laengde 48; som gav resultatet Standard Parameter Estimate Error t Value Pr > t laengde 48 cm <
16 Parameter 95% Confidence Limits laengde 48 cm Estimatet er altså på g, med konfidensgrænser (2792.8, ) g. Nu er det imidlertid ikke konfidensgrænserne, vi er interesserede i, men derimod et prediktionsinterval. Hertil skal vi bruge residualspredningen (spredningen omkring linien), som vi finder i outputtet ovenfor under navnet RootMSE. Værdien er g, og vi danner derfor prediktionsintervallet ved at skrive ± = (2229.3, ) Vi bemærker, at det ser ret almindeligt ud for sådanne korte børn at have fødselsvægt under 2700 g. 4. Her skal vi fokusere på rygningens betydning for fødselsvægt. (a) Estimer vægtforskellen på børn født af rygende og ikke-rygende mødre. Husk konfidensinterval, og kommenter på bredden af dette. Inden vi går i gang med en egentlig sammenligning, skal vi lige se et Boxplot af vægtfordelingen i de to grupper: title SPM 4 ; title2; proc sgplot data=a1; vbox vaegt / group=ryger; 16
17 På dette boxplot ses en ganske beskeden forskel, idet rygernes børn synes at være lidt lettere end ikke-rygernes. For at se, om denne forskel kan tilskrives tilfældigheder, skal vi sammenligne to grupper (rygende vs. ikke-rygende) mht et kvantitativt outcome, nemlig fødselsvægten. Der er altså tale om et uparret T-test: title2 SPM 4A ; proc ttest data=a1; class ryger; var vaegt; som giver outputtet (let beskåret) SPM 4A The TTEST Procedure Variable: vaegt ryger N Mean Std Dev Std Err Minimum Maximum ja nej Diff (1-2) ryger Method Mean 95% CL Mean Std Dev ja nej Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t 17
18 Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Vi ser af ovenstående, at børn af rygende mødre i gennemsnit er gram lettere end børn af ikke-rygende mødre, med CI=(4.88, 221.9) gram, samt at dette er signifikant (P=0.04, idet jeg bruger den højeste af de to P-værdier, fordi spredningerne ikke ser helt ens ud). Der er tale om en ganske beskeden forskel, som i praksis vel må anses for ubetydelig, men signifikant på grund af den store sample size. De tilhørende modelkontroltegninger ser rigtigt fine ud, først histogrammerne: 18
19 og så fraktildiagrammerne: (b) Kommenter på mulige forklaringer på den ovenfor fundne forskel (uden at lave analyser på dette tidspunkt), f.eks. om de rygende mødre kunne afvige i alder, i deres forbrug af kaffe, i gestationsalder ved fødsel, eller i andre henseender. Der kan selvfølgelig være mange forklaringer på denne tilsyneladende effekt af rygning, men vi har kun et begrænset udvalg af oplysninger i dette materiale. Man plejer at sige, at ældre mødre får tungere børn, så hvis der er forskel på alderen for rygere og ikke-rygere (således at rygerne er yngst), kunne dette tænkes at spille ind. Det kunne naturligvis også være rygningen i sig selv, der bevirkede, at børnene blev mindre, og i så fald kunne det virke gennem forskellige mekanismer: Børnene blev født for tidligt (uge) Børnere blev generelt mindre, altså også kortere (length) Børnene var tyndere (dette kommer vi tilbage til i spørgsmål 5) Vi ser nærmere på nogle af disse muligheder ved at lave en serie af sammenligninger i form af uparrede T-tests (som samtidig producerer nogle kombinerede histogrammer og Boxplots til illustration af sammenligningerne): 19
20 title2 SPM 4B ; proc ttest data=a1; class ryger; var alder uge laengde; og får nogle figurer og en masse output SPM 4B The TTEST Procedure Variable: alder ryger N Mean Std Dev Std Err Minimum Maximum ja nej Diff (1-2) ryger Method Mean 95% CL Mean Std Dev ja nej
21 Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Variable: uge ryger N Mean Std Dev Std Err Minimum Maximum ja nej Diff (1-2) ryger Method Mean 95% CL Mean Std Dev ja nej Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Variable: laengde ryger N Mean Std Dev Std Err Minimum Maximum ja nej Diff (1-2) ryger Method Mean 95% CL Mean Std Dev ja nej Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F
22 Af disse sammenligninger kan vi se, at rygerne faktisk ser ud til at være lidt yngre end ikke-rygerne (mindre end et år, men signifikant med P=0.044), at de ikke føder tidligere (bemærk dog, at materialet er selekteret på gestationsalder, så det er ikke en valid konklusion) samt at de føder kortere børn (en halv centimeter kortere, som ud fra vores analyse i spørgsmål 3b svarer til ca g, P=0.018). Vi skal se nærmere på gestationsalderen i spørgsmål 4d, på længden i spørgsmål 5, men vil ikke kommentere yderligere på aldersforskellen. (c) Hvor godt kan vi forudsige fødselsvægten for det enkelte barn, udelukkende baseret på om moderen er ryger eller ej? Her kan man evt sammenligne med prediktionsintervallet fra spørgsmål 3c. Det er prediktionsgrænser, vi skal udregne her, eller rettere: normalområder for hver ryger-gruppe for sig. Fra T-testet ovenfor har vi fået gennemsnit og spredninger, så vi udregner prediktionsintervallerne: Rygere: ± = (2486.1, ) Ikke-rygere: ± = (2700.3, ) Nøjagtigheden er altså en anelse bedre for ikke-rygerne... Det er ikke umiddelbart fornuftigt at sammenligne til prediktionsområdet fra spørgsmål 3c, idet vi her så på børn med en fødselslængde på 48cm, hvilket jo ikke er ret meget. Men vi kan sammenligne bredden af intervallerne ved at sammenligne SD erne, og her havde vi i spørgsmål 3c en SD på 316.8, altså en del mindre end de to, vi fandt ovenfor. Dette skyldes, at vi i spørgsmål 3c har den meget vigtige prediktor laengde med som kovariat i stedet for rygning, og dette vil naturligvis formindske residualspredningen. (d) Undersøg om effekten af rygning på fødselsvægt skyldes, at rygerne føder tidligere end ikke-rygerne, dvs: Sammenlign fødselsvægten blandt børn af rygere og ikke-rygere, født i samme terminsuge. 22
23 Når vi skal sammenligne børn født i samme terminsuge, må vi holde denne fast, dvs. vi må inkludere terminsuge som kovariat i modellen. Først ser vi på en figur til at illustrere dette title2 SPM 4D ; proc sgplot data=a1; reg Y=vaegt X=uge / group=ryger; På baggrund af ovenstående figur, vil vi antage at effekten af hver ekstra uge er en konstant ekstra tilvækst i vægt, (altså en lineær effekt, som dog vil blive kontrolleret nedenfor). Vi indsætter derfor blot uge som en kvantitativ kovariat (uden interaktion med ryger - svarende til parallelle linier), og vurderer så ryger-effekten i denne ANCOVA-model: title2 SPM 4D+E ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge ryger / solution clparm; estimate "ryger, uge 39" intercept 1 uge 39 ryger 1 0; Vi finder 23
24 SPM 4D+E The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE vaegt Mean Source DF Type III SS Mean Square F Value Pr > F uge <.0001 ryger Standard Parameter Estimate Error t Value Pr > t ryger, uge <.0001 Parameter 95% Confidence Limits ryger, uge Standard Parameter Estimate Error t Value Pr > t Intercept B uge <.0001 ryger ja B ryger nej B... Parameter 95% Confidence Limits Intercept uge ryger ja ryger nej.. Vi ser, at såvel rygning som gestationsalder er signifikante prediktorer for fødselsvægten. Modelkontrollen ser igen rigtig fornuftig ud: 24
25 og figuren nedenfor til illustration af modellen er ikke til at skelne fra den tidligere figur: 25
26 Angiv et estimat for forskellen og sammenlign med det tilsvarende estimat i spørgsmål 4a. Forskellen på rygere og ikke-rygere har kun ændret sig en anelse i forhold til det tidligere resultat fra spørgsmål 4a, og det kunne vi godt have forudset, da vi tidligere har set, at de to grupper føder i stort set samme gestationsuge. Der er altså ikke stor confounding mellem gestationsalder og rygning. Vi estimerer således nu rygere til at føde børn, der i gennemsnit er gram lettere end ikke-rygere, mod g i spørgsmål 4a. Konfidensintervallet her er CI=(19.2, 212.8) gram, hvilket er en anelse smallere end de (4.88, 221.9), som vi fandt i spørgsmål 4a, og dette skyldes, at vi trods alt har elimineret noget af residualvariationen ved at introducere gestationsalderen som kovariat. Husk at argumentere for, hvordan effekten af terminsuge modelleres, og udfør passende modelkontrol. Her skal vi bruge den kopi af gestationsalderen, som vi konstruerede i forbindelse med indlæsningen (ga=uge), og hvis vi indsætter denne som class-variabel, sammen med uge, kan vi få et test for lineariteten: 26
27 title2 SPM 4D ; proc glm data=a1; class ryger ga; model vaegt=uge ga ryger / solution clparm; The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej ga Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE vaegt Mean Source DF Type III SS Mean Square F Value Pr > F uge ga ryger Standard Parameter Estimate Error t Value Pr > t Intercept B uge B ga B ga B ga B ga B ga B... ga B... ryger ja B ryger nej B... Parameter 95% Confidence Limits Intercept uge ga ga ga ga ga 41.. ga
28 ryger ja ryger nej.. Vi ser ovenfor, at når vi tager højde for den lineære effekt af gestationsalder (variablen uge), så er det ikke nødvendigt at medtage ga også, hvilket betyder, at der ikke ses afvigelse fra linearitet (P=0.67). Testet er dog ret svagt, da det er på 4 frihedsgrader, og vi kunne i stedet forsøge at se, om en kvadratisk effekt ville beskrive sammenhængen bedre. Til dette formål definerede vi allerede ved indlæsningen en ekstra variabel kvadratled=(ga-40)**2; og denne indsætter vi nedenfor som ekstra kovariat, hvorved vi får et test for linearitet baseret på kun en enkelt frihedsgrad: proc glm data=a1; class ryger; model vaegt=ryger uge kvadratled / solution clparm; SPM 4D+E The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE vaegt Mean Source DF Type III SS Mean Square F Value Pr > F ryger uge <.0001 kvadratled
29 Standard Parameter Estimate Error t Value Pr > t Intercept B ryger ja B ryger nej B... uge <.0001 kvadratled Parameter 95% Confidence Limits Intercept ryger ja ryger nej.. uge kvadratled Heller ikke i denne model findes nogen tegn på afvigelse fra linearitet, så vi stiller os tilfreds med modellen anvendt i spørgsmål 4d. I øvrigt er estimaterne for effekten af rygning i de to ovenstående modeller temmelig sammenfaldende med det, vi fandt ovenfor, nemlig hhv (21.4, 216.4) og (20.1, 213.7). (e) Hvad er estimatet for fødselsvægten for et barn med en rygende mor, født i terminsuge 39? Vi inkluderede i modellen i spørgsmål 4d en estimate-sætning: estimate "ryger, uge 39" intercept 1 uge 39 ryger 0 1; og fik outputtet Standard Parameter Estimate Error t Value Pr > t ryger, uge <.0001 Parameter 95% Confidence Limits ryger, uge dvs. med et estimat på gram, med CI=(3295.5, ) gram. Hvor stor spredning er der på fødselsvægten blandt børn af denne type? 29
30 Vi finder i outputtet ovenfor en RootMSE på gram, og ud fra dette kan vi udregne et prediktionsinterval: ± = (2491.4, ) Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder i uge 39? Ud fra prediktionsintervallet ovenfor kan vi sige, at 2700 gram ikke er særligt usædvanligt for sådanne børn. (f) Er der tegn på, at effekten af rygning afhænger af gestationsalderen ved fødslen? Her spørges der om, hvorvidt effekten af den ene kovariat afhænger af, hvad den anden er, altså en interaktion. Vi indsætter derfor et interaktionsled i den lineære ANCOVA-model fra spørgsmål 4d. title2 SPM 4F ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge ryger ryger*uge / solution clparm; hvorved vi får outputtet SPM 4F The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Source DF Type III SS Mean Square F Value Pr > F uge <.0001 ryger
31 uge*ryger Standard Parameter Estimate Error t Value Pr > t Intercept B uge B <.0001 ryger ja B ryger nej B... uge*ryger ja B uge*ryger nej B... Parameter 95% Confidence Limits Intercept uge ryger ja ryger nej.. uge*ryger ja uge*ryger nej.. Med en P-værdi på 0.97 ser det bestemt ikke ud som om effekten af rygning afhænger af gestationsuge ved fødslen. Bemærk, at man i ovenstående model udelukkende kan fortolke det, der har med interaktionsleddet at gøre, idet estimatet for selve rygnings-variablen henviser til en gestationsuge på 0! 5. Udvid nu slutmodellen fra spørgsmål 4 med en ekstra kovariat, nemlig længden af den nyfødte: (a) Overvej, hvordan denne ekstra kovariat ændrer fortolkningen af rygningseffekten. Ved at inkludere fødsleslængden i modellen også, kommer vi til at sammenligne børn af rygende mødre med tilsvarende børn af ikkerygende mødre, hvor ordet tilsvarende dækker over børn født med samme gestationsalder og med samme fødselslængde. Det betyder, at det reelt set ikke mere er vægten, vi sammenligner, men vægten i forhold til højden, altså en form for tykkelse, eller fedme, om man vil. Og det er jo noget helt andet. Hvis børn af rygende mødre vejer mindre, fordi de er kortere, så kunne man forestille sig, at børnene ikke afveg fra hinanden 31
32 forsåvidt angår tykkelsen. Det er altså det, vi ser på nedenfor. (b) Giv et estimat for forskellen i fødselsvægt blandt børn af rygere og ikke-rygere i denne model, og formuler konklusionen i ord, idet I også sammenligner med spørgsmål 4a og 4d. Vi kører altså nu en udvidet model, med en kategorisk kovariat (ryger) og to kvantitative (uge og laengde): title2 SPM 5B+C ; proc glm plots=(diagnosticspanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge laengde ryger / solution clparm; estimate "ryger, uge 39, length=48" intercept 1 uge 39 ryger 1 0 laengde 48; output out=ny5 p=predicted; proc sgpanel data=ny5; panelby uge / rows=2 columns=3; reg Y=predicted X=laengde / group=ryger; SPM 5B+C The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Source DF Type III SS Mean Square F Value Pr > F uge laengde <.0001 ryger Standard Parameter Estimate Error t Value Pr > t ryger, uge 39, length= <.0001 Parameter 95% Confidence Limits 32
33 ryger, uge 39, length= Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 uge laengde <.0001 ryger ja B ryger nej B... Parameter 95% Confidence Limits Intercept uge laengde ryger ja ryger nej.. Vi finder her effekten af rygning til 21.1 g, CI=(-47.8, 90.0) gram, i modsætning til de tidligere resultater: 4a: (4.88, 221.9) 4d: (19.2, 212.8) I denne model bliver effekten af rygning estimeret til at være væsentlig mindre, og ikke længere signifikant, og vi kan heraf slutte, at fødselslængden er en såkaldt mediator (en medierende effekt) af rygning på fødselsvægten. (c) Hvad er estimatet for fødselsvægten for børn af en rygende mor, født i terminsuge 39 med en fødselslængde på 48 cm? Ovenfor havde vi estimate-sætningen: estimate "ryger, uge 39, length=48" intercept 1 uge 39 ryger 1 0 laengde 48; hvorved vi fik outputtet Standard Parameter Estimate Error t Value Pr > t ryger, uge 39, length= <.0001 Parameter 95% Confidence Limits ryger, uge 39, length=
34 Estimatet for fødselsvægten for 48 cm lange børn af rygende mødre, der er født i uge 39 er altså g, med CI=(2766.8, ) Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Denne aflæses fra RootMSE i outputtet ovenfor til at være gram. Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder et 48 cm langt barn i uge 39? Vi udregner prediktionsintervallet: ± = (2218.9, ) og finder således, at det ikke er særligt usædvanligt med en fødselsvægt på kun 2700 gram. Men det er jo også ret korte børn, vi snakker om her. Sammenlign svarene på de ovenstående spørgsmål med de tilsvarende i spørgsmål 4e. I spørgsmål 4e betingede vi ikke med en så kort fødselslængde, og derfor kan det ikke undre, at vi der fik et langt højere estimat, nemlig gram, med prediktionsinterval: ± = (2491.4, )g Denne model er så kompliceret (specielt på grund af de 2 kvantitative kovariater), at modelkontrol her er endnu mere påkrævet end for de tidligere modeller: 34
35 De giver heldigvis ikke anledning til bekymring. Vi kan forsøge at lave en figur af modellen, idet vi opdeler i rygere og ikke-rygere, optegner den estimerede fødselsvægt som funktion af fødselslængden, med en linie for hver gestationsuge (uge): 35
36 Det ses, at længden er af altafgørende betydning for fødselsvægten, medens gestationsuge og moderens rygning spiller en mindre rolle. Men så er spørgsmålet jo, hvilken rolle, moderens rygning spiller for barnets længde...? Reference: Olsen et.al.(2001): The Danish National Birth Cohort - its background, structure and aim. Scand. J. Public Health 29, (2001). 36
Vejledende besvarelse af hjemmeopgave, forår 2017
Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag
Læs mereVejledende besvarelse af hjemmeopgave, forår 2016
Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Læs mereVejledende besvarelse af hjemmeopgave, forår 2018
Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2015
Vejledende besvarelse af hjemmeopgave, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder i Massachusetts (ref.) søger
Læs mereDet kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Læs mereVejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Læs mereVejledende besvarelse af hjemmeopgave, forår 2015
Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden
Læs mereVejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Læs mereØvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2017
Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt
Læs mereØvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2016
Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for
Læs mereVejledende besvarelse af hjemmeopgave
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin
Læs mereOpgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Læs merePostoperative komplikationer
Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.
Læs mereEksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Læs mereOpgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1
Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.
Læs mereVi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.
Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12
Læs mereBesvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Læs mereMPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme
MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes
Læs mereβ = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1
Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)
Læs mereLineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Læs mere1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Læs mereEn Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Læs mereMultipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Læs mereKursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Læs mereBasal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.
Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder
Læs mereAfdeling for Anvendt Matematik og Statistik December 2006
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 i SAS (Zar kapitel 23) PROC FREQ PROC CATMOD
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereOpgavebesvarelse, Basalkursus, uge 2
Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,
Læs merePhd-kursus i Basal Statistik, Opgaver til 2. uge
Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever
Læs mereFilen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.
Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.
Læs mereOpgavebesvarelse, logistisk regression
Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med
Læs mereBesvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Læs mereCLASS temp medie; MODEL rate=temp medie/solution; RUN;
Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe
Læs mereVariansanalyse i SAS. Institut for Matematiske Fag December 2007
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse
Læs mereGenerelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Læs merek normalfordelte observationsrækker (ensidet variansanalyse)
k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er
Læs mereReeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Læs mereRegressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Læs mereReeksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er
Læs mereNaturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Læs mereBesvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med
Læs mereOpgavebesvarelse, korrelerede målinger
Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet
Læs mereKommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges
Læs mereBesvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)
Læs mereInstitut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Læs mereLøsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
Læs mereEksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.
Læs mereHypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Læs mereLøsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Læs mereKommentarer til øvelser i basalkursus, 2. uge
Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved
Læs mereMan indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:
1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14
Læs mereLøsning til opgave i logistisk regression
Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator
Læs mereBasal Statistik Kategoriske Data
Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk
Læs mereBasal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder
Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse
Læs mereFaculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015
Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet
Læs mereMPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme
MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes
Læs mereOverlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.
Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes
Læs mereLineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression
Læs mereEksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.
Læs meren r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1
(a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Læs mereStatistiske Modeller 1: Kontingenstabeller i SAS
Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.
Læs mereOpgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Læs mereLineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Læs mereLog-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.
Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)
Læs mereStatistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004
Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereReeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl
Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform
Læs mereMantel-Haenszel analyser. Stratificerede epidemiologiske analyser
Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp
Læs mereBasal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (
Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (28.-30. oktober) En stor undersøgelse søger at afdække forhold
Læs mereMPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Læs mereLogistisk Regression - fortsat
Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative
Læs mereAfdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier
Læs mereVejledende besvarelse af hjemmeopgave, forår 2018
Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige
Læs mereKøn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE
Økonomisk Kandidateksamen Teoretisk Statistik Eksamenstermin: Sommer 2004, dato: 3. juni 4 timers prøve med alle hjælpemidler, besvarelse på Dansk Opgave En simpel tilfældig stikprøve på 500 udtrukket
Læs mereOpgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereFaculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017
Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende
Læs mereBasal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual
Faculty of Health Sciences Selve sproget Basal statistik Lille SAS Manual Lene Theil Skovgaard 5. september 2017 Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende
Læs mereReeksamen i Statistik for biokemikere. Blok 3 2007.
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereVi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.
Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i
Læs mereModel. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og
Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)
Læs mereØvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse
Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse 1. Hvor stor en andel af deltagerne var mænd? Var der samme andel i de tre randomiseringsgrupper?.
Læs merePhd-kursus i Basal Statistik, Opgaver til 1. uge
Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Wright For 17 patienter er der målt peak expiratory flow rate (maksimal udåndingshastighed, i l/min) på to forskellige måder, dels ved at anvende
Læs mereEksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Læs mereBasal statistik. 30. oktober 2007
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mereBasal statistik. 30. oktober Den generelle lineære model
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus
Læs mereØvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse
Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2017
Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereKlasseøvelser dag 2 Opgave 1
Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d
Læs mere