Vejledende besvarelse af hjemmeopgave, forår 2017

Relaterede dokumenter
Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2015

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Vejledende besvarelse af hjemmeopgave, efterår 2017

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave

Opgavebesvarelse, Basalkursus, uge 3

Postoperative komplikationer

Eksamen i Statistik for Biokemikere, Blok januar 2009

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Opgavebesvarelse, brain weight

Besvarelse af vitcap -opgaven

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

En Introduktion til SAS. Kapitel 5.

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (

Afdeling for Anvendt Matematik og Statistik December 2006

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgavebesvarelse, Basalkursus, uge 2

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Opgavebesvarelse, logistisk regression

Besvarelse af juul2 -opgaven

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Generelle lineære modeller

k normalfordelte observationsrækker (ensidet variansanalyse)

Reeksamen i Statistik for Biokemikere 6. april 2009

Regressionsanalyse i SAS

Reeksamen i Statistik for biokemikere. Blok

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Besvarelse af opgave om Vital Capacity

Opgavebesvarelse, brain weight

Opgavebesvarelse, korrelerede målinger

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Besvarelse af opgave om Vital Capacity

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Løsning til øvelsesopgaver dag 4 spg 5-9

Eksamen i Statistik for biokemikere. Blok

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Løsning til eksamen d.27 Maj 2010

Kommentarer til øvelser i basalkursus, 2. uge

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Løsning til opgave i logistisk regression

Basal Statistik Kategoriske Data

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Lineær og logistisk regression

Eksamen i Statistik for biokemikere. Blok

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende besvarelse af hjemmeopgave, efterår 2018

Statistiske Modeller 1: Kontingenstabeller i SAS

Opgavebesvarelse, Basalkursus, uge 3

Lineær regression i SAS. Lineær regression i SAS p.1/20

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

MPH specialmodul Epidemiologi og Biostatistik

Logistisk Regression - fortsat

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Vejledende besvarelse af hjemmeopgave, forår 2018

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Opgavebesvarelse, Basalkursus, uge 3

Løsning til eksaminen d. 14. december 2009

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Reeksamen i Statistik for biokemikere. Blok

Løsning eksamen d. 15. december 2008

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Opgavebesvarelse, brain weight

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Vejledende besvarelse af hjemmeopgave, efterår 2018

1 Hb SS Hb Sβ Hb SC = , (s = )

Vejledende besvarelse af hjemmeopgave, efterår 2017

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Klasseøvelser dag 2 Opgave 1

Transkript:

Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldte Mor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt sample på 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42, og som ikke drak alkohol under graviditeten. Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne er angivet i 1. linie. Disse er: idnr: Nummer på kvinden (blot til brug for identifikation) alder: Kvindens alder ryger: Er kvinden ryger? (ja/nej) kaffe: Er kvinden kaffedrikker? (ja/nej) uge: Gestationsalder ved fødslen vaegt: Barnets vægt i gram laengde: Barnets længde i cm Der er i nedenstående besvarelse ikke udeladt nogen observationer. Der er anvendt ods graphics i mange sammenhænge, hvor det (for nogle) ikke vil være nødvendigt at skrive dette. Opgaven er at beskrive fødselsvægten, forskellige prediktorer for denne, samt disses samspil. Først må vi jo indlæse vores data, og vi benytter de samme variabelbetegnelser som angivet ovenfor: data a1; infile "http://staff.pubhealth.ku.dk/~lts/basal17_1/ hjemmeopgave/hjemmeopgave.txt" URL firstobs=2; input idnr alder ryger$ kaffe$ uge vaegt laengde; if vaegt ge 2700 then low_weight="nej"; 1

else low_weight="ja"; ga=uge; kvadratled=(ga-40)**2; Udover indlæsningen har vi også lavet et par nye variable, dels en kopi af gestationsalderen (ga=uge, som skal bruges til modelkontrol i spørgsmål 4d), et kvadratled baseret på gestationsalderen (kvadratled=(ga-40)**2, som ligeledes skal bruges til modelkontrol i spørgsmål 4d) samt en dikotomisering af fødselsvægten (low_weight, som skal bruges i spørgsmål 2). 1. Beskriv fordelingen af fødselsvægt i det totale materiale. (a) Lav først en grafisk illustration. Da der kun er tale om en enkelt gruppe, vælges et histogram: title SPM 1 ; title2 SPM 1A ; proc sgplot data=a1; histogram vaegt; Her ser vi en pæn normalfordelingslignende fordeling, centreret omkring en fødselsvægt på ca. 3500 gram. 2

(b) Udregn dernæst passende valgte summary statistics, som om du skulle lave en Tabel 1 til en artikel, og forklar kort hvorfor du vælger netop disse. Det er fristende blot at benytte de default-værdier, som SAS mener er fornuftige, når man benytter proc means, men vi supplerer her med median og kvartiler: title2 SPM 1B ; proc means N mean median stddev Q1 Q3 min max data=a1; var vaegt; hvorved vi får outputtet: SPM 1B The MEANS Procedure Analysis Variable : vaegt Lower Upper N Mean Median Std Dev Quartile Quartile ------------------------------------------------------------------------- 400 3568.48 3550.00 472.2574587 3225.00 3895.00 ------------------------------------------------------------------------- Analysis Variable : vaegt Minimum Maximum ---------------------------- 2030.00 5100.00 ---------------------------- Vi ser her, at gennemsnit og median er næsten sammenfaldende, samt at Q1/Q3 (og faktisk også min/max) ligger pænt symmetrisk omkring gennemsnittet. Dette passer fint med vores vurdering af normalfordelingstilpasningen ovenfor. For en ordens skyld vil vi dog lige checke hvordan fraktildiagrammet ser ud, idet et sådant er bedre til at vurdere evt afvigelser fra normalfordelingen: proc univariate noprint data=a1; qqplot vaegt; 3

Fraktildiagrammet kommer til at se rigtigt nydeligt ud: og man ville derfor roligt kunne indsætte gennemsnit og spredning i sin Tabel 1 i dette tilfælde. Bemærk i øvrigt, at histogram og fraktildiagram også kan fås ved at bruge proceduren ttest, selv om vi slet ikke er interesseret i noget test for middelværdien af fødselsvægten: proc ttest data=a1; var vaegt; hvilket giver figurerne Ofte viser man også oplyninger om de øvrige variable i Tabel 1, f.eks. således: 4

title2 SPM 1B ; proc means N mean median stddev Q1 Q3 min max data=a1; class ryger; var vaegt uge laengde; der giver outputtet: SPM 1B The MEANS Procedure N ryger Obs Variable N Mean Median Std Dev ---------------------------------------------------------------------- ja 115 vaegt 115 3487.70 3440.00 515.8044165 uge 115 39.9391304 40.0000000 1.3264314 laengde 115 51.9130435 52.0000000 2.3603643 nej 285 vaegt 285 3601.07 3600.00 450.3690406 uge 285 39.9157895 40.0000000 1.3634811 laengde 285 52.5122807 53.0000000 2.0480212 ---------------------------------------------------------------------- N Lower Upper ryger Obs Variable Quartile Quartile Minimum --------------------------------------------------------------------- ja 115 vaegt 3120.00 3838.00 2030.00 uge 39.0000000 41.0000000 37.0000000 laengde 50.0000000 53.0000000 44.0000000 nej 285 vaegt 3300.00 3900.00 2420.00 uge 39.0000000 41.0000000 37.0000000 laengde 51.0000000 54.0000000 48.0000000 --------------------------------------------------------------------- N ryger Obs Variable Maximum ------------------------------------- ja 115 vaegt 4820.00 uge 42.0000000 laengde 58.0000000 nej 285 vaegt 5100.00 uge 42.0000000 laengde 60.0000000 ------------------------------------- (c) Hvor stor en procentdel af børnene havde en fødselsvægt under 2700 gram? Kan det siges at være usædvanligt? 5

Her skal vi benytte variablen low_weight, som vi definerede allerede under indlæsningen. Denne variabel antager værdien ja for børn med en fødselsvægt under 2700 gram og nej ellers. Vi laver en lille tabel over denne variabel title2 SPM 1C ; proc freq data=a1; tables low_weight; og finder outputtet SPM 1C The FREQ Procedure low_ Cumulative Cumulative weight Frequency Percent Frequency Percent ----------------------------------------------------------- ja 10 2.50 10 2.50 nej 390 97.50 400 100.00 Der er altså netop 2 1 % af børnene, der fødes med en vægt under 2 2700 gram, så det må siges at være rimeligt usædvanligt. Der er naturligvis en vis usikkerhed på denne proportion, og den kan kvantificeres ved at tilføje option binomial(exact) til tablessætningen ovenfor proc freq data=a1; tables low_weight / list binomial(exact); hvorved man får udregnet et eksakt konfidensinterval, som ses (nederst) at være CI=(1.21%, 4.55%): 6

SPM 1C The FREQ Procedure Binomial Proportion low_weight = ja Proportion 0.0250 ASE 0.0078 Confidence Limits for the Binomial Proportion Proportion = 0.0250 Type 95% Confidence Limits Clopper-Pearson (Exact) 0.0121 0.0455 Ved vurderingen af, om så lav en fødselsvægt er usædvanlig, er det også naturligt at sammenligne med et normalområde, baseret på de 400 fødselsvægte. Da vi ovenfor fandt en god normalfordelingstilpasning kan vi benytte konstruktionen med ±2 SD, og finder 3568.48 ± 2 472.26 = (2623.96, 4513.00) Baseret på dette interval er det ikke virkelig usædvanligt at finde en så lav fødselsvægt. Da vi har så mange observationer, kan vi også udregne et eksakt 95% normalområde ud fra fraktilerne proc univariate data=a1; var vaegt; output out=spm1b pctlpts=2.5 97.5 pctlpre=frak_ pctlname=lower upper; proc print data=spm1b; og vi finder outputtet SPM 1C frak_ frak_ Obs lower upper 1 2685 4560 7

Vi ser her en rigtig god overensstemmelse til det normalfordelingsbaserede normalområde, samt at 2.5%-fraktilen virkelig er meget tæt på 2700 (grunden til, at den ikke er præcis 2700 er, at barnet med den tiende mindste fødselsvægt vejer 2670 gram, medens den 11. mindste vejer 2700 gram, og der bliver så interpoleret mellem disse værdier). 2. I dette spørgsmål skal vi se nærmere på risikoen for at føde et barn med en vægt under 2700 gram (i det følgende kaldet letvægtere): (a) Er der større risiko for at føde en letvægter, hvis man er ryger i forhold til, hvis man er ikke-ryger? Her skal vi sammenholde to binære variable, nemlig ryger ja/nej og letvægter ja/nej. Vi opstiller derfor 2x2 tabellen med rygergrupperne (ja/nej) som rækker og vægtgrupperne (ja/nej til letvægter) som søjler. Desuden beder vi om et χ 2 -test (og dermed automatisk også et Fishers eksakt test) samt om diverse kvantificeringer af forskellen på de to sandsynligheder for at føde en letvægter. Herudover undertrykker vi søjleprocenter (nocol) og overall tabelprocenter (nopercent): title SPM 2 ; title2 SPM 2A ; proc freq data=a1; table ryger*low_weight / nopercent nocol chisq riskdiffc relrisk; Herved får vi en hel del output, her lettere beskåret. Vi starter med at se på den første del, bestående af selve tabellen, samt testet for uafhængighed (test af identitet for de to sandsynligheder for at føde en letvægter): The FREQ Procedure Table of ryger by low_weight 8

ryger low_weight Frequency Row Pct ja nej Total ---------+--------+--------+ ja 6 109 115 5.22 94.78 ---------+--------+--------+ nej 4 281 285 1.40 98.60 ---------+--------+--------+ Total 10 390 400 Statistics for Table of ryger by low_weight Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 4.8896 0.0270 Likelihood Ratio Chi-Square 1 4.3329 0.0374 Continuity Adj. Chi-Square 1 3.4501 0.0632 WARNING: 25% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Fisher s Exact Test ---------------------------------- Cell (1,1) Frequency (F) 6 Two-sided Pr <= P 0.0368 Vi ser, at χ 2 -testet giver en advarsel, fordi der er tale om små antal. Bemærk, at det er det forventede antal i kategorien af letvægtere blandt rygende mødre, der er problemet, idet denne er 115 10 = 2.875 < 5), hvorimod det tilsvarende forventede antal 400 blandt ikke-rygende mødre er 285 10 = 7.125 > 5). 400 På grund af den tynde tabel, benytter vi Fishers eksakte test til sammenligning af de to sandsynligheder, og finder hermed P=0.037, altså en signifikant forskel. Vi må konkludere, at rygende kvinder har en større risiko for at føde letvægtere end ikke-rygende kvinder (5.22% vs. 1.40%). Angiv estimater med tilhørende konfidensgrænser for sammenligningen af sandsynlighederne for rygere vs. ikke-rygere, dels i form af differensen mellem sandsynlighederne og dels i form af relativ risiko (og evt. odds ratio). Kan der være op til en faktor 10 til forskel på de to sandsyn- 9

ligheder? Formuler også konklusionen i ord. Vi så allerede ovenfor på de estimerede sandsynligheder for at føde en letvægter, nemlig 5.22% for rygende kvinder og 1.40% for ikke-rygende kvinder. Det svarer til en forskel på 3.81%point. Option riskdiffc (eller bare riskdiff) i koden ovenfor bekræfter denne forskel, i nederste linie af Column 1 Risk Estimates: The FREQ Procedure Column 1 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits ------------------------------------------------------------------------- Row 1 0.0522 0.0207 0.0072 0.0972 0.0194 0.1101 Row 2 0.0140 0.0070 0.0000 0.0294 0.0038 0.0355 Total 0.0250 0.0078 0.0085 0.0415 0.0121 0.0455 Difference 0.0381 0.0219-0.0108 0.0871 Difference is (Row 1 - Row 2) The asymptotic confidence limits include a continuity correction. ----------------------------------- Difference 0.0381 0.0219-0.0047 0.0810 Difference is (Row 1 - Row 2) ovenfor. I outputtet får vi i tilgift 95% konfidensgrænser på dette tal, nemlig CI=(-1.08%, 8.71%). Bemærk, at CI og P-værdi her ikke passer helt sammen, fordi der er tale om en eksakt procedure sammenlignet med to forskellige approksimative. Bemærk, at denne differens altid angiver Row1 - Row2, altså her rygere minus ikke-rygere. Hvis rækkerne var byttet om, ville differensen blot skifte fortegn. Den relative risiko er ligeledes angivet som Row1 vs. Row2, og derfor er den (for Column 1, som stadig er den relevante at 10

se på) 3.72 (se nedenfor, hvor outputtet fra option relrisk er vist), hvilket betyder, at rygerne har 3.72 gange større risiko for at føde en letvægter, sammenlignet med ikke-rygerne. Dette tal kunne vi selv have udregnet ganske simpelt som ratio en mellem de to frekvenser, 0.0522 = 3.73 (der er lidt med afrunding her), men konfidensgrænserne er lidt besværlige at udreg- 0.0140 ne, så derfor foretrækkes udregningen via SAS. Konfidensgrænserne ses at blive (1.07, 12.93), altså meget brede! Dette skyldes det lave antal letvægtere i materialet. Og ja, der kan altså godt tænkes at være en faktor 10 til forskel på sandsynlighederne for at føde en letvægter i de to grupper. The FREQ Procedure Odds Ratio and Relative Risks Statistic Value 95% Confidence Limits ------------------------------------------------------------------ Odds Ratio 3.8670 1.0705 13.9686 Relative Risk (Column 1) 3.7174 1.0688 12.9294 Relative Risk (Column 2) 0.9613 0.9190 1.0056 Sample Size = 400 Hvis vi i stedet benytter odds ratio, får vi estimatet 3.87, med CI=(1.07,13.97), altså næsten det samme som den relative risiko. Det skyldes, at fødsel af en letvægter er en sjælden begivenhed. Men her er fortolkningen altså, at odds for at få en letvægter er 3.87 gange højere, hvis man er ryger i forhold til, hvis man ikke er ryger. 3. I stedet for at dikotomisere fødselsvægten i over eller under 2700 gram, ser vi nu igen på fødselsvægten som en kvantitativ størrelse: (a) Er der en sammenhæng mellem fødselslængde og fødselsvægt? Vi starter med et simpelt scatter plot: title SPM 3 ; 11

title2 SPM 3A ; proc sgplot data=a1; scatter Y=vaegt X=laengde; Da figuren ser rimelig lineær ud, fortsætter vi med at foretage en lineær regression af fødselsvægt, med fødselslængde som kovariat. I samme omgang sørger vi også for at få passende figurer til modelkontrol, samt inkluderer en estimate-sætning, som vi skal bruge i spørgsmål 3c: title2 SPM 3A+C ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; model vaegt=laengde / solution clparm; estimate "laengde 48 cm" intercept 1 laengde 48; Vi finder herved nedenstående output (lettere beskåret): SPM 3A+C The GLM Procedure Number of Observations Read 400 Number of Observations Used 400 The GLM Procedure Dependent Variable: vaegt Sum of 12

Source DF Squares Mean Square F Value Pr > F Model 1 49052444.13 49052444.13 488.86 <.0001 Error 398 39935371.66 100340.13 Corrected Total 399 88987815.80 R-Square Coeff Var Root MSE vaegt Mean 0.551227 8.876758 316.7651 3568.478 Standard Parameter Estimate Error t Value Pr > t laengde 48 cm 2862.87656 35.6269976 80.36 <.0001 Parameter 95% Confidence Limits laengde 48 cm 2792.83594 2932.91718 Standard Parameter Estimate Error t Value Pr > t Intercept -4941.004804 385.1922835-12.83 <.0001 laengde 162.580862 7.3532008 22.11 <.0001 Parameter 95% Confidence Limits Intercept -5698.270617-4183.738991 laengde 148.124893 177.036830 Det ses, at længde og vægt hænger tydeligt sammen (P < 0.0001 for test af hældning 0). Det var vi nu heller ikke rigtigt i tvivl om efter at have set tegningen ovenfor. Interceptet vil vi afstå fra at fortolke, idet det henviser til den forventede fødselsvægt for et barn på 0 cm. Modelkontroltegningerne for dette fit giver ikke anledning til bekymring: 13

og plot af fittet med prediktionsgrænser ser også rigtigt fornuftigt ud 14

(b) Hvad er den estimerede vægtforøgelse for hver cm forøgelse af længden? Denne aflæses direkte som hældningen i ovenstående analyse, dvs. 162.6. Det betyder, at for hver ekstra cm, barnet er langt, forventer vi, at det vejer 162.6 g mere. Konfidensintervallet for denne størrelse er angivet som (148.1, 177.0) g. (c) Bestem et 95% prediktionsinterval for fødselsvægt for børn med en længde på 48 cm. Først skal vi estimere fødselsvægten for børn med længde 48 cm. Dette kan vi nemt gøre direkte ved at bruge liniens ligning: 4941.00 + 162.58 48 = 2862.84 men af hensyn til nøjagtighed, og allervigtigst: for at få konfidensgrænser på, benytter vi i stedet estimate-sætningen: estimate "laengde 48 cm" intercept 1 laengde 48; som gav resultatet Standard Parameter Estimate Error t Value Pr > t laengde 48 cm 2862.87656 35.6269976 80.36 <.0001 15

Parameter 95% Confidence Limits laengde 48 cm 2792.83594 2932.91718 Estimatet er altså på 2862.9 g, med konfidensgrænser (2792.8, 2932.9) g. Nu er det imidlertid ikke konfidensgrænserne, vi er interesserede i, men derimod et prediktionsinterval. Hertil skal vi bruge residualspredningen (spredningen omkring linien), som vi finder i outputtet ovenfor under navnet RootMSE. Værdien er 316.8 g, og vi danner derfor prediktionsintervallet ved at skrive 2862.9 ± 2 316.8 = (2229.3, 3496.5) Vi bemærker, at det ser ret almindeligt ud for sådanne korte børn at have fødselsvægt under 2700 g. 4. Her skal vi fokusere på rygningens betydning for fødselsvægt. (a) Estimer vægtforskellen på børn født af rygende og ikke-rygende mødre. Husk konfidensinterval, og kommenter på bredden af dette. Inden vi går i gang med en egentlig sammenligning, skal vi lige se et Boxplot af vægtfordelingen i de to grupper: title SPM 4 ; title2; proc sgplot data=a1; vbox vaegt / group=ryger; 16

På dette boxplot ses en ganske beskeden forskel, idet rygernes børn synes at være lidt lettere end ikke-rygernes. For at se, om denne forskel kan tilskrives tilfældigheder, skal vi sammenligne to grupper (rygende vs. ikke-rygende) mht et kvantitativt outcome, nemlig fødselsvægten. Der er altså tale om et uparret T-test: title2 SPM 4A ; proc ttest data=a1; class ryger; var vaegt; som giver outputtet (let beskåret) SPM 4A The TTEST Procedure Variable: vaegt ryger N Mean Std Dev Std Err Minimum Maximum ja 115 3487.7 515.8 48.0990 2030.0 4820.0 nej 285 3601.1 450.4 26.6776 2420.0 5100.0 Diff (1-2) -113.4 470.0 51.9274 ryger Method Mean 95% CL Mean Std Dev ja 3487.7 3392.4 3583.0 515.8 nej 3601.1 3548.6 3653.6 450.4 Diff (1-2) Pooled -113.4-215.5-11.2917 470.0 Diff (1-2) Satterthwaite -113.4-221.9-4.8771 Method Variances DF t Value Pr > t 17

Pooled Equal 398-2.18 0.0296 Satterthwaite Unequal 187.79-2.06 0.0406 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 114 284 1.31 0.0747 Vi ser af ovenstående, at børn af rygende mødre i gennemsnit er 113.4 gram lettere end børn af ikke-rygende mødre, med CI=(4.88, 221.9) gram, samt at dette er signifikant (P=0.04, idet jeg bruger den højeste af de to P-værdier, fordi spredningerne ikke ser helt ens ud). Der er tale om en ganske beskeden forskel, som i praksis vel må anses for ubetydelig, men signifikant på grund af den store sample size. De tilhørende modelkontroltegninger ser rigtigt fine ud, først histogrammerne: 18

og så fraktildiagrammerne: (b) Kommenter på mulige forklaringer på den ovenfor fundne forskel (uden at lave analyser på dette tidspunkt), f.eks. om de rygende mødre kunne afvige i alder, i deres forbrug af kaffe, i gestationsalder ved fødsel, eller i andre henseender. Der kan selvfølgelig være mange forklaringer på denne tilsyneladende effekt af rygning, men vi har kun et begrænset udvalg af oplysninger i dette materiale. Man plejer at sige, at ældre mødre får tungere børn, så hvis der er forskel på alderen for rygere og ikke-rygere (således at rygerne er yngst), kunne dette tænkes at spille ind. Det kunne naturligvis også være rygningen i sig selv, der bevirkede, at børnene blev mindre, og i så fald kunne det virke gennem forskellige mekanismer: Børnene blev født for tidligt (uge) Børnere blev generelt mindre, altså også kortere (length) Børnene var tyndere (dette kommer vi tilbage til i spørgsmål 5) Vi ser nærmere på nogle af disse muligheder ved at lave en serie af sammenligninger i form af uparrede T-tests (som samtidig producerer nogle kombinerede histogrammer og Boxplots til illustration af sammenligningerne): 19

title2 SPM 4B ; proc ttest data=a1; class ryger; var alder uge laengde; og får nogle figurer og en masse output SPM 4B The TTEST Procedure Variable: alder ryger N Mean Std Dev Std Err Minimum Maximum ja 115 27.0013 4.3167 0.4025 19.0500 39.4700 nej 285 27.9254 3.6299 0.2150 18.6000 39.9800 Diff (1-2) -0.9241 3.8392 0.4241 ryger Method Mean 95% CL Mean Std Dev ja 27.0013 26.2039 27.7987 4.3167 nej 27.9254 27.5021 28.3486 3.6299 20

Diff (1-2) Pooled -0.9241-1.7579-0.0902 3.8392 Diff (1-2) Satterthwaite -0.9241-1.8245-0.0236 Method Variances DF t Value Pr > t Pooled Equal 398-2.18 0.0299 Satterthwaite Unequal 182.37-2.02 0.0443 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 114 284 1.41 0.0226 ------------------------------------------------------------------------ Variable: uge ryger N Mean Std Dev Std Err Minimum Maximum ja 115 39.9391 1.3264 0.1237 37.0000 42.0000 nej 285 39.9158 1.3635 0.0808 37.0000 42.0000 Diff (1-2) 0.0233 1.3530 0.1495 ryger Method Mean 95% CL Mean Std Dev ja 39.9391 39.6941 40.1842 1.3264 nej 39.9158 39.7568 40.0748 1.3635 Diff (1-2) Pooled 0.0233-0.2705 0.3172 1.3530 Diff (1-2) Satterthwaite 0.0233-0.2678 0.3145 Method Variances DF t Value Pr > t Pooled Equal 398 0.16 0.8760 Satterthwaite Unequal 216.16 0.16 0.8746 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 284 114 1.06 0.7435 ------------------------------------------------------------------------ Variable: laengde ryger N Mean Std Dev Std Err Minimum Maximum ja 115 51.9130 2.3604 0.2201 44.0000 58.0000 nej 285 52.5123 2.0480 0.1213 48.0000 60.0000 Diff (1-2) -0.5992 2.1421 0.2367 ryger Method Mean 95% CL Mean Std Dev ja 51.9130 51.4770 52.3491 2.3604 nej 52.5123 52.2735 52.7511 2.0480 Diff (1-2) Pooled -0.5992-1.0645-0.1340 2.1421 Diff (1-2) Satterthwaite -0.5992-1.0950-0.1034 Method Variances DF t Value Pr > t Pooled Equal 398-2.53 0.0117 Satterthwaite Unequal 186.86-2.38 0.0181 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 114 284 1.33 0.0622 21

Af disse sammenligninger kan vi se, at rygerne faktisk ser ud til at være lidt yngre end ikke-rygerne (mindre end et år, men signifikant med P=0.044), at de ikke føder tidligere (bemærk dog, at materialet er selekteret på gestationsalder, så det er ikke en valid konklusion) samt at de føder kortere børn (en halv centimeter kortere, som ud fra vores analyse i spørgsmål 3b svarer til ca. 81.3 g, P=0.018). Vi skal se nærmere på gestationsalderen i spørgsmål 4d, på længden i spørgsmål 5, men vil ikke kommentere yderligere på aldersforskellen. (c) Hvor godt kan vi forudsige fødselsvægten for det enkelte barn, udelukkende baseret på om moderen er ryger eller ej? Her kan man evt sammenligne med prediktionsintervallet fra spørgsmål 3c. Det er prediktionsgrænser, vi skal udregne her, eller rettere: normalområder for hver ryger-gruppe for sig. Fra T-testet ovenfor har vi fået gennemsnit og spredninger, så vi udregner prediktionsintervallerne: Rygere: 3487.7 ± 2 515.8 = (2486.1, 4519.3) Ikke-rygere: 3601.1 ± 2 450.4 = (2700.3, 4501.9) Nøjagtigheden er altså en anelse bedre for ikke-rygerne... Det er ikke umiddelbart fornuftigt at sammenligne til prediktionsområdet fra spørgsmål 3c, idet vi her så på børn med en fødselslængde på 48cm, hvilket jo ikke er ret meget. Men vi kan sammenligne bredden af intervallerne ved at sammenligne SD erne, og her havde vi i spørgsmål 3c en SD på 316.8, altså en del mindre end de to, vi fandt ovenfor. Dette skyldes, at vi i spørgsmål 3c har den meget vigtige prediktor laengde med som kovariat i stedet for rygning, og dette vil naturligvis formindske residualspredningen. (d) Undersøg om effekten af rygning på fødselsvægt skyldes, at rygerne føder tidligere end ikke-rygerne, dvs: Sammenlign fødselsvægten blandt børn af rygere og ikke-rygere, født i samme terminsuge. 22

Når vi skal sammenligne børn født i samme terminsuge, må vi holde denne fast, dvs. vi må inkludere terminsuge som kovariat i modellen. Først ser vi på en figur til at illustrere dette title2 SPM 4D ; proc sgplot data=a1; reg Y=vaegt X=uge / group=ryger; På baggrund af ovenstående figur, vil vi antage at effekten af hver ekstra uge er en konstant ekstra tilvækst i vægt, (altså en lineær effekt, som dog vil blive kontrolleret nedenfor). Vi indsætter derfor blot uge som en kvantitativ kovariat (uden interaktion med ryger - svarende til parallelle linier), og vurderer så ryger-effekten i denne ANCOVA-model: title2 SPM 4D+E ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge ryger / solution clparm; estimate "ryger, uge 39" intercept 1 uge 39 ryger 1 0; Vi finder 23

SPM 4D+E The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model 2 10168894.75 5084447.38 25.61 <.0001 Error 397 78818921.05 198536.33 Corrected Total 399 88987815.80 R-Square Coeff Var Root MSE vaegt Mean 0.114273 12.48639 445.5742 3568.478 Source DF Type III SS Mean Square F Value Pr > F uge 1 9115622.755 9115622.755 45.91 <.0001 ryger 1 1102272.063 1102272.063 5.55 0.0189 Standard Parameter Estimate Error t Value Pr > t ryger, uge 39 3382.64747 44.3480036 76.28 <.0001 Parameter 95% Confidence Limits ryger, uge 39 3295.46118 3469.83375 Standard Parameter Estimate Error t Value Pr > t Intercept -863.7813374 B 659.4506521-1.31 0.1910 uge 111.8568637 16.5078098 6.78 <.0001 ryger ja -115.9888787 B 49.2257044-2.36 0.0189 ryger nej 0.0000000 B... Parameter 95% Confidence Limits Intercept -2160.233245 432.6705706 uge 79.4032124 144.3105149 ryger ja -212.7645179-19.2132395 ryger nej.. Vi ser, at såvel rygning som gestationsalder er signifikante prediktorer for fødselsvægten. Modelkontrollen ser igen rigtig fornuftig ud: 24

og figuren nedenfor til illustration af modellen er ikke til at skelne fra den tidligere figur: 25

Angiv et estimat for forskellen og sammenlign med det tilsvarende estimat i spørgsmål 4a. Forskellen på rygere og ikke-rygere har kun ændret sig en anelse i forhold til det tidligere resultat fra spørgsmål 4a, og det kunne vi godt have forudset, da vi tidligere har set, at de to grupper føder i stort set samme gestationsuge. Der er altså ikke stor confounding mellem gestationsalder og rygning. Vi estimerer således nu rygere til at føde børn, der i gennemsnit er 116.0 gram lettere end ikke-rygere, mod 113.4 g i spørgsmål 4a. Konfidensintervallet her er CI=(19.2, 212.8) gram, hvilket er en anelse smallere end de (4.88, 221.9), som vi fandt i spørgsmål 4a, og dette skyldes, at vi trods alt har elimineret noget af residualvariationen ved at introducere gestationsalderen som kovariat. Husk at argumentere for, hvordan effekten af terminsuge modelleres, og udfør passende modelkontrol. Her skal vi bruge den kopi af gestationsalderen, som vi konstruerede i forbindelse med indlæsningen (ga=uge), og hvis vi indsætter denne som class-variabel, sammen med uge, kan vi få et test for lineariteten: 26

title2 SPM 4D ; proc glm data=a1; class ryger ga; model vaegt=uge ga ryger / solution clparm; The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej ga 6 37 38 39 40 41 42 Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model 6 10642770.19 1773795.03 8.90 <.0001 Error 393 78345045.60 199351.26 Corrected Total 399 88987815.80 R-Square Coeff Var Root MSE vaegt Mean 0.119598 12.51199 446.4877 3568.478 Source DF Type III SS Mean Square F Value Pr > F uge 0 0.000... ga 4 473875.443 118468.861 0.59 0.6670 ryger 1 1146223.256 1146223.256 5.75 0.0170 Standard Parameter Estimate Error t Value Pr > t Intercept -762.5988521 B 3234.918339-0.24 0.8138 uge 108.8892004 B 78.253320 1.39 0.1649 ga 37 12.6190943 B 355.585494 0.04 0.9717 ga 38-47.2533777 B 271.767266-0.17 0.8621 ga 39 26.8167814 B 193.587638 0.14 0.8899 ga 40 63.0656424 B 118.485066 0.53 0.5948 ga 41 0.0000000 B... ga 42 0.0000000 B... ryger ja -118.9021870 B 49.586645-2.40 0.0170 ryger nej 0.0000000 B... Parameter 95% Confidence Limits Intercept -7122.508525 5597.3108209 uge -44.9582830 262.7366837 ga 37-686.4686069 711.7067956 ga 38-581.5528808 487.0461254 ga 39-353.7801191 407.4136819 ga 40-169.8782024 296.0094871 ga 41.. ga 42.. 27

ryger ja -216.3904549-21.4139191 ryger nej.. Vi ser ovenfor, at når vi tager højde for den lineære effekt af gestationsalder (variablen uge), så er det ikke nødvendigt at medtage ga også, hvilket betyder, at der ikke ses afvigelse fra linearitet (P=0.67). Testet er dog ret svagt, da det er på 4 frihedsgrader, og vi kunne i stedet forsøge at se, om en kvadratisk effekt ville beskrive sammenhængen bedre. Til dette formål definerede vi allerede ved indlæsningen en ekstra variabel kvadratled=(ga-40)**2; og denne indsætter vi nedenfor som ekstra kovariat, hvorved vi får et test for linearitet baseret på kun en enkelt frihedsgrad: proc glm data=a1; class ryger; model vaegt=ryger uge kvadratled / solution clparm; SPM 4D+E The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Sum of Source DF Squares Mean Square F Value Pr > F Model 3 10325358.40 3441786.13 17.33 <.0001 Error 396 78662457.40 198642.57 Corrected Total 399 88987815.80 R-Square Coeff Var Root MSE vaegt Mean 0.116031 12.48973 445.6934 3568.478 Source DF Type III SS Mean Square F Value Pr > F ryger 1 1119605.364 1119605.364 5.64 0.0181 uge 1 7121563.753 7121563.753 35.85 <.0001 kvadratled 1 156463.649 156463.649 0.79 0.3753 28

Standard Parameter Estimate Error t Value Pr > t Intercept -617.6417869 B 715.5590563-0.86 0.3886 ryger ja -116.9240519 B 49.2501473-2.37 0.0181 ryger nej 0.0000000 B... uge 106.1356548 17.7259607 5.99 <.0001 kvadratled -9.5571695 10.7685870-0.89 0.3753 Parameter 95% Confidence Limits Intercept -2024.411291 789.1277176 ryger ja -213.7484925-20.0996114 ryger nej.. uge 71.2869016 140.9844080 kvadratled -30.7279165 11.6135776 Heller ikke i denne model findes nogen tegn på afvigelse fra linearitet, så vi stiller os tilfreds med modellen anvendt i spørgsmål 4d. I øvrigt er estimaterne for effekten af rygning i de to ovenstående modeller temmelig sammenfaldende med det, vi fandt ovenfor, nemlig hhv. 118.9 (21.4, 216.4) og 116.9 (20.1, 213.7). (e) Hvad er estimatet for fødselsvægten for et barn med en rygende mor, født i terminsuge 39? Vi inkluderede i modellen i spørgsmål 4d en estimate-sætning: estimate "ryger, uge 39" intercept 1 uge 39 ryger 0 1; og fik outputtet Standard Parameter Estimate Error t Value Pr > t ryger, uge 39 3382.64747 44.3480036 76.28 <.0001 Parameter 95% Confidence Limits ryger, uge 39 3295.46118 3469.83375 dvs. med et estimat på 3382.6 gram, med CI=(3295.5, 3469.8) gram. Hvor stor spredning er der på fødselsvægten blandt børn af denne type? 29

Vi finder i outputtet ovenfor en RootMSE på 445.6 gram, og ud fra dette kan vi udregne et prediktionsinterval: 3382.6 ± 2 445.6 = (2491.4, 4273.8) Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder i uge 39? Ud fra prediktionsintervallet ovenfor kan vi sige, at 2700 gram ikke er særligt usædvanligt for sådanne børn. (f) Er der tegn på, at effekten af rygning afhænger af gestationsalderen ved fødslen? Her spørges der om, hvorvidt effekten af den ene kovariat afhænger af, hvad den anden er, altså en interaktion. Vi indsætter derfor et interaktionsled i den lineære ANCOVA-model fra spørgsmål 4d. title2 SPM 4F ; proc glm plots=(fitplot DiagnosticsPanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge ryger ryger*uge / solution clparm; hvorved vi får outputtet SPM 4F The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Dependent Variable: vaegt Source DF Type III SS Mean Square F Value Pr > F uge 1 7234805.183 7234805.183 36.35 <.0001 ryger 1 343.275 343.275 0.00 0.9669 30

uge*ryger 1 271.621 271.621 0.00 0.9706 Standard Parameter Estimate Error t Value Pr > t Intercept -878.8032218 B 775.453322-1.13 0.2578 uge 112.2332031 B 19.415948 5.78 <.0001 ryger ja -61.4011482 B 1478.502574-0.04 0.9669 ryger nej 0.0000000 B... uge*ryger ja -1.3669931 B 37.004276-0.04 0.9706 uge*ryger nej 0.0000000 B... Parameter 95% Confidence Limits Intercept -2403.323212 645.7167686 uge 74.0619813 150.4044249 ryger ja -2968.096710 2845.2944138 ryger nej.. uge*ryger ja -74.1163856 71.3823995 uge*ryger nej.. Med en P-værdi på 0.97 ser det bestemt ikke ud som om effekten af rygning afhænger af gestationsuge ved fødslen. Bemærk, at man i ovenstående model udelukkende kan fortolke det, der har med interaktionsleddet at gøre, idet estimatet for selve rygnings-variablen henviser til en gestationsuge på 0! 5. Udvid nu slutmodellen fra spørgsmål 4 med en ekstra kovariat, nemlig længden af den nyfødte: (a) Overvej, hvordan denne ekstra kovariat ændrer fortolkningen af rygningseffekten. Ved at inkludere fødsleslængden i modellen også, kommer vi til at sammenligne børn af rygende mødre med tilsvarende børn af ikkerygende mødre, hvor ordet tilsvarende dækker over børn født med samme gestationsalder og med samme fødselslængde. Det betyder, at det reelt set ikke mere er vægten, vi sammenligner, men vægten i forhold til højden, altså en form for tykkelse, eller fedme, om man vil. Og det er jo noget helt andet. Hvis børn af rygende mødre vejer mindre, fordi de er kortere, så kunne man forestille sig, at børnene ikke afveg fra hinanden 31

forsåvidt angår tykkelsen. Det er altså det, vi ser på nedenfor. (b) Giv et estimat for forskellen i fødselsvægt blandt børn af rygere og ikke-rygere i denne model, og formuler konklusionen i ord, idet I også sammenligner med spørgsmål 4a og 4d. Vi kører altså nu en udvidet model, med en kategorisk kovariat (ryger) og to kvantitative (uge og laengde): title2 SPM 5B+C ; proc glm plots=(diagnosticspanel Residuals(smooth)) data=a1; class ryger; model vaegt=uge laengde ryger / solution clparm; estimate "ryger, uge 39, length=48" intercept 1 uge 39 ryger 1 0 laengde 48; output out=ny5 p=predicted; proc sgpanel data=ny5; panelby uge / rows=2 columns=3; reg Y=predicted X=laengde / group=ryger; SPM 5B+C The GLM Procedure Class Level Information Class Levels Values ryger 2 ja nej Number of Observations Read 400 Number of Observations Used 400 Source DF Type III SS Mean Square F Value Pr > F uge 1 773025.94 773025.94 7.82 0.0054 laengde 1 39677765.61 39677765.61 401.43 <.0001 ryger 1 35837.16 35837.16 0.36 0.5474 Standard Parameter Estimate Error t Value Pr > t ryger, uge 39, length=48 2847.69918 41.1341895 69.23 <.0001 Parameter 95% Confidence Limits 32

ryger, uge 39, length=48 2766.83049 2928.56787 Standard Parameter Estimate Error t Value Pr > t Intercept -5925.048910 B 529.4484702-11.19 <.0001 uge 34.324316 12.2736601 2.80 0.0054 laengde 155.316819 7.7520062 20.04 <.0001 ryger ja -21.107575 B 35.0542596-0.60 0.5474 ryger nej 0.000000 B... Parameter 95% Confidence Limits Intercept -6965.930100-4884.167720 uge 10.194637 58.453996 laengde 140.076587 170.557051 ryger ja -90.023289 47.808139 ryger nej.. Vi finder her effekten af rygning til 21.1 g, CI=(-47.8, 90.0) gram, i modsætning til de tidligere resultater: 4a: 113.4 (4.88, 221.9) 4d: 116.0 (19.2, 212.8) I denne model bliver effekten af rygning estimeret til at være væsentlig mindre, og ikke længere signifikant, og vi kan heraf slutte, at fødselslængden er en såkaldt mediator (en medierende effekt) af rygning på fødselsvægten. (c) Hvad er estimatet for fødselsvægten for børn af en rygende mor, født i terminsuge 39 med en fødselslængde på 48 cm? Ovenfor havde vi estimate-sætningen: estimate "ryger, uge 39, length=48" intercept 1 uge 39 ryger 1 0 laengde 48; hvorved vi fik outputtet Standard Parameter Estimate Error t Value Pr > t ryger, uge 39, length=48 2847.69918 41.1341895 69.23 <.0001 Parameter 95% Confidence Limits ryger, uge 39, length=48 2766.83049 2928.56787 33

Estimatet for fødselsvægten for 48 cm lange børn af rygende mødre, der er født i uge 39 er altså 2847.7 g, med CI=(2766.8, 2928.6) Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Denne aflæses fra RootMSE i outputtet ovenfor til at være 314.39 gram. Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder et 48 cm langt barn i uge 39? Vi udregner prediktionsintervallet: 2847.7 ± 2 314.39 = (2218.9, 3476.5) og finder således, at det ikke er særligt usædvanligt med en fødselsvægt på kun 2700 gram. Men det er jo også ret korte børn, vi snakker om her. Sammenlign svarene på de ovenstående spørgsmål med de tilsvarende i spørgsmål 4e. I spørgsmål 4e betingede vi ikke med en så kort fødselslængde, og derfor kan det ikke undre, at vi der fik et langt højere estimat, nemlig 3382.6 gram, med prediktionsinterval: 3382.6 ± 2 445.6 = (2491.4, 4273.8)g Denne model er så kompliceret (specielt på grund af de 2 kvantitative kovariater), at modelkontrol her er endnu mere påkrævet end for de tidligere modeller: 34

De giver heldigvis ikke anledning til bekymring. Vi kan forsøge at lave en figur af modellen, idet vi opdeler i rygere og ikke-rygere, optegner den estimerede fødselsvægt som funktion af fødselslængden, med en linie for hver gestationsuge (uge): 35

Det ses, at længden er af altafgørende betydning for fødselsvægten, medens gestationsuge og moderens rygning spiller en mindre rolle. Men så er spørgsmålet jo, hvilken rolle, moderens rygning spiller for barnets længde...? Reference: Olsen et.al.(2001): The Danish National Birth Cohort - its background, structure and aim. Scand. J. Public Health 29, 300 307 (2001). 36