Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldte Mor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt sample på 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42, og som ikke drak alkohol under graviditeten. Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne er angivet i 1. linie. Disse er: idnr: Nummer på kvinden (blot til brug for identifikation) alder: Kvindens alder ryger: Er kvinden ryger? (ja/nej) kaffe: Er kvinden kaffedrikker? (ja/nej) uge: Gestationsalder ved fødslen vaegt: Barnets vægt i gram laengde: Barnets længde i cm Der er i nedenstående besvarelse ikke udeladt nogen observationer. Opgaven er at beskrive fødselsvægten, forskellige prediktorer for denne, samt disses samspil. 1. Beskriv fordelingen af fødselsvægt i det totale materiale. (a) Lav først en grafisk illustration. Da der kun er tale om en enkelt gruppe, vælges et histogram, så vi går ind i Graph/Chart Builder og vælger det simple Histogram, hvor vi sætter vaegt over på X-aksen og får en pæn normalfordelingslignende fordeling, centreret omkring en fødselsvægt på ca. 3500 gram: 1

(b) Udregn dernæst passende valgte summary statistics, som om du skulle lave en Tabel 1 til en artikel, og forklar kort hvorfor du vælger netop disse. For at få medianer og kvartiler med i outputtet, vælger vi at gå ind i Analyze/Descriptive Statistics/Frequencies, hvor vi sætter vaegt over i Variable(s), fjerner fluebenet fra Display Frequency Tables og går ind i Statistics, hvor vi afkrydser Quartiles, Mean, Median, Std.Deviation, Min og Max. Herved får vi Vi ser her, at gennemsnit og median er næsten sammenfaldende, samt at Q1/Q3 (dvs. 25% og 75%-fraktilerne) - og faktisk også 2

min/max - ligger pænt symmetrisk omkring gennemsnittet. Dette passer fint med vores vurdering af normalfordelingstilpasningen ovenfor. For en ordens skyld vil vi dog lige checke hvordan fraktildiagrammet ser ud, idet et sådant er bedre til at vurdere evt afvigelser fra normalfordelingen. Vi går derfor ind i Analyze/Descriptive Statistics/Explore, sætter vaegt i Dependent List, afkrydser Plots under Display og i undermenuen Plots vælger vi (Histogram og) Normality Plots. Fraktildiagrammet kommer til at se rigtigt nydeligt ud: og man ville derfor roligt kunne indsætte gennemsnit og spredning i sin Tabel 1 i dette tilfælde. Sædvanligvis vil man i en Tabel 1 også se på nogle af de øvrige variable i datasættet, evt. opdelt efter rygning. Dette sidste kan man gøre ved at benytte Split File, sætte flueben ved Compare Groups og sætte ryger over i Groups Based on, hvorefter vi er klar til at udregne summary statistics igen. 3

Vi kunne så få en tabel som som dog lige trænger til lidt omskrivning for at være helt reproklar. (c) Hvor stor en procentdel af børnene havde en fødselsvægt under 2700 gram? Kan det siges at være usædvanligt? Vi definerer nu variablen letvaegter som indikator for en fødselsvægt under 2700 gram. Dette gøres i Transform/Compute, hvor vi sætter letvaegter som Target Variable og definerer det ved det logiske udtryk (vaegt<2700). Herved får letvaegter værdien 1 for de lette børn, og 0 for de normalvægtige. Vi laver en lille tabel over denne variabel i Analyze/Descriptive Statistics/Frequencies, hvor vi sætter letvaegter over i Variable(s) og bibeholder fluebenet i Display Frequency Tables (eller sætter det igen) og går ind i Statistics for at fjerne de tidligere satte flueben. Herved får vi en lille tabel: 4

Der er altså netop 2 1 % af børnene, der fødes med en vægt under 2 2700 gram, så det må siges at være rimeligt usædvanligt. Ved vurderingen af, om så lav en fødselsvægt er usædvanlig, er det også naturligt at sammenligne med et normalområde, baseret på de 400 fødselsvægte. Da vi ovenfor fandt en god normalfordelingstilpasning kan vi benytte konstruktionen med ±2 SD, og finder 3568.48 ± 2 472.26 = (2623.96, 4513.00) Baseret på dette interval er det ikke virkeligt usædvanligt at finde en så lav fødselsvægt. 2. I dette spørgsmål skal vi se nærmere på risikoen for at føde et barn med en vægt under 2700 gram (i det følgende kaldet letvægtere): (a) Er der større risiko for at føde en letvægter, hvis man er ryger i forhold til, hvis man er ikke-ryger? Her skal vi sammenholde to binære variable, nemlig ryger ja/nej og letvægter ja/nej (eller rettere 1/0). Vi opstiller derfor 2x2 tabellen med rygergrupperne (ja/nej) som rækker og vægtgrupperne (0/1 til letvægter) som søjler, ved at gå ind i Analyze/Descriptive Statistics/Crosstabs/, sætte ryger over i Row(s) og letvaegter i Column(s). Vi går derefter ind i Statistics og afkrydser Chi-square (og vi afkrydser også Risk, fordi vi skal bruge dette senere). Til sidst går vi ind i Exact og afkrydser Exact, så vi får Fishers eksakte test med: 5

Herved får vi en hel del output, og vi starter med at se på selve tabellen, samt testet for uafhængighed (test af identitet for de to sandsynligheder for at føde en letvægter): Vi ser, at χ 2 -testet giver en advarsel (a), fordi der er tale om små antal. Bemærk, at det er det forventede antal i kategorien af letvægtere blandt rygende mødre, der er problemet, idet denne er 115 10 = 2.875 < 5), hvorimod det tilsvarende forventede antal 400 blandt ikke-rygende mødre er 285 10 = 7.125 > 5). 400 På grund af den tynde tabel, benytter vi Fishers eksakte test til sammenligning af de to sandsynligheder, og finder hermed P=0.037, altså en signifikant forskel. Vi må konkludere, at rygende kvinder har en større risiko for at føde letvægtere end ikke-rygende kvinder (5.2% vs. 1.4%). 6

Angiv estimater med tilhørende konfidensgrænser for sammenligningen af sandsynlighederne for rygere vs. ikke-rygere, dels i form af differensen mellem sandsynlighederne og dels i form af relativ risiko (og evt. odds ratio). Kan der være op til en faktor 10 til forskel på de to sandsynligheder? Formuler også konklusionen i ord. Vi så allerede ovenfor på de estimerede sandsynligheder for at føde en letvægter, nemlig 5.2% for rygende kvinder og 1.4% for ikke-rygende kvinder. Det svarer til en forskel på 3.8%point. Det er vanskeligt at få SPSS til at give et konfidensinterval for denne forskel, men det kan lade sig gøre ved at benytte Analyze/Generalized Linear Models, vælge Type of Model som Custom, med Binomial som Distribution og Identity som Link Function, samt under fanen Response at vælge letvaegter samt under fanerne Predictors og Model at vælge ryger. Herved får vi 7

Vi ser altså en forskel på de to grupper på 3.81%point (hvilket vi nemt selv kunne have udregnet som 5.22-1.40), men her får vi også konfidensintervallet, nemlig CI=(-0.5%, 8.1%). Bemærk, at CI og P-værdi her ikke passer helt sammen, fordi der er tale om en eksakt procedure sammenlignet med to forskellige approksimative. Det giver heller ikke helt det samme som SAS... Relativ risiko og odds ratio fås til gengæld direkte fra den sidste del af outputtet fra tabelanalysen: og vi aflæser, at den relative risiko for at føde en letvægter (for rygere vs. ikke-rygere) er 3.717. Dette aflæses under den noget kryptiske overskrift For cohort letvaegter=1, og det vil altid være relativ risiko for 1. række vs. 2. række i tabellen, altså her rygere vs. ikke-rygere. Det betyder altså, at rygerne har ca. 3.7 gange større risiko for at føde en letvægter, sammenlignet med ikke-rygerne. Dette tal kunne vi selv have udregnet ganske simpelt som ratio en mellem de to frekvenser, 0.0522 = 3.73 (der er lidt med afrunding her), men konfidensgrænserne er lidt besværlige at udregne, så derfor fore- 0.0140 trækkes udregningen via SPSS. Konfidensgrænserne ses at blive (1.07, 12.93), altså meget brede! Dette skyldes det lave antal letvægtere i materialet. Og ja, der kan altså godt tænkes at være en faktor 10 til forskel på sandsynlighederne for at føde en letvægter i de to 8

grupper. Hvis vi i stedet benytter odds ratio, får vi estimatet 0.259, som jo er helt anderledes. Det er fordi det vender omvendt, idet det refererer til letveagter=0, i den forstand at det angiver odds ratio for ikke at føde en letvægter, for rygende kontra ikke-rygende mødre. Dette er imidlertid (af symmetrigrunde) det samme som odds ratio for at føde en letvægter, for ikke-rygende kontra rygende mødre, så vi behøver bare at 1 udregne reciprok-værdier: = 3.86, med konfidensgrænser 0.259 CI=( 1, 1 ) = (1.07, 13.89), altså næsten det samme som 0.934 0.072 den relative risiko. Det skyldes, at fødsel af en letvægter er en sjælden begivenhed. 3. I stedet for at dikotomisere fødselsvægten i over eller under 2700 gram, ser vi nu igen på fødselsvægten som en kvantitativ størrelse: (a) Er der en sammenhæng mellem fødselslængde og fødselsvægt? Vi starter med et simpelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter, trækker vaegt over på Y-aksen, og laengde over på X-aksen: Da figuren ser rimelig lineær ud, fortsætter vi med at foretage en lineær regression af fødselsvægt, med fødselslængde som kovariat. Altså går vi ind i Analyze/Regression/Linear, og i boksen sætter vi vaegt som Dependent og længde som Independent(s) (et uheldigt navn til forklarende variable...). Vi skal også huske at gå ind i Statistics og afkrydse Parameter Estimates og Confidence intervals, hvorved vi får: 9

Det ses, at længde og vægt hænger tydeligt sammen (P = 0.000 for test af hældning 0). Det var vi nu heller ikke rigtigt i tvivl om efter at have set tegningen ovenfor. Interceptet vil vi afstå fra at fortolke, idet det henviser til den forventede fødselsvægt for et barn på 0 cm. Modelkontroltegninger orker vi ikke på dette tidspunkt, da der er tale om en simpel lineær regression. Vi kan dog supplere med et scatter plot, hvor den estimerede linie samt konfidens- eller prediktionsgrænser er lagt ind oveni. For at gøre dette, dobbeltklikker man på scatterplottet, klikker på Add Fit Line at Total og derefter i Properties-boksen afkrydse Linear og Confidence Intervals/Mean eller Confidence Intervals/Individual. 10

Hvis man ikke vil have forstyrrende formler i sin tegning, kan man fjerne fluebenet i Attach label to line). Herved får man og plot af fittet med prediktionsgrænser ser også rigtigt fornuftigt ud: 11

(b) Hvad er den estimerede vægtforøgelse for hver cm forøgelse af længden? Denne aflæses direkte som hældningen i ovenstående analyse, dvs. 162.6. Det betyder, at for hver ekstra cm, barnet er langt, forventer vi, at det vejer 162.6 g mere. Konfidensintervallet for denne størrelse er angivet som (148.1, 177.0) g. (c) Bestem et 95% prediktionsinterval for fødselsvægt for børn med en længde på 48 cm. Først vil vi estimere fødselsvægten for børn med længde 48 cm, blot ved at benytte estimaterne, som vi fik fra modellen ovenfor. Det giver 4941.005 + 48 162.581 = 2862.883 For også at få konfidensgrænser på (selv om det egentlig ikke er det, der spørges efter her), snyder vi SPSS til at tro, at dette 12

er interceptet, altså ved at flytte nulpunktet hen i 48 cm ved at benytte en ny X-variabel, der er længde minus 48. Vi definerer altså laengde48=laengde-48 ved at gå ind i Transform/Compute, og herefter gentages regressionen med denne nye X-variabel: Estimatet er altså på 2862.9 g, med konfidensgrænser (2792.8, 2932.9) g. Nu er det imidlertid ikke konfidensgrænserne, vi er interesserede i, men derimod et prediktionsinterval. Hertil skal vi bruge residualspredningen (spredningen omkring linien), som vi finder i det oprindelige regressionsoutput (spm. 3a) ovenfor under navnet Standard Error of the Estimate. Værdien er 316.8 g, og vi danner derfor prediktionsintervallet ved at skrive 2862.9 ± 2 316.8 = (2269.3, 3496.5) Vi bemærker, at det ser ret almindeligt ud for sådanne korte børn at have fødselsvægt under 2700 g. 4. Her skal vi fokusere på rygningens betydning for fødselsvægt. (a) Estimer vægtforskellen på børn født af rygende og ikke-rygende mødre. Husk konfidensinterval, og kommenter på bredden af dette. Inden vi går i gang med en egentlig sammenligning, skal vi lige se et Boxplot af vægtfordelingen i de to grupper. Hertil benytter vi Analyze/Descriptive Statistics/Explore, hvor vi sætter 13

vaegt i Dependent List, ryger i Factor List samt sætter hak i Plots: På dette boxplot ses en ganske beskeden forskel, idet rygernes børn synes at være lidt lettere end ikke-rygernes. For at se, om denne forskel kan tilskrives tilfældigheder, skal vi sammenligne to grupper (rygende vs. ikke-rygende) mht et kvantitativt outcome, nemlig fødselsvægten. Der er altså tale om et uparret T-test, som vi udfører i Analyze/Compare Means/Independent Samples T Test, hvor vi sætter vaegt i Testvariable(s) og ryger i Grouping Variable. Herefter går vi ind i Define groups for at fortælle, hvilken gruppe, der skal stå først, og dermed om forskellen skal udregnes den ene eller den anden vej: Herved får vi outputtet: 14

Vi ser af ovenstående, at børn af rygende mødre i gennemsnit er 113.4 gram lettere end børn af ikke-rygende mødre, med CI=(4.88, 221.9) gram, samt at dette er signifikant (P=0.041, idet jeg bruger den højeste af de to P-værdier, fordi spredningerne ikke ser helt 15

ens ud). Der er tale om en ganske beskeden forskel, som i praksis vel må anses for ubetydelig, men signifikant på grund af den store sample size. (b) Kommenter på mulige forklaringer på den ovenfor fundne forskel (uden at lave analyser på dette tidspunkt), f.eks. om de rygende mødre kunne afvige i alder, i deres forbrug af kaffe, i gestationsalder ved fødsel, eller i andre henseender. Der kan selvfølgelig være mange forklaringer på denne tilsyneladende effekt af rygning, men vi har kun et begrænset udvalg af oplysninger i dette materiale. Man plejer at sige, at ældre mødre får tungere børn, så hvis der er forskel på alderen for rygere og ikke-rygere (således at rygerne er yngst), kunne dette tænkes at spille ind. Det kunne naturligvis også være rygningen i sig selv, der bevirkede, at børnene blev mindre, og i så fald kunne det virke gennem forskellige mekanismer: Børnene blev født for tidligt (uge) Børnere blev generelt mindre, altså også kortere (length) Børnene var tyndere (dette kommer vi tilbage til i spørgsmål 5) Vi ser nærmere på nogle af disse muligheder ved at lave en serie af sammenligninger i form af Box plots og uparrede T-tests, ganske som vi ovenfor gjorde for fødselsvægten: 16

Af disse sammenligninger kan vi se, at rygerne faktisk ser ud til at være lidt yngre end ikke-rygerne (mindre end et år, men signifikant med P=0.044), at de ikke føder tidligere (bemærk dog, at materialet er selekteret på gestationsalder, så det er ikke en valid konklusion) samt at de føder kortere børn (en halv centimeter kortere, som ud fra vores analyse i spørgsmål 3b svarer til ca. 81.3 g, P=0.018). Vi skal se nærmere på gestationsalderen i spørgsmål 4d, på længden i spørgsmål 5, men vil ikke kommentere yderligere på aldersforskellen. (c) Hvor godt kan vi forudsige fødselsvægten for det enkelte barn, udelukkende baseret på om moderen er ryger eller ej? Her kan man evt sammenligne med prediktionsintervallet fra spørgsmål 3c. Det er prediktionsgrænser, vi skal udregne her, eller rettere: normalområder for hver ryger-gruppe for sig. Fra T-testet ovenfor (spm. 4a) har vi fået gennemsnit og spredninger, så vi udregner prediktionsintervallerne: Rygere: 3487.7 ± 2 515.8 = (2486.1, 4519.3) Ikke-rygere: 3601.1 ± 2 450.4 = (2700.3, 4501.9) 18

Nøjagtigheden er altså en anelse bedre for ikke-rygerne... Det er ikke umiddelbart fornuftigt at sammenligne til prediktionsområdet fra spørgsmål 3c, idet vi her så på børn med en fødselslængde på 48cm, hvilket jo ikke er ret meget. Men vi kan sammenligne bredden af intervallerne ved at sammenligne SD erne, og her havde vi i spørgsmål 3c en SD på 316.8, altså en del mindre end de to, vi fandt ovenfor. Dette skyldes, at vi i spørgsmål 3c har den meget vigtige prediktor laengde med som kovariat i stedet for rygning, og dette vil naturligvis formindske residualspredningen. (d) Undersøg om effekten af rygning på fødselsvægt skyldes, at rygerne føder tidligere end ikke-rygerne, dvs: Sammenlign fødselsvægten blandt børn af rygere og ikke-rygere, født i samme terminsuge. Når vi skal sammenligne børn født i samme terminsuge, må vi holde denne fast, dvs. vi må inkludere terminsuge som kovariat i modellen. Først ser vi på en figur til at illustrere dette, Vi starter med et opdelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter, vælger det opdelte plot, trækker vaegt over på Y-aksen, og uge over på X-aksen, samt ryger i Set color as. Når figuren kommer frem, dobbeltklikker vi på den og klikker på ikonet Add Fit Line at Subgroups, hvorved vi får: 19

Disse linier er lagt ind for hver gruppe for sig, så det er fuldstændigt tilfældigt, at de ser så parallelle ud. På baggrund af figuren vil vi tillade os at antage, at effekten af hver ekstra uge er en konstant ekstra tilvækst i vægt, (altså en lineær effekt, hvilket dog vil blive kontrolleret nedenfor). Vi indsætter derfor blot uge som en kvantitativ kovariat (uden interaktion med ryger - svarende til parallelle linier), og vurderer så ryger-effekten i denne ANCOVAmodel. Dette gøres i General Linear Model/Univariate, hvor man sætter vaegt ind som Dependent Variable, ryger som Fixed Factor og uge som Covariate(s), hvorefter man går ind i Model og sætter ryger og uge over i Model, uden interaktion, dvs. ved under Type at ændre til Main Effects. Desuden går man ind i Options og afkrydser det ønskede, hvilket altid vil være Parameter Estimates (som automatisk også medfører konfidensgrænser) og muligvis også Residual Plot (som dog bliver så grimt, at man bør foretrække en anden løsning, se nedenfor). Herved får vi: 20

Vi ser, at såvel rygning som gestationsalder er signifikante prediktorer for fødselsvægten. Modelkontrollen kan vi udføre ved at benytte Save-knappen og afkrydse Residuals og Predicted values (samt Cook-størrelserne), hvorefter disse vil være at finde i datasættet og kan benyttes til diverse figurer. Først ser vi på et plot af residualer mod predikterede værdier for at checke varianshomogeniteten: 21

Her synes man måske, at der er en vis tendens til trompetfacon, men man skal lige huske på, at der er ret få observationer ude til venstre (fordi kun få børn fødes i de første uger), og derfor synes spredningen heller ikke så stor her. Herefter ser vi på et plot af residualer mod den kvantitative forklarende variabel uge for at checke linearitetsantagelsen, så her ser vi efter buer: Da de indlagte udglattede kurver absolut ikke viser tegn på buer, vil vi stille os tilfreds med lineariteten. Endelig ser vi på et fraktildiagram af residualerne for at checke normalfordelingsantagelsen: 22

og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi ikke ser nogen problemer med modellen. For en ordens skyld ser vi også lige på, om der skulle være nogle indflydelsesrige observationer, og til dette benytter vi et plot af Cook-størrelserne, som vi gemte ovenfor: Heller ikke her ses nogen grund til bekymring. Angiv et estimat for forskellen og sammenlign med det tilsvarende estimat i spørgsmål 4a. Forskellen på rygere og ikke-rygere har kun ændret sig en anelse i forhold til det tidligere resultat fra spørgsmål 4a, og det kunne vi godt have forudset, da vi tidligere har set, at de to grupper føder i stort set samme gestationsuge. Der er 23

altså ikke stor confounding mellem gestationsalder og rygning. Vi estimerer således nu rygere til at føde børn, der i gennemsnit er 116.0 gram lettere end ikke-rygere, mod 113.4 g i spørgsmål 4a. Konfidensintervallet her er CI=(19.2, 212.8) gram, hvilket er en anelse smallere end de (4.88, 221.9), som vi fandt i spørgsmål 4a, og dette skyldes, at vi trods alt har elimineret noget af residualvariationen ved at introducere gestationsalderen som kovariat. Husk at argumentere for, hvordan effekten af terminsuge modelleres, og udfør passende modelkontrol. Vi har allerede set på modelkontroltegningen ovenfor (residualer mod uge), at lineariteten var OK, men for en ordens skyld ser vi her på to ekstra numeriske tests for denne linearitet. Til den første af disse skal vi bruge en kopi af gestationsalderen, som vi bare kan definere som (ga=uge). Hermed kan vi opdele i de enkelte gestationsuger: og hvis vi indsætter denne ga som Factor i modellen, sammen med uge, kan vi få et test for lineariteten (med 4 frihedsgrader): 24

Vi ser ovenfor, at når vi tager højde for den lineære effekt af gestationsalder (variablen uge), så er det ikke nødvendigt at medtage ga også, hvilket betyder, at der ikke ses afvigelse fra linearitet (P=0.67). Testet er dog ret svagt, da det er på 4 frihedsgrader, og vi kunne i stedet forsøge at se, om en kvadratisk effekt ville beskrive sammenhængen bedre. Til dette formål definerede vi allerede ved indlæsningen en ekstra variabel kvadratled=(uge-40)**2 og denne indsætter vi nedenfor som ekstra kovariat, hvorved vi får et test for linearitet baseret på kun en enkelt frihedsgrad: 25

Heller ikke i denne model findes nogen tegn på afvigelse fra linearitet (P=0.38), så vi stiller os tilfreds med modellen anvendt i spørgsmål 4d. I øvrigt er estimaterne for effekten af rygning i de to ovenstående modeller temmelig sammenfaldende med det, vi fandt ovenfor, nemlig hhv. 118.9 (21.4, 216.4) og 116.9 (20.1, 213.7). (e) Hvad er estimatet for fødselsvægten for et barn med en rygende mor, født i terminsuge 39? Baseret på estimaterne fra vores model, finder vi estimatet: 863.781 115.989 + 39 111.857 = 3382.653 og for at få konfidensgrænser på, benytter vi igen tricket med at flytte Y-aksen hen i terminsuge 39 ved at benytte kovariaten uge39=uge-39 i stedet for selve uge. Da variablen ryger som sidste niveau har nej, vil dette blive referencen, så for at få estimatet for rygerne, er vi nødt til at omdefinere denne variabel, f.eks. til ryger_num=(ryger="ja"), som bliver et 0/1-variabel, med 1-tallet (svarende til rygere) som reference). Så får vi outputtet: 26

dvs. med et estimat, som her angives til 3382.647 3382.6 gram, med CI=(3295.5, 3469.8) gram. Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Her skal vi igen have udregnet prediktionsgrænserne. Disse får ved at lægge ±2s til estimatet, og da vores spredningsestimat er s = 198536.325 = 445.6 ses under Mean Square Error i outputtet fra spørgsmål 4d, det med de 397 frihedsgrader. Vores estimat (som normalt hedder Standard Error of the Estimate i SPSS er altså på 445.6 gram, og ud fra dette kan vi udregne et prediktionsinterval: 3382.6 ± 2 445.6 = (2491.4, 4273.8) Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder i uge 39? Ud fra prediktionsintervallet ovenfor kan vi sige, at 2700 gram ikke er særligt usædvanligt for sådanne børn. (f) Er der tegn på, at effekten af rygning afhænger af gestationsalderen ved fødslen? 27

Her spørges der om, hvorvidt effekten af den ene kovariat afhænger af, hvad den anden er, altså en interaktion. Vi indsætter derfor et interaktionsled (ryger*uge) i den lineære ANCOVA-model fra spørgsmål 4d, og finder så Med en P-værdi på 0.97 ser det bestemt ikke ud som om effekten af rygning afhænger af gestationsuge ved fødslen. Det kunne vi også allerede se af figuren med de to linier (fra spm. 4d), der så virkelig parallelle ud. Bemærk, at man i ovenstående model udelukkende kan fortolke det, der har med interaktionsleddet at gøre, idet estimatet for selve rygnings-variablen henviser til en gestationsuge på 0! 5. Udvid nu slutmodellen fra spørgsmål 4 med en ekstra kovariat, nemlig længden af den nyfødte: (a) Overvej, hvordan denne ekstra kovariat ændrer fortolkningen af rygningseffekten. Ved at inkludere fødsleslængden i modellen også, kommer vi til at sammenligne børn af rygende mødre med tilsvarende børn af ikke- 28

rygende mødre, hvor ordet tilsvarende dækker over børn født med samme gestationsalder og med samme fødselslængde. Det betyder, at det reelt set ikke mere er vægten, vi sammenligner, men vægten i forhold til højden, altså en form for tykkelse, eller fedme, om man vil. Og det er jo noget helt andet. Hvis børn af rygende mødre vejer mindre, fordi de er kortere, så kunne man forestille sig, at børnene ikke afveg fra hinanden forsåvidt angår tykkelsen. Det er altså det, vi ser på nedenfor. (b) Giv et estimat for forskellen i fødselsvægt blandt børn af rygere og ikke-rygere i denne model, og formuler konklusionen i ord, idet I også sammenligner med spørgsmål 4a og 4d. Vi kører altså nu en udvidet model, med en kategorisk kovariat (ryger) og to kvantitative (uge og laengde), så vi går igen ind i General Linear Model/Univariate, hvor vi yderligere indsætter laengde under Covariate(s), hvorefter vi går ind i Model og sørger for, at alle 3 kovariater står i Model, uden interaktion. Herved får vi outputtet: 29

Vi finder her effekten af rygning til 21.1 g, CI=(-47.8, 90.0) gram, i modsætning til de tidligere resultater: 4a: 113.4 (4.88, 221.9) 4d: 116.0 (19.2, 212.8) I denne model bliver effekten af rygning estimeret til at være væsentlig mindre, og ikke længere signifikant, og vi kan heraf slutte, at fødselslængden er en såkaldt mediator (en medierende effekt) af rygning på fødselsvægten. (c) Hvad er estimatet for fødselsvægten for børn af en rygende mor, født i terminsuge 39 med en fødselslængde på 48 cm? Igen starter vi med at benytte modellen direkte: 5925.049 21.108 + 39 34.324 + 48 155.317 = 2847.695 og herefter bruger vi tricket med at flytte Y-aksen hen i terminsuge 39 og længde 48 cm ved at benytte kovariaten uge39=uge-39 og desuden benytter vi variablen laengde48=laengde-48 i stedet for laengde samt den nye rygervariabel ryger_num=(ryger="ja") (som vi definerede ovenfor). Så får vi outputtet: 30

Estimatet for fødselsvægten for 48 cm lange børn af rygende mødre, der er født i uge 39 er altså 2847.7 g, med CI=(2766.8, 2928.6) Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Under Mean Square Error i outputtet ovenfor (nu kun med 396 frihedsgrader, fordi vi har endnu en kovariat med i modellen) finder vi vores spredningsestimat til s = 98841.302 = 314.39 gram. Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder et 48 cm langt barn i uge 39? Vi udregner prediktionsintervallet: 2847.7 ± 2 314.4 = (2218.9, 3476.5) og finder således, at det ikke er særligt usædvanligt med en fødselsvægt på kun 2700 gram. Men det er jo også ret korte børn, vi snakker om her. Sammenlign svarene på de ovenstående spørgsmål med de tilsvarende i spørgsmål 4e. 31

I spørgsmål 4e betingede vi ikke med en så kort fødselslængde, og derfor kan det ikke undre, at vi der fik et langt højere estimat, nemlig 3498.6 gram, med prediktionsinterval: 3382.6 ± 2 445.6 = (2491.4, 4273.8)g Denne model er så kompliceret (specielt på grund af de 2 kvantitative kovariater), at modelkontrol her en endnu mere påkrævet end for de tidligere modeller. Vi benytter som før Save-knappen og afkrydser Residuals, Predicted values samt Cook-størrelserne, hvorefter disse vil være at finde i datasættet og kan benyttes til diverse figurer. Først ser vi på et plot af residualer mod predikterede værdier for at checke varianshomogeniteten: Her synes der ikke at være nogensomhelst strukturer, der kunne give anledning til bekymring. Herefter ser vi på et plot af residualer mod de to kvantitative forklarende variable, uge og laengde for at checke linearitetsantagelsen, så her ser vi efter buer: 32

Da de indlagte udglattede kurver absolut ikke viser tegn på buer, vil vi stille os tilfreds med lineariteten. Endelig ser vi på et fraktildiagram af residualerne for at checke normalfordelingsantagelsen: og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi 33

ikke ser nogen problemer med modellen. For en ordens skyld ser vi også lige på, om der skulle være nogle indflydelsesrige observationer, og til dette benytter vi et plot af Cook-størrelserne, som vi gemte ovenfor: Heller ikke her ses nogen grund til bekymring. Det ses, at længden er af altafgørende betydning for fødselsvægten, medens gestationsuge og moderens rygning spiller en mindre rolle. Men selv om længden altså må siges at være en god prediktor for fødselsvægten, er den næppe så interessant som prediktor, når barnet først er født... Reference: Olsen et.al.(2001): The Danish National Birth Cohort - its background, structure and aim. Scand. J. Public Health 29, 300 307 (2001). 34