Vejledende besvarelse af hjemmeopgave, forår 2017

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave, forår 2017"

Transkript

1 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden ligger data fra 400 fødende kvinder. Der er tale om et uddrag af det såkaldte Mor-Barn studie (Olsen et al., 2001), idet der er udvalgt et tilfældigt sample på 400 førstegangsfødende, der føder et levende barn i terminsugerne 37-42, og som ikke drak alkohol under graviditeten. Der er udvalgt 7 variable for hver kvinde, og forslag til variabelnavne er angivet i 1. linie. Disse er: idnr: Nummer på kvinden (blot til brug for identifikation) alder: Kvindens alder ryger: Er kvinden ryger? (ja/nej) kaffe: Er kvinden kaffedrikker? (ja/nej) uge: Gestationsalder ved fødslen vaegt: Barnets vægt i gram laengde: Barnets længde i cm Der er i nedenstående besvarelse ikke udeladt nogen observationer. Opgaven er at beskrive fødselsvægten, forskellige prediktorer for denne, samt disses samspil. 1. Beskriv fordelingen af fødselsvægt i det totale materiale. (a) Lav først en grafisk illustration. Da der kun er tale om en enkelt gruppe, vælges et histogram, så vi går ind i Graph/Chart Builder og vælger det simple Histogram, hvor vi sætter vaegt over på X-aksen og får en pæn normalfordelingslignende fordeling, centreret omkring en fødselsvægt på ca gram: 1

2 (b) Udregn dernæst passende valgte summary statistics, som om du skulle lave en Tabel 1 til en artikel, og forklar kort hvorfor du vælger netop disse. For at få medianer og kvartiler med i outputtet, vælger vi at gå ind i Analyze/Descriptive Statistics/Frequencies, hvor vi sætter vaegt over i Variable(s), fjerner fluebenet fra Display Frequency Tables og går ind i Statistics, hvor vi afkrydser Quartiles, Mean, Median, Std.Deviation, Min og Max. Herved får vi Vi ser her, at gennemsnit og median er næsten sammenfaldende, samt at Q1/Q3 (dvs. 25% og 75%-fraktilerne) - og faktisk også 2

3 min/max - ligger pænt symmetrisk omkring gennemsnittet. Dette passer fint med vores vurdering af normalfordelingstilpasningen ovenfor. For en ordens skyld vil vi dog lige checke hvordan fraktildiagrammet ser ud, idet et sådant er bedre til at vurdere evt afvigelser fra normalfordelingen. Vi går derfor ind i Analyze/Descriptive Statistics/Explore, sætter vaegt i Dependent List, afkrydser Plots under Display og i undermenuen Plots vælger vi (Histogram og) Normality Plots. Fraktildiagrammet kommer til at se rigtigt nydeligt ud: og man ville derfor roligt kunne indsætte gennemsnit og spredning i sin Tabel 1 i dette tilfælde. Sædvanligvis vil man i en Tabel 1 også se på nogle af de øvrige variable i datasættet, evt. opdelt efter rygning. Dette sidste kan man gøre ved at benytte Split File, sætte flueben ved Compare Groups og sætte ryger over i Groups Based on, hvorefter vi er klar til at udregne summary statistics igen. 3

4 Vi kunne så få en tabel som som dog lige trænger til lidt omskrivning for at være helt reproklar. (c) Hvor stor en procentdel af børnene havde en fødselsvægt under 2700 gram? Kan det siges at være usædvanligt? Vi definerer nu variablen letvaegter som indikator for en fødselsvægt under 2700 gram. Dette gøres i Transform/Compute, hvor vi sætter letvaegter som Target Variable og definerer det ved det logiske udtryk (vaegt<2700). Herved får letvaegter værdien 1 for de lette børn, og 0 for de normalvægtige. Vi laver en lille tabel over denne variabel i Analyze/Descriptive Statistics/Frequencies, hvor vi sætter letvaegter over i Variable(s) og bibeholder fluebenet i Display Frequency Tables (eller sætter det igen) og går ind i Statistics for at fjerne de tidligere satte flueben. Herved får vi en lille tabel: 4

5 Der er altså netop 2 1 % af børnene, der fødes med en vægt under gram, så det må siges at være rimeligt usædvanligt. Ved vurderingen af, om så lav en fødselsvægt er usædvanlig, er det også naturligt at sammenligne med et normalområde, baseret på de 400 fødselsvægte. Da vi ovenfor fandt en god normalfordelingstilpasning kan vi benytte konstruktionen med ±2 SD, og finder ± = ( , ) Baseret på dette interval er det ikke virkeligt usædvanligt at finde en så lav fødselsvægt. 2. I dette spørgsmål skal vi se nærmere på risikoen for at føde et barn med en vægt under 2700 gram (i det følgende kaldet letvægtere): (a) Er der større risiko for at føde en letvægter, hvis man er ryger i forhold til, hvis man er ikke-ryger? Her skal vi sammenholde to binære variable, nemlig ryger ja/nej og letvægter ja/nej (eller rettere 1/0). Vi opstiller derfor 2x2 tabellen med rygergrupperne (ja/nej) som rækker og vægtgrupperne (0/1 til letvægter) som søjler, ved at gå ind i Analyze/Descriptive Statistics/Crosstabs/, sætte ryger over i Row(s) og letvaegter i Column(s). Vi går derefter ind i Statistics og afkrydser Chi-square (og vi afkrydser også Risk, fordi vi skal bruge dette senere). Til sidst går vi ind i Exact og afkrydser Exact, så vi får Fishers eksakte test med: 5

6 Herved får vi en hel del output, og vi starter med at se på selve tabellen, samt testet for uafhængighed (test af identitet for de to sandsynligheder for at føde en letvægter): Vi ser, at χ 2 -testet giver en advarsel (a), fordi der er tale om små antal. Bemærk, at det er det forventede antal i kategorien af letvægtere blandt rygende mødre, der er problemet, idet denne er = < 5), hvorimod det tilsvarende forventede antal 400 blandt ikke-rygende mødre er = > 5). 400 På grund af den tynde tabel, benytter vi Fishers eksakte test til sammenligning af de to sandsynligheder, og finder hermed P=0.037, altså en signifikant forskel. Vi må konkludere, at rygende kvinder har en større risiko for at føde letvægtere end ikke-rygende kvinder (5.2% vs. 1.4%). 6

7 Angiv estimater med tilhørende konfidensgrænser for sammenligningen af sandsynlighederne for rygere vs. ikke-rygere, dels i form af differensen mellem sandsynlighederne og dels i form af relativ risiko (og evt. odds ratio). Kan der være op til en faktor 10 til forskel på de to sandsynligheder? Formuler også konklusionen i ord. Vi så allerede ovenfor på de estimerede sandsynligheder for at føde en letvægter, nemlig 5.2% for rygende kvinder og 1.4% for ikke-rygende kvinder. Det svarer til en forskel på 3.8%point. Det er vanskeligt at få SPSS til at give et konfidensinterval for denne forskel, men det kan lade sig gøre ved at benytte Analyze/Generalized Linear Models, vælge Type of Model som Custom, med Binomial som Distribution og Identity som Link Function, samt under fanen Response at vælge letvaegter samt under fanerne Predictors og Model at vælge ryger. Herved får vi 7

8 Vi ser altså en forskel på de to grupper på 3.81%point (hvilket vi nemt selv kunne have udregnet som ), men her får vi også konfidensintervallet, nemlig CI=(-0.5%, 8.1%). Bemærk, at CI og P-værdi her ikke passer helt sammen, fordi der er tale om en eksakt procedure sammenlignet med to forskellige approksimative. Det giver heller ikke helt det samme som SAS... Relativ risiko og odds ratio fås til gengæld direkte fra den sidste del af outputtet fra tabelanalysen: og vi aflæser, at den relative risiko for at føde en letvægter (for rygere vs. ikke-rygere) er Dette aflæses under den noget kryptiske overskrift For cohort letvaegter=1, og det vil altid være relativ risiko for 1. række vs. 2. række i tabellen, altså her rygere vs. ikke-rygere. Det betyder altså, at rygerne har ca. 3.7 gange større risiko for at føde en letvægter, sammenlignet med ikke-rygerne. Dette tal kunne vi selv have udregnet ganske simpelt som ratio en mellem de to frekvenser, = 3.73 (der er lidt med afrunding her), men konfidensgrænserne er lidt besværlige at udregne, så derfor fore trækkes udregningen via SPSS. Konfidensgrænserne ses at blive (1.07, 12.93), altså meget brede! Dette skyldes det lave antal letvægtere i materialet. Og ja, der kan altså godt tænkes at være en faktor 10 til forskel på sandsynlighederne for at føde en letvægter i de to 8

9 grupper. Hvis vi i stedet benytter odds ratio, får vi estimatet 0.259, som jo er helt anderledes. Det er fordi det vender omvendt, idet det refererer til letveagter=0, i den forstand at det angiver odds ratio for ikke at føde en letvægter, for rygende kontra ikke-rygende mødre. Dette er imidlertid (af symmetrigrunde) det samme som odds ratio for at føde en letvægter, for ikke-rygende kontra rygende mødre, så vi behøver bare at 1 udregne reciprok-værdier: = 3.86, med konfidensgrænser CI=( 1, 1 ) = (1.07, 13.89), altså næsten det samme som den relative risiko. Det skyldes, at fødsel af en letvægter er en sjælden begivenhed. 3. I stedet for at dikotomisere fødselsvægten i over eller under 2700 gram, ser vi nu igen på fødselsvægten som en kvantitativ størrelse: (a) Er der en sammenhæng mellem fødselslængde og fødselsvægt? Vi starter med et simpelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter, trækker vaegt over på Y-aksen, og laengde over på X-aksen: Da figuren ser rimelig lineær ud, fortsætter vi med at foretage en lineær regression af fødselsvægt, med fødselslængde som kovariat. Altså går vi ind i Analyze/Regression/Linear, og i boksen sætter vi vaegt som Dependent og længde som Independent(s) (et uheldigt navn til forklarende variable...). Vi skal også huske at gå ind i Statistics og afkrydse Parameter Estimates og Confidence intervals, hvorved vi får: 9

10 Det ses, at længde og vægt hænger tydeligt sammen (P = for test af hældning 0). Det var vi nu heller ikke rigtigt i tvivl om efter at have set tegningen ovenfor. Interceptet vil vi afstå fra at fortolke, idet det henviser til den forventede fødselsvægt for et barn på 0 cm. Modelkontroltegninger orker vi ikke på dette tidspunkt, da der er tale om en simpel lineær regression. Vi kan dog supplere med et scatter plot, hvor den estimerede linie samt konfidens- eller prediktionsgrænser er lagt ind oveni. For at gøre dette, dobbeltklikker man på scatterplottet, klikker på Add Fit Line at Total og derefter i Properties-boksen afkrydse Linear og Confidence Intervals/Mean eller Confidence Intervals/Individual. 10

11 Hvis man ikke vil have forstyrrende formler i sin tegning, kan man fjerne fluebenet i Attach label to line). Herved får man og plot af fittet med prediktionsgrænser ser også rigtigt fornuftigt ud: 11

12 (b) Hvad er den estimerede vægtforøgelse for hver cm forøgelse af længden? Denne aflæses direkte som hældningen i ovenstående analyse, dvs Det betyder, at for hver ekstra cm, barnet er langt, forventer vi, at det vejer g mere. Konfidensintervallet for denne størrelse er angivet som (148.1, 177.0) g. (c) Bestem et 95% prediktionsinterval for fødselsvægt for børn med en længde på 48 cm. Først vil vi estimere fødselsvægten for børn med længde 48 cm, blot ved at benytte estimaterne, som vi fik fra modellen ovenfor. Det giver = For også at få konfidensgrænser på (selv om det egentlig ikke er det, der spørges efter her), snyder vi SPSS til at tro, at dette 12

13 er interceptet, altså ved at flytte nulpunktet hen i 48 cm ved at benytte en ny X-variabel, der er længde minus 48. Vi definerer altså laengde48=laengde-48 ved at gå ind i Transform/Compute, og herefter gentages regressionen med denne nye X-variabel: Estimatet er altså på g, med konfidensgrænser (2792.8, ) g. Nu er det imidlertid ikke konfidensgrænserne, vi er interesserede i, men derimod et prediktionsinterval. Hertil skal vi bruge residualspredningen (spredningen omkring linien), som vi finder i det oprindelige regressionsoutput (spm. 3a) ovenfor under navnet Standard Error of the Estimate. Værdien er g, og vi danner derfor prediktionsintervallet ved at skrive ± = (2269.3, ) Vi bemærker, at det ser ret almindeligt ud for sådanne korte børn at have fødselsvægt under 2700 g. 4. Her skal vi fokusere på rygningens betydning for fødselsvægt. (a) Estimer vægtforskellen på børn født af rygende og ikke-rygende mødre. Husk konfidensinterval, og kommenter på bredden af dette. Inden vi går i gang med en egentlig sammenligning, skal vi lige se et Boxplot af vægtfordelingen i de to grupper. Hertil benytter vi Analyze/Descriptive Statistics/Explore, hvor vi sætter 13

14 vaegt i Dependent List, ryger i Factor List samt sætter hak i Plots: På dette boxplot ses en ganske beskeden forskel, idet rygernes børn synes at være lidt lettere end ikke-rygernes. For at se, om denne forskel kan tilskrives tilfældigheder, skal vi sammenligne to grupper (rygende vs. ikke-rygende) mht et kvantitativt outcome, nemlig fødselsvægten. Der er altså tale om et uparret T-test, som vi udfører i Analyze/Compare Means/Independent Samples T Test, hvor vi sætter vaegt i Testvariable(s) og ryger i Grouping Variable. Herefter går vi ind i Define groups for at fortælle, hvilken gruppe, der skal stå først, og dermed om forskellen skal udregnes den ene eller den anden vej: Herved får vi outputtet: 14

15 Vi ser af ovenstående, at børn af rygende mødre i gennemsnit er gram lettere end børn af ikke-rygende mødre, med CI=(4.88, 221.9) gram, samt at dette er signifikant (P=0.041, idet jeg bruger den højeste af de to P-værdier, fordi spredningerne ikke ser helt 15

16 ens ud). Der er tale om en ganske beskeden forskel, som i praksis vel må anses for ubetydelig, men signifikant på grund af den store sample size. (b) Kommenter på mulige forklaringer på den ovenfor fundne forskel (uden at lave analyser på dette tidspunkt), f.eks. om de rygende mødre kunne afvige i alder, i deres forbrug af kaffe, i gestationsalder ved fødsel, eller i andre henseender. Der kan selvfølgelig være mange forklaringer på denne tilsyneladende effekt af rygning, men vi har kun et begrænset udvalg af oplysninger i dette materiale. Man plejer at sige, at ældre mødre får tungere børn, så hvis der er forskel på alderen for rygere og ikke-rygere (således at rygerne er yngst), kunne dette tænkes at spille ind. Det kunne naturligvis også være rygningen i sig selv, der bevirkede, at børnene blev mindre, og i så fald kunne det virke gennem forskellige mekanismer: Børnene blev født for tidligt (uge) Børnere blev generelt mindre, altså også kortere (length) Børnene var tyndere (dette kommer vi tilbage til i spørgsmål 5) Vi ser nærmere på nogle af disse muligheder ved at lave en serie af sammenligninger i form af Box plots og uparrede T-tests, ganske som vi ovenfor gjorde for fødselsvægten: 16

17 17

18 Af disse sammenligninger kan vi se, at rygerne faktisk ser ud til at være lidt yngre end ikke-rygerne (mindre end et år, men signifikant med P=0.044), at de ikke føder tidligere (bemærk dog, at materialet er selekteret på gestationsalder, så det er ikke en valid konklusion) samt at de føder kortere børn (en halv centimeter kortere, som ud fra vores analyse i spørgsmål 3b svarer til ca g, P=0.018). Vi skal se nærmere på gestationsalderen i spørgsmål 4d, på længden i spørgsmål 5, men vil ikke kommentere yderligere på aldersforskellen. (c) Hvor godt kan vi forudsige fødselsvægten for det enkelte barn, udelukkende baseret på om moderen er ryger eller ej? Her kan man evt sammenligne med prediktionsintervallet fra spørgsmål 3c. Det er prediktionsgrænser, vi skal udregne her, eller rettere: normalområder for hver ryger-gruppe for sig. Fra T-testet ovenfor (spm. 4a) har vi fået gennemsnit og spredninger, så vi udregner prediktionsintervallerne: Rygere: ± = (2486.1, ) Ikke-rygere: ± = (2700.3, ) 18

19 Nøjagtigheden er altså en anelse bedre for ikke-rygerne... Det er ikke umiddelbart fornuftigt at sammenligne til prediktionsområdet fra spørgsmål 3c, idet vi her så på børn med en fødselslængde på 48cm, hvilket jo ikke er ret meget. Men vi kan sammenligne bredden af intervallerne ved at sammenligne SD erne, og her havde vi i spørgsmål 3c en SD på 316.8, altså en del mindre end de to, vi fandt ovenfor. Dette skyldes, at vi i spørgsmål 3c har den meget vigtige prediktor laengde med som kovariat i stedet for rygning, og dette vil naturligvis formindske residualspredningen. (d) Undersøg om effekten af rygning på fødselsvægt skyldes, at rygerne føder tidligere end ikke-rygerne, dvs: Sammenlign fødselsvægten blandt børn af rygere og ikke-rygere, født i samme terminsuge. Når vi skal sammenligne børn født i samme terminsuge, må vi holde denne fast, dvs. vi må inkludere terminsuge som kovariat i modellen. Først ser vi på en figur til at illustrere dette, Vi starter med et opdelt scatter plot, så vi går ind i Graph/Chart Builder/Scatter, vælger det opdelte plot, trækker vaegt over på Y-aksen, og uge over på X-aksen, samt ryger i Set color as. Når figuren kommer frem, dobbeltklikker vi på den og klikker på ikonet Add Fit Line at Subgroups, hvorved vi får: 19

20 Disse linier er lagt ind for hver gruppe for sig, så det er fuldstændigt tilfældigt, at de ser så parallelle ud. På baggrund af figuren vil vi tillade os at antage, at effekten af hver ekstra uge er en konstant ekstra tilvækst i vægt, (altså en lineær effekt, hvilket dog vil blive kontrolleret nedenfor). Vi indsætter derfor blot uge som en kvantitativ kovariat (uden interaktion med ryger - svarende til parallelle linier), og vurderer så ryger-effekten i denne ANCOVAmodel. Dette gøres i General Linear Model/Univariate, hvor man sætter vaegt ind som Dependent Variable, ryger som Fixed Factor og uge som Covariate(s), hvorefter man går ind i Model og sætter ryger og uge over i Model, uden interaktion, dvs. ved under Type at ændre til Main Effects. Desuden går man ind i Options og afkrydser det ønskede, hvilket altid vil være Parameter Estimates (som automatisk også medfører konfidensgrænser) og muligvis også Residual Plot (som dog bliver så grimt, at man bør foretrække en anden løsning, se nedenfor). Herved får vi: 20

21 Vi ser, at såvel rygning som gestationsalder er signifikante prediktorer for fødselsvægten. Modelkontrollen kan vi udføre ved at benytte Save-knappen og afkrydse Residuals og Predicted values (samt Cook-størrelserne), hvorefter disse vil være at finde i datasættet og kan benyttes til diverse figurer. Først ser vi på et plot af residualer mod predikterede værdier for at checke varianshomogeniteten: 21

22 Her synes man måske, at der er en vis tendens til trompetfacon, men man skal lige huske på, at der er ret få observationer ude til venstre (fordi kun få børn fødes i de første uger), og derfor synes spredningen heller ikke så stor her. Herefter ser vi på et plot af residualer mod den kvantitative forklarende variabel uge for at checke linearitetsantagelsen, så her ser vi efter buer: Da de indlagte udglattede kurver absolut ikke viser tegn på buer, vil vi stille os tilfreds med lineariteten. Endelig ser vi på et fraktildiagram af residualerne for at checke normalfordelingsantagelsen: 22

23 og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi ikke ser nogen problemer med modellen. For en ordens skyld ser vi også lige på, om der skulle være nogle indflydelsesrige observationer, og til dette benytter vi et plot af Cook-størrelserne, som vi gemte ovenfor: Heller ikke her ses nogen grund til bekymring. Angiv et estimat for forskellen og sammenlign med det tilsvarende estimat i spørgsmål 4a. Forskellen på rygere og ikke-rygere har kun ændret sig en anelse i forhold til det tidligere resultat fra spørgsmål 4a, og det kunne vi godt have forudset, da vi tidligere har set, at de to grupper føder i stort set samme gestationsuge. Der er 23

24 altså ikke stor confounding mellem gestationsalder og rygning. Vi estimerer således nu rygere til at føde børn, der i gennemsnit er gram lettere end ikke-rygere, mod g i spørgsmål 4a. Konfidensintervallet her er CI=(19.2, 212.8) gram, hvilket er en anelse smallere end de (4.88, 221.9), som vi fandt i spørgsmål 4a, og dette skyldes, at vi trods alt har elimineret noget af residualvariationen ved at introducere gestationsalderen som kovariat. Husk at argumentere for, hvordan effekten af terminsuge modelleres, og udfør passende modelkontrol. Vi har allerede set på modelkontroltegningen ovenfor (residualer mod uge), at lineariteten var OK, men for en ordens skyld ser vi her på to ekstra numeriske tests for denne linearitet. Til den første af disse skal vi bruge en kopi af gestationsalderen, som vi bare kan definere som (ga=uge). Hermed kan vi opdele i de enkelte gestationsuger: og hvis vi indsætter denne ga som Factor i modellen, sammen med uge, kan vi få et test for lineariteten (med 4 frihedsgrader): 24

25 Vi ser ovenfor, at når vi tager højde for den lineære effekt af gestationsalder (variablen uge), så er det ikke nødvendigt at medtage ga også, hvilket betyder, at der ikke ses afvigelse fra linearitet (P=0.67). Testet er dog ret svagt, da det er på 4 frihedsgrader, og vi kunne i stedet forsøge at se, om en kvadratisk effekt ville beskrive sammenhængen bedre. Til dette formål definerede vi allerede ved indlæsningen en ekstra variabel kvadratled=(uge-40)**2 og denne indsætter vi nedenfor som ekstra kovariat, hvorved vi får et test for linearitet baseret på kun en enkelt frihedsgrad: 25

26 Heller ikke i denne model findes nogen tegn på afvigelse fra linearitet (P=0.38), så vi stiller os tilfreds med modellen anvendt i spørgsmål 4d. I øvrigt er estimaterne for effekten af rygning i de to ovenstående modeller temmelig sammenfaldende med det, vi fandt ovenfor, nemlig hhv (21.4, 216.4) og (20.1, 213.7). (e) Hvad er estimatet for fødselsvægten for et barn med en rygende mor, født i terminsuge 39? Baseret på estimaterne fra vores model, finder vi estimatet: = og for at få konfidensgrænser på, benytter vi igen tricket med at flytte Y-aksen hen i terminsuge 39 ved at benytte kovariaten uge39=uge-39 i stedet for selve uge. Da variablen ryger som sidste niveau har nej, vil dette blive referencen, så for at få estimatet for rygerne, er vi nødt til at omdefinere denne variabel, f.eks. til ryger_num=(ryger="ja"), som bliver et 0/1-variabel, med 1-tallet (svarende til rygere) som reference). Så får vi outputtet: 26

27 dvs. med et estimat, som her angives til gram, med CI=(3295.5, ) gram. Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Her skal vi igen have udregnet prediktionsgrænserne. Disse får ved at lægge ±2s til estimatet, og da vores spredningsestimat er s = = ses under Mean Square Error i outputtet fra spørgsmål 4d, det med de 397 frihedsgrader. Vores estimat (som normalt hedder Standard Error of the Estimate i SPSS er altså på gram, og ud fra dette kan vi udregne et prediktionsinterval: ± = (2491.4, ) Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder i uge 39? Ud fra prediktionsintervallet ovenfor kan vi sige, at 2700 gram ikke er særligt usædvanligt for sådanne børn. (f) Er der tegn på, at effekten af rygning afhænger af gestationsalderen ved fødslen? 27

28 Her spørges der om, hvorvidt effekten af den ene kovariat afhænger af, hvad den anden er, altså en interaktion. Vi indsætter derfor et interaktionsled (ryger*uge) i den lineære ANCOVA-model fra spørgsmål 4d, og finder så Med en P-værdi på 0.97 ser det bestemt ikke ud som om effekten af rygning afhænger af gestationsuge ved fødslen. Det kunne vi også allerede se af figuren med de to linier (fra spm. 4d), der så virkelig parallelle ud. Bemærk, at man i ovenstående model udelukkende kan fortolke det, der har med interaktionsleddet at gøre, idet estimatet for selve rygnings-variablen henviser til en gestationsuge på 0! 5. Udvid nu slutmodellen fra spørgsmål 4 med en ekstra kovariat, nemlig længden af den nyfødte: (a) Overvej, hvordan denne ekstra kovariat ændrer fortolkningen af rygningseffekten. Ved at inkludere fødsleslængden i modellen også, kommer vi til at sammenligne børn af rygende mødre med tilsvarende børn af ikke- 28

29 rygende mødre, hvor ordet tilsvarende dækker over børn født med samme gestationsalder og med samme fødselslængde. Det betyder, at det reelt set ikke mere er vægten, vi sammenligner, men vægten i forhold til højden, altså en form for tykkelse, eller fedme, om man vil. Og det er jo noget helt andet. Hvis børn af rygende mødre vejer mindre, fordi de er kortere, så kunne man forestille sig, at børnene ikke afveg fra hinanden forsåvidt angår tykkelsen. Det er altså det, vi ser på nedenfor. (b) Giv et estimat for forskellen i fødselsvægt blandt børn af rygere og ikke-rygere i denne model, og formuler konklusionen i ord, idet I også sammenligner med spørgsmål 4a og 4d. Vi kører altså nu en udvidet model, med en kategorisk kovariat (ryger) og to kvantitative (uge og laengde), så vi går igen ind i General Linear Model/Univariate, hvor vi yderligere indsætter laengde under Covariate(s), hvorefter vi går ind i Model og sørger for, at alle 3 kovariater står i Model, uden interaktion. Herved får vi outputtet: 29

30 Vi finder her effekten af rygning til 21.1 g, CI=(-47.8, 90.0) gram, i modsætning til de tidligere resultater: 4a: (4.88, 221.9) 4d: (19.2, 212.8) I denne model bliver effekten af rygning estimeret til at være væsentlig mindre, og ikke længere signifikant, og vi kan heraf slutte, at fødselslængden er en såkaldt mediator (en medierende effekt) af rygning på fødselsvægten. (c) Hvad er estimatet for fødselsvægten for børn af en rygende mor, født i terminsuge 39 med en fødselslængde på 48 cm? Igen starter vi med at benytte modellen direkte: = og herefter bruger vi tricket med at flytte Y-aksen hen i terminsuge 39 og længde 48 cm ved at benytte kovariaten uge39=uge-39 og desuden benytter vi variablen laengde48=laengde-48 i stedet for laengde samt den nye rygervariabel ryger_num=(ryger="ja") (som vi definerede ovenfor). Så får vi outputtet: 30

31 Estimatet for fødselsvægten for 48 cm lange børn af rygende mødre, der er født i uge 39 er altså g, med CI=(2766.8, ) Hvor stor spredning er der på fødselsvægten blandt børn af denne type? Under Mean Square Error i outputtet ovenfor (nu kun med 396 frihedsgrader, fordi vi har endnu en kovariat med i modellen) finder vi vores spredningsestimat til s = = gram. Er det usædvanligt at se en fødselsvægt på under 2700 gram for rygende mødre, der føder et 48 cm langt barn i uge 39? Vi udregner prediktionsintervallet: ± = (2218.9, ) og finder således, at det ikke er særligt usædvanligt med en fødselsvægt på kun 2700 gram. Men det er jo også ret korte børn, vi snakker om her. Sammenlign svarene på de ovenstående spørgsmål med de tilsvarende i spørgsmål 4e. 31

32 I spørgsmål 4e betingede vi ikke med en så kort fødselslængde, og derfor kan det ikke undre, at vi der fik et langt højere estimat, nemlig gram, med prediktionsinterval: ± = (2491.4, )g Denne model er så kompliceret (specielt på grund af de 2 kvantitative kovariater), at modelkontrol her en endnu mere påkrævet end for de tidligere modeller. Vi benytter som før Save-knappen og afkrydser Residuals, Predicted values samt Cook-størrelserne, hvorefter disse vil være at finde i datasættet og kan benyttes til diverse figurer. Først ser vi på et plot af residualer mod predikterede værdier for at checke varianshomogeniteten: Her synes der ikke at være nogensomhelst strukturer, der kunne give anledning til bekymring. Herefter ser vi på et plot af residualer mod de to kvantitative forklarende variable, uge og laengde for at checke linearitetsantagelsen, så her ser vi efter buer: 32

33 Da de indlagte udglattede kurver absolut ikke viser tegn på buer, vil vi stille os tilfreds med lineariteten. Endelig ser vi på et fraktildiagram af residualerne for at checke normalfordelingsantagelsen: og da dette ser rigtigt nydeligt ud, må vi konkludere, at vi 33

34 ikke ser nogen problemer med modellen. For en ordens skyld ser vi også lige på, om der skulle være nogle indflydelsesrige observationer, og til dette benytter vi et plot af Cook-størrelserne, som vi gemte ovenfor: Heller ikke her ses nogen grund til bekymring. Det ses, at længden er af altafgørende betydning for fødselsvægten, medens gestationsuge og moderens rygning spiller en mindre rolle. Men selv om længden altså må siges at være en god prediktor for fødselsvægten, er den næppe så interessant som prediktor, når barnet først er født... Reference: Olsen et.al.(2001): The Danish National Birth Cohort - its background, structure and aim. Scand. J. Public Health 29, (2001). 34

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018 Faculty of Health Sciences Basal Statistik Overlevelsesanalyse Lene Theil Skovgaard 12. marts 2018 1 / 12 APPENDIX vedr. SPSS svarende til diverse slides: Kaplan-Meier kurver, s. 3 Kumulerede incidenser

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Wright For 17 patienter er der målt peak expiratory flow rate (maksimal udåndingshastighed, i l/min) på to forskellige måder, dels ved at anvende

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Introduktion til SPSS

Introduktion til SPSS Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger

Læs mere

Øvelser til basalkursus, 2. uge

Øvelser til basalkursus, 2. uge Øvelser til basalkursus, 2. uge Opgave 1 Vi betragter igen Sundby95-materialet, og skal nu forbedre nogle af de ting, vi gjorde sidste gang. 1. Gå ind i ANALYST vha. Solutions/Analysis/Analyst. 2. Filen

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

SPSS introduktion Om at komme igang 1

SPSS introduktion Om at komme igang 1 SPSS introduktion Om at komme igang 1 af Henrik Lolle, oktober 2003 Indhold Indledning 1 Indgang til SPSS 2 Frekvenstabeller 3 Deskriptive statistikker gennemsnit, standardafvigelse, median osv. 4 Søjlediagrammer

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere