Longitudinale data. eller gentagne målinger. Helle Sørensen, Statistik, KU-LIFE. Anvendt Statistik, 5. marts 2008

Relaterede dokumenter
Program. Longitudinale data. Vægtudvikling af geder. Individuelle profiler og gennemsnitsprofiler

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Introduktion til GLIMMIX

Tema. Dagens tema: Indfør centrale statistiske begreber.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Lineær og logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Module 4: Ensidig variansanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Forelæsning 11: Kapitel 11: Regressionsanalyse

Eksamen i Statistik for biokemikere. Blok

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Løsning til eksaminen d. 14. december 2009

Basal Statistik - SPSS

Basal Statistik - SPSS

Kapitel 11 Lineær regression

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Forsøgsplanlægning Stikprøvestørrelse

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Reeksamen i Statistik for Biokemikere 6. april 2009

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Hvorfor bøvle med MIXED

Uge 13 referat hold 4

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Statistik for Biokemikere Projekt

Løsning eksamen d. 15. december 2008

Statistisk modellering og regressionsanalyse

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Module 3: Statistiske modeller

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Løsning til opgave i logistisk regression

Kvantitative metoder 2

Multipel Lineær Regression

Logistisk regression

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Normalfordelingen og Stikprøvefordelinger

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Estimation og konfidensintervaller

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Modul 6: Regression og kalibrering

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Modelkontrol i Faktor Modeller

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kvantitative metoder 2

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Modul 12: Regression og korrelation

2 Opgave i hierarkiske normalfordelingsmodeller

Noter til Specialkursus i videregående statistik

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Statistik Lektion 4. Variansanalyse Modelkontrol

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Løsning til eksaminen d. 29. maj 2009

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistiske principper

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Hjemmeopgave, efterår 2009

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Transkript:

Longitudinale data eller gentagne målinger Helle Sørensen, Statistik, KU-LIFE Anvendt Statistik, 5. marts 2008 Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 1 / 20

Dagens dataeksempler To datasæt: Vækst af geder i Afrika enkel struktur (men desværre få målinger per individ) tegninger analyser af afledte størrelser model med tilfældige effekter seriel korrelation Effekt af nikotin og koffein på mæthedsfornemmelse cross-over design: noget mere kompliceret design model og så meget analyse som vi nu kan nå... Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 2 / 20

Vækst af geder: data Forsøget: 28 geder, syv i hver af fire behandlingsgrupper Gederne vejet ved forsøgets start samt efter 26, 45, 61, 91 dage Alle geder fik hø og majs, gruppe 1, 2 og 3 desuden blade fra forskellige vildtvoksende træer, gruppe 4 solsikkekerner (kontrol). Interesseret i effekten af fodertype på væksten Kort serie, kunne naturligvis være længere. Tegn altid data, fx. tilvækster fra dag 0: Individuelle profiler (en per ged) Gennemsnitsprofiler (en per behandling) Hvis tidsækvidistante obs. er interaction.plot meget nyttig. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 3 / 20

Individuelle profiler og gennemsnitsprofiler indiv. profiles average profiles weight w0 1 0 1 2 3 Average increment 1.0 0.5 0.0 0.5 1.0 1.5 2.0 0 20 40 60 80 day 0 20 40 60 80 day Betydelig variation fra ged til ged (ikke overraskende), også fra start. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 4 / 20

Longitudinale data/gentagne målinger Der er målt flere gange på hvert individ gentagne målinger eller longitudinale data. For gededata er formålet at kunne beskrive forløb over tid. Skal tage højde for korrelation mellem observationer fra samme individ i analysen Dagens dataeksempler er begge fra eksperimenter, designede forsøg. I samfundsvidenskab findes mange observationelle longitudinale studier, hvor man følger de samme individer over tid paneldata. Fx. findes store household panels hvor man registrerer arbejdsløshed, indkomst, forbrug og... på husholdningsniveau. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 5 / 20

Longitudinale data/gentagne målinger (2) Kan skelne ændringer over tid indenfor individer og forskelle mellem gruppe af individer: alders- og kohorteefekter. Eksempel: Alder og læsning (Diggle side 2). Gentagelserne behøver ikke være over tid: målinger i flere jorddybder eller forskellige steder på tarmen eller... Tidsrækker vs. longitudinale data: Tidsrækker: en lang observationsserie (ingen gentagelser) Longitudinale data: flere kortere observationsserier Referencer: Diggle, Liang, Zeger: Analysis of Longitudinal Data, 1994 Weiss: Modeling Longitudinal Data, 2005 Pinheiro and Bates: Mixed-Effects Models in S and S-plus, 2000 Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 6 / 20

Analyse af afledte variable Simpel analyse: Reducér for hver ged profilen til én observation 28 uafhængige observationer alm. lineær model Simpel, ikke-forkert, robust analyse men udnytter ikke alle data. Det vanskelige er at finde en god, relevant variabel at analysere. Gededata: Forslag til afledte variable? Model? Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 7 / 20

Analyse af tilvækster fra dag 0 til 91 Model for tilvækster, Y = w 91 w 0 : Resultater: Y i = α(feed i ) + βw 0,i + e i, e i iid. N(0, σ 2 ) Klart signifikant effect af fodertypen (p < 0.0001) Fodertype 1 og 3 giver størst vækst (ikke signifikant forskellige), efterfulgt af 2, mens 4 giver mindst vækst Fodertype 4 giver negativ vækst for alle relevante værdier af w 0 Forventet vækst for ged med startvægt på 13 kg: 1.79, 0.87, 1.89 hhv. -0.64 kg. Husk at lave modelkontrol... Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 8 / 20

Model for (næsten) alle data Flere forskellige rimelige modeller at bruge... Vælger at bruge startvægten som baselinemålinger, dvs. som forklarende variabel i modellen. Altså betinget analyse givet startvægten. Kun vægte fra dag 26, 45, 61, 91 som responser. Lader faktoren goat indgå som tilfældig effekt: Hvis systematisk: en middelværdiparameter (et niveau) for hver ged Når goat tilfældig: et tilfældigt N-fordelt niveau for hver ged Ikke interesseret i netop disse 28 geder, tænker på gederne som tilfældigt udvalgt fra en population Genererer korrelation mellem obs. fra samme ged Kan teste for effekt af foder selvom der er effekt af ged Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 9 / 20

Model for (næsten) alle data (2) Koordinatvis: Y i = γ(feed day i ) + βw 0,i + u(goat i ) + e i hvor u(1),..., u(28) N(0, ν 2 ), e i N(0, σ 2 ), alle uafhængige. På matrixform: Y = X β + Zu + e hvor X og Z er designmatricer, Var u = ν 2 g I 28, Var e = σ 2 I 112. Variansmatricen for Y er en blok-diagonal matrix, svarende til at obs. fra forskellige geder er uafhængige. VarY i = ν 2 + σ 2 og Cov(Y i, Y j ) = ν 2 for to forskellige obs. i og j fra samme ged. Modellen kaldes ofte compound symmetry eller random intercepts. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 10 / 20

Estimation og test R: lme fra nlme-pakken eller lmer fra lme4-pakken lmer er mest trendy visse funktioner, fx. estimable kun implementeret for lme Estimation, ML vs. REML: Foretrækker generelt REML-estimaterne... men ved LR-test i middelværdistruktur skal ML bruges! Test af middelværdistrukturen: for visse hypoteser kan vi lave eksakte F -test... men ikke for alle hypoteser lav derimod likelihood ratio test, dvs. fit model under og udenfor hypotese med ML og sammenlign med χ 2 -fordeling kan lave simulationsbaserede p-værdier hvis der er usikkerhed om χ 2 approksimationen Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 11 / 20

Resultater Modelkontrol gav ikke grund til bekymring Klart signifikant vekselvirkning ml. dag og foder (p < 0.0001) Lineær relation mellem dag og vægt mellem dag 26 og 91 kan ikke afvises (p = 0.66) Klart signifikant forskellige hældninger (p < 0.0001) og intercepts (p = 0.0047) Ingen påviselig forskel på fodertyper 1 og 3 (prøv selv!) Figur: forventede profiler for w 0 = 13. Fodertype 1 og 3 giver størst vækst, derefter 2 og endelig 4 der giver negativ vækst. Præcis som for analyse af tilvækst! Varianskomponenter: ˆν = 0.413 og ˆσ = 0.252 svarende til korrelation på 0.73 mellem obs. fra samme ged. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 12 / 20

Forventet vægt for ged med startvægt på 13 kg expected weight if w0=13 expected weight 12.0 12.5 13.0 13.5 14.0 14.5 15.0 30 40 50 60 70 80 90 day NB. Prædiktionen dur ikke alt for tæt på 0, pga. baseline Alternativ model: tilfældig skæring og tilfældig hældning Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 13 / 20

Korrelationsstrukturer Modellen fra før tog højde for variation mellem individer (u) og variation indenfor individer (e). Samme korrelation for alle par af observationer fra samme individ uanset tidsforskellen mellem dem. Ikke nødvendigvis rimeligt: mådke mere rimeligt at antage at tætte obs. ligner hinanden mere end fjerne obs. Mere relevant ved længere observationsrækker. Forskellige korrelationsstrukturer dvs. ikke længere Var e = σ 2 I. Unstructured: Corr(Y i, Y j ) = ρ ti t j ingen restriktioner Diverse parametriske modeller: Corr(Y i, Y j ) = ρ(t i t j ) Compound symmetry fra før: Corr(Y i, Y j ) = ρ ens for alle i, j Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 14 / 20

Korrelationsstrukturer (2) Eksempel, Diggle-modellen : Var(Y i ) = ν 2 + σ 2 + τ 2 Cov(Y i, Y j ) = 0 hvis i og j fra forskellige geder Cov(Y i, Y j ) = ν 2 + σ 2 exp( (t i t j ) 2 /φ), fra samme ged, men i j Svarende til tre variationskilder : individer, seriel korrelation, målefejl. Modelkontrol: variogram, sammenligning af empirisk og modelbaseret korrelationsstruktur, eller rettere af 1 Corr(Y i, Y j u). Diggle-modellen er blot en blandt mange modeller med seriel korrelation! R har mindst 10, SAS vist cirka 30. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 15 / 20

Korrelationsstrukturer (3) Sammenligning af forskellige korrelationsstrukturer: Hvis modellerne er nestede så kan vi i princippet udføre test, men fordeling af LR er ofte ikke χ 2 -fordelt Hvis modellerne ikke er nestede benyttes ofte informationskriteriet AIC = 2 log L + 2 antal parametre i modellen. Straf for at bruge mange parametre, smaller is better Alternativ: fit unstructured model og se om der et mønster. Fornemmelse: vigtigt at tage højde for seriel korrelation hvis den er der, men nok mindre vigtigt præcis hvilken model der bruges Gededata: Diggle-modellen har lavest AIC, men næppe meget vigtigt for denne korte serie. Prøv selv at se om det gør en forskel for resultaterne. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 16 / 20

Mæthedsdata A. Jessen, B. Buemann, S. Toubro, I.M. Skovgaard, A. Astrup (2005), Diabetes, Obesity and Metabolism 7, 327 333. Forsøg udført på Institut for Human Ernæring, KVL. 12 personer har på 7 forsk. dage fået hver af 7 forsk. behandlinger. Indtagelse af tyggegummi, derfter er mæthedsfornemmelse vurderet hvert kvarter i 2.5 time, i alt 10 gange. Mæthedsfornemmelsen også vurderet før tygning (baseline) Mæthed vurderet på skala fra 0 (slet ikke mæt) til 100 (meget mæt). De syv behandlinger er kombinationer af koeffein (0,1,2) og nikotin (0,1,2); 2 dobbelt så meget som 1. Spørgsmålet er om nikotin og koffein påvirker mæthedsfornemmelsen. Cross-over forsøg: hver person er sin egen kontrol. Tegn data! Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 17 / 20

Model Middelværdien: Nikotin, koffein og vekselvirkning (ikke alle kombinationer) Baseline visit.no, men det glemte jeg... (prøv selv!) Tilfældige variation: Person Måleserie, dvs. person behandling eller person visit.no Seriel korrelation på observationer fra samme måleserie! Bemærk: Nødvendigt at transformere data, bruger kvadratrod Unstructured model vil ikke køre i R, Diggle ser fornuftig ud En person (71078) bruger skalaen helt anderledes end de andre Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 18 / 20

Resultater Ikke signifikant vekselvirkning mellem tid og behandling (p = 0.30), eller mellem nikotin og koffein (p = 0.67). Ikke signifikant effekt af koffein (p = 0.50) Svagt signifikant effekt af nikotin (p = 0.037) VAS øges med 0.065 ved nikotin 1 og 0.65 ved nikotin 2, sammenlignet med nikotin 0. Tegn de forventede profiler, fx. for person med baseline 35 (gns.) Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 19 / 20

Forventet VAS ved baseline på 35 expected VAS 20 25 30 35 20 40 60 80 100 120 140 time Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 20 / 20