Longitudinale data. eller gentagne målinger. Helle Sørensen, Statistik, KU-LIFE. Anvendt Statistik, 5. marts 2008

Transkript

1 Longitudinale data eller gentagne målinger Helle Sørensen, Statistik, KU-LIFE Anvendt Statistik, 5. marts 2008 Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 1 / 20

2 Dagens dataeksempler To datasæt: Vækst af geder i Afrika enkel struktur (men desværre få målinger per individ) tegninger analyser af afledte størrelser model med tilfældige effekter seriel korrelation Effekt af nikotin og koffein på mæthedsfornemmelse cross-over design: noget mere kompliceret design model og så meget analyse som vi nu kan nå... Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 2 / 20

3 Vækst af geder: data Forsøget: 28 geder, syv i hver af fire behandlingsgrupper Gederne vejet ved forsøgets start samt efter 26, 45, 61, 91 dage Alle geder fik hø og majs, gruppe 1, 2 og 3 desuden blade fra forskellige vildtvoksende træer, gruppe 4 solsikkekerner (kontrol). Interesseret i effekten af fodertype på væksten Kort serie, kunne naturligvis være længere. Tegn altid data, fx. tilvækster fra dag 0: Individuelle profiler (en per ged) Gennemsnitsprofiler (en per behandling) Hvis tidsækvidistante obs. er interaction.plot meget nyttig. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 3 / 20

4 Individuelle profiler og gennemsnitsprofiler indiv. profiles average profiles weight w Average increment day day Betydelig variation fra ged til ged (ikke overraskende), også fra start. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 4 / 20

5 Longitudinale data/gentagne målinger Der er målt flere gange på hvert individ gentagne målinger eller longitudinale data. For gededata er formålet at kunne beskrive forløb over tid. Skal tage højde for korrelation mellem observationer fra samme individ i analysen Dagens dataeksempler er begge fra eksperimenter, designede forsøg. I samfundsvidenskab findes mange observationelle longitudinale studier, hvor man følger de samme individer over tid paneldata. Fx. findes store household panels hvor man registrerer arbejdsløshed, indkomst, forbrug og... på husholdningsniveau. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 5 / 20

6 Longitudinale data/gentagne målinger (2) Kan skelne ændringer over tid indenfor individer og forskelle mellem gruppe af individer: alders- og kohorteefekter. Eksempel: Alder og læsning (Diggle side 2). Gentagelserne behøver ikke være over tid: målinger i flere jorddybder eller forskellige steder på tarmen eller... Tidsrækker vs. longitudinale data: Tidsrækker: en lang observationsserie (ingen gentagelser) Longitudinale data: flere kortere observationsserier Referencer: Diggle, Liang, Zeger: Analysis of Longitudinal Data, 1994 Weiss: Modeling Longitudinal Data, 2005 Pinheiro and Bates: Mixed-Effects Models in S and S-plus, 2000 Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 6 / 20

7 Analyse af afledte variable Simpel analyse: Reducér for hver ged profilen til én observation 28 uafhængige observationer alm. lineær model Simpel, ikke-forkert, robust analyse men udnytter ikke alle data. Det vanskelige er at finde en god, relevant variabel at analysere. Gededata: Forslag til afledte variable? Model? Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 7 / 20

8 Analyse af tilvækster fra dag 0 til 91 Model for tilvækster, Y = w 91 w 0 : Resultater: Y i = α(feed i ) + βw 0,i + e i, e i iid. N(0, σ 2 ) Klart signifikant effect af fodertypen (p < ) Fodertype 1 og 3 giver størst vækst (ikke signifikant forskellige), efterfulgt af 2, mens 4 giver mindst vækst Fodertype 4 giver negativ vækst for alle relevante værdier af w 0 Forventet vækst for ged med startvægt på 13 kg: 1.79, 0.87, 1.89 hhv kg. Husk at lave modelkontrol... Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 8 / 20

9 Model for (næsten) alle data Flere forskellige rimelige modeller at bruge... Vælger at bruge startvægten som baselinemålinger, dvs. som forklarende variabel i modellen. Altså betinget analyse givet startvægten. Kun vægte fra dag 26, 45, 61, 91 som responser. Lader faktoren goat indgå som tilfældig effekt: Hvis systematisk: en middelværdiparameter (et niveau) for hver ged Når goat tilfældig: et tilfældigt N-fordelt niveau for hver ged Ikke interesseret i netop disse 28 geder, tænker på gederne som tilfældigt udvalgt fra en population Genererer korrelation mellem obs. fra samme ged Kan teste for effekt af foder selvom der er effekt af ged Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 9 / 20

10 Model for (næsten) alle data (2) Koordinatvis: Y i = γ(feed day i ) + βw 0,i + u(goat i ) + e i hvor u(1),..., u(28) N(0, ν 2 ), e i N(0, σ 2 ), alle uafhængige. På matrixform: Y = X β + Zu + e hvor X og Z er designmatricer, Var u = ν 2 g I 28, Var e = σ 2 I 112. Variansmatricen for Y er en blok-diagonal matrix, svarende til at obs. fra forskellige geder er uafhængige. VarY i = ν 2 + σ 2 og Cov(Y i, Y j ) = ν 2 for to forskellige obs. i og j fra samme ged. Modellen kaldes ofte compound symmetry eller random intercepts. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 10 / 20

11 Estimation og test R: lme fra nlme-pakken eller lmer fra lme4-pakken lmer er mest trendy visse funktioner, fx. estimable kun implementeret for lme Estimation, ML vs. REML: Foretrækker generelt REML-estimaterne... men ved LR-test i middelværdistruktur skal ML bruges! Test af middelværdistrukturen: for visse hypoteser kan vi lave eksakte F -test... men ikke for alle hypoteser lav derimod likelihood ratio test, dvs. fit model under og udenfor hypotese med ML og sammenlign med χ 2 -fordeling kan lave simulationsbaserede p-værdier hvis der er usikkerhed om χ 2 approksimationen Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 11 / 20

12 Resultater Modelkontrol gav ikke grund til bekymring Klart signifikant vekselvirkning ml. dag og foder (p < ) Lineær relation mellem dag og vægt mellem dag 26 og 91 kan ikke afvises (p = 0.66) Klart signifikant forskellige hældninger (p < ) og intercepts (p = ) Ingen påviselig forskel på fodertyper 1 og 3 (prøv selv!) Figur: forventede profiler for w 0 = 13. Fodertype 1 og 3 giver størst vækst, derefter 2 og endelig 4 der giver negativ vækst. Præcis som for analyse af tilvækst! Varianskomponenter: ˆν = og ˆσ = svarende til korrelation på 0.73 mellem obs. fra samme ged. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 12 / 20

13 Forventet vægt for ged med startvægt på 13 kg expected weight if w0=13 expected weight day NB. Prædiktionen dur ikke alt for tæt på 0, pga. baseline Alternativ model: tilfældig skæring og tilfældig hældning Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 13 / 20

14 Korrelationsstrukturer Modellen fra før tog højde for variation mellem individer (u) og variation indenfor individer (e). Samme korrelation for alle par af observationer fra samme individ uanset tidsforskellen mellem dem. Ikke nødvendigvis rimeligt: mådke mere rimeligt at antage at tætte obs. ligner hinanden mere end fjerne obs. Mere relevant ved længere observationsrækker. Forskellige korrelationsstrukturer dvs. ikke længere Var e = σ 2 I. Unstructured: Corr(Y i, Y j ) = ρ ti t j ingen restriktioner Diverse parametriske modeller: Corr(Y i, Y j ) = ρ(t i t j ) Compound symmetry fra før: Corr(Y i, Y j ) = ρ ens for alle i, j Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 14 / 20

15 Korrelationsstrukturer (2) Eksempel, Diggle-modellen : Var(Y i ) = ν 2 + σ 2 + τ 2 Cov(Y i, Y j ) = 0 hvis i og j fra forskellige geder Cov(Y i, Y j ) = ν 2 + σ 2 exp( (t i t j ) 2 /φ), fra samme ged, men i j Svarende til tre variationskilder : individer, seriel korrelation, målefejl. Modelkontrol: variogram, sammenligning af empirisk og modelbaseret korrelationsstruktur, eller rettere af 1 Corr(Y i, Y j u). Diggle-modellen er blot en blandt mange modeller med seriel korrelation! R har mindst 10, SAS vist cirka 30. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 15 / 20

16 Korrelationsstrukturer (3) Sammenligning af forskellige korrelationsstrukturer: Hvis modellerne er nestede så kan vi i princippet udføre test, men fordeling af LR er ofte ikke χ 2 -fordelt Hvis modellerne ikke er nestede benyttes ofte informationskriteriet AIC = 2 log L + 2 antal parametre i modellen. Straf for at bruge mange parametre, smaller is better Alternativ: fit unstructured model og se om der et mønster. Fornemmelse: vigtigt at tage højde for seriel korrelation hvis den er der, men nok mindre vigtigt præcis hvilken model der bruges Gededata: Diggle-modellen har lavest AIC, men næppe meget vigtigt for denne korte serie. Prøv selv at se om det gør en forskel for resultaterne. Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 16 / 20

17 Mæthedsdata A. Jessen, B. Buemann, S. Toubro, I.M. Skovgaard, A. Astrup (2005), Diabetes, Obesity and Metabolism 7, Forsøg udført på Institut for Human Ernæring, KVL. 12 personer har på 7 forsk. dage fået hver af 7 forsk. behandlinger. Indtagelse af tyggegummi, derfter er mæthedsfornemmelse vurderet hvert kvarter i 2.5 time, i alt 10 gange. Mæthedsfornemmelsen også vurderet før tygning (baseline) Mæthed vurderet på skala fra 0 (slet ikke mæt) til 100 (meget mæt). De syv behandlinger er kombinationer af koeffein (0,1,2) og nikotin (0,1,2); 2 dobbelt så meget som 1. Spørgsmålet er om nikotin og koffein påvirker mæthedsfornemmelsen. Cross-over forsøg: hver person er sin egen kontrol. Tegn data! Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 17 / 20

18 Model Middelværdien: Nikotin, koffein og vekselvirkning (ikke alle kombinationer) Baseline visit.no, men det glemte jeg... (prøv selv!) Tilfældige variation: Person Måleserie, dvs. person behandling eller person visit.no Seriel korrelation på observationer fra samme måleserie! Bemærk: Nødvendigt at transformere data, bruger kvadratrod Unstructured model vil ikke køre i R, Diggle ser fornuftig ud En person (71078) bruger skalaen helt anderledes end de andre Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 18 / 20

19 Resultater Ikke signifikant vekselvirkning mellem tid og behandling (p = 0.30), eller mellem nikotin og koffein (p = 0.67). Ikke signifikant effekt af koffein (p = 0.50) Svagt signifikant effekt af nikotin (p = 0.037) VAS øges med ved nikotin 1 og 0.65 ved nikotin 2, sammenlignet med nikotin 0. Tegn de forventede profiler, fx. for person med baseline 35 (gns.) Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 19 / 20

20 Forventet VAS ved baseline på 35 expected VAS time Helle Sørensen (KU-LIFE) Longitudinale data Anv. Statistik 20 / 20