Program Longitudinale data eller gentagne målinger Helle Sørensen Anvendt Statistik, 4. marts 2009 Intro om data og tegninger: vægtudvikling for 28 afrikanske geder Lidt generelt om longitudinala data Analyse af afledte størrelser Model med tilfældige effekter Seriel korrelation Diverse småting (måske) Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 1 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 2 / 20 Vægtudvikling af geder Individuelle profiler og gennemsnitsprofiler Forsøget: 28 voksne geder, syv i hver af fire behandlingsgrupper Gederne vejet ved forsøgets start samt efter 26, 45, 61, 91 dage Alle geder fik hø og majs, gruppe 1, 2 og 3 desuden blade fra forskellige vildtvoksende træer, gruppe 4 solsikkekerner (kontrol). Interesseret i effekten af fodertype på vægtudviklingen Kort serie, kunne naturligvis være længere. Tegn altid data, fx. tilvækster fra dag 0: Individuelle profiler (en per ged) Gennemsnitsprofiler (en per behandling) Hvis tidsækvidistante obs. er interaction.plot meget nyttig. weight w0 1 0 1 2 3 indiv. profiles 0 20 40 60 80 Average increment 1.0 0.5 0.0 0.5 1.0 1.5 2.0 average profiles 0 20 40 60 80 Betydelig variation fra ged til ged (ikke overraskende), også fra start. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 3 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 4 / 20
Longitudinale data/gentagne målinger Longitudinale data/gentagne målinger (2) Gededata er fra fra et designet forsøg (eksperiment), som er typisk for biologiske og medicinske anvendelser. Der er målt flere gange på hvert individ gentagne målinger eller longitudinale data. For gededata er formålet at kunne beskrive forløb over tid. Skal tage højde for korrelation mellem observationer fra samme individ i analysen Kan skelne ændringer over tid indenfor individer og forskelle mellem gruppe af individer: alders- og kohorteefekter. Eksempel: Alder og læsning (Diggle side 2). Observationelle studier kan også være longitudinale: individer følges over tid men uden at der interveneres. Divserse eksempler på longitudinale data: Store household panels hvor man registrerer arbejdsløshed, indkomst, forbrug og... på husholdningsniveau over en årrække. Studier hvor skoleelever følges over en årrække mht. matematik- eller læsekundskaber. Tag hensyn til klasser og skoler. Ernæring: glukosekoncentration i blodet i timerne efter forskellige måltid, fx. målt hvert kvarter. Hestehalthed: halthedsmålinger i timerne/dagene efter induktion af ledbetændelse i et af forknæene. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 5 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 6 / 20 Longitudinale data/gentagne målinger (3) Referencer Gentagelserne behøver ikke være over tid: målinger i flere jorddybder eller forskellige steder på tarmen eller... Datatyper: Kvantitative normalfordelingsmodeller (husk modelkontrol!) Binære, ordinale, tælledata generaliseringer af generaliserede lineære modeller Tidsrækker vs. longitudinale data: Tidsrækker: én lang observationsserie (ingen gentagelser) Longitudinale data: flere (kortere) observationsserier Diggle, Heagerty, Liang, Zeger: Analysis of Longitudinal Data, second edition, 2002 Weiss: Modeling Longitudinal Data, 2005 Pinheiro and Bates: Mixed-Effects Models in S and S-plus, 2000. Indenfor samfundsvidenskab (økonomi) kaldes longitudinale data ofte for paneldata. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 7 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 8 / 20
Analyse af afledte variable Analyse af tilvækster fra dag 0 til 91 Simpel analyse: Reducér for hver ged profilen til én observation 28 uafhængige observationer alm. lineær model Simpel, ikke-forkert, robust analyse men udnytter ikke alle data. Det vanskelige er at finde en god, relevant variabel at analysere. Gededata: Forslag til afledte variable? Model? Model for tilvækster, Y = w 91 w 0 : Resultater: Y i = α(feed i ) + βw 0,i + e i, e i iid. N(0, σ 2 ) Klart signifikant effect af fodertypen (p < 0.0001) Fodertype 1 og 3 giver størst vækst (ikke signifikant forskellige), efterfulgt af 2, mens 4 giver mindst vækst Fodertype 4 giver negativ vækst for alle relevante værdier af w 0 Forventet vækst for ged med startvægt på 13 kg: 1.79, 0.87, 1.89 hhv. -0.64 kg. Husk at lave modelkontrol... Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 9 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 10 / 20 Model for (næsten) alle data Model for (næsten) alle data (2) Flere forskellige rimelige modeller at bruge... Vælger at bruge startvægten som baselinemåling, dvs. som forklarende variabel i modellen. Altså betinget analyse givet startvægten. Kun vægte fra dag 26, 45, 61, 91 som responser. Lader faktoren goat indgå som tilfældig effekt: Hvis systematisk: en middelværdiparameter (et niveau) for hver ged Når goat tilfældig: et tilfældigt N-fordelt niveau for hver ged Ikke interesseret i netop disse 28 geder, tænker på gederne som tilfældigt udvalgt fra en population Genererer korrelation mellem obs. fra samme ged Kan teste for effekt af foder selvom der er effekt af ged Koordinatvis: Y i = γ(feed i ) + βw 0,i + u(goat i ) + e i hvor u(1),..., u(28) N(0, ν 2 ), e i N(0, σ 2 ), alle uafhængige. På matrixform: Y = X β + Zu + e hvor X og Z er designmatricer, Var u = ν 2 g I 28, Var e = σ 2 I 112. Variansmatricen for Y er en blok-diagonal matrix, svarende til at obs. fra forskellige geder er uafhængige. VarY i = ν 2 + σ 2 og Cov(Y i, Y j ) = ν 2 for to forskellige obs. i og j fra samme ged. Modellen kaldes ofte compound symmetry eller random intercepts. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 11 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 12 / 20
Estimation og test Resultater R: lme fra nlme-pakken eller lmer fra lme4-pakken lmer er mest trendy visse funktioner, fx. estimable kun implementeret for lme Estimation, ML vs. REML: Foretrækker generelt REML-estimaterne... men ved LR-test i middelværdistruktur skal ML bruges! Test af middelværdistrukturen: for visse hypoteser kan vi lave eksakte F -test... men ikke for alle hypoteser lav derimod likelihood ratio test, dvs. fit model under og udenfor hypotese med ML og sammenlign 2(log L M log L H ) med χ 2 -fordeling kan lave simulationsbaserede p-værdier hvis der er usikkerhed om χ 2 approksimationen Modelkontrol gav ikke grund til bekymring Klart signifikant vekselvirkning ml. dag og foder (p < 0.0001) Lineær relation mellem dag og vægt mellem dag 26 og 91 kan ikke afvises (p = 0.66) Klart signifikant forskellige hældninger (p < 0.0001) og intercepts (p = 0.0047) Ingen påviselig forskel på fodertyper 1 og 3 (prøv selv!) Figur: forventede profiler for w 0 = 13. Fodertype 1 og 3 giver størst vækst, derefter 2 og endelig 4 der giver negativ vækst. Præcis som for analyse af tilvækst! Varianskomponenter: ˆν = 0.413 og ˆσ = 0.252 svarende til korrelation på 0.73 mellem obs. fra samme ged. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 13 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 14 / 20 Forventet vægt for ged med startvægt på 13 kg Korrelationsstrukturer expected weight 12.0 12.5 13.0 13.5 14.0 14.5 15.0 expected weight if w0=13 30 40 50 60 70 80 90 NB. Prædiktionen dur ikke alt for tæt på 0, pga. baseline Alternativ model: tilfældig skæring og tilfældig hældning Modellen fra før tog højde for variation mellem individer (u) og variation indenfor individer (e). Samme korrelation for alle par af observationer fra samme individ uanset tidsforskellen mellem dem. Ikke nødvendigvis rimeligt: måske mere rimeligt at antage at tætte obs. ligner hinanden mere end fjerne obs. Mere relevant ved længere observationsrækker. Forskellige korrelationsstrukturer dvs. ikke længere Var e = σ 2 I. Unstructured: Corr(Y i, Y j ) = ρ ti t j ingen restriktioner Diverse parametriske modeller: Corr(Y i, Y j ) = ρ(t i t j ) Compound symmetry fra før: Corr(Y i, Y j ) = ρ ens for alle i, j Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 15 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 16 / 20
Korrelationsstrukturer (2) Korrelationsstrukturer (3) Eksempel, Diggle-modellen : Var(Y i ) = ν 2 + σ 2 + τ 2 Cov(Y i, Y j ) = 0 hvis i og j fra forskellige geder Cov(Y i, Y j ) = ν 2 + σ 2 exp( (t i t j ) 2 /φ), fra samme ged, men i j Svarende til tre variationskilder : individer, seriel korrelation, målefejl. Modelkontrol: variogram, sammenligning af empirisk og modelbaseret korrelationsstruktur, eller rettere af 1 Corr(Y i, Y j u). Diggle-modellen er blot en blandt mange modeller med seriel korrelation! R har mindst 10, SAS vist cirka 30. Sammenligning af forskellige korrelationsstrukturer: Hvis modellerne er nestede så kan vi i princippet udføre test, men fordeling af LR er ofte ikke χ 2 -fordelt Hvis modellerne ikke er nestede benyttes ofte informationskriteriet AIC = 2 log L + 2 antal parametre i modellen. Straf for at bruge mange parametre, smaller is better Alternativ: fit unstructured model og se om der et mønster. Fornemmelse: vigtigt at tage højde for seriel korrelation hvis den er der, men nok mindre vigtigt præcis hvilken model der bruges Gededata: Diggle-modellen har lavest AIC, men næppe meget vigtigt for denne korte serie. Prøv selv at se om det gør en forskel for resultaterne. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 17 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 18 / 20 Quasi-likelihood eller GEE GEE = generalized estimating equation. Alternativ til at lave en egentlig model for kovariansstrukture af data indenfor individ. Robusthed! Ideen er følgende: estimér middelværdiparametrene under en arbejdsantagelse fx. antagelse om uafhængighed vel vidende at den er forkert. Dette fører til en estimationsfunktion (quasi-scorefunktion) Estimatorerne er konsistente (men inefficiente) Variansmatricen for estimatoren estimeres vha. data ( sandwich-estimator ): variationen indenfor individ kan estimeres fordi vi har flere individer. Binære data Hvad hvis responsen er binær? Hvis vi for eksempel kun havde observeret om geden havde taget på siden sidst eller ej? Hvis vi kunne antage at alle observationer var uafhængige, ville vi typisk bruge en logistisk regressionsmodel: Y 1,..., Y n uafhængige med ( ) pi P(Y i = 1) = p i, log = α(feed i ) 1 p i Urimeligt observationer fra samme individ er næsten altid korrelerede! Tilfældig effekt på logit-skalaen introducerer en sådan korrelation: ( ) pi log = α(feed i ) + u(goat 1 p i ) i hvor u erne er iid. og normalfordelte. Evt. seriel korrelationsstruktur. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 19 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 20 / 20