Program. Longitudinale data. Vægtudvikling af geder. Individuelle profiler og gennemsnitsprofiler

Relaterede dokumenter
Longitudinale data. eller gentagne målinger. Helle Sørensen, Statistik, KU-LIFE. Anvendt Statistik, 5. marts 2008

Introduktion til GLIMMIX

Lineær og logistisk regression

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Statistik II 4. Lektion. Logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Kvantitative metoder 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Noter til Specialkursus i videregående statistik

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Logistisk regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Løsning til eksaminen d. 14. december 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 12: Regression og korrelation

Kvantitative metoder 2

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Statistik Lektion 4. Variansanalyse Modelkontrol

Kapitel 11 Lineær regression

Multipel Lineær Regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Løsning til opgave i logistisk regression

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Modul 6: Regression og kalibrering

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Uge 13 referat hold 4

Lineære normale modeller (4) udkast

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Løsning eksamen d. 15. december 2008

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Logistisk regression

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kvantitative metoder 2

Simpel Lineær Regression: Model

Eksamen i Statistik for biokemikere. Blok

Basal Statistik - SPSS

Basal Statistik - SPSS

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Statistiske principper

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Løsning til eksaminen d. 29. maj 2009

To samhørende variable

Hvorfor bøvle med MIXED

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Estimation og konfidensintervaller

Simpel Lineær Regression

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret Folkesundhedsvidenskab ved Københavns Universitet

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Susanne Ditlevsen Institut for Matematiske Fag susanne

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Kvantitative metoder 2

Korrelation Pearson korrelationen

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forsøgsplanlægning Stikprøvestørrelse

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

MPH specialmodul Epidemiologi og Biostatistik

Module 12: Mere om variansanalyse

Module 3: Statistiske modeller

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Transkript:

Program Longitudinale data eller gentagne målinger Helle Sørensen Anvendt Statistik, 4. marts 2009 Intro om data og tegninger: vægtudvikling for 28 afrikanske geder Lidt generelt om longitudinala data Analyse af afledte størrelser Model med tilfældige effekter Seriel korrelation Diverse småting (måske) Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 1 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 2 / 20 Vægtudvikling af geder Individuelle profiler og gennemsnitsprofiler Forsøget: 28 voksne geder, syv i hver af fire behandlingsgrupper Gederne vejet ved forsøgets start samt efter 26, 45, 61, 91 dage Alle geder fik hø og majs, gruppe 1, 2 og 3 desuden blade fra forskellige vildtvoksende træer, gruppe 4 solsikkekerner (kontrol). Interesseret i effekten af fodertype på vægtudviklingen Kort serie, kunne naturligvis være længere. Tegn altid data, fx. tilvækster fra dag 0: Individuelle profiler (en per ged) Gennemsnitsprofiler (en per behandling) Hvis tidsækvidistante obs. er interaction.plot meget nyttig. weight w0 1 0 1 2 3 indiv. profiles 0 20 40 60 80 Average increment 1.0 0.5 0.0 0.5 1.0 1.5 2.0 average profiles 0 20 40 60 80 Betydelig variation fra ged til ged (ikke overraskende), også fra start. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 3 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 4 / 20

Longitudinale data/gentagne målinger Longitudinale data/gentagne målinger (2) Gededata er fra fra et designet forsøg (eksperiment), som er typisk for biologiske og medicinske anvendelser. Der er målt flere gange på hvert individ gentagne målinger eller longitudinale data. For gededata er formålet at kunne beskrive forløb over tid. Skal tage højde for korrelation mellem observationer fra samme individ i analysen Kan skelne ændringer over tid indenfor individer og forskelle mellem gruppe af individer: alders- og kohorteefekter. Eksempel: Alder og læsning (Diggle side 2). Observationelle studier kan også være longitudinale: individer følges over tid men uden at der interveneres. Divserse eksempler på longitudinale data: Store household panels hvor man registrerer arbejdsløshed, indkomst, forbrug og... på husholdningsniveau over en årrække. Studier hvor skoleelever følges over en årrække mht. matematik- eller læsekundskaber. Tag hensyn til klasser og skoler. Ernæring: glukosekoncentration i blodet i timerne efter forskellige måltid, fx. målt hvert kvarter. Hestehalthed: halthedsmålinger i timerne/dagene efter induktion af ledbetændelse i et af forknæene. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 5 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 6 / 20 Longitudinale data/gentagne målinger (3) Referencer Gentagelserne behøver ikke være over tid: målinger i flere jorddybder eller forskellige steder på tarmen eller... Datatyper: Kvantitative normalfordelingsmodeller (husk modelkontrol!) Binære, ordinale, tælledata generaliseringer af generaliserede lineære modeller Tidsrækker vs. longitudinale data: Tidsrækker: én lang observationsserie (ingen gentagelser) Longitudinale data: flere (kortere) observationsserier Diggle, Heagerty, Liang, Zeger: Analysis of Longitudinal Data, second edition, 2002 Weiss: Modeling Longitudinal Data, 2005 Pinheiro and Bates: Mixed-Effects Models in S and S-plus, 2000. Indenfor samfundsvidenskab (økonomi) kaldes longitudinale data ofte for paneldata. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 7 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 8 / 20

Analyse af afledte variable Analyse af tilvækster fra dag 0 til 91 Simpel analyse: Reducér for hver ged profilen til én observation 28 uafhængige observationer alm. lineær model Simpel, ikke-forkert, robust analyse men udnytter ikke alle data. Det vanskelige er at finde en god, relevant variabel at analysere. Gededata: Forslag til afledte variable? Model? Model for tilvækster, Y = w 91 w 0 : Resultater: Y i = α(feed i ) + βw 0,i + e i, e i iid. N(0, σ 2 ) Klart signifikant effect af fodertypen (p < 0.0001) Fodertype 1 og 3 giver størst vækst (ikke signifikant forskellige), efterfulgt af 2, mens 4 giver mindst vækst Fodertype 4 giver negativ vækst for alle relevante værdier af w 0 Forventet vækst for ged med startvægt på 13 kg: 1.79, 0.87, 1.89 hhv. -0.64 kg. Husk at lave modelkontrol... Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 9 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 10 / 20 Model for (næsten) alle data Model for (næsten) alle data (2) Flere forskellige rimelige modeller at bruge... Vælger at bruge startvægten som baselinemåling, dvs. som forklarende variabel i modellen. Altså betinget analyse givet startvægten. Kun vægte fra dag 26, 45, 61, 91 som responser. Lader faktoren goat indgå som tilfældig effekt: Hvis systematisk: en middelværdiparameter (et niveau) for hver ged Når goat tilfældig: et tilfældigt N-fordelt niveau for hver ged Ikke interesseret i netop disse 28 geder, tænker på gederne som tilfældigt udvalgt fra en population Genererer korrelation mellem obs. fra samme ged Kan teste for effekt af foder selvom der er effekt af ged Koordinatvis: Y i = γ(feed i ) + βw 0,i + u(goat i ) + e i hvor u(1),..., u(28) N(0, ν 2 ), e i N(0, σ 2 ), alle uafhængige. På matrixform: Y = X β + Zu + e hvor X og Z er designmatricer, Var u = ν 2 g I 28, Var e = σ 2 I 112. Variansmatricen for Y er en blok-diagonal matrix, svarende til at obs. fra forskellige geder er uafhængige. VarY i = ν 2 + σ 2 og Cov(Y i, Y j ) = ν 2 for to forskellige obs. i og j fra samme ged. Modellen kaldes ofte compound symmetry eller random intercepts. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 11 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 12 / 20

Estimation og test Resultater R: lme fra nlme-pakken eller lmer fra lme4-pakken lmer er mest trendy visse funktioner, fx. estimable kun implementeret for lme Estimation, ML vs. REML: Foretrækker generelt REML-estimaterne... men ved LR-test i middelværdistruktur skal ML bruges! Test af middelværdistrukturen: for visse hypoteser kan vi lave eksakte F -test... men ikke for alle hypoteser lav derimod likelihood ratio test, dvs. fit model under og udenfor hypotese med ML og sammenlign 2(log L M log L H ) med χ 2 -fordeling kan lave simulationsbaserede p-værdier hvis der er usikkerhed om χ 2 approksimationen Modelkontrol gav ikke grund til bekymring Klart signifikant vekselvirkning ml. dag og foder (p < 0.0001) Lineær relation mellem dag og vægt mellem dag 26 og 91 kan ikke afvises (p = 0.66) Klart signifikant forskellige hældninger (p < 0.0001) og intercepts (p = 0.0047) Ingen påviselig forskel på fodertyper 1 og 3 (prøv selv!) Figur: forventede profiler for w 0 = 13. Fodertype 1 og 3 giver størst vækst, derefter 2 og endelig 4 der giver negativ vækst. Præcis som for analyse af tilvækst! Varianskomponenter: ˆν = 0.413 og ˆσ = 0.252 svarende til korrelation på 0.73 mellem obs. fra samme ged. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 13 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 14 / 20 Forventet vægt for ged med startvægt på 13 kg Korrelationsstrukturer expected weight 12.0 12.5 13.0 13.5 14.0 14.5 15.0 expected weight if w0=13 30 40 50 60 70 80 90 NB. Prædiktionen dur ikke alt for tæt på 0, pga. baseline Alternativ model: tilfældig skæring og tilfældig hældning Modellen fra før tog højde for variation mellem individer (u) og variation indenfor individer (e). Samme korrelation for alle par af observationer fra samme individ uanset tidsforskellen mellem dem. Ikke nødvendigvis rimeligt: måske mere rimeligt at antage at tætte obs. ligner hinanden mere end fjerne obs. Mere relevant ved længere observationsrækker. Forskellige korrelationsstrukturer dvs. ikke længere Var e = σ 2 I. Unstructured: Corr(Y i, Y j ) = ρ ti t j ingen restriktioner Diverse parametriske modeller: Corr(Y i, Y j ) = ρ(t i t j ) Compound symmetry fra før: Corr(Y i, Y j ) = ρ ens for alle i, j Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 15 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 16 / 20

Korrelationsstrukturer (2) Korrelationsstrukturer (3) Eksempel, Diggle-modellen : Var(Y i ) = ν 2 + σ 2 + τ 2 Cov(Y i, Y j ) = 0 hvis i og j fra forskellige geder Cov(Y i, Y j ) = ν 2 + σ 2 exp( (t i t j ) 2 /φ), fra samme ged, men i j Svarende til tre variationskilder : individer, seriel korrelation, målefejl. Modelkontrol: variogram, sammenligning af empirisk og modelbaseret korrelationsstruktur, eller rettere af 1 Corr(Y i, Y j u). Diggle-modellen er blot en blandt mange modeller med seriel korrelation! R har mindst 10, SAS vist cirka 30. Sammenligning af forskellige korrelationsstrukturer: Hvis modellerne er nestede så kan vi i princippet udføre test, men fordeling af LR er ofte ikke χ 2 -fordelt Hvis modellerne ikke er nestede benyttes ofte informationskriteriet AIC = 2 log L + 2 antal parametre i modellen. Straf for at bruge mange parametre, smaller is better Alternativ: fit unstructured model og se om der et mønster. Fornemmelse: vigtigt at tage højde for seriel korrelation hvis den er der, men nok mindre vigtigt præcis hvilken model der bruges Gededata: Diggle-modellen har lavest AIC, men næppe meget vigtigt for denne korte serie. Prøv selv at se om det gør en forskel for resultaterne. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 17 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 18 / 20 Quasi-likelihood eller GEE GEE = generalized estimating equation. Alternativ til at lave en egentlig model for kovariansstrukture af data indenfor individ. Robusthed! Ideen er følgende: estimér middelværdiparametrene under en arbejdsantagelse fx. antagelse om uafhængighed vel vidende at den er forkert. Dette fører til en estimationsfunktion (quasi-scorefunktion) Estimatorerne er konsistente (men inefficiente) Variansmatricen for estimatoren estimeres vha. data ( sandwich-estimator ): variationen indenfor individ kan estimeres fordi vi har flere individer. Binære data Hvad hvis responsen er binær? Hvis vi for eksempel kun havde observeret om geden havde taget på siden sidst eller ej? Hvis vi kunne antage at alle observationer var uafhængige, ville vi typisk bruge en logistisk regressionsmodel: Y 1,..., Y n uafhængige med ( ) pi P(Y i = 1) = p i, log = α(feed i ) 1 p i Urimeligt observationer fra samme individ er næsten altid korrelerede! Tilfældig effekt på logit-skalaen introducerer en sådan korrelation: ( ) pi log = α(feed i ) + u(goat 1 p i ) i hvor u erne er iid. og normalfordelte. Evt. seriel korrelationsstruktur. Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 19 / 20 Helle Sørensen (IMF, KU) Longitudinale data Anv. Statistik 20 / 20