Introduktion til GLIMMIX

Størrelse: px
Starte visningen fra side:

Download "Introduktion til GLIMMIX"

Transkript

1 Introduktion til GLIMMIX Af Jens Dick-Nielsen

2 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige. Det er ikke et krav at responsen er normalfordelt. Generelt kan GLIMMIX anvendes til modeller indenfor klassen af generalized linear mixed models (GLMM). Det er dog et krav at en eventuel random effect skal være normal fordelt. 2

3 Relation til andre procedures GLIMMIX NLMIXED MIXED GENMOD GLM LOGISTIC ANOVA REG 3

4 Relation til andre procedures GLIMMIX er en udvidelse af MIXED, således at den marginale fordeling af responsen ikke behøves at være normalfordelt. GLIMMIX kan håndtere fordelinger fra den eksponentielle familie (inklusiv lidt mere fx beta-fordelingen). GLIMMIX er således også en udvidelse af GENMOD, så modellerne nu også kan indeholde random effects. 4

5 Relation til andre procedures GLIMMIX og NLMIXED er overlappende i nogle funktionaliteter. Men GLIMMIX og NLMIXED bruger hver sin estimationsteknik. Med GLIMMIX skal man ikke give et startgæt (nemmere at bruge). GLIMMIX kan håndtere flere random effects i samme model. NLMIXED kan til gengæld modellere andre fordelingstyper. GLIMMIX har mange nye ekstra funktionaliteter. 5

6 GLMM Den almindelige linear mixed model har formen: I SAS taler vi om en G-side effect hhv. en R-side effect. I en GLMM har vi i stedet at: 6

7 GLMM For en GLM er der typisk en sammenhæng mellem forventningen og variansen på den enkelte observation. Fx har vi for en poissonfordeling: I vores GLMM har vi tilsvarende at: hvor A er en diagonalmatrix med a(my) i diagonalen. 7

8 GLMM Samlet set så fitter GLIMMIX følgende modeller: Bemærk at man angiver den betingede fordeling af Y givet gamma. 8

9 GLMM Med Z=0 eller G=0 har vi en GLM (SAS bruger GENMOD). Med Y normalfordelt har vi en almindelige linear mixed model (SAS bruger MIXED). 9

10 Fordelinger i GLIMMIX Eksempler på betingede fordelinger i GLIMMIX: Normalfordelingen Binomialfordelingen Poissonfordelingen Negativ binonimalfordeling Gammafordelingen Betafordelingen Invers Gaussisk Exponentialfordelingen Multinomialfordeling Ordinal logistisk Med flere 10

11 Mulige anvendelser Generelt kan GLIMMIX anvendes til forsøg, hvor forskellige observationer ikke er uafhængige af hinanden. Ved gentagne målinger på samme individ (fx over tid). Randomiserede forsøg, hvor man tilfældigt udvælger grupper ud af en større population, og man vil kontrollere for afhængigheden indenfor grupperne. 11

12 Konkrete eksempler Følger behandlingen af patienter ved forskellige sygehuse. Antal epilepsitilfælde, antal hypoglykæmitilfælde etc. Responsen er diskret. Responsen er målt flere gange på den samme patient over et behandlingsforløb. Målinger på samme patient er ikke uafhængige. Sygehusene er tilfældigt udvalgte. Der kan være en (tilfældig) effekt af de forhold under hvilken behandlingen udføres. 12

13 Konkrete eksempler Hvem består eksamen? Hvad bestemmer sandsynligheden for at bestå en eksamen? Responsen er binomialfordelt. Følger elever på tilfældigt udvalgte skoler og klasser. En random effect, en G-side effect. Ser på flere eksamerne for den samme elev. Gentagne målinger, en R-side effect. 13

14 Konkrete eksempler Hierarkiske forsøgsdesign. Flere responser fra det samme individ med forskellige fordelinger. Man måler 2 ting på den samme person. Den ene kunne være diskret og den anden kontinuert. Nogle forklarende variable er fælles og andre hører kun til den ene respons. 14

15 Logistisk regression med random intercept Man ser på behandlingen af en sygdom med 2 forskellige medicinske teknikker. Med henblik på sammenligning af behandlingerne udvælges tilfældigt 15 sygehuse. På hvert sygehus udvælges et tilfældigt antal patienter n A og n b som modtager behandling A hhv. B. Vi ser så på antallet blandt de udvalgte patienter, der fik mindst 1 sideeffekt ved behandlingen. 15

16 Logistisk regression med random intercept Udsnit af data 16

17 Logistisk regression med random intercept En oplagt model ville være en logistisk regression med en fixed effect for behandlingstypen og en random effect for sygehuset. hvor så 17

18 Logistisk regression med random intercept SAS koden: proc glimmix data=multicenter; class center group; model sideeffect/n = group /dist=bin link=logit solution; random intercept / subject=center; run; class og model har samme funktion som i fx GENMOD. random har samme funktion som i MIXED. 18

19 Logistisk regression med random intercept Model information: 19

20 Logistisk regression med random intercept Modellens dimensioner: 20

21 Logistisk regression med random intercept Modellens fit: 21

22 Logistisk regression med random intercept De estimerede parametre: 22

23 Logistisk regression med random intercept Den estimerede model bliver derfor: Det er muligt at få meget andet output blandt andet et estimat for den tilfældige effekt fra hvert center. Odds ratios. 23

24 Logistisk regression med random intercept Hvis vi vil se på predikterede værdier skriver vi: proc glimmix data=multicenter; class center group; model sideeffect/n = group /dist=bin link=logit solution; random intercept / subject=center; output out=glimmixout pred( blup ilink)=predprob pred(noblup ilink)=predprob_pa; run; 24

25 Logistisk regression med random intercept De predikterede værdier: 25

26 Logistisk regression med random intercept Vi kan se at vi får en sandsynlighed, der varierer fra center til center. Den er udregnet på baggrund af et estimat af centerets random effect (best linear unbiased prediction BLUP): Den anden sandsynlighed er udregnet ved at sætte gamma = 0. 26

27 Logistisk regression med random intercept Den sidste sandsynlighed hedder en population average i SAS. Navnet kommer fordi gamma i gennemsnit er 0. Men bemærk, at man ser bort fra en effekt af Jensens ulighed, hvis man finder forventning på denne måde. Man skal være opmærksom på, hvad det er man egentlig gerne vil have ud! Eksempel: 27

28 Estimation i GLIMMIX Det er ikke trivielt at fitte en GLMM. Den marginale likelihood funktion kan skrives som: Hvis vi havde en almindelig linear mixed model fik vi: Betinget fordeling Marginal fordeling 28

29 Estimation i GLIMMIX Men med en GLMM kan vi normalt ikke finde den marginale fordeling så let. NLMIXED laver i stedet numerisk integration. GLIMMIX laver en linearisering af modellen og estimerer så iterativt som var det en almindelig linear mixed model. GLIMMIX fandtes tidligere i en macro udgave i SAS og denne lavede netop samme type linearisering, hvorefter den kaldte MIXED. 29

30 Estimation i GLIMMIX Pseudo-likelihood (lineariserings) metoden Linearisering af modellen ved en 1. ordens Taylor udvikling. Opdater din linearisering med de nye estimater. Opstil en linear mixed model med den lineariserede pseudo-respons. Fit den nye linear mixed model. 30

31 Estimation i GLIMMIX Husk at vi har forventningen givet som: En 1. ordens Taylor udvikling omkring beta og gamma giver: hvor (en diagonal matrix) 31

32 Estimation i GLIMMIX Denne linearisering giver den nye respons P: hvor variansen er givet ved: Denne nye model behandles som om den have normalfordelte fejlled. 32

33 Estimation i GLIMMIX Efter hver estimation af beta og gamma, så indsættes de nye estimater i lineariesringen af modellen, således at vi får et nyt P. Denne iterative estimation fortsætte indtil parametrene konvergere. GLIMMIX bruger forskellige metoder til at reducere bias i estimationen på. Valget af den præcise estimations metode afhænger af, hvilken model det er man estimerer. 33

34 Multivariate responser Det er muligt i MIXED at modellere multivariate normalfordelte responser. Her kunne responserne have dels fælles forklarende variable og dels hver sine. Denne mulighed er udbygget i GLIMMIX til at man kan modellere multivariat data, hvor responserne ikke behøves at have samme type af fordeling. Fx normalfordelt & binomialfordelt Fx binomialfordelt & poissonfordelt Fx bivariate poissonfordelt 34

35 Binomial og Poisson Vi undersøger igen patienter på et hospital. Denne gang er vi interesseret i længden af hospitalsopholdet efter en bestemt slags operation. Responserne er længden af opholdet i dage og operationens succes på niveauerne rutinemæssigt forløb efter operationen eller ekstra operationer nødvendigt. Antal dage kunne være poissonfordelt, mens succes er binomialfordelt. 35

36 Binomial og Poisson Forklarende variable er alder, køn og status (en vurdering af deres tilstand lige efter operationen). Vi forventer at bruge samme forklarende variable til at forklare de 2 responser. Man kunne lave 2 uafhængige analyser. Men så ville man ikke tage højde for at operationens succes og længden af opholdet meget vel kunne være afhængige. 36

37 Binomial og Poisson Data 37

38 Binomial og Poisson Data til GLIMMIX 38

39 Binomial og Poisson SAS kode til hver sin analyse proc glimmix data=hernio_uv(where=(dist="binary")); model response(event= 1 ) = age OKStatus / solution dist=binary; run; proc glimmix data=hernio_uv(where=(dist="poisson")); model response = age OKStatus / solution dist=poisson; run; 39

40 Binomial og Poisson Estimerede parametre (logistisk hhv. poisson). 40

41 Binomial og Poisson Vi kan lave en samlet analyse af de to variable: proc glimmix data=hernio_uv; class dist; model response(event= 1 ) = dist dist*age dist*okstatus / noint s dist=byobs(dist); run; Her har vi ikke specificeret nogen form for afhængigheder. GLIMMIX udregner en samlet additiv log-likelihood. 41

42 Binomial og Poisson Resultater Estimaterne er de samme, men varianser er anderledes fordi vi har flere observationer. 42

43 Binomial og Poisson Vi kan lave afhængighed mellem udfaldene vha. en R-side eller en G-side effect. Vi vælger her en G-side random effect. proc glimmix data=hernio_uv; class patient dist; model response(event= 1 ) = dist dist*age dist*okstatus /noint s dist=byobs(dist); random int / subject=patient; run; 43

44 Binomial og Poisson Resultater 44

45 Binomial og Poisson Type III test. Det ser ud til at der faktisk er en patient effekt, men ikke en status effekt. 45

46 Binomial og Poisson Dette er måske ikke den mest attraktive model for data. Vores G-side effect indgår i den lineære form i modellen. Det er måske bedre med en R-side effect, der modellere ved at tage hensyn til skalaen for den enkelte variabel. Stadig er det måske ikke den optimale løsning, da kovarians og korrelation ikke er et naturligt afhængighedsmål for binomialfordelte variable. Her kan man se på mere avancerede muligheder i GLIMMIX. 46

47 Binomial og Poisson Kode til en R-side effect: proc glimmix data=hernio_uv; class patient dist; model response(event="1") = dist dist*age dist*okstatus / noint s dist=byobs(dist); random _residual_ / subject=patient type=chol; run; Her laver vi en R-side effect, hvor der er afhængighed mellem observationer for samme patient. Kovariansmatricen består af blokke af 2x2 matricer med 3 frie parametre. Type=Chol sikre os en positiv definit kovariansmatrix. 47

48 Andre eksempler Gruppeafhængig overdispersion Kan udregne og gemme variable på baggrund af de estimerede værdier af beta (_xbeta_) og gamma (_zgamma_). Konstruer dine egne variansfunktioner mv. Spatial modelling. Ordinal og multinomial logistisk regression. Mange typer af korrelationsstrukturer AR(1), ARMA(1,1) Compound symmetry VC Aftager i afstanden mellem observationer eller afstanden i en variabel. 48

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4 Indholdsfortegnelse INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF OULATIONEN... 4 DELOGAVE 1...5 BEGREBSVALIDITET... 6 Differentiel item funktionsanalyser...7 Differentiel item effekt...10 Lokal

Læs mere

Introduktion til Statistiske Modeller for Finansielle Tidsserier. Forelæsningsnoter til Finansiel Økonometri

Introduktion til Statistiske Modeller for Finansielle Tidsserier. Forelæsningsnoter til Finansiel Økonometri Introduktion til Statistiske Modeller for Finansielle Tidsserier Forelæsningsnoter til Finansiel Økonometri Jesper Lund mail@jesperlund.com http://www.jesperlund.com 14. marts 2006 1 Indledning Formålet

Læs mere

Teknikker til analyse af tal med Excel

Teknikker til analyse af tal med Excel 1 Appendiks 2 Teknikker til analyse af tal med Excel Dette appendiks indeholder mange gentagelser fra kapitel 10, afsnit 4 Teknikker til analyse af tal i Den skinbarlige virkelighed) dog med den forskel,

Læs mere

Statistik for ankomstprocesser

Statistik for ankomstprocesser Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden

Læs mere

IDRÆTSSTATISTIK BIND 2

IDRÆTSSTATISTIK BIND 2 IDRÆTSSTATISTIK BIND 2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-07-8 Bd.2 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

1 Budgetredegørelsen for 1994 skelner mellem det sociale område og arbejdsmarkedet. Denne deling følger vi senere i

1 Budgetredegørelsen for 1994 skelner mellem det sociale område og arbejdsmarkedet. Denne deling følger vi senere i 1.0 Indledning. Det gennemgående tema i denne opgave er den danske velfærdsstat. Problemerne for velfærdsstaten har været betydlige lige siden begrebets oprindelse, og i 1990 erne har diskussionen, for

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

FORUDSÆTNINGER FOR LINEÆR REGRESSION OG VARIANSANALYSE EFTER MINDSTE KVADRATERS METODE

FORUDSÆTNINGER FOR LINEÆR REGRESSION OG VARIANSANALYSE EFTER MINDSTE KVADRATERS METODE FORUDSÆTNINGER FOR LINEÆR REGRESSION OG VARIANSANALYSE EFTER MINDSTE KVADRATERS METODE AF RUNE STUBAGER & KIM MANNEMAR SØNDERSKOV 5. udgave, januar 2011 DEPARTMENT OF POLITICAL SCIENCE Aarhus University

Læs mere

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )} Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet. Til gengæld kan vi prøve at sige noget om,

Læs mere

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring 7. april 2011 Indhold 1 Undersøgelsesdesign 5 1.1 Kausalitet............................. 5 1.2 Validitet og bias......................... 6 1.3

Læs mere

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard Mandags Chancen En optimal spilstrategi Erik Vestergaard Spilleregler denne note skal vi studere en optimal spilstrategi i det spil, som i fjernsynet går under navnet Mandags Chancen. Spillets regler er

Læs mere

Betydningen af indkomst for folkepensionisters levevilkår og velbefindende. Jacob Nielsen Arendt

Betydningen af indkomst for folkepensionisters levevilkår og velbefindende. Jacob Nielsen Arendt Betydningen af indkomst for folkepensionisters levevilkår og velbefindende Jacob Nielsen Arendt AKF Forlaget Juli 2003 1 2 Forord Denne rapport belyser sammenhængen mellem indkomst og ældres levevilkår

Læs mere

Brugervejledning til udskriften ReproAnalyse

Brugervejledning til udskriften ReproAnalyse Brugervejledning til udskriften ReproAnalyse Tilgængelighed Udskriften ReproAnalyse er tilgængelig i Dairy Management System (DMS) under fanebladet Analyse og lister > Analyseudskrifter. Husk at vælge

Læs mere

IDRÆTSSTATISTIK BIND 1

IDRÆTSSTATISTIK BIND 1 IDRÆTSSTATISTIK BIND 1 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp.

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp. Udarbejdet af Thomas Jensen og Morten Overgård Nielsen Indhold Introduktion til materialet. s. 2 Introduktion til chi i anden test. s. 4 Et eksempel hastighed og ulykker på motorveje s. 8 Sådan udregnes

Læs mere

Oprids over grundforløbet i matematik

Oprids over grundforløbet i matematik Oprids over grundforløbet i matematik Dette oprids er tænkt som en meget kort gennemgang af de vigtigste hovedpointer vi har gennemgået i grundforløbet i matematik. Det er en kombination af at repetere

Læs mere

Guide. Social Kapital. Til måling af. Side 1

Guide. Social Kapital. Til måling af. Side 1 Guide Til måling af Social Kapital Guide til måling af social kapital DEL I - Hvad er social kapital Side 1 Indhold Forord 3 Hvad er social kapital 5 Hvorfor måle på social kapital 5 Hvad er social kapital

Læs mere

STATISTIK MED SAS. MORTEN FENGER Cand.merc.(scm.) på den nemme måde med step-by-step cases, som alle kan forholde sig til.

STATISTIK MED SAS. MORTEN FENGER Cand.merc.(scm.) på den nemme måde med step-by-step cases, som alle kan forholde sig til. MORTEN FENGER Cand.merc.(scm.) Denne e-bog introducerer dig til markedets stærkeste statistikværktøj. SAS kan alt inden for analytics og er samtidig let at lære. Derfor er det bare med at komme i gang

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Opgave nr. 5 og 31. Værdiansættelse af stiafhængige bermuda optioner, ved Least Squares Monte Carlo simulation.

Opgave nr. 5 og 31. Værdiansættelse af stiafhængige bermuda optioner, ved Least Squares Monte Carlo simulation. H.D.-studiet i Finansiering Hovedopgave - forår 2009 ---------------- Opgaveløser: Martin Hofman Laursen Joachim Bramsen Vejleder: Niels Rom-Poulsen Opgave nr. 5 og 31 Værdiansættelse af stiafhængige bermuda

Læs mere

Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of 117 05/02/10 13.49

Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of 117 05/02/10 13.49 Noter i statistik Thomas Bendsen 2008 VIA University College Bioanalytikeruddannelsen Indholsfortegnelse 1 - Introduktion 1.1 - Introduktion 1.2 - Brug af disse sider 1.3 - Analysenavne 1.4 - DANAK 1.5

Læs mere

Fortolkning, illustration mm. af interaktion i lineære regressionsmodeller ved hjælp af MS Excel og SPSS

Fortolkning, illustration mm. af interaktion i lineære regressionsmodeller ved hjælp af MS Excel og SPSS Fortolkning, illustration mm. af interaktion i lineære regressionsmodeller ved hjælp af MS Excel og SPSS KIM MANNEMAR SØNDERSKOV Tlf. 8942 1260 E-mail: ks@ps.au.dk INSTITUT FOR STATSKUNDSKAB AARHUS UNIVERSITET

Læs mere

Simpsons Paradoks. Et emnearbejde om årsag og sammenhæng i kvantitative undersøgelser. Inge Henningsen

Simpsons Paradoks. Et emnearbejde om årsag og sammenhæng i kvantitative undersøgelser. Inge Henningsen Simpsons Paradoks Et emnearbejde om årsag og sammenhæng i kvantitative undersøgelser Afdeling for Anvendt Matematik og Statistik Københavns Universitet 1 Simpsons Paradoks -Et emnearbejde om årsag og sammenhæng

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

En Introduktion til Sandsynlighedsregning

En Introduktion til Sandsynlighedsregning En Introduktion til Sandsynlighedsregning 4. Udgave Michael Sørensen 26. juni 2003 0 Forord Til 2. udgave Disse forelæsningsnoter trækker i betydelig grad på noter udarbejdet af en række kolleger. Det

Læs mere

Statistik: Historier og eksempler Helle Hvitved

Statistik: Historier og eksempler Helle Hvitved Statistik: Historier og eksempler Helle Hvitved Dette er et forsøg på at give en overordnet beskrivelse af statistik og statistiske begreber uden at gå for meget i matematiske detaljer. Derved vil der

Læs mere

Folkeskolekarakterer og succes på erhvervsuddannelserne

Folkeskolekarakterer og succes på erhvervsuddannelserne Rockwool Fondens Forskningsenhed Arbejdspapir 61 Folkeskolekarakterer og succes på erhvervsuddannelserne Camilla Hvidtfeldt og Torben Tranæs Syddansk Universitetsforlag Odense 2013 Folkeskolekarakterer

Læs mere

9 Statistik og sandsynlighed

9 Statistik og sandsynlighed Side til side-vejledning 9 Statistik og sandsynlighed Faglige mål Kapitlet Statistik og sandsynlighed tager udgangspunkt i følgende faglige mål: Deskriptorer: kunne gennemføre og beskrive en statistisk

Læs mere

Vejledning til Excel-ark til Kappaberegning

Vejledning til Excel-ark til Kappaberegning Vejledning til Excel-ark til Kappaberegning Jan Ivanouw 16. december 2008 Om interraterreliabilitet og Kappaberegning Formålet med Kappaberegning er at vurdere hvor god overensstemmelse der er mellem to

Læs mere