Demo af PROC GLIMMIX: Analyse af gentagne observationer

Relaterede dokumenter
Introduktion til GLIMMIX

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Præsentation og praktisk anvendelse af PROC GLMSELECT

Tema. Dagens tema: Indfør centrale statistiske begreber.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Noter til Specialkursus i videregående statistik

Additiv model teori og praktiske erfaringer

Anvendt Statistik Lektion 7. Simpel Lineær Regression

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Lineær og logistisk regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning eksamen d. 15. december 2008

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Løsning til eksaminen d. 29. maj 2009

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

To samhørende variable

Statistik II 4. Lektion. Logistisk regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Notat vedr. interkalibrering af ålegræs

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Konfidensintervaller og Hypotesetest

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Ikke-parametriske tests

Eksamen i Statistik for biokemikere. Blok

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Forår 2007

Lineære normale modeller (4) udkast

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Bilag 7. SFA-modellen

Basal Statistik - SPSS

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Produkt og marked - matematiske og statistiske metoder

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Løsning til eksaminen d. 14. december 2009

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

En Introduktion til SAS. Kapitel 5.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Modelkontrol i Faktor Modeller

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kvantitative Metoder 1 - Forår Dagens program

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 8. Multipel Lineær Regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Kvantitative Metoder 1 - Efterår Dagens program

Reeksamen i Statistik for Biokemikere 6. april 2009

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Opgaver til kapitel 3

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Note til styrkefunktionen

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Transkript:

Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking

Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille konstrueret eksempel Hvad går der galt? Praktiske eksempler i proc mixed og proc glimmix Fortolkning Anvendelsesmuligheder Lidt statistik hvis vi når det Spørgsmål

Nogle definitioner Target-variabel Målvariabel Responsvariabel Afhængig variabel Inputvariabel Forklarende variabel Uafhængig variabel Residual Forskellen mellem den observerede target-værdi og den beregnede (forventede) værdi for en observation

Uafhængige observationer Target-værdierne følger en bestemt fordeling Normalfordeling Binomialfordeling Poissonfordelingen Observationerne er iid Independent (uafhængige) Identically distributed (identisk fordelte) Residualerne er indbyrdes uafhængige I normalfordelingen gælder ydermere, at de har middelværdi 0 og samme varians

Eller sagt på en anden måde Afhængige observationer Hver kunde/subject bidrager kun med én observation Observationerne og residualerne er indbyrdes uafhængige Modeller til analyse af disse data Endimensionelle tilfælde proc genmod, proc reg, proc logistic, proc glm, Flerdimensionelle tilfælde proc princomp, proc calis, proc cluster,

Test af effekt af alder, når data er uafhængig Analyse af sammenhæng mellem alder og event Analyserer 50 personer, der er låntagere i en bank Test for uafhængighed mellem alder og event: P=0.60 Konklusion: Ingen sammenhæng mellem alder og event Event Nonevent Alder < 45 16 10 Alder >= 45 13 11

Test af effekt af alder, når data ikke er uafhængig Observerer den samme kunde 50 gange Antag samme adfærd Test for uafhængighed: P=0.0002 Konklusion: Sammenhæng mellem alder og event Urealistiske antagelser? Afhængige observationer hvad går der galt? Event Nonevent Alder < 45 800 500 Alder >= 45 650 550

Hvad sker der? Observationerne er afhængige, da flere observationer stammer fra samme kunde Indeholder derfor en subject effect Præferencer Holdninger Smag Attitude Udgangspunkt Effektivitet Virkning Vaner

Afhængige observationer kaldes også Gentagne observationer Single-source data Longitudinale data Panel data

Analyse af afhængige observationer Variation inden for blokke Variation i target inden for samme kunde Forskellige påvirkninger af samme kunde kan give forskellige targetværdier for samme kunde Variation mellem blokke Variation i target mellem kunder Forskellige påvirkninger påvirker kunderne forskelligt, da kunderne er forskellige og kan derfor give forskellige target-værdier

Modeller til analyse af afhængige observationer Modeller med tilfældige virkninger (models with random effects) Varianskomponentmodeller Mixed models Det mixede består i, at der både er fixede og tilfældige effekter SAS -procedurer Proc mixed (normalfordelt respons) Proc glimmix (generaliserede lineære modeller) Proc nlmixed (ikke-lineære modeller)

Vores eksempel fra tidligere Antager uafhængighed dvs. ingen variation inden for blokke Effekten mellem blokke blev blæst op pga. gentagelse af samme person Løsning: introduktion af en (tilfældig) personeffekt Kan estimeres (teoretisk), men oftest er vi ikke interesserede i denne effekt, da denne grundlæggende ikke kan påvirkes (over kortere tid) Eksempler på personeffekter Forretningssans / økonomisk sans Holdning Sundhed og motion Interesser

Eksempel 1 proc mixed Respons: Antal kr. brugt på slik Inputvariable Reklametryk (1=lille, 2=stor) Social klasse (1: A, 2: B, 3: C osv.) Sammenligner model uden hensyntagen til afhængige variable og modellen med tilfældig virkning af person

Eksempel 2 proc glimmix Respons: Køb af specifikt produkt (0/1) Inputvariable Reklametryk (kontinuert) Sammenligner model uden hensyntagen til afhængige variable og modellen med tilfældig virkning af person

Hvor har vi gentagne observationer? Samme emne / kunde er observeret flere gange, f.eks. én gang pr. måned Finanssektor Telesektoren Salgsvirksomheder (kundeniveau) Forsikringsbranchen (inkl. tidsdimension) Samme emne / kunde indgår flere gange i en undersøgelse Spørgeskemaundersøgelse Kliniske forsøg / forsøgsplanlægning Respons på marketingkampagner

Anvendelsesmuligheder Customer relationship management Analysere forskellige effekter på forskellige kunder Hvilke typer responderer på direct mail/e-mail? Bruge informationen til at få mere at vide om kunderne Målrette direct mail-/e-mail-kampagner Risikostyring Analyse af probability of default Evt. løsningsmetode for low default portfolios, idet mange kunder, der defaulter, gør det flere gange (uden tab). Dermed kan flere tab for samme kunde inkluderes i datamaterialet

Anvendelsesmuligheder Measuring customer value Hele historikken på kunden kan bruges til estimation af kundens forventede levetid, dvs. tiden, indtil kunden skifter udbyder Kliniske forsøg Test af ny medicin på forskellige patienter, der følges over en periode Test af målemaskiners nøjagtighed ud fra givne prøver, der er taget fra samme sample. Sample, testdag, maskine osv. kan indgå som tilfældig virkning

Lidt statistik Block designs Inkluderer tilfældige virkninger af blokke, eksempelvis kunder Hierarkiske / nestede strukturer Forskellige batches er brugt på forskellige locations Split-plot design Randomiserer inden for blokke

Lidt statistik En lineær model i normalfordelingen har følgende struktur Antagelser Det medfører, at

Lidt statistik I en lineær model i normalfordelingen med både fixed og tilfældige effekter er strukturen Antagelser Det medfører, at

Eksempel igen Vi vender tilbage til vores 2 by 2-tabel I tilfældet med uafhængige observationer kan vi opstille modellen Event Nonevent Alder < 45 16 10 Testet for uafhængighed i tabellen svarer netop til testet af hypotesen Alder >= 45 13 11

Eksempel igen Vi observerer nu samme person 50 gange Event Nonevent er personeffekten, og den kan estimeres direkte. I mange tilfælde vil den dog være uinteressant, og derfor kan den gøres tilfældig Alder < 45 800 500 Alder >= 45 650 550

Estimationsmetode Default-estimationsmetoden er REML (REstricted Maximum Likelihood) Iterativ metode, der lineariserer omkring middelværdien For mere info Robert Schall (1991) Estimation in generalized linear models with random effects, Biometrica, 78 (4), s. 719-727 P. McCullagh and J. A. Nelder (1989) Generalized Linear Models, Chapman and Hall

Kristina Birch kristina.birch@sdk.sas.com