Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking

Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille konstrueret eksempel Hvad går der galt? Praktiske eksempler i proc mixed og proc glimmix Fortolkning Anvendelsesmuligheder Lidt statistik hvis vi når det Spørgsmål

Nogle definitioner Target-variabel Målvariabel Responsvariabel Afhængig variabel Inputvariabel Forklarende variabel Uafhængig variabel Residual Forskellen mellem den observerede target-værdi og den beregnede (forventede) værdi for en observation

Uafhængige observationer Target-værdierne følger en bestemt fordeling Normalfordeling Binomialfordeling Poissonfordelingen Observationerne er iid Independent (uafhængige) Identically distributed (identisk fordelte) Residualerne er indbyrdes uafhængige I normalfordelingen gælder ydermere, at de har middelværdi 0 og samme varians

Eller sagt på en anden måde Afhængige observationer Hver kunde/subject bidrager kun med én observation Observationerne og residualerne er indbyrdes uafhængige Modeller til analyse af disse data Endimensionelle tilfælde proc genmod, proc reg, proc logistic, proc glm, Flerdimensionelle tilfælde proc princomp, proc calis, proc cluster,

Test af effekt af alder, når data er uafhængig Analyse af sammenhæng mellem alder og event Analyserer 50 personer, der er låntagere i en bank Test for uafhængighed mellem alder og event: P=0.60 Konklusion: Ingen sammenhæng mellem alder og event Event Nonevent Alder < 45 16 10 Alder >= 45 13 11

Test af effekt af alder, når data ikke er uafhængig Observerer den samme kunde 50 gange Antag samme adfærd Test for uafhængighed: P=0.0002 Konklusion: Sammenhæng mellem alder og event Urealistiske antagelser? Afhængige observationer hvad går der galt? Event Nonevent Alder < 45 800 500 Alder >= 45 650 550

Hvad sker der? Observationerne er afhængige, da flere observationer stammer fra samme kunde Indeholder derfor en subject effect Præferencer Holdninger Smag Attitude Udgangspunkt Effektivitet Virkning Vaner

Afhængige observationer kaldes også Gentagne observationer Single-source data Longitudinale data Panel data

Analyse af afhængige observationer Variation inden for blokke Variation i target inden for samme kunde Forskellige påvirkninger af samme kunde kan give forskellige targetværdier for samme kunde Variation mellem blokke Variation i target mellem kunder Forskellige påvirkninger påvirker kunderne forskelligt, da kunderne er forskellige og kan derfor give forskellige target-værdier

Modeller til analyse af afhængige observationer Modeller med tilfældige virkninger (models with random effects) Varianskomponentmodeller Mixed models Det mixede består i, at der både er fixede og tilfældige effekter SAS -procedurer Proc mixed (normalfordelt respons) Proc glimmix (generaliserede lineære modeller) Proc nlmixed (ikke-lineære modeller)

Vores eksempel fra tidligere Antager uafhængighed dvs. ingen variation inden for blokke Effekten mellem blokke blev blæst op pga. gentagelse af samme person Løsning: introduktion af en (tilfældig) personeffekt Kan estimeres (teoretisk), men oftest er vi ikke interesserede i denne effekt, da denne grundlæggende ikke kan påvirkes (over kortere tid) Eksempler på personeffekter Forretningssans / økonomisk sans Holdning Sundhed og motion Interesser

Eksempel 1 proc mixed Respons: Antal kr. brugt på slik Inputvariable Reklametryk (1=lille, 2=stor) Social klasse (1: A, 2: B, 3: C osv.) Sammenligner model uden hensyntagen til afhængige variable og modellen med tilfældig virkning af person

Eksempel 2 proc glimmix Respons: Køb af specifikt produkt (0/1) Inputvariable Reklametryk (kontinuert) Sammenligner model uden hensyntagen til afhængige variable og modellen med tilfældig virkning af person

Hvor har vi gentagne observationer? Samme emne / kunde er observeret flere gange, f.eks. én gang pr. måned Finanssektor Telesektoren Salgsvirksomheder (kundeniveau) Forsikringsbranchen (inkl. tidsdimension) Samme emne / kunde indgår flere gange i en undersøgelse Spørgeskemaundersøgelse Kliniske forsøg / forsøgsplanlægning Respons på marketingkampagner

Anvendelsesmuligheder Customer relationship management Analysere forskellige effekter på forskellige kunder Hvilke typer responderer på direct mail/e-mail? Bruge informationen til at få mere at vide om kunderne Målrette direct mail-/e-mail-kampagner Risikostyring Analyse af probability of default Evt. løsningsmetode for low default portfolios, idet mange kunder, der defaulter, gør det flere gange (uden tab). Dermed kan flere tab for samme kunde inkluderes i datamaterialet

Anvendelsesmuligheder Measuring customer value Hele historikken på kunden kan bruges til estimation af kundens forventede levetid, dvs. tiden, indtil kunden skifter udbyder Kliniske forsøg Test af ny medicin på forskellige patienter, der følges over en periode Test af målemaskiners nøjagtighed ud fra givne prøver, der er taget fra samme sample. Sample, testdag, maskine osv. kan indgå som tilfældig virkning

Lidt statistik Block designs Inkluderer tilfældige virkninger af blokke, eksempelvis kunder Hierarkiske / nestede strukturer Forskellige batches er brugt på forskellige locations Split-plot design Randomiserer inden for blokke

Lidt statistik En lineær model i normalfordelingen har følgende struktur Antagelser Det medfører, at

Lidt statistik I en lineær model i normalfordelingen med både fixed og tilfældige effekter er strukturen Antagelser Det medfører, at

Eksempel igen Vi vender tilbage til vores 2 by 2-tabel I tilfældet med uafhængige observationer kan vi opstille modellen Event Nonevent Alder < 45 16 10 Testet for uafhængighed i tabellen svarer netop til testet af hypotesen Alder >= 45 13 11

Eksempel igen Vi observerer nu samme person 50 gange Event Nonevent er personeffekten, og den kan estimeres direkte. I mange tilfælde vil den dog være uinteressant, og derfor kan den gøres tilfældig Alder < 45 800 500 Alder >= 45 650 550

Estimationsmetode Default-estimationsmetoden er REML (REstricted Maximum Likelihood) Iterativ metode, der lineariserer omkring middelværdien For mere info Robert Schall (1991) Estimation in generalized linear models with random effects, Biometrica, 78 (4), s. 719-727 P. McCullagh and J. A. Nelder (1989) Generalized Linear Models, Chapman and Hall

Kristina Birch kristina.birch@sdk.sas.com