Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

Transkript

1 Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april : udvidelse til modeller med overdispersion, quasi-likelihood, dvs alle knapperne i Metode menuen Hierarkiske normalfordelingsmodeller Generaliserede lineære modeller, afslutning Ordnet kategorisk respons, Data buscum, busmult Overdispersion, Data beetles Quasi-likelihood Hierarkiske normalfordelingsmodeller Model Varians- kovariansforhold Fordeling af gruppegennemsnit Test af homogenitetshypotese, variansanalyseskema Maksimum-likelihood estimation Estimation af tilfældige effekter Fortolkning af estimater, empiriske Bayes Eksempel Datasæt Beetles indeholder data fra et eksperiment, der havde til formål at vurdere sammenhængen mellem indblæst koncentration af ethylenoxid og andel døde biller i et prøvemedium. konc angiver koncentrationen, ekspon antallet af eksponerede, doede antallet af døde, og andel angiver andelen af døde. Grafisk vurdering: Scatterplot af andel mod koncentration, ser logistisk ud 3 Billedødelighed: Test for modeltilpasning i generaliserede lineære modeller Størrelsen Error Deviance i Analysis of Deviance bruges til at teste goodness of fit før evt reduktion af modellen. Model: dod = sta myaar sta myaar Fit menu: doede Y konc X Method: Response Dist: Binomial ekspon Binomial Link: Logit Hvis data viser stærk uoverensstemmelse med modellen, dvs hvis Error deviansen er signifikant i χ 2 -fordelingen, må man finde flere forklarende variable - eller bruge en model med overdispersion Teststørrelsen for Goodness of fit er stærkt signifikant, så vi må afvise antagelsen om binomialfordeling og logistisk dosis-respons. Der er ingen systematik i residualerne, så vi vælger at fastholde den logistiske model, men der er åbenbart større varians, end forklaret ved binomialfordelingen (fx pga klumpning). 2 4

2 Dispersionsparameter: Vi vælger at indføre en dispersionsparameter σ 2 ved λ i = w i /σ 2 (jvf fremstillingen (4.5) side 06) som en fast faktor, σ 2, til variansen µ i ( µ i )/w i på en observeret binomial andel Z i = Y i /n i. V[Z i ]=σ 2 µ i( µ i ) n i idet w i = n i. Tastetryk ved estimation af dispersionsparameter : Ved Fit menu: I Method menuen vælges Scale: Deviance endvidere vælges Quasi-likelihood Bemærk, at her indgår Enhedsvariansfunktionen V (µ) =µ( µ) Den kendte vægt w i = n i ( indføres i proceduren via angivelse af nbinomial). dispersionsparameteren σ 2 Det bevirker, at der estimeres en Scale ved σ = D( y; µ( β) ) k m men iøvrigt får man de samme størrelser som før (dog ændres standardiserede deviansresidualer mv). 5 7 Estimation af dispersionsparameter: Vi ved ikke, hvordan tætheden ser ud for en binomialfordeling med påhæftet dispersionsparameter. Dispersionsparameteren indgår i normeringskonstanten på en eller anden måde. Så vi kan ikke uden videre lave en maximum-likelihood estimation. Men vi ved, at residualdeviansen D ( y; µ( β) ) σ 2 χ 2,også kan vi da i lighed med normalfordelingssituationen estimere σ 2 ved σ 2 = D( y; µ( β) ) k m eller vi kunne have brugt Pearson-størrelsen på tilsvarende måde. I SAS kaldes kvadratroden, σ, af dispersionsparameteren σ 2 for Scale. [Dette gælder for Normal, Invers Gauss, Binomial og Poisson-fordeling. For gammafordelingen er Scale netop dispersionsparameteren.] Tastetryk ved estimation af dispersionsparameter : Ved PROC GENMOD: PROC GENMOD data = beetles; model doede/ekspon = konc /DIST = Bin SCALE=D OBSTATS Type ; RUN; QUIT; Scale = D (DEVIANCE) bevirker at scale estimeres som kvadratroden af devians divideret med frihedsgrader. Bemærk, at nu kan vi ikke teste goodness of fit - og vi kan ikke umiddelbart bruge teststørrelser D(µ( β); µ( γ))/df i type og type 3 tests, men at de skal divideres med kvadratet på scale parameteren resulterende i et approksimativt F-test (i lighed med normalfordelingssituationen). I PROC GENMOD foretages denne skalering automatisk. 6 8

3 Pseudo-likelihood : I princippet er estimaterne for middelværdiparametrene ikke maksimum-likelihood estimater, for likelihoodfunktionen indeholder også normeringskonstantens afhængighed af σ. Den funktion D (y; µ) = k w 2σ 2 i d(y i,µ i ) i= som vi har maksimeret, kaldes en quasi-loglikelihood (quasi= som om). Estimationsligningen (estimation equation) til bestemmelse af middelværdiparametrene fås netop ved at sætte quasi-scoren lig med nul. Hvad angår middelværdiparametrene opfører den sig jo som den rigtige likelihood. Estimationen af middelværdiparametrene ændres ikke ved at indføre denne overdispersion. Overdispersion: Overdispersion kan manifesteres på to forskellige måder: Heterogenitetsfaktor: Konstant faktor, σ 2 til variansfunktionen V (µ) V[Y] =σ 2 V(µ) Resultat af random effects Det kan ske, at µ varierer tilfældigt inden for et forsøg fx kan det forekomme ved musefosterforsøgene, at der er en tilfældig variation af dødssandsynligheden p fra kuld til kuld. Vi vil senere (kap 7) vende tilbage til modellering af sådanne tilfældige effekter. 9 Tilbage til normalfordelingsmodeller PROC GENMOD, Scale option Noscale Scale= talværdi markeret markeret scale fastholdt på talværdi markeret ej markeret scale fastholdt på værdien ej markeret ej markeret scale estimeres ved ML ej markeret markeret iteration starter ved talværdi NOSCALE holder skalaparameteren fast. ML-estimation kan udføres for normal, invers gauss, negativ binomialfordeling og gamma. SCALE = DEVIANCE eller SCALE = PEARSON bruges til estimation af overdispersion. Eksempel, uldballer Renhed i % ren uld af 4 prøver fra hver af 7 baller uruguyansk uld Balle nr. Prøve Balle gennemsnit Formål at beskrive variation med henblik på tilrettelæggelse af stikprøveudtagning fra tilsvarende sendinger. 0 2

4 Hierarkisk model Først udtages en balle tilfældigt. Derefter udtages fire prøver tilfældigt fra denne balle. Y ij j te prøve fra i te balle. ɛ ij N(0,σ 2 ) uafhængige Alternativ formulering: Y ij = µ 0 + A i + ɛ ij, For fastholdt balle, uafhængige gentagelser. A i N(0,σb 2 ) uafhængige, og uafhængige af ɛ Ballerenheden µ i varierer fra balle til balle: Y ij µ i N(µ i,σ 2 ), Y i µ i N(µ i,σ 2 I 4 ) µ i N(µ 0,σ 2 b ) indbyrdes uafhængige 3 5 Modellens parametre Marginale fordelinger Den marginale fordeling af Y ij er en normal fordeling Modellen har parametrene µ 0,σ 2,σ 2 b. E[Y ij ]=µ 0 Vi sætter (Signal støj- forhold) γ = σ 2 b/σ 2 σb 2+σ2 for (i, j) =(h, l) COV[Y ij, Y hl ]= σb 2 for i = h, j l 0 for i h 4 6

5 Vi husker nemlig E[X] = E Y [ E[X Y]] D[X] = E Y [ D [X Y]]+ D Y [E[X Y]] Fordeling af i te sæt Lad Y i angiver observationer fra i te udtagne balle. Y, Y 2,...,Y q er uafhængige observationssæt Y i N ni (µ,σ 2 I ni +σbj 2 ni ) hvor J n angiver en n n matrix med ettaller. Dispersionsmatricen for Y i er V i = D [Y i ]=E[(Y i µ)(y i µ) T ] σb 2 + σ2 σb 2... σb 2 σb = σb 2... σb σb 2 σb 2... σb 2 +σ2 7 9 Egenskaber ved modellen Observationer fra samme balle er korrelerede Fordeling af hele observationssættet Y består af q uafhængige gentagelser med fordeling som Y i Korrelationskoefficienten kaldes intraklassekorrelationen ρ = σ2 b σb 2 + = γ σ2 +γ D [Y] =V= Blok diag{v i } 8 20

6 Fordeling af gruppegennemsnit { σ 2 COV[Y i, Y h ] = b +σ 2 /n i for i = h 0 ellers Gruppegennemsnit Y i, i=,2,...,q er indbyrdes uafhængige. V[Y i ] =σb+σ 2 2 /n i =σ 2 (γ+/n i ) omfatter bidrag fra variansen på den tilfældige komponent, γ i, og residualvariansen på gennemsnittet. Test af homogenitetshypotese Ingen forskel på baller, svarer til H II : σb 2 =0. Hypotesen testes ved at sammenligne varianskvotienten Z = SAK 2/(k ) SAK /(N k) med fraktilerne i en F(k,N k)-fordeling Som vanligt: sak = y = i n k i (y ij y i )) 2 i= j= n i y i /N (0.) sak 2 = k n i (y i y) 2 i= 2 23 Forøgelse af stikprøvestørrelse Konfidensinterval for varianskvotienten γ I balanceret tilfælde, n = n 2 =...=n k =n En forøgelse af stikprøvestørrelsen i de enkelte grupper vil således forøge præcisionen ved bestemmelse af gruppeforventningsværdien µ i, men variationen mellem de enkelte gruppeforventningsværdier formindskes naturligvis ikke ved denne gennemsnitsdannelse. fås ved at benytte Resultatet er eksakt γ L = ( n og γ U = ( n P[γ L <γ<γ U ]= α Z F(k,N k) α/2 Z F(k,N k) α/2 ) ) 22 24

7 Forventningsværdi af SAK er Maksimum- likelihood estimation Estimation af µ 0 : E[SAK /(N k)] = σ 2 og I balanceret tilfælde bare det fælles gennemsnit E[SAK 2 /(k )] = σ 2 + n 0 σ 2 0 hvor n 0 = k n i ( k n2 i / k n ( i) = N k i n2 i N )/ (k ) er den vægtede gennemsnitlige gruppestørrelse (i balanceret tilfælde er n 0 = n). I ubalanceret tilfælde løsning til hvor µ = k n i w i ( γ)y i /W ( γ) i= w i (γ) = +n i γ k W(γ)= n i w i (γ) i= Forventningsværdi af SAK er Kan fås af PROC GLM ved at skrive en sætning RANDOM balle; Variation SAK f s 2 = SAK/f E[S 2 ] Mellem baller σ 2 +4σ 2 b Indenfor baller σ 2 Estimation af σ 2 og σ 2 0 Maksimum- likelihood estimation Sædvanligvis benyttes REML-estimation (residual maximum likelihood), baseret på residualerne, - og som tager hensyn til at man har estimeret µ

8 PROC MIXED Proceduren MIXED er specielt rettet mod modeller med tilfældige effekter Estimation (prædiktion) af enkelte ballemiddelværdier PROC MIXED METHOD=REML ASYCOV ; CLASS balle prove; MODEL renh = ; RANDOM balle ; RUN; Løsningen tilfredsstiller dvs n i γ + µ i = n iγy i + µ 0 γσ 2 γσ 2 µ i =( w i (γ))y i + w i (γ)µ 0 et vejet gennemsnit mellem de individuelle gennemsnit y i og det fælles gennemsnit µ 0 med vægtene ( w i (γ)) og w i (γ), hvor w i (γ)= +n i γ Løsningen kaldes BLUP-estimatet (best linear unbiased predictor) se fx (0.2) 29 3 Estimation (prædiktion) af enkelte ballemiddelværdier L(µ 0,σ 2,γ,µ)=f(y µ)f(µ) log-likelihood en l(µ 0,σ 2,γ,µ)= (N/2) log(σ 2 ) sak + i (y i µ i ) 2 i (k/2) log(γσ 2 ) (µ i µ 0 ) 2 2σ 2 2γσ 2 Differentieres med hensyn til µ i finder vi l(µ 0,σ 2,γ,µ)= n i(y i µ i µ i σ 2 der er nul for (µ i µ γσ 2 ( ni µ i σ + ) = n i 2 γσ 2 σ 2y i + γσ 2µ 0 BLUP estimat som empirisk Bayes estimat Indskud om betingede og marginale fordelinger Vi starter med marginal fordeling af Y (baller), f Y (y) og betinget fordeling af X (målinger) for givet Y = y, g(x y). Simultan tæthed for X og Y, f xy (x, y) =f Y (y)g(x y) Marginal fordeling af X f X (x) = g(x y)f Y (y)dy y= Den betingede fordeling af Y givet X = x har tætheden h(y x) = f xy(x, y) = g(x y)f Y (y) f X (x) f X (x) f Y (y) kaldes apriorifordeling, g(x y) for stikprøvefordeling, og h(y x) aposteriorifordeling 30 32

9 Apriori, aposteriori for normalfordeling µ i N(µ 0,σb 2) og Y ij µ i N(µ i,σ 2 ) Da er aposteriorifordeling af µ i efter observation af ȳ i en normalfordeling med: E[µ i Y i = ȳ i ]= µ 0/σb 2 + n iȳ i /σ 2 /σb 2 + n i/σ 2 og V[µ i Y i = ȳ i ]= + n = i σ 2 σ 2 b Empirisk Bayes Hvis vi indsætter estimater for apriorifordelingens parametre, µ 0, σ 2 og σb 2 kaldes løsningen en Empirisk Bayes løsning. Den svarer altså til BLUP-løsningen I PROC MIXED Apriori, aposteriori for normalfordeling E[µ i Y i = ȳ i ]= µ 0/γ + n i ȳ i = w n µ 0 +( w n )ȳ i /γ + n i med w =/( + nγ). σapost 2 = σb 2 + n i σ 2 Kodeordet OUTP i modelsætningen angiver, at man får udskrevet estimaterne (prædikterede værdier) for de enkelte baller i det valgte datasæt. PROC MIXED DATA = DROP METHOD=REML ASYCOV ; CLASS balle prove; MODEL renh = / OUTP = pred ; RANDOM balle ; RUN; aposterioripræcision er summen af aprioripræcision og stikprøvepræcision = + n i γ aposteriori γ apriori 34 36