Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:

Transkript

1 Dagens program: Mandag den 8. februar Generaliserede lineære modeller Motiverende eksempel, logistisk regression Eksponentielle dispersionsfamilier Generaliseret lineær model Estimation, fordeling af residualer mv Test for modelreduktion Eksempler på modeller Andel døde musefostre som fkt af indgivet konc.: Hvad er der galt med lineær model og mindste kvadraters metode (GLM)? Andelen (responsen) skal ligge mellem nul og Variansen på responset er ikke konstant, men afhænger af middelværdien for responset, så observationerne bør ikke tillægges samme vægt Det er i hvert fald et problem, når vi arbejder med tælletal, dvs for binomialfordeling og Poissonfordeling Datasæt musefostre og blommer 3 Toxitetsvurdering for kølevæske: Eksponentielle familier af fordelinger: Indeks Antal Antal fostre Indgiven koncentration døde [mg/kg pr. dag] i z i n i x i Familie af fordelinger: En indekseret samling af fordelinger Eksponentielle familier er sådan at summen af uafhængige obs fra fordelingen er sufficient, dvs at man kan tillade sig at reducere et observationssæt til summen af obs uden at miste information. Exponentiel familie, fælles grundform: f X (x; θ) =c(x)exp{θx κ(θ)} (4.) Vi udvider til eksponentielle dispersionsfamilier med grundformen f Y (y; θ, λ) =c(y, λ)exp[λ{θy κ(θ)}] (4.5) 4

2 Eksempel, binomialfordeling: Middelværdiafbildning : ( ) n g Y (y; p) = p ny ( p) n( y) = ny for y =0,/n,..., og 0 p. Lad ( ) p θ = log for 0 <p< p så kan frekvensfunktionen udtrykkes som ( ( )) f Y (y; θ) =exp{n θy log + exp(θ) } med ( ) κ(θ) = log + exp(θ) og λ = n. ( ) ( ) ny n p ( p) n (4.6) x p Funktionen τ(θ) =κ (θ) (4.) definerer en enentydig afbildning µ = τ(θ) af parameterrummet, Ω, for den kanoniske parameter, θ, indpå en delmængde, M, af den reelle akse. Afbildningen kaldes middelværdiafbildningen. Den omvendte afbildning, θ = τ (µ), der fører middelværdien over i den kanoniske parameter, kaldes den kanoniske linkfunktion Altså to ækvivalente parametriseringer, ved p eller ved kanonisk parameter θ. 5 7 Kumulantfrembringer : Variansfunktion : Funktionen κ( ) beskriver hele fordelingen. Således fås middelværdi og varians for fordelingen svarende til en bestemt værdi af θ E [Y ] = κ (θ) (4.9) V [Y ] = κ (θ), (4.0) λ Naturligt at kalde λ for præcisionsparameter. Jo større λ desto mindre varians (større præcision) (enheds) variansfunktionen udtrykker fordelingens varians som en funktion V (µ) =κ (τ (µ)) (4.3) af middelværdien. To ækvivalente parametriseringer af en eksponentiel dispersionsfamilie, nemlig ved kanonisk parameter, θ og kumulantfrembringer, κ(θ) med middelværdiafbildning mv. eller ved middelværdiparameter, µ og variansfunktion, V (µ). 6 8

3 Vi indfører enhedsdeviansen ved Enhedsdevians : d(y; µ) = y µ y u du V(u), (4.4) Tætheden for en observation kan udtrykkes ved enhedsdeviansen (dvs som funktion af µ) som g Y (y;µ, λ) =a(y, λ) exp { λ } d(y;µ), (4.6) hvor d(y; µ) er enhedsdeviansen og λ er præcisionsparameteren [Vi kunne også have indført enhedsdevians som logaritmen til den relative likelihood af µ (i forhold til maksimal likelihood)] d(y; µ) = [l(µ; y) max l(µ; y)] µ Model for et observationssæt: observationssæt Y,Y,...,Y n. Uafhængige samme eksponentielle dispersionsparameterfamilie, kumulantfrembringer κ( ). Præcisionsparameter for fordeling af Y i givet som λ i = w i (kendt). log-likelihood: hvor l θ (θ; y) = k w i (θ i y i κ(θ i )) (4.) i= l µ (µ; y) = k i= D(y; µ) = w i d(y i ; µ i )= D(y;µ), (4.) k w i d(y i,µ i ). (4.3) i= 9 Scorefunktion : Enhedsdevianser svarende til forskellige fordelinger: Family M V (µ) unit deviance d(y, µ) λ θ Normal (, ) (y µ) /σ µ Poisson (0, ) µ {y ln(y/µ) (y µ)} a ln(µ) Gamma (0, ) µ {y/µ ln(y/µ) } α b /µ Bin (0, ) µ( µ) { y ln(y/µ)+ n c ln ( µ/( µ) ) ( y)ln ( ( y)/( µ) )} Neg Bin (0, ) µ( + µ) { y ln ( y( + µ)/[( + y)µ] ) r d ln(µ) +ln ( ( + µ)/( + y) )} I Gauss (0, ) µ 3 (y µ) /(y µ ) /µ GHS e (, ) +µ y { arctan(y) arctan(µ) } + /σ arctan(µ) +ln ( ( + µ )/( + y ) ) I analogi med normalfordelingsituationen ser vi først på scorefunktion og observeret information svarende til fuld model (hver obs sin egen parameter) l θ(θ; y) =diag(w)(y τ (θ)) (4.5) { } l wi µ(µ; y) =diag (y µ) (4.7) V (µ i ) Er netop proportional med (y µ) 0

4 Observeret information: Observeret information j(θ; y) =diag{w i V (τ(θ i ))} (4.6) Afhænger af parameterværdien θ Afhænger også af y { [ ]} j(µ; y) =diag w i V (µ i ) +(y i µ i ) V (µ i ), (4.7) V(µ i ) Forskel fra den generelle lineære model (normalfordeling): fordelingen af observationerne beskrives ved en mere generel klasse af fordelinger, (eksponentielle dispersionsfamilier, hvis støtte ikke nødvendigvis er hele den reelle akse, som for normalfordelingen), og derfor måler man overensstemmelse mellem observation og parameterværdi på enmåde, der afspejler egenskaberne ved den pågældende fordeling dels, at den lineære del ikke vedrører middelværdien, µ, men en funktion, η, af middelværdien. I normalfordelingsmodeller skriver vi sædvanligvis obs = middelværdi plus støj, hvor støj N(0,σ ). Det kan vi ikke for de andre fordelingsmodeller. For dem siger vi Y Ford(µ), også formulerer vi modeller for µ (eller rettere for en funktion η = g(µ). 3 5 Generaliseret lineær model: Ingredienser: Middelværdirum og rum for lineær prædiktor: observationssæt Y,Y,...,Y k eksponentiel dispersionsmodel med variansfunktion V (µ) linkfunktion η = g(µ) der fører middelværdi over i lineær prædiktor (koordinatvis) affin hypotese vedrørende η,η,...,η k H 0 : η η 0 L, (4.30) dvs η = Xβ theta_k theta_ mu_k mu_ Ideen er at vi laver en lineær model for en funktion (linkfunktionen) af middelværdien g (mu) Lineær prædiktor til venstre, middelværdirum til højre 4 6

5 Estimation Musefostre, logistisk regression: Vi skal bare minimere deviansen under betingelsen η = Xβ D(y; µ) = k w i d(y i,µ i ). i= Middelværdiligning k i= n i exp(α + βx i )/{ + exp(α + βx i )} = k i= x in i exp(α + βx i )/{+exp(α+βx i )} k i= z i k i= x iz i, Scorefunktion mht β (4.53) hvor X(β) DEF = µ β = er den lokale design matrix l β (β; y) = β l β(β;y) =[X(β)] T i µ (µ) (y µ(β)), [ ]T { } dµ η dη β = diag X (4.35) g (µ i ) For kanonisk link bestemmes løsningen fra Middelværdiligningen: X T y = X T µ(β) (4.43) 7 9 Eksistens og entydighed: Sidespring om fejlophobningsloven : Højst én løsning pga konveksitet. law of error propagation Man kan dog risikere at løsningen ligger på randen - og at randen ikke hører med til parameterområdet, nemlig feks en løsning θ = svarende til p =0i binomialfordelingssituation.. For Z = g(y ) med E[Y] =µgælder E[Z] g(µ), ( V[Y] V[Z] g (µ)) Resultatet fremkommer ved Taylorudvikling (dvs linearisering) af g(y ) omkring Y = µ g(y )=g(µ)+(y µ)g (µ)+o(y µ) Man kan bestemme maksimum-likelihood løsningen ved iterativt genvægtet mindste kvadraters metode. 8 0

6 Fordeling af estimatorer Hvad er fidusen ved en generaliseret lineær model? Eksempel: Estimation af hældning i regressionsmodeller Data (x,y ); (x,y );...;(x n,y n ) Model: Individuelle estimater for hældningen: E[Y] =βx β i = y i x i β β as N m (0, Σ), (4.44) D [ β] =Σ=[X T W(β)X] (4.45) med { } w i W(β) =diag, [g (µ i )] V (µ i ) (4.46) For kanonisk link bliver den bare W(β) =diag {w i V (µ i )} (4.47) 3 Fittede værdier, residualer Hvad er fidusen ved en generaliseret lineær model? Normalfordeling: Y N(βx,σ ).V[Y]=σ Poissonfordeling: Y P(βx). V[Y]=βx β= yi x i x i = β= yi xi = x i βi x i xi βi xi Fittede værdier af lineær prædiktor, η og af middelværdier µ. Residualer: Deviansresidual Måler i likelihoodværdier. r D i = r D (y i ; µ i ) DEF = sign(y i µ i ) w i d(y i, µ i ) (4.7) Gammafordeling: Y G(α, βx/α). V[Y]=(βx) Eksempel β= α y i /x i α = βi n Pearson-residual Simpel, intuitiv. r P i = r P (y i ; µ i ) DEF = y i µ i (4.73) V ( µi )/w i Vejet gennemsnit af individuelle hældninger, hvor de individuelle hældninger vægtes med deres præcision Standardisering sikrer samme varians (ved division med ( h ii )) 4

7 Test for modelreduktion Sætning 4.8. (side 43): Test for modeltilpasning, goodness of fit Teststørrelse D(y; µ( β)). Under H 0 : η = Xβ vil D(y; µ( β)) approximativt følge en χ (k m)-fordeling. Forkast for store værdier. Foregår ved opspaltning af deviansen: D ( ) ( ) µ( β); µ M = D(µ( β); µ( γ)) + D µ( γ); µm Under hypotesen η = Zγ vil D(µ( β); µ( γ)) approximativt følge en χ (m r)-fordeling. Evt kan man bruge Pearson teststørrelse. Bemærk, at i modsætning til normalfordelingsmodellen kan vi her bruge residualdeviansen til at teste modeltilpasning. 5 7 Eksempel Blommeudplantning Analysis of deviance tabel Variationskilde f Devians middeldevians Goodness of fit fortolkning Model H 0 m D ( µ( β); µ M ) D ( µ( β); µ M ) m Residual (Error) k m D ( y; µ( β) ) D( y; µ( β) ) k m G (H M H 0 ) G (H 0 ) Eksempel 4.. side 5. Antal overlevende/antal udplantede ved blommeudplantning Tofaktor forsøg med binomial respons tykkelse Længde MID TYK TYN KO 0/0 /0 4/0 LA 4/0 8/0 6/0 Korrigeret Total k D ( y; µ M ) G (H M ) 6 8

8 Type I opspaltninger, Blommer G (H ) =.88 0 G (H A H 0 ) = 6.86 H 0 G (H B H ) =.34 0 G (H A ) = 8.74 G (H H A M ) = 0.7 G (H B ) = 3. H A G (H M H B ) = 5.69 G (H ) = 8.9 M H B G (H M ) = Resume Vi har udvidet til andre responsfordelinger, end normalfordelingen Disse familier kan beskrives ved kun én parameter, fx middelværdien. Variansen afhænger af middelværdien Middelværdien kan ikke variere på hele den reelle akse, derfor betragter vi en funktion af middelværdien, linkfunktionen, og laver lineære modeller for denne Kanonisk link fører middelværdien over i kanonisk parameter (grundform) Vi kan måle afvigelsen mellem en observation og en fittet middelværdi ved deviansen, og deviansen tager netop hensyn til at variansen afhænger af middelværdien og så er resten næsten lige som normalfordelingen. Vi estimerer ved at minimere devians. Devianser er approximativt χ -fordelte, og vi kan spalte devianser. 30