Poul Thyregod, 2. maj Specialkursus vid.stat. foraar exp µ β/(1 + β), som netop er kernen i en Gammafordeling med formparameteren

Relaterede dokumenter
Generelle lineære mixede modeller

Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:

Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

Antal Antal B(770, ) Pl(770, 0.460, 319.1) afvi- stikprøgende

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

Noter til Specialkursus i videregående statistik

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Sandsynlighedsregning

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Lidt om fordelinger, afledt af normalfordelingen

Elementær sandsynlighedsregning

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Produkt og marked - matematiske og statistiske metoder

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Kvantitative Metoder 1 - Forår Dagens program

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Sandsynlighedsteori

standard normalfordelingen på R 2.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

4 Oversigt over kapitel 4

Oversigt over nyttige fordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Uge 10 Teoretisk Statistik 1. marts 2004

INSTITUT FOR MATEMATISKE FAG c

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Introduktion til GLIMMIX

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger

Statistik og Sandsynlighedsregning 2

Sandsynlighed og Statistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Introduktion til generaliserede lineære modeller

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Den todimensionale normalfordeling

Løsning til eksamen 16/

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik og Sandsynlighedsregning 2

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Tema. Dagens tema: Indfør centrale statistiske begreber.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: PQ. juli 200Z Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Note om Monte Carlo metoden

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Om hypoteseprøvning (1)

1 Hb SS Hb Sβ Hb SC = , (s = )

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Betingning med en uafhængig variabel

Løsning til eksaminen d. 29. maj 2009

DANMARKS TEKNISKE UNIVERSITET Side?? af?? sider. Skriftlig prøve, den: 18. december 2014 Kursus nr : (navn) (underskrift) (bord nr)

2 Opgave i hierarkiske normalfordelingsmodeller

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Normalfordelingen og Stikprøvefordelinger

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2010 Kursus nr : (navn) (underskrift) (bord nr)

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Efterår Dagens program

Statistik og Sandsynlighedsregning 2

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Transkript:

Hierarkisk model for Poisson fordeling med overdispersion Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller Eksempel: hierarkisk Poissonfordelingsmodel Eksempel: hierarkisk binomialfordelingsmodel Hierarkisk model for exponentiel dispersionsfamilie Flere eksempler på hierarkiske modeller Aposteriorifordeling for middelværdiparameter µ Eksempel Aposteriorifordeling for Poisson-Gamma model prædiktiv fordeling Y µ P(µ) Poisson-fordeling Hvad skal vi vælge som fordeling af µ? Det er usmart med en normalfordeling af µ, da0<µ. Likelihood en for µ fra Poissonfordelingen er proportional med p Y (y; µ) µ y exp( µ) Vi vælger en fordeling af µ, hvis tæthed har samme form som likelihood en fra Poissonfordelingen, nemlig g µ (µ) (µ) α exp( µ/β) Det er jo tætheden for en Gammafordeling, dvs g µ (µ;α, β) ( ) α µ exp( µ/β) Γ(α)β β 3 Fordeling af dagligt antal tordenvejr ved Cape Kennedy Antal Antal Poisson episoder dage forventet y i #i 0 803 79.85 00 8.78 2 4 8.9 3+ 3 0.46 Tælletal, naturlig fordeling er Poissonfordeling med frekvensfunktion P[Y y] p Y (y;µ) µy y! exp( µ) for y 0,,2,... og middelantallet µ episoder/dag. Frekvensfunktionen for den marginale fordeling af µ fås ved at integrere p Y (y; µ) med hensyn til g µ (µ; α, β) f Y (y) µ0 p Y (y; µ)g µ (µ; α, β)dµ µ y ( ) α µ0 y! exp( µ) µ exp( µ/β)dµ Γ(α)β β µ y+α { /( )} µ0 y!γ(α)β exp µ β/( + β) dµ α Vi bemærker { /( nu, at de faktorer )} i integranden, der afhænger af µ er, µ y+α og exp µ β/( + β), som netop er kernen i en Gammafordeling med formparameteren y + α og skalaparameter β/( + β) MEN observeret fordeling har tykkere haler end Poissonfordelingen. Atså overdispersion 2 4

Udtrykket kan reorganiseres til Γ(y + α) β y f Y (y) y!γ(α) ( + β) y+α ( µ0 Γ(y + α)β/( + β) Γ(y + α) β y y!γ(α) ( + β), y+α µ β/( + β) ) y+α { /( )} exp µ β/( + β) dµ hvor integranden netop er tætheden for en gammafordeling, (med integralet ). Momenter Vi har fra gammafordelingen at E[µ] αβ og V[µ] αβ 2, og fra Poissonfordelingen har vi E[Y µ] V[Y µ]µ. Momenterne i den marginale fordeling af Y bliver derfor E[Y] E µ [E[Y µ]] E[µ] αβ V[Y] E µ [V[Y µ]] + V µ [E[Y µ]] E µ [µ]+v µ [µ] αβ + αβ 2 m + m 2 /α hvor vi har sat E[µ] m. ( ) α ( Γ(y + α) f Y (y) ) y y!γ(α) +β +β For heltallige positive værdier af α er f Y (y) netop frekvensfunktionen for en negativ binomialfordeling (fordelingen af ventetiden y til den α te succes i en følge af Bernoulli forsøg, hvor sandsynligheden for succes er /( + β)) 5 7 Parametriseringer For heltallige positive α bliver frekvensfunktionen f Y (y) (y+α )! ( ) α ( ) y ( y+α y!(α )! +β +β y Vi kan definere en negativ binomialfordeling også for ikke-heltallige værdier af α. )( ) α ( ) y +β +β Undertiden er det smartere at parametrisere gammafordelingen ved middelværdi m αβ, og reciprok formparameter k /α, eller ved middelværdi m αβ og signal/støj forhold γ V µ[e[y µ]] E µ [V[Y µ]] V µ[µ] E[ V P (µ)] αβ2 αβ β mk hvor V P ( ) angiver variansfunktionen for Poissonfordelingen, V P (µ) µ. Giver mulighed for grænseovergang til en etpunktsfordeling i m for fast m og k 0 eller, alternativt fast m og γ 0 Ved denne grænseovergang går NB-fordelingen mod en Poissonfordeling med middelværdi m. 6 8

Flere observationer fra samme gruppe (samme µ) Optræder fx. ved bakterietællinger, målinger i rene rum Betragt summen Z X + X 2 + +X n,hvorx i erne for fastholdt µ (dag, lokalitet el. lgn.) er uafhængige P (µ)-fordelte variable. Modellen for Z bliver da Z µ P (nµ), µ G(/k, m/k) Den marginale fordeling af Z er en NB-fordeling (på ikke-negative heltal). Binomialfordeling, eksempel Eksempel, Z i antal dimensionsafvigende låg i stikprøver á 770 låg fra hvert af 229 partier. Hvis proces i kontrol, naturligt at forvente Z i er uafhængige ensfordelte med Z i B(770,p) (binomialfordeling). Det er naturligere at betragte gennemsnittet Y Z/n V[Y] + m ( n 2V[Z]m2 n m mk + ) ( E[V P (µ)] γ + ) n n lissom formlen i normalfordelingsituationen 9 Estimation Parametrene m og k (eller m og γ) kan estimeres ved momentmetoden fra gennemsnit og empirisk varians for observationerne (hvis designet er balanceret, dvs. samme n i alle grupper). Man kan også maksimum-likelihood estimere. PROC GENMOD, dist NEGBIN estimerer m og k og kalder k for dispersion (men det er den ikke). 0 2

Fordeling af antal afvigende låg Tykkere haler end binomialfordeling med samme middelværdi. Hierarkisk model: Z p B(n, p), p???? p Z (z) ( ) n p z ( p) n z z Lad Z µ B(n, µ) og µ Be(α, β). Da kaldes den marginale fordeling af Z for Polyafordelingen (efter Polyas urnemodel). Undertiden betegnes Polyafordelingen binomial-beta fordelingen fordi den er en compound fordeling fremkommet ved at mixe binomialfordelinger ved en betafordeling Upraktisk med normalfordeling af p, da 0<p<. Evt kunne man vælge normalfordeling af den kanoniske parameter, logit en. 3 5 Fordeling af p Vi vælger p Be(α, β) (betafordeling) med tæthed g p (p) B(α, β) pα ( p) β for 0 <p< (B(α, β) er Betafunktionen), altså samme form af kernen af tætheden, som likelihoodfunktionen for binomialfordelingen. E[p] α α+β V[p] αβ (α + β) 2 (α + β + ) 4 6

Betragt den relative hyppighed, Y Z/n Momenter i marginal fordeling Middelværdi, π E[µ] α/(α + β) og signal/støjforhold γ V µ[e[y µ]] E µ [V[Y µ]] V µ [µ] E[µ( µ)] α + β Vi får derfor E[Y] π α α+β ( π( π) V[Y] γ+ ) +γ n hvor π( π) E[µ( µ)] E[V bin (µ)] +γ udtrykker den gennemsnitlige binomialvarians af gruppegennemsnit E[Y i ] E[E[Y i µ]] E[µ] m ) ) V[Y i ] E[V(µ)] (γ + ni E[V(µ)] (γ + ni, Konjugeret fordeling giver simpelt analytisk udtryk for den marginale fordeling. Man kunne godt vælge at lave normalfordeling for kanonisk parameter, men det giver komplicerede udtryk for marginalfordelinger. 7 9 Fortolkning af parametre i konjugeret fordeling For parametrene m og γ gælder: m E[µ] γ V[µ] E[V(µ)], hvor µ E[Y θ], oghvorv(µ)angiver variansfunktionen κ (τ (µ)) Eksempel, Monocyttælling Som led i en undersøgelse af et lægemiddel udtoges en gruppe personer (73 rygere) i en given aldersklasse. For hver person tog man 00 hvide blodlegemer (leukocytter) fra en blodprøve fra personen og optalte antallet af monocytter (encellede). Fordelingen var: Antal monoc. Antal pers. 0 2 3 4 5 6 7 8 9 4 4 4 5 5 6 2 0 2 Snit 3.2, Det kunne være naturligt at sammenligne med en binomialfordeling, B(n 00,p 0.032). 8 20

Monocyttælling, sammenligning med binomial fordeling Monocyttælling, simultan fordeling 2 23 Monocyttælling, sammenligning med Polyafordeling Monocyttælling, niveaukurver 22 24

Generelt princip for valg af konjugeret fordeling Betragt en exponentiel dispersionsfamilie (af observationer) f Y (y; θ, λ) c(y, λ)exp[λ{θy κ(θ)}] Vælg fordeling af kanonisk parameter θ med tæthed for θ Ω g θ (θ; m, γ) exp[{θm κ(θ)}/γ] C(m, λ) hvor kumulantfrembringeren κ( ) er den samme i de to udtryk. Fordelingen af θ kaldes den konjugerede fordeling I Bayes-sammenhænge kaldes den konjugeret apriorifordeling. I hierarkiske modeller kaldes den undertiden konjugeret strukturfordeling. Aposteriorifordelinger under hierarkisk model Lad X,X 2,...,X n være uafhængige (for givet θ), frembragt med samme θ og med tæthed g(x θ) d(x)exp{[θx κ(θ)]/σ 2 }, og lad fordelingen af θ være den konjugerede fordeling med tæthed w(θ; m, γ) exp{[θm κ(θ)]/γ} C(m, γ) Da er aposteriorifordelingen af θ efter observation af X x,...,x n x n e ( w θ ) X i /n x C(m,γ ) exp{[θm κ(θ)]/γ } med m m/γ + n x/σ2 m apost /γ + n/σ 2 γ γ apost /γ + n/σ 2 25 27 Andre eksempler på hierarkiske modeller Fordeling af empiriske varianser, afsnit 7.3 Normalfordeling med tilfældigt varierende varians, afsnit 7.4: hvor σ 2 i er indbyrdes uafængige. Y i σ 2 i N(µ, σ 2 i ) /σ 2 i G(α, /β) Da gælder for den marginale fordeling af Y i,at Y i µ β/α t(2α) hvor t(2α) er en t-fordeling med 2α frihedsgrader, dvs en fordeling med tykkere haler end normalfordelingen. Aposteriorifordelinger For den konjugerede apriorifordeling gælder altså at aposteriorifordelingen for θ er af samme form som apriorifordelingen, blot med opdaterede parametre m og γ ved brug af den sædvanlige opdateringsformel. γ apost m apost γ apost γ apriori + n/σ 2 m apriori γ apriori + n x/σ 2 γ apost V[µ x] E[V(µ) x], (0.) 26 28

Vi så, at Poisson-gamma model: Vævefejl i stof. Eksempel på opdatering af aprioriinformation For en given produktion er fejlene tilfældigt spredt over stoffet i overensstemmelse med en Poisson-fordeling. Variansen i aposteriorifordelingen af µ afhang ikke kun af stikprøvestørrelsen, men også af fejlniveauet (fordi variansen i Poissonfordelingen stiger med middelværdien) Det væsentligste bidrag til spredningen i den prædiktive fordeling for det totale antal fejl hidrører fra aposteriorivariansen for µ. Bidraget er proportionalt med prædiktionslængden og er væsentligt større end bidraget fra Poissonusikkerheden. For det totale antal fejl er jo ikke summen af uafhængige Poissonstørrelser; de kommer jo fra samme produktion Gennemsnitligt antal fejl pr m 2, µ varierer fra produktion til produktion i overensstemmelse med en gammafordeling med middelværdi 2.5 og varians 2.0825 Prædiktiv fordeling Der udtages en stikprøve, og antallet af fejl bestemmes. Dette bruges til bestemmelse af aposteriorifordeling for µ, som derefter bruges til bestemmelse af prædiktiv fordeling af antal fejlihhveen,0og20m 2 stof fra denne produktion. Prædiktiv fordeling, mixtur af stikprøvefordeling og apost. 29 3 Poisson-gamma Parameter Før Efter observation af n 0 n0 n20 z z60 z 20 x 0. x6 x6 me[µ] 2.5 0.36 5.63 5.80 γ 0.833 0.0893 0.0893 0.0472 V[µ] m γ 2.0825 0.03 0.50 0.27 α 3 4 63 23 β.2.2.2 2.2 Fordeling af fejl i én ny m X NB(α, β/( + β)) E[X ]m 2.5 0.36 5.63 5.80 V[X ]m(+γ) 4.58 0.39 6.3 6.07 Fordeling af fejl i 0 nye m Z NB(α, β/(0 + β)) E[Z ]0m 25 3.6 56.3 58.0 V[Z ]0m( + 0γ) 233.32 6.8 06.57 85.38 Fordeling af fejl i 20 nye m Z NB(α, β/(20 + β)) E[Z ]20m 50 7.2 2.6 6.0 V[Z ]20m( + 20γ) 883 20.06 33.7 225.50 30