Statistiske Modeller 1: Notat 1

Statistiske Modeller : Notat Jes Ledet Jese 9. august 005 Idhold Kast med k-sidet terig Betigig i multiomialfordelig 3 3 Fordelig af X + X - frembrigede fuktio 4 4 Maksimerig af log-likelihood 5 5 Afledede af log-likelihood 6 6 Glat hypotese 7 7 Kofidesiterval i biomialmodel 8 8 Middelværdi og varias i poissofordelig 9 9 Poisso som approksimatio til biomial 9 0 Sum af to poissofordelte variable 0 Kofidesiterval i possofordelig 0 Poissoprocesse 3 Poisso multiomial 4 De cetrale græseværdisætig CLT 5 Store tals svage lov LLN 4 6 χ approksimatio til fordelig af log Q 4 7 Dispersiosidekset 7

Kast med k-sidet terig Lad X X,...,X k være multiomialfordelt med atalsparameter og sadsylighedsvektor π π,...,π k. Dette ka opfattes som resultatet af uafhægige kast med e terig med k sider, og hvor sadsylighede for at side j kommer op er π j. De j te kompoet X j tæller, hvor mage af de kast, der resulterer i at side j kommer op. På dee måde geeraliserer multiomialfordelige biomialfordelige. Biomialfordelige svarer til kast med e møt, hvor hvert kast ku har to muligheder, plat eller kroe. Der er klart ud fra dee beskrivelse at { X og Y er uafhægige, X m, π, Y m, π, X + Y m +, π. Hvis vi lader B i {,,..., k} være resultatet af det i te kast af terige defierer vi V i B i, B i,...,b i k. Et udfald af V i består af uller på alle pladsere påær é. Vi ka u skrive X i V i. Fra beskrivelse med de kast med terige har vi umiddelbart at X j b, π j, og dermed EX j π j og VarX j π j π j. Covariase mellem X r og X s bereges som CovX r, X s Cov B i r, B j s i i j Cov B i r, B j s j Cov B i r, B i s i Cov B r, B s {E[B r, B s] E[B r]e[b s]} {0 π r π s } π r π s. Sadsylighede for et bestemt udfald b,...,b af de kast med terige er π b π b π b π x π x π x k k, svarede til at x j gage kom side j af terige op, j,...,k. Vi har derfor at PX x c; xπ x π x π x k k, hvor c; x er atal udfald af de kast af terige, hvor side j kommer op x j gage, j,...,k. Ved først at vælge de x pladser ud af de mulige, hvor side

kommer op, deræst de x pladser af de resterede x pladser, og så videre, ser vi at x x x x x k c; x x x! x! x x 3 x! x! x x! x x k!! x!x! x k!. x k!x k! x k x x! x 3! x x x 3! Her er beyttet at x er atallet af måder vi ka udvælge x pladser bladt mulige pladser. Betigig i multiomialfordelig Lad X X,...,X k m, π. For et r < k lad Y X,...,X r og Z X r+,..., X k. Givet Y Y + + Y r m og dermed Z Z r+ + + Z k m gælder der Y og Z er uafhægige, Y mm, π,...,π r /π + + π r, Z m m, π r+,..., π k /π r+ + + π k. Bevis. Fra beskrivelse ved kast med e k-sidet terig har vi at Y b, π + + π r. Vi har da y,z π y πr yr π z r+ z z k r k PY y, Z z Y m π + + π m r m π r+ + + π k m { m! r } { yj π j m! k r } zj π r+j. y! y r! π + + π r z! z k r! π r+ + + π k j j Da dette er et produkt af multiomialfordeligssadsyligheder følger resultatet. E mere geerel versio af oveståede er som følger. Lad I I I d {,..., k} være e disjukt opsplittelse af de k sider af terige. Defier X I j {X r : r I j } til at være de koordiater af X der har idex i I j. Så er X I, XI,...,XI d m, πi,...,πi d, 3

hvor X I j er summe over koordiatere i X I j, X I j r I j X r, og tilsvarede er π I j r I j π r. Betiget med X I,...,XI d m,...,m d hvor m + + m d er uafhægige og multiomialfordelte X I, X I,...,X I d X I j mm j, π I j /π I j. Dette resultat bruges bladt adet i tilfældet hvor X {X ij } er på matriksform, i,...,r, j,...,s. Vi lader da I j være de j te række og har X, X,..., X r m, π, π,...,π r, og X givet X, X,..., X r x, x,...,x r består af r uafhægige multiomialfordeliger: X i, X i,...,x is X i x i mx i, π i,...,π is /π i, i,...,r. I tilfældet hvor π ij ρ i σ j er π i,...,π is /π i σ,...,σ s /σ, det vil sige de samme for alle i,..., r. Deraf fås X,...,X s + X,...,X s + + X r,..., X rs X,...,X r x,...,x r mx + x + + x r, σ,...,σ s /σ m, σ,...,σ s /σ. Da dee betigede fordelig ikke afhæger af det vi betiger med, x,...,x r, har vi uafhægighed mellem X,...,X r og X,...,X s, altså mellem rækkesummer og søjlesummer. 3 Fordelig af X + X - frembrigede fuktio Lad Y være e stokastisk variabel på {0,,,...}. Defier for z fuktioe ϕ Y z ved ϕ Y z Ez Y z y PY y. Det ka vises, at fordelige er etydigt bestemt ved fuktioe ϕz. Altså, hvis to fordeliger giver de samme ϕ-fuktio, så er de to fordeliger idetiske. 4 y0

Lad Y b, p. Så får vi ϕ Y z z y p y p y y zp y p y y y0 y0 zp + p y0 zp + p y zp zp + p y p y zp + p zp + p. Lad u X m, π og defier Y X + X. Så fider vi med ψz z π + zπ + π 3 + + π k at ϕ Y z z x +x π x x πx πx k k x z π x zπ x π x 3 3 x πx k k x ψz z x x π zπ k xj πj x ψz ψz ψz x ψz. Tager vi specialtilfældet med k 3 og π p, p p, p, får vi ϕ Y z [ z p + zp p + p ] [zp + p]. Sammeliger vi med ses det at X + X b, p. j3 4 Maksimerig af log-likelihood Vi skal maksimere lπ k j x j l π j over området Π k {π,...,π k π j > 0, k j π j }, i tilfældet hvor x j > 0, j,..., k. Vi fider først ˆπ og ka deræst hevise til symmetri for at fide π j, j >. Vi idfører e omparametriserig ved π p, π pθ, π 3 pθ 3,..., π k pθ k, hvor variatiosområdet for de ye parameter p, θ, θ 3,..., θ k er p, θ, θ 3,...,θ k 0, Π k. 5

Det er emt at se, at der er e e-til-e sammehæg mellem π og p, θ. Vi har derfor { k } sup lπ sup π Π k π Π k { sup p,θ 0, Π k j x j lπ j x lp + x + + x k l p + sup {x l lp + x l p} + sup p 0, θ Π k } k x j lθ j j { k } x j lθ j. Lad u l p x lp + x l p. Så er l p x p x p, og l p 0 giver ligige j x p x p x p x p ˆp x. 3 Kytter vi og 3 samme ses at ˆπ x og på grud af symmetri har vi geerelt ˆπ j x j, j,...,k. 5 Afledede af log-likelihood Vi betragter e model, hvor sadsylighede px, θ for det observerede x afhæger af e parameter θ. Parametere θ varierer i et åbet område Θ af R d. Vi siger at modelle har d frie parametre. Likelihoodfuktioe Lθ Lθ; x px, θ er sadsylighede for det observerede, betragtet som fuktio af parametere θ. Loglikelihoodfuktioe lθ lθ; x llθ er logaritme til Lθ. Scorefuktioe Sθ Sθ; x l θ er de afledede af log-likelihoodfuktio, og de observerede θ iformatio jθ jθ; x l θ er mius de ade afledede. Bemærk at θ θ Sθ er e d-dimesioal vektor og jθ er e d d matrix. Der gælder æste altid E θ [Sθ] 0 og Var θ [Sθ] E θ [jθ], 4 hvor iθ E θ [jθ] E θ [jθ; X] kaldes de forvetede iformatio. Uformelt bevis. Middelværdie af Sθ bereges som E θ [Sθ] x x lθ; x px, θ θ x px,θ θ px, θ px, θ x l px, θ px, θ θ px, θ θ { } px, θ θ x {} 0. θ 6

For de forvetede iformatio fider vi [ ] px,θ θ iθ E θ [jθ] E θ θ px, θ x px, θ θ θ + E θ [SθSθ ] px, θ + Var θ θ θ [Sθ] x Var θ [Sθ]. 6 Glat hypotese [ px,θ θ θ E θ px,θ θ px,θ px, θ θ px, θ Vi betragter e model med sadsyligheder px, θ med θ Θ, hvor Θ er et åbet område af R d. E hypotese for θ er agivet ved, at θ er e fuktio af e lavere dimesioal parameter ξ. Lad os kalde fuktioe ϕ, så at hypotese siger at θ ϕξ for et eller adet ξ i variatiosområdet Ξ for ξ. Hypotese kaldes glat af orde d hvis. Ξ er et åbet område i R d.. Fuktioe ξ ϕξ er gage kotiuert differetiabel. 3. d d matrikse af afledede, ϕ ξ, har fuld rag for alle ξ Ξ. ξ Vi kalder modelle med θ Θ for M 0, og kalder de reducerede model med θ ϕξ, ξ Ξ, for M. De tilsvarede likelihoodfuktioer beæves L M0 θ og L M ξ. De to første betigelser sikrer, at vi ka differetiere likelihoodfuktioe L M ξ L M0 ϕξ to gage med hesy til ξ, forudsat at px, θ er to gage differetiabel med hesy til θ. De forvetede iformatio i M ξ i modelle M er givet ved i M ξ ϕ ξ ξi M 0 ϕξ ϕ ξ ξ, 5 og betigelse iii sikrer at i M ξ er positiv defiit, forudsat at i M0 θ er positiv defiit. For at bevise 5 bemærker vi at l M ϕ ξ ξ l M ϕ ξ ξ ξ ξ ξ ξ ξ l M 0 θ ϕξ, [ l M0 θ θ ϕξ ] ϕ ξ ξ ϕ ξ ξ ξ l M 0 θ ϕξ, ] og dermed i M ϕ ξ ξi M 0 ϕξ ϕ [ ] ξ ξ ϕ ξ ξ ξ E lm0 ϕξ θ ϕξ ϕ ξ ξi M 0 ϕξ ϕ ξ ξ. 7

I det sidste tri beyttede vi 4, og at r, s-idgage i det sidste led med er ϕ ξ r ξ s ξ l M 0 θ ϕξ. 7 Kofidesiterval i biomialmodel Lad X b, p. Normalfordeligsapproksimatioe til biomialfordelige siger at x + PX x Φ p, p p hvor x er et heltal. De øvre græse i et α kofidesiterval fides ved at løse x + Φ p α p p med hesy til p. Vi ka skrive dee ligig som x + p p p u α/, Hvor u p er p-fraktile i e stadard ormalfordelig, Φu p p. For emheds skyld skriver vi blot u i stedet for u α/ edefor. Ligige reducerer til x + p u p p. Kvadreres på begge sider fås + u p p x + + u + og de relevate løsig er p x + + u + x + 0 4 x + + u 4 + u x + + u x + + u + u 4 u + x + [ x + /]. + u De edre græse i kofidesitervallet fides tilsvarede ved at løse x Φ p α p p eller x p p p u. 8

8 Middelværdi og varias i poissofordelig Lad Y være e stokastisk variabel på {0,,,..., }. Defier for z fuktioe ϕ Y z ved ϕ Y z Ez Y z k PY k. Vi har følgede resultater ϕ Y, k0 ϕ Y z E[Y zy ], ϕ Y E[Y ], ϕ Y z E[Y Y z Y ], ϕ Y E[Y ] [E[Y ]. Lad u Y være poissofordelt, Så får vi ϕ Y z k0 e λ+λz, PY k λe k! e λ. z kλk k! e λ e λ+λz λz k k0 k! e λz og ϕ Y z λe λ+λz, ϕ λ, ϕ Y z λ e λ+λz, ϕ Y λ. Dette giver E[Y ] λ og VarY E[Y ] E[Y ] λ + λ λ λ. For poissofordelige gælder der altså at middelværdi og varias er es. 9 Poisso som approksimatio til biomial Lad X b, p. Hvis og p 0 så at p λ gælder der at Bevis PX k λk k! e λ. PX k p k k p k k + p e kl p k! k p k e k l p. 6 k 9

Det første led går mod /k! og det adet led går mod λ k. For det tredje led beytter vi at l x + x x for x <. Dermed er og da kp λ har vi at k l p + kp kp 0, Formel 6 viser dermed resultatet. lim e k l p lim e kp e λ. 0 Sum af to poissofordelte variable Lad X og Y være uafhægige med Så gælder der at X + Y poλ + γ. Bevis PX k λk k! e λ og Py k γk k! e γ. PX + Y k k PX m PY k m m0 k m0 λ m m! e λ γ k m k m! e γ λ + γk e λ+γ k! k m0 λ + γk e λ+γ c. k! k λ m γ k m m!k m! λ + γ λ + γ Kofidesiterval i possofordelig Lad X pλ. Normalfordeligsapproksimatioe til poissofordelige siger at PX x Φ x + λ, λ hvor x er et heltal. De øvre græse i et α kofidesiterval fides ved at løse Φ x + λ α λ 0

med hesy til λ. Vi ka skrive dee ligig som x + λ λ u α/, hvor u p er p-fraktile i e stadard ormalfordelig, Φu p p. For emheds skyld skriver vi blot u i stedet for u α/ edefor. Ligige reducerer til x + λ u λ eller λ u λ x + 0. De relevate løsig er [ λ u + u + 4 x + ] eller λ 4 [ u + u + 4 x + + u u + 4 x + ] u + x + + u x + + 4 u. De edre græse i kofidesitervallet fides tilsvarede ved at løse x Φ λ α λ eller x λ λ u. Poissoprocesse Jeg vil beskrive poissoprocesse på de reelle akse ved et græseargumet. Vi deler akse op i små itervaller af lægde : det i te iterval går fra i til i. Uafhægigt af hiade placeres i hvert af de små itervaller ete et pukt eller ige pukter. Sadsylighede for at placere et pukt i et iterval er λ, altså proportioalt med lægde af det lille iterval. Poissoprocessse fremkommer u som græseprocesse hvor vi lader 0. Betragt et iterval af lægde T. Dette ideholder T af de små itervaller hvis T ikke er et heltal bruger vi blot heltalsdele. Fra kostruktioe af processe har vi at atallet af pukter i itervallet af lægde T er biomialfordelt, b T, λ-fordelt. Når vi lader 0 og dermed T, ser vi fra afsit 9 at atallet af pukter i

itervallet med lægde T bliver poissofordelt med parameter lim T λ Tλ. Det er også klart, at uafhægighede af de små itervaller gør, at atallet af pukter N og N i to disjukte itervaller er uafhægige i græseprocesse. Helt tilsvarede ka vi defiere e poissoproces i plae. De små itervaller bliver til små kvadrater med sidelægde, og sadsylighede for et pukt i et sådat kvadrat er λ. I græseprocesse bliver atallet af pukter i et område med areal A poissofordelt med parameter λ A. 3 Poisso multiomial Betragt k uafhægige poissofordelte variable X,..., X k med X i poλ i. Defier π i λ i λ, i,..., k, hvor λ i λ i. Der gælder at og at λ,...,λ k R k + λ, π R + Π k, PX x,..., X k x k k i λ x i x i! eλ i λx x! e λ x x,...,x k π x πx k k, hvor Π k {π,...,π k 0 < π i <, i π i }. Det sidste udtryk svarer til at X poλ og at X,...,X k X x mx, π. Lad M 0 være modelle hvor λ,..., λ k R k +, og lad M være modelle hvor λ R + og λ π,..., λ k Π 0 Π k. λ λ Likelihoodratio testore for M uder M 0 er da Q max M Lλ max M0 Lλ max π Π 0 L b π max π Π k L b π, {max λ R + L m λ }{max π Π0 L b π} {max λ R + L m λ }{max π Π k L b π} hvor L m λ er de margiale likelihood fra fordelige af X og L b π er de betigede likelihood fra de betigede fordelig givet X x. Fortolkige er, at likelihoodratio testore fra poissofordelige er idetisk med likelihoodratio testore i de betigede multiomialfordelig. 4 De cetrale græseværdisætig CLT De cetrale græseværdisætig siger, at e sum af mage uafhægige stokastiske led har e fordelig der liger e ormalfordelig.

For at få e lille foremmelse for dette udover hvad ma ka se fra simulatioer lad os betragte X b,, hvor er et lige tal. Vi vil se på PX + k, hvor k er z gage stadardafvigelse, k z /4. For emheds skyld lad ν. Vi har da PX + k PX ν ν+k ν ν ν!ν! ν + k!ν k! ν ν ν k + ν + ν + k k ν ν + + k ν ν { k exp [l ν l + jν ] } l + kν j { } exp k j ν ν k ν + Rest j } exp { k ν + Rest { } exp z + Rest, hvor vi har beyttet at l+x ka approksimeres med x, med e fejl der er midre ed x, For restleddet ovefor har vi derfor l + x x x for x. k j 3 Rest ν + k ν k3 /4 ν z3 / j z 3 4 0 for. Da tæthede for e N0, -fordelig er π e z idikerer oveståede beregig at X / /4 N0,. Jeg formulerer u de cetrale græseværdisætig matematisk. Lad X,..., X være uafhægige og idetisk fordelte med EX i µ og VarX i σ. Så gælder der at i P X i µ σ z Φz for. Her står, at de stadardiserede variabel X i µ/σ har e fordelig der 3

liger stadard ormalfordelige N0,. I praksis bruges resultatet typisk geem X i Nµ, σ. i Jeg giver også lige e formuerig for at dække tilfældet med uafhægige me ikke idetisk fordelte variable X,...,X. Lad EX i µ i, VarX i σi, og lad E X i µ i 3 β i. Hvis i β i i σ 3 0 for, i så gælder der at P i X i µ i i σ i z Φz for. 5 Store tals svage lov LLN Hvis X er e stokastisk variabel med middelværdi µ og varias σ gælder der P X µ > ε E{ X µ > ε} { } X µ E X µ > ε ε ε E { X µ } σ ε. Lad u X,..., X være uafhægige med EX i µ i og VarX i σi. Da Var X i σ i har vi P X i µ i > ε i ε σi. Atag u at i σ i c for e kostat c. Så har vi P X i µ i > ε c 0 for. ε i I ord har vi altså, at X ligger tættere og tættere på µ i i µ i i sadsylighed. 6 χ approksimatio til fordelig af log Q Betragt e model M 0 med likelihoodfuktio L M0 og e delmodel heraf M med likelihoodfuktio L M. Log likelihoodratio testore log Q er Q sup L M sup L M0. 4

At fordelige til dee ka approksimeres med e χ -fordelig med d 0 d frihedsgrader, baserer sig grudlæggede på de cetrale græseværdisætig avedt på scorefuktioe og de store tals lov avedt på de observerede iformatio. Atallet af frihedsgrader d 0 d er atallet af frie parametre i M 0 modelle mius atallet af frie parametre i M modelle. Jeg vil illustrere resultatet i to simple situatioer. Først vil jeg teste p p 0 i e biomialfordelig. Lad X b, p, 0 < p <, uder M 0, og lad Lad X b, p 0 uder M. Log likelihoodratio testore for p p 0 er log Q { x l x x + x l p 0 p 0 }, hvor x er de observerede værdi og x x er estimatet for p uder M 0. Lad således at log Q h x. Der gælder og hz {z l z p 0 + z l z p 0 } hp 0 0, h z {lz/p 0 l z/ p 0 }, h p 0 0, { h z z + }, h p 0 z E taylorudviklig af hz omkrig p 0 giver derfor hz 0 + 0 z p 0 + Erstatter vi u z med x får vi x p0 log Q p0 p 0 p 0 p 0. p 0 p 0 z p 0 + c 3 z p 0 3 + c 4 z p 0 4 +. + c 3 x p0 p0 p 0 3 + c 4 For stor forsvider alle led påær det første, og vi har X p 0 log Q χ, p0 p 0 x p0 p0 p 0 4 + hvor χ -fordelige følger fra de cetrale græseværdisætig for e biomialfordelig X p 0 N0,, p0 p 0 husk at X er e sum af uafhægige møtkast. De æste situatio jeg vil betragte, er hvor vi har to uafhægige poissovariable, X Poν, Y poγ, og vi øsker at teste λ γ. Vi lader M 0 være modelle hvor λ, γ R + og lader M være modelle med λ γ R +. Estimatere uder 5

M 0 er ˆλ x og ˆγ ȳ, og estimatet for de fælles værdi λ γ uder M er ˆλ ˆγ x + ȳ/. Log likelihoodratio testore bliver så { } x + ȳ log Q x l x + ȳ lȳ x + ȳ l. Det er klart, at år x ȳ så er log Q 0, og vi ka ituitivt tæke på log Q som mestedels værede e fuktio af ȳ x. For at gøre dette mere præcist, lad u x + ȳ/ og v ȳ x. Som fuktio af u, v får log Q udtrykket log Q hu, s, hvor hu, v u v lu v + u + v lu + v u lu. Taylorudvikler vi hu, v som e fuktio af v omkrig v 0 fider vi og dermed hu, 0 0, h v u, v lu v + lu + v, h v u, v 4 u v + 4 u + v, h u, 0 0, v h u, 0 v u, hu, v 0 + 0 v + 4u v + c 3 uv 3 +. Idsætter vi dette i log Q får vi log Q [ ȳ x] x + ȳ + c 3 x + ȳ/ [ ȳ x] 3 +. Ligesom i biomialmodelle forsvider alle led for påær det første, det vil sige log Q [ Ȳ X] X + Ȳ. 7 Da X poλ ka vi skrive X X + X + + X, hvor X i -ere er uafhægige og poλ fordelt. Helt tilsvarede ka vi skrive Y Y + + Y. Store tals lov giver så X + Ȳ X i + Y i λ, hvor EX i + Y i λ. I stedet for 7 ka vi så skrive [ X] [ log Q Ȳ Y i X i ]. λ λ i Da EY i X i 0 og VarY i X i λ giver de cetrale græseværdisætig at i log Q [N0, ] χ. Bemærk at atallet af frihedsgrader er, hvor er atallet af parametre i M 0 og er atallet af parametre i M. 6

7 Dispersiosidekset Lad X,...,X være uafhægige og poissofordelte med parameter λ. Defier Fishers dispersiosideks t ved t s X, s X i X. Vi vil betragte fordelige af t i de to græser λ og. Først ser vi på situatioe λ. Da X E λ X λ λ og Var λ λ λ 0 for λ, λ får vi ved samme argumet som for Store Tals Lov, at X λ i for λ, 8 hvor kovergese er i sadsylighed. Da e poissofordelig med parameter λ ka skrives som e sum af led der hver især er poissofordelte, ka vi bruge de cetrale græseværdisætig til at sige at X λ λ N0, for λ. Vi har derfor, at λ s i Kombierer vi 8 og 9 får vi t Xi λ λ X λ λ χ /. 9 λ s λ X χ / for λ. Vi betragter u græse. Fra de flerdimesioale cetrale græseværdisætig har vi λ λ i λ, [X i λ ix λ] N 0, λ λ + λ. 0 Vi har her beyttet at i VarX i λ λ, CovX i λ, X i λ λ EX i λ 3 λ, VarX i λ λ VarX i λ EX i λ 4 [EX i λ ] λ + 3λ λ λ + λ. 7

Lad u u X i λ og v X i λ λ. Så ka vi skrive t s Y {v + λ + u } λ + u + v λ u λ, hvor vi har beyttet e. ordes taylorudviklig, og har erstattet 0 har vi u, v N 0, λ λ λ λ + λ, og derfor t N Da e χ -fordelig ka skrives som med. Fra, λ λ + λ + λ λ N,. λ λ U + U + + U, hvor U i N0,, ser vi fra de cetrale græseværdisætig at N, χ, idet VarU i EU4 i [EU i ] 3. Sammeliger vi og ser vi, at t s X χ / for. 8