Statistiske Modeller 1: Notat 1

Relaterede dokumenter
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

antal gange krone sker i første n kast = n

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Diskrete og kontinuerte stokastiske variable

Hovedpointer fra SaSt

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Den flerdimensionale normalfordeling

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Asymptotisk optimalitet af MLE

Motivation. En tegning

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

9. Binomialfordelingen

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Stikprøvefordelinger og konfidensintervaller

Sandsynlighedsteori 1.2 og 2 Uge 5.

Program. Middelværdi af Y = t(x ) Transformationssætningen

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Generelle lineære modeller

Estimation ved momentmetoden. Estimation af middelværdiparameter

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Asymptotisk estimationsteori

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

r n E[ X n ]/n! for alle r > 0 ifølge monoton konvergens, giver potensrækketeori, at ( ) er ækvivalent med, at ρ n E[ X n ]/n!

Supplement til Kreyszig

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

RESEARCH PAPER. Nr. 2, En model for lagerstørrelsen som determinant for købs- og brugsadfærden for et kortvarigt forbrugsgode.

Konfidens intervaller

Sandsynlighedsteori 1.2

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Analyse 1, Prøve maj 2009

Vejledende besvarelser til opgaver i kapitel 15

Supplerende noter II til MM04

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Susanne Ditlevsen Institut for Matematiske Fag susanne

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Løsninger til kapitel 7

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

STATISTISK MODELLERING OG ANALYSE 19. DECEMBER 2008 ET MAT3-PROJEKT I BAYESIANSK INFERENS VEJLEDER: JAKOB G. RASMUSSEN GRUPPE: G4-115

Elementær Matematik. Polynomier

Elementær sandsynlighedsregning

Introduktion til Statistik

Noter om Kombinatorik 2, Kirsten Rosenkilde, februar

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Vejledende opgavebesvarelser

Sammensatte hypoteser i en polynomialfordeling

Elementær sandsynlighedsregning

Projekt 1.3 Brydningsloven

Deskriptiv teori: momenter

Maja Tarp AARHUS UNIVERSITET

Modul 14: Goodness-of-fit test og krydstabelanalyse

Matematisk Modellering 1 Hjælpeark

Opsamling. Lidt om det hele..!

Teoretisk Statistik, 9. februar Beskrivende statistik

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Forelæsningsnoter til Stokastiske Processer E05. Svend-Erik Graversen Revideret af Jan Pedersen Kapitel 12 og Appendix B og G af Jan Pedersen

Udtrykkelige mængder og Cantorrækker

Eksempel 10.1 En autoregressiv proces af orden 1 (ofte blot kaldet en AR(1)- proces) pårhar et opdateringsskema (10.1) med funktionen. for y R.

Morten Frydenberg version dato:

STATISTIKNOTER Simple normalfordelingsmodeller

Baggrundsnote til sandsynlighedsregning

og Fermats lille sætning

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Lys og gitterligningen

De reelle tal. Morten Grud Rasmussen 5. november Se Sætning 3.6 og 3.7 for forskellige formuleringer af egenskaben og dens negation.

cos(t), v(t) = , w(t) = e t, z(t) = e t.

Estimation og test i normalfordelingen

Kvantitative metoder 2

Regularitetsbetingelserne i simple modeller

BEVISER TIL KAPITEL 7

STATISTISKE GRUNDBEGREBER

x-klasserne Gammel Hellerup Gymnasium

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Transkript:

Statistiske Modeller : Notat Jes Ledet Jese 9. august 005 Idhold Kast med k-sidet terig Betigig i multiomialfordelig 3 3 Fordelig af X + X - frembrigede fuktio 4 4 Maksimerig af log-likelihood 5 5 Afledede af log-likelihood 6 6 Glat hypotese 7 7 Kofidesiterval i biomialmodel 8 8 Middelværdi og varias i poissofordelig 9 9 Poisso som approksimatio til biomial 9 0 Sum af to poissofordelte variable 0 Kofidesiterval i possofordelig 0 Poissoprocesse 3 Poisso multiomial 4 De cetrale græseværdisætig CLT 5 Store tals svage lov LLN 4 6 χ approksimatio til fordelig af log Q 4 7 Dispersiosidekset 7

Kast med k-sidet terig Lad X X,...,X k være multiomialfordelt med atalsparameter og sadsylighedsvektor π π,...,π k. Dette ka opfattes som resultatet af uafhægige kast med e terig med k sider, og hvor sadsylighede for at side j kommer op er π j. De j te kompoet X j tæller, hvor mage af de kast, der resulterer i at side j kommer op. På dee måde geeraliserer multiomialfordelige biomialfordelige. Biomialfordelige svarer til kast med e møt, hvor hvert kast ku har to muligheder, plat eller kroe. Der er klart ud fra dee beskrivelse at { X og Y er uafhægige, X m, π, Y m, π, X + Y m +, π. Hvis vi lader B i {,,..., k} være resultatet af det i te kast af terige defierer vi V i B i, B i,...,b i k. Et udfald af V i består af uller på alle pladsere påær é. Vi ka u skrive X i V i. Fra beskrivelse med de kast med terige har vi umiddelbart at X j b, π j, og dermed EX j π j og VarX j π j π j. Covariase mellem X r og X s bereges som CovX r, X s Cov B i r, B j s i i j Cov B i r, B j s j Cov B i r, B i s i Cov B r, B s {E[B r, B s] E[B r]e[b s]} {0 π r π s } π r π s. Sadsylighede for et bestemt udfald b,...,b af de kast med terige er π b π b π b π x π x π x k k, svarede til at x j gage kom side j af terige op, j,...,k. Vi har derfor at PX x c; xπ x π x π x k k, hvor c; x er atal udfald af de kast af terige, hvor side j kommer op x j gage, j,...,k. Ved først at vælge de x pladser ud af de mulige, hvor side

kommer op, deræst de x pladser af de resterede x pladser, og så videre, ser vi at x x x x x k c; x x x! x! x x 3 x! x! x x! x x k!! x!x! x k!. x k!x k! x k x x! x 3! x x x 3! Her er beyttet at x er atallet af måder vi ka udvælge x pladser bladt mulige pladser. Betigig i multiomialfordelig Lad X X,...,X k m, π. For et r < k lad Y X,...,X r og Z X r+,..., X k. Givet Y Y + + Y r m og dermed Z Z r+ + + Z k m gælder der Y og Z er uafhægige, Y mm, π,...,π r /π + + π r, Z m m, π r+,..., π k /π r+ + + π k. Bevis. Fra beskrivelse ved kast med e k-sidet terig har vi at Y b, π + + π r. Vi har da y,z π y πr yr π z r+ z z k r k PY y, Z z Y m π + + π m r m π r+ + + π k m { m! r } { yj π j m! k r } zj π r+j. y! y r! π + + π r z! z k r! π r+ + + π k j j Da dette er et produkt af multiomialfordeligssadsyligheder følger resultatet. E mere geerel versio af oveståede er som følger. Lad I I I d {,..., k} være e disjukt opsplittelse af de k sider af terige. Defier X I j {X r : r I j } til at være de koordiater af X der har idex i I j. Så er X I, XI,...,XI d m, πi,...,πi d, 3

hvor X I j er summe over koordiatere i X I j, X I j r I j X r, og tilsvarede er π I j r I j π r. Betiget med X I,...,XI d m,...,m d hvor m + + m d er uafhægige og multiomialfordelte X I, X I,...,X I d X I j mm j, π I j /π I j. Dette resultat bruges bladt adet i tilfældet hvor X {X ij } er på matriksform, i,...,r, j,...,s. Vi lader da I j være de j te række og har X, X,..., X r m, π, π,...,π r, og X givet X, X,..., X r x, x,...,x r består af r uafhægige multiomialfordeliger: X i, X i,...,x is X i x i mx i, π i,...,π is /π i, i,...,r. I tilfældet hvor π ij ρ i σ j er π i,...,π is /π i σ,...,σ s /σ, det vil sige de samme for alle i,..., r. Deraf fås X,...,X s + X,...,X s + + X r,..., X rs X,...,X r x,...,x r mx + x + + x r, σ,...,σ s /σ m, σ,...,σ s /σ. Da dee betigede fordelig ikke afhæger af det vi betiger med, x,...,x r, har vi uafhægighed mellem X,...,X r og X,...,X s, altså mellem rækkesummer og søjlesummer. 3 Fordelig af X + X - frembrigede fuktio Lad Y være e stokastisk variabel på {0,,,...}. Defier for z fuktioe ϕ Y z ved ϕ Y z Ez Y z y PY y. Det ka vises, at fordelige er etydigt bestemt ved fuktioe ϕz. Altså, hvis to fordeliger giver de samme ϕ-fuktio, så er de to fordeliger idetiske. 4 y0

Lad Y b, p. Så får vi ϕ Y z z y p y p y y zp y p y y y0 y0 zp + p y0 zp + p y zp zp + p y p y zp + p zp + p. Lad u X m, π og defier Y X + X. Så fider vi med ψz z π + zπ + π 3 + + π k at ϕ Y z z x +x π x x πx πx k k x z π x zπ x π x 3 3 x πx k k x ψz z x x π zπ k xj πj x ψz ψz ψz x ψz. Tager vi specialtilfældet med k 3 og π p, p p, p, får vi ϕ Y z [ z p + zp p + p ] [zp + p]. Sammeliger vi med ses det at X + X b, p. j3 4 Maksimerig af log-likelihood Vi skal maksimere lπ k j x j l π j over området Π k {π,...,π k π j > 0, k j π j }, i tilfældet hvor x j > 0, j,..., k. Vi fider først ˆπ og ka deræst hevise til symmetri for at fide π j, j >. Vi idfører e omparametriserig ved π p, π pθ, π 3 pθ 3,..., π k pθ k, hvor variatiosområdet for de ye parameter p, θ, θ 3,..., θ k er p, θ, θ 3,...,θ k 0, Π k. 5

Det er emt at se, at der er e e-til-e sammehæg mellem π og p, θ. Vi har derfor { k } sup lπ sup π Π k π Π k { sup p,θ 0, Π k j x j lπ j x lp + x + + x k l p + sup {x l lp + x l p} + sup p 0, θ Π k } k x j lθ j j { k } x j lθ j. Lad u l p x lp + x l p. Så er l p x p x p, og l p 0 giver ligige j x p x p x p x p ˆp x. 3 Kytter vi og 3 samme ses at ˆπ x og på grud af symmetri har vi geerelt ˆπ j x j, j,...,k. 5 Afledede af log-likelihood Vi betragter e model, hvor sadsylighede px, θ for det observerede x afhæger af e parameter θ. Parametere θ varierer i et åbet område Θ af R d. Vi siger at modelle har d frie parametre. Likelihoodfuktioe Lθ Lθ; x px, θ er sadsylighede for det observerede, betragtet som fuktio af parametere θ. Loglikelihoodfuktioe lθ lθ; x llθ er logaritme til Lθ. Scorefuktioe Sθ Sθ; x l θ er de afledede af log-likelihoodfuktio, og de observerede θ iformatio jθ jθ; x l θ er mius de ade afledede. Bemærk at θ θ Sθ er e d-dimesioal vektor og jθ er e d d matrix. Der gælder æste altid E θ [Sθ] 0 og Var θ [Sθ] E θ [jθ], 4 hvor iθ E θ [jθ] E θ [jθ; X] kaldes de forvetede iformatio. Uformelt bevis. Middelværdie af Sθ bereges som E θ [Sθ] x x lθ; x px, θ θ x px,θ θ px, θ px, θ x l px, θ px, θ θ px, θ θ { } px, θ θ x {} 0. θ 6

For de forvetede iformatio fider vi [ ] px,θ θ iθ E θ [jθ] E θ θ px, θ x px, θ θ θ + E θ [SθSθ ] px, θ + Var θ θ θ [Sθ] x Var θ [Sθ]. 6 Glat hypotese [ px,θ θ θ E θ px,θ θ px,θ px, θ θ px, θ Vi betragter e model med sadsyligheder px, θ med θ Θ, hvor Θ er et åbet område af R d. E hypotese for θ er agivet ved, at θ er e fuktio af e lavere dimesioal parameter ξ. Lad os kalde fuktioe ϕ, så at hypotese siger at θ ϕξ for et eller adet ξ i variatiosområdet Ξ for ξ. Hypotese kaldes glat af orde d hvis. Ξ er et åbet område i R d.. Fuktioe ξ ϕξ er gage kotiuert differetiabel. 3. d d matrikse af afledede, ϕ ξ, har fuld rag for alle ξ Ξ. ξ Vi kalder modelle med θ Θ for M 0, og kalder de reducerede model med θ ϕξ, ξ Ξ, for M. De tilsvarede likelihoodfuktioer beæves L M0 θ og L M ξ. De to første betigelser sikrer, at vi ka differetiere likelihoodfuktioe L M ξ L M0 ϕξ to gage med hesy til ξ, forudsat at px, θ er to gage differetiabel med hesy til θ. De forvetede iformatio i M ξ i modelle M er givet ved i M ξ ϕ ξ ξi M 0 ϕξ ϕ ξ ξ, 5 og betigelse iii sikrer at i M ξ er positiv defiit, forudsat at i M0 θ er positiv defiit. For at bevise 5 bemærker vi at l M ϕ ξ ξ l M ϕ ξ ξ ξ ξ ξ ξ ξ l M 0 θ ϕξ, [ l M0 θ θ ϕξ ] ϕ ξ ξ ϕ ξ ξ ξ l M 0 θ ϕξ, ] og dermed i M ϕ ξ ξi M 0 ϕξ ϕ [ ] ξ ξ ϕ ξ ξ ξ E lm0 ϕξ θ ϕξ ϕ ξ ξi M 0 ϕξ ϕ ξ ξ. 7

I det sidste tri beyttede vi 4, og at r, s-idgage i det sidste led med er ϕ ξ r ξ s ξ l M 0 θ ϕξ. 7 Kofidesiterval i biomialmodel Lad X b, p. Normalfordeligsapproksimatioe til biomialfordelige siger at x + PX x Φ p, p p hvor x er et heltal. De øvre græse i et α kofidesiterval fides ved at løse x + Φ p α p p med hesy til p. Vi ka skrive dee ligig som x + p p p u α/, Hvor u p er p-fraktile i e stadard ormalfordelig, Φu p p. For emheds skyld skriver vi blot u i stedet for u α/ edefor. Ligige reducerer til x + p u p p. Kvadreres på begge sider fås + u p p x + + u + og de relevate løsig er p x + + u + x + 0 4 x + + u 4 + u x + + u x + + u + u 4 u + x + [ x + /]. + u De edre græse i kofidesitervallet fides tilsvarede ved at løse x Φ p α p p eller x p p p u. 8

8 Middelværdi og varias i poissofordelig Lad Y være e stokastisk variabel på {0,,,..., }. Defier for z fuktioe ϕ Y z ved ϕ Y z Ez Y z k PY k. Vi har følgede resultater ϕ Y, k0 ϕ Y z E[Y zy ], ϕ Y E[Y ], ϕ Y z E[Y Y z Y ], ϕ Y E[Y ] [E[Y ]. Lad u Y være poissofordelt, Så får vi ϕ Y z k0 e λ+λz, PY k λe k! e λ. z kλk k! e λ e λ+λz λz k k0 k! e λz og ϕ Y z λe λ+λz, ϕ λ, ϕ Y z λ e λ+λz, ϕ Y λ. Dette giver E[Y ] λ og VarY E[Y ] E[Y ] λ + λ λ λ. For poissofordelige gælder der altså at middelværdi og varias er es. 9 Poisso som approksimatio til biomial Lad X b, p. Hvis og p 0 så at p λ gælder der at Bevis PX k λk k! e λ. PX k p k k p k k + p e kl p k! k p k e k l p. 6 k 9

Det første led går mod /k! og det adet led går mod λ k. For det tredje led beytter vi at l x + x x for x <. Dermed er og da kp λ har vi at k l p + kp kp 0, Formel 6 viser dermed resultatet. lim e k l p lim e kp e λ. 0 Sum af to poissofordelte variable Lad X og Y være uafhægige med Så gælder der at X + Y poλ + γ. Bevis PX k λk k! e λ og Py k γk k! e γ. PX + Y k k PX m PY k m m0 k m0 λ m m! e λ γ k m k m! e γ λ + γk e λ+γ k! k m0 λ + γk e λ+γ c. k! k λ m γ k m m!k m! λ + γ λ + γ Kofidesiterval i possofordelig Lad X pλ. Normalfordeligsapproksimatioe til poissofordelige siger at PX x Φ x + λ, λ hvor x er et heltal. De øvre græse i et α kofidesiterval fides ved at løse Φ x + λ α λ 0

med hesy til λ. Vi ka skrive dee ligig som x + λ λ u α/, hvor u p er p-fraktile i e stadard ormalfordelig, Φu p p. For emheds skyld skriver vi blot u i stedet for u α/ edefor. Ligige reducerer til x + λ u λ eller λ u λ x + 0. De relevate løsig er [ λ u + u + 4 x + ] eller λ 4 [ u + u + 4 x + + u u + 4 x + ] u + x + + u x + + 4 u. De edre græse i kofidesitervallet fides tilsvarede ved at løse x Φ λ α λ eller x λ λ u. Poissoprocesse Jeg vil beskrive poissoprocesse på de reelle akse ved et græseargumet. Vi deler akse op i små itervaller af lægde : det i te iterval går fra i til i. Uafhægigt af hiade placeres i hvert af de små itervaller ete et pukt eller ige pukter. Sadsylighede for at placere et pukt i et iterval er λ, altså proportioalt med lægde af det lille iterval. Poissoprocessse fremkommer u som græseprocesse hvor vi lader 0. Betragt et iterval af lægde T. Dette ideholder T af de små itervaller hvis T ikke er et heltal bruger vi blot heltalsdele. Fra kostruktioe af processe har vi at atallet af pukter i itervallet af lægde T er biomialfordelt, b T, λ-fordelt. Når vi lader 0 og dermed T, ser vi fra afsit 9 at atallet af pukter i

itervallet med lægde T bliver poissofordelt med parameter lim T λ Tλ. Det er også klart, at uafhægighede af de små itervaller gør, at atallet af pukter N og N i to disjukte itervaller er uafhægige i græseprocesse. Helt tilsvarede ka vi defiere e poissoproces i plae. De små itervaller bliver til små kvadrater med sidelægde, og sadsylighede for et pukt i et sådat kvadrat er λ. I græseprocesse bliver atallet af pukter i et område med areal A poissofordelt med parameter λ A. 3 Poisso multiomial Betragt k uafhægige poissofordelte variable X,..., X k med X i poλ i. Defier π i λ i λ, i,..., k, hvor λ i λ i. Der gælder at og at λ,...,λ k R k + λ, π R + Π k, PX x,..., X k x k k i λ x i x i! eλ i λx x! e λ x x,...,x k π x πx k k, hvor Π k {π,...,π k 0 < π i <, i π i }. Det sidste udtryk svarer til at X poλ og at X,...,X k X x mx, π. Lad M 0 være modelle hvor λ,..., λ k R k +, og lad M være modelle hvor λ R + og λ π,..., λ k Π 0 Π k. λ λ Likelihoodratio testore for M uder M 0 er da Q max M Lλ max M0 Lλ max π Π 0 L b π max π Π k L b π, {max λ R + L m λ }{max π Π0 L b π} {max λ R + L m λ }{max π Π k L b π} hvor L m λ er de margiale likelihood fra fordelige af X og L b π er de betigede likelihood fra de betigede fordelig givet X x. Fortolkige er, at likelihoodratio testore fra poissofordelige er idetisk med likelihoodratio testore i de betigede multiomialfordelig. 4 De cetrale græseværdisætig CLT De cetrale græseværdisætig siger, at e sum af mage uafhægige stokastiske led har e fordelig der liger e ormalfordelig.

For at få e lille foremmelse for dette udover hvad ma ka se fra simulatioer lad os betragte X b,, hvor er et lige tal. Vi vil se på PX + k, hvor k er z gage stadardafvigelse, k z /4. For emheds skyld lad ν. Vi har da PX + k PX ν ν+k ν ν ν!ν! ν + k!ν k! ν ν ν k + ν + ν + k k ν ν + + k ν ν { k exp [l ν l + jν ] } l + kν j { } exp k j ν ν k ν + Rest j } exp { k ν + Rest { } exp z + Rest, hvor vi har beyttet at l+x ka approksimeres med x, med e fejl der er midre ed x, For restleddet ovefor har vi derfor l + x x x for x. k j 3 Rest ν + k ν k3 /4 ν z3 / j z 3 4 0 for. Da tæthede for e N0, -fordelig er π e z idikerer oveståede beregig at X / /4 N0,. Jeg formulerer u de cetrale græseværdisætig matematisk. Lad X,..., X være uafhægige og idetisk fordelte med EX i µ og VarX i σ. Så gælder der at i P X i µ σ z Φz for. Her står, at de stadardiserede variabel X i µ/σ har e fordelig der 3

liger stadard ormalfordelige N0,. I praksis bruges resultatet typisk geem X i Nµ, σ. i Jeg giver også lige e formuerig for at dække tilfældet med uafhægige me ikke idetisk fordelte variable X,...,X. Lad EX i µ i, VarX i σi, og lad E X i µ i 3 β i. Hvis i β i i σ 3 0 for, i så gælder der at P i X i µ i i σ i z Φz for. 5 Store tals svage lov LLN Hvis X er e stokastisk variabel med middelværdi µ og varias σ gælder der P X µ > ε E{ X µ > ε} { } X µ E X µ > ε ε ε E { X µ } σ ε. Lad u X,..., X være uafhægige med EX i µ i og VarX i σi. Da Var X i σ i har vi P X i µ i > ε i ε σi. Atag u at i σ i c for e kostat c. Så har vi P X i µ i > ε c 0 for. ε i I ord har vi altså, at X ligger tættere og tættere på µ i i µ i i sadsylighed. 6 χ approksimatio til fordelig af log Q Betragt e model M 0 med likelihoodfuktio L M0 og e delmodel heraf M med likelihoodfuktio L M. Log likelihoodratio testore log Q er Q sup L M sup L M0. 4

At fordelige til dee ka approksimeres med e χ -fordelig med d 0 d frihedsgrader, baserer sig grudlæggede på de cetrale græseværdisætig avedt på scorefuktioe og de store tals lov avedt på de observerede iformatio. Atallet af frihedsgrader d 0 d er atallet af frie parametre i M 0 modelle mius atallet af frie parametre i M modelle. Jeg vil illustrere resultatet i to simple situatioer. Først vil jeg teste p p 0 i e biomialfordelig. Lad X b, p, 0 < p <, uder M 0, og lad Lad X b, p 0 uder M. Log likelihoodratio testore for p p 0 er log Q { x l x x + x l p 0 p 0 }, hvor x er de observerede værdi og x x er estimatet for p uder M 0. Lad således at log Q h x. Der gælder og hz {z l z p 0 + z l z p 0 } hp 0 0, h z {lz/p 0 l z/ p 0 }, h p 0 0, { h z z + }, h p 0 z E taylorudviklig af hz omkrig p 0 giver derfor hz 0 + 0 z p 0 + Erstatter vi u z med x får vi x p0 log Q p0 p 0 p 0 p 0. p 0 p 0 z p 0 + c 3 z p 0 3 + c 4 z p 0 4 +. + c 3 x p0 p0 p 0 3 + c 4 For stor forsvider alle led påær det første, og vi har X p 0 log Q χ, p0 p 0 x p0 p0 p 0 4 + hvor χ -fordelige følger fra de cetrale græseværdisætig for e biomialfordelig X p 0 N0,, p0 p 0 husk at X er e sum af uafhægige møtkast. De æste situatio jeg vil betragte, er hvor vi har to uafhægige poissovariable, X Poν, Y poγ, og vi øsker at teste λ γ. Vi lader M 0 være modelle hvor λ, γ R + og lader M være modelle med λ γ R +. Estimatere uder 5

M 0 er ˆλ x og ˆγ ȳ, og estimatet for de fælles værdi λ γ uder M er ˆλ ˆγ x + ȳ/. Log likelihoodratio testore bliver så { } x + ȳ log Q x l x + ȳ lȳ x + ȳ l. Det er klart, at år x ȳ så er log Q 0, og vi ka ituitivt tæke på log Q som mestedels værede e fuktio af ȳ x. For at gøre dette mere præcist, lad u x + ȳ/ og v ȳ x. Som fuktio af u, v får log Q udtrykket log Q hu, s, hvor hu, v u v lu v + u + v lu + v u lu. Taylorudvikler vi hu, v som e fuktio af v omkrig v 0 fider vi og dermed hu, 0 0, h v u, v lu v + lu + v, h v u, v 4 u v + 4 u + v, h u, 0 0, v h u, 0 v u, hu, v 0 + 0 v + 4u v + c 3 uv 3 +. Idsætter vi dette i log Q får vi log Q [ ȳ x] x + ȳ + c 3 x + ȳ/ [ ȳ x] 3 +. Ligesom i biomialmodelle forsvider alle led for påær det første, det vil sige log Q [ Ȳ X] X + Ȳ. 7 Da X poλ ka vi skrive X X + X + + X, hvor X i -ere er uafhægige og poλ fordelt. Helt tilsvarede ka vi skrive Y Y + + Y. Store tals lov giver så X + Ȳ X i + Y i λ, hvor EX i + Y i λ. I stedet for 7 ka vi så skrive [ X] [ log Q Ȳ Y i X i ]. λ λ i Da EY i X i 0 og VarY i X i λ giver de cetrale græseværdisætig at i log Q [N0, ] χ. Bemærk at atallet af frihedsgrader er, hvor er atallet af parametre i M 0 og er atallet af parametre i M. 6

7 Dispersiosidekset Lad X,...,X være uafhægige og poissofordelte med parameter λ. Defier Fishers dispersiosideks t ved t s X, s X i X. Vi vil betragte fordelige af t i de to græser λ og. Først ser vi på situatioe λ. Da X E λ X λ λ og Var λ λ λ 0 for λ, λ får vi ved samme argumet som for Store Tals Lov, at X λ i for λ, 8 hvor kovergese er i sadsylighed. Da e poissofordelig med parameter λ ka skrives som e sum af led der hver især er poissofordelte, ka vi bruge de cetrale græseværdisætig til at sige at X λ λ N0, for λ. Vi har derfor, at λ s i Kombierer vi 8 og 9 får vi t Xi λ λ X λ λ χ /. 9 λ s λ X χ / for λ. Vi betragter u græse. Fra de flerdimesioale cetrale græseværdisætig har vi λ λ i λ, [X i λ ix λ] N 0, λ λ + λ. 0 Vi har her beyttet at i VarX i λ λ, CovX i λ, X i λ λ EX i λ 3 λ, VarX i λ λ VarX i λ EX i λ 4 [EX i λ ] λ + 3λ λ λ + λ. 7

Lad u u X i λ og v X i λ λ. Så ka vi skrive t s Y {v + λ + u } λ + u + v λ u λ, hvor vi har beyttet e. ordes taylorudviklig, og har erstattet 0 har vi u, v N 0, λ λ λ λ + λ, og derfor t N Da e χ -fordelig ka skrives som med. Fra, λ λ + λ + λ λ N,. λ λ U + U + + U, hvor U i N0,, ser vi fra de cetrale græseværdisætig at N, χ, idet VarU i EU4 i [EU i ] 3. Sammeliger vi og ser vi, at t s X χ / for. 8