Statistik og Sadsylighedsregig 1 STAT kapitel 4.2 4.3 Susae Ditlevse Istitut for Matematiske Fag Email: susae@math.ku.dk http://math.ku.dk/ susae Estimatio ved mometmetode Idimellem ka det være svært (eller umuligt) at fide maximum likelihood estimatore. E ade estimatiosmetode er mometmetode. Atag at vi i et forsøg observerer stokastiske variable X 1,..., X, alle med middelværdi µ. Vi vil gere estimere µ. 6. udervisigsuge, osdag Vi ka da estimere de teoretiske middelværdi µ med geemsittet af vores observatioer (dvs middelværdie af de empiriske fordelig). 1 2 Estimatio af middelværdiparameter Mometestimatore er ˆµ = 1 X i Bemærk at det er e cetral estimator: ( ) 1 E(ˆµ) = E X i = 1 = µ = µ E(X i ) Eksempel: Middelværdie af e biomialfordelt stokastisk variabel X Bi(, p) er p. Vi ka derfor defiere mometestimatore: ˆp = X dvs vi får ige maximum likelihood estimatore: ˆp = X 3 4
Estimatio ved mometmetode Atag u at vi i et forsøg observerer stokastiske variable X 1,..., X, alle med middelværdi µ og varias σ 2. Vi vil gere estimere både µ og σ 2. Vi ka da estimere de teoretiske varias σ 2 med variase i de empiriske fordelig. Mometestimatore er ˆσ 2 = 1 1 (X i X) hvor X er geemsittet af måligere. Bemærk at det er e cetral estimator, som I har vist i MS, opgave 3.26. Estimatio ved mometmetode Mometmetode er ikke automatisk: først skal vi vælge hvilke stokastiske variable, vi vil sætte lig deres middelværdi. I det foregåede valgte vi de to (aturlige) stokastiske variable X og stikprøvevariase. Geerelt: Hvis ma skal estimere k parametre, skal ma midst have k stokastiske variable at sætte lig deres middelværdi. På de måde får ma k ligiger med k ubekedte. 5 6 Kofidesitervaller Atag at vi har estimeret parametere θ ved de stokastiske variabel Eksempel: Hvis X Bi(, p) estimerer vi p ved ˆθ = ˆθ(X 1,..., X ) Vi håber at ˆθ θ, me det ville være godt med et mere præcist udtryk for hvor tæt vi tror at vores estimat er på de sade (ukedte) værdi. Ide: Det er aturligt at tage udgagspukt i estimatets fordelig. E oplagt størrelse til at agive usikkerhede er spredige i dee fordelig. ˆp = X som vi allerede har set er et cetralt estimat: E(ˆp) = p. Derudover har vi set at: ( ) X Var(ˆp) = Var = 1 p(1 p) p(1 p) Var(X) = 2 2 = Vi har altså at spredige på estimatet er SE(ˆp) = p(1 p) Var(ˆp) = Bemærk at SE(ˆp) 0 år. Hvad betyder det? 7 8
Problem: I udtrykket for spredige idgår de ukedte parameter p. I stedet estimerer vi spredige ved at idsætte de estimerede værdi: Eksempel: Atag at vi observerer X = 175 bør med astma ud af = 500 udersøgte bør, dvs ˆp = 175 = 0.35 eller 35% 500 sˆp = ˆp(1 ˆp) Hvor godt er vores estimat ˆp for p? Bemærk at sˆp er de typiske afvigelse vi forveter at estimatet har fra de sade værdi. Dvs vi er mere usikre på vores estimat jo større sˆp er. Med adre ord, i getage forsøg, hvor tæt er ˆp på p? Dette udtrykkes ved stadardfejle på ˆp: SE(ˆp) = Var(ˆp) 9 10 Stadardfejle, SE(ˆp), på estimatet for sadsylighede p, er estimeret ved sˆp = ˆp(1 ˆp) I eksemplet fås 0.35(1 0.35) = 0.021 500 Dette ka bruges til at lave kofidesitervaller for p 95%CI : ˆp ± 1.96 sˆp = 0.35 ± 1.96 0.021 1.96? 99%CI : ˆp ± 2.58 sˆp = 0.35 ± 2.58 0.021 2.58? I eksemplet 95%CI : fra 0.308 til 0.392 Fortolkig? 0.25 0.30 0.35 0.40 0.45 p^ 11 12
sample umber 0 10 20 30 40 50 CI for p^, =500, P=0.35, repetitios=100 0.20 0.25 0.30 0.35 0.40 0.45 0.50 p^ Tallee 1.96 og 2.58 kommer fra Normalfordelige. De skal vi først høre om på SaSt2!!! Me her er e lille forsmag: Normalfordelige kommer fra De cetrale græseværdisætig et matematisk resultat der agiver at stikprøvegeemsit er tilærmelsesvist Normalfordelte: Hvis tilfældige stikprøver udtages fra e populatio med middelværdi m og varias s 2 da er fordelige af stikprøvegeemsittet x tilærmelsesvist Normal med middelværdi m og varias s 2 /. Tilærmelse bliver bedre og bedre jo større (stikprøvestørrelse) er. 13 14 Normalfordelige Normalfordelige 3 2 1 0 1 2 3 µ 3σ µ 2σ µ + 2σ µ + 3σ ét maksimum symmetrisk ikke særlig tuge haler To parametre: µ : middelværdi σ 2 : varias (σ er spredige) 15 16
Normalfordelige - 1.96? Normalfordelige - 2.58? 95% 2.5% 2.5% µ 1.96σ µ µ + 1.96σ 99% 0.5% 0.5% µ 2.58σ µ µ + 2.58σ Vi brugte tallet 1.96 til at kostruere 95% kofidesitervaller. Vi brugte tallet 2.58 til at kostruere 99% kofidesitervaller. 17 18 Fordelig af geemsittet i stikprøver Fordelig af geemsittet i stikprøver Teoretisk fordelig: Normalfordelige 0 1 2 3 = 2 Teoretisk fordelig: Logormalfordelige 0.0 0.5 1.0 1.5 2.0 = 2 0 1 2 3 = 20 1.0 1.1 1.2 1.3 1.4 1.5 0.0 0.5 1.0 1.5 2.0 = 20 0 1 2 3 = 100 0.0 0.5 1.0 1.5 2.0 = 100 19 20
Fordelig af geemsittet i stikprøver Fordelig af geemsittet i stikprøver Teoretisk fordelig: Biomialfordelige, P = 0.375 0 2 4 6 8 = 2 Teoretisk fordelig: Biomialfordelige, P = 0.05 = 2 0.5 0.6 0 2 4 6 8 = 20 0.0 0.2 0.4 0.6 0.8 = 20 0 2 4 6 8 = 100 = 100 21 22 Defiitio 4.8 Atag at vi har observatioer X 1,..., X og e tilhørede statistisk model med parameter θ. Et (1 α)-kofidesiterval, hvor kofidesgrade (1 α) opfylder at 0 (1 α) 1, er et iterval af forme (Y 1, Y 2 ), hvor Y 1 = g 1 (X 1,..., X ) og Y 2 = g 2 (X 1,..., X ) er stokastiske variable, således at der for ehver mulig θ-værdi i modelle gælder P θ (Y 1 < θ < Y 2 ) = 1 α Bemærk: 95% kofidesitervallere foreslået før ( ˆθ 1.96 sˆθ ; ˆθ + 1.96 sˆθ ) er approksimative, og bygger på de cetrale græseværdisætig. De er ku asymptotisk korrekte, dvs skal helst være stor. (Hvad er stor?) Oftest er α = 0.05, me også α = 0.01 bruges tit. Ma vælger selv α. For ogle modeller ka vi godt rege eksakte kofidesitervaller ud, me det er som regel mere besværligt. 23 24