Asymptotisk optimalitet af MLE

Kapitel 4 Asymptotisk optimalitet af MLE Lad Y 1, Y 2,... være uafhægige, idetisk fordelte variable med værdier i et rum (Y,K). Vi har givet e model (ν θ ) θ Θ for fordelige af Y 1 (og dermed også for fordelige af de adre Y er), hvor parametermægdeθ er e åbe delmægde afr k. Vi atager edvidere atν θ = f θ µ for et passede grudmålµ på (Y,K), og vi forestiller os at de tilhørede likelihoodfuktio opfylder tilstrækkeligt mage regularitetsbetigelser til at de sædvalige moralske sætiger holder. Vi skal helt specifikt trække på Bartlett s idetiteter, Cramérs sætig og Cramér-Rao s ulighed. Disse moralske sætiger er matematiske sætiger hvis f.eks. (ν θ ) θ Θ er e ekspoetiel familie og/eller hvis loglikelihoodfuktioe opfylder et større atal differetiabilitets- og majoriserigsbetigelser. Vi øsker at diskutere kvalitete af e estimator afθ. De diskussio er ikke så em, år parametermægde er k-dimesioal. E måde at gribe det a på, er at se på e geerel reel parameterfuktioτ :Θ R. Som et oplagt eksempel kaτvære projektioe ed på e ekelt koordiat. Me vi tillader også atτka blade koordiatere, gere på ikke-lieær faco. Blot vil vi atage atτer differetiabel. Idee med at se på reelle parameterfuktioer er at det er relativt emt at se om e estimator afτ(θ) er god eller dårlig. E god estimator θ af de fulde parameterθ fører til e god estimator afτ(θ) ved plug-i pricippet τ=τ( θ). Vi ka vede dee takegag om og sige at hvis vi ka fide e parameterfuktioτ så de tilsvarede plug-i estimator τ fugerer dårligt, så har ma fudet e præcis måde at sige på hvad er er galt med θ. 91

92 Kapitel 4. Asymptotisk optimalitet af MLE Lad os starte med at se på maksimaliserigsestimatore. Hvis ˆθ er maksimaliserigsestimatore for de fulde parameterθpå baggrud af observatioere Y 1,...,Y, så kaldes plug-i estimatore ˆτ =τ (ˆθ ) for maksimaliserigestimatore afτ(se defiitio 3.11 i Søre Feodor Nielses Matematisk Statistik, herefter kaldet [SFN]), fordi det er de værdi, der maksimerer de relevate profillikelihoodfuktio. Uder atagelse af at Cramérs sætig gælder for modelle, har vi at ( as ˆθ N θ, 1 ) i 1(θ) 1, hvor i 1 (θ) er Fisher-iformatioe bereget på baggrud af e ekelt observatio. Da vi har ataget atτer differetiabel får vi ved hjælp af deltametode at ( as ˆτ N τ(θ), 1 ) Dτ(θ) i 1(θ) 1 Dτ(θ) T. Vi ser således at ˆτ er e kosistet estimator afτ(θ), og vi har e ret præcis beskrivelse af hvorda fordelige af ˆτ trækker sig samme omτ(θ) år vokser. Et aturligt spørgsmål er om vi ka fide adre estimatorer afτ(θ), der klarer sig bedre ed ˆτ. Det viser sig at være vaskeligt at svare på helt geerelt. Me vi ka opå et meget tilfredsstillede svar, hvis vi fokuserer på de klasse af estimatorer, der ka skrives på forme ˇτ = g 1 h(y i ) (4.1) Her er h :Y R m e afbildig id i et passede euklidisk rum, og g :R m R er e afbildig id ir. Vi atager at E θ h(y 1 ) 2 < for alle θ Θ, og at g er differetiabel. Bortset fra disse tekiske restriktioer er der stort set tale om e reformulerig af defiitioe af mometestimatorer (se afsit 3.3.3 i [SFN]). Eksempel 4.1 Lad Y 1,...,Y være uafhægigen(ξ,σ 2 )-fordelte variable. Vi ved at maksimaliserigsestimatore afσ 2 er σ 2 = SSD = 1 Yi 2 1 2 Y i.

93 Vi ser at σ 2 har mometforme (4.1) med h(y)=(y 2, y), g(z, w)=z w 2. Her er altså e forholdsvis aturlig situatio hvor e estimator af e étdimesioal størrelse bygges op ved hjælp af e cetral estimator af oget todimesioalt. Typisk bruger vi jo ikke maksimaliserigsestimatore σ 2 i dee situatio, me e korrigeret variat 1 σ 2, der har de fordel at de er cetral. De korrigerede variat passer ikke id i mometforme (4.1), medmidre ma er villig til at arbejde med et -afhægigt g - og det er vi ikke villige til i dee sammehæg. Lad os for e estimator ˇτ på forme (4.1) idføre φ(θ)=e θ h(y 1 ), V(θ)=V θ h(y 1 ). Her erφ(θ) e m-vektor, mes V(θ) er e m m matrix. De cetrale græseværdisætig sikrer at 1 h(y i ) as N (φ(θ), 1 ) V(θ), og ved at bruge deltametode fås at ( as ˇτ N g ( φ(θ) ), 1 Dg( φ(θ) ) V(θ) Dg ( φ(θ) ) ) T Kokurrece mellem ˇτ og maksimaliserigsestimatore ˆτ falder dødt til jorde medmidre g ( φ(θ) ) =τ(θ) for alleθ Θ. (4.2) For hvis dee betigelser er brudt, vil fordelige af ˇτ simpelthe kocetrere sig om oget forkert. Så lad os atage at (4.2) er opfyldt. E aturlig måde at sammelige ˆτ og ˇτ på er at holde de to kostater, der bestemmer de asymptotiske variaser, Dτ(θ) i 1 (θ) 1 Dτ(θ) T og Dg ( φ(θ) ) V(θ) Dg ( φ(θ) ) T op mod hiade. Hvis vi ka etablere e geerel ulighed mellem disse kostater, det vil sige e ulighed der gælder for alleθ, så vil vi foretrække de estimator, der har de midste kostat.

94 Kapitel 4. Asymptotisk optimalitet af MLE Vi eridrer matrix-versioe af Cramér-Rao s ulighed 1. Eftersom h er e cetral estimator afφ(på si vis er det jo ærmest omvedt:φer etop valgt som det der estimeres cetralt af h) gælder der at V(θ)=V θ h(y 1 ) Dφ(θ) i 1 (θ) 1 Dφ(θ) T for alleθ Θ. (4.3) Ulighedsteget mellem matricere i dee ulighed skal forstås på de måde at differese V(θ) Dφ(θ) i 1 (θ) 1 Dφ(θ) T er e positivt semidefiit matrix. For e differetiabel afbildig g :R m R er de afledte Dg(z) for ethvert z er 1 m-matrix, det vil sige e rækkevektor. Ved at bruge de rækkevektor, der svarer til z=φ(θ), giver matrix-versioe af Cramér-Raos ulighed at Ved at flytte rudt, får vi at Dg ( φ(θ) ) ( V(θ) Dφ(θ) i1 (θ) 1 Dφ(θ) T) Dg(φ(θ)) T 0. Dg ( φ(θ) ) V(θ) Dg ( φ(θ) )T Dg ( φ(θ) ) Dφ(θ) i 1 (θ) 1 Dφ(θ) T Dg ( φ(θ) ) T Vi eridrer kæderegle for differetiable afbildiger mellem flerdimesioale rum (se evetuelt formel (12.11) i Measure theory (secod editio)), hvor de afledte af e sammesat fuktio udtrykkes som et matrixprodukt mellem de afledte af de idgåede fuktioer. Bruges kæderegle på (4.2) får vi at Dg ( φ(θ) ) Dφ(θ)=Dτ(θ) for alle θ Θ. (4.4) Vestre side af (4.4) idgår i ulighede forove, så vi ka ved idsættelse opå at Dg ( φ(θ) ) V(θ) Dg ( φ(θ) )T Dτ(θ) i 1 (θ) 1 Dτ(θ) T for alle θ Θ. Med adre ord ka de asymptotiske varias af ˇτ aldrig være midre ed de asymptotiske varias af ˆτ. Det er meget tækeligt at ma ka fide e mometestimator for τ, der asymptotisk set er lige så god som maksimaliserigsestimatore (ja, faktisk er maksimaliserigsestimatore jo ofte selv e mometestimator). Me ma ka ikke slå de! Uaset hvilke reel parameterfuktioτ ma har lagt sig fast på, vil plug-i estimatore ˆτ på baggrud af maksimaliserigsestimatore ˆθ kue stå sig i kokurrece med e hvilke som helst mometestimator af forme 4.1, selv hvis ma forsøger at vælge 1 Sætig 3.26 i [SFN]

95 e estimator der er tilpasset det aktuelleτså godt som muligt. Vi siger at maksimaliserigestimatore er asymptotisk efficiet. Argumetet om asymptotisk efficies er gaske overbevisede. Hvorda ka det så være at vi i e række modeller kovetiosmæssigt ikke bruger maksimaliserigsestimatore? E grudform for disse modeller er estimatio af variase for uafhægige N(ξ,σ 2 )-fordelte variable, som vi kort berørte i eksempel 4.1. I dette eksempel er det emt at vise at korrigerede maksimaliserigsestimator forσ 2 følger præcis samme a- symptotiske ormalfordelig som de rå maksimaliserigsestimator. Der er derfor ikke muligt at skele mellem de to estimatorer på baggrud af asymptotisk efficies, og valget mellem dem må gøres ud fra adre kriterier. E aturligt måde at gøre det på er at se på de eksakte fordeligsresultater - det ma ormalt kalder fiite sample properties. Her vider de cetrale estimator, me geviste forsvider i græse år.

96 Kapitel 4. Asymptotisk optimalitet af MLE