så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

Transkript

1 Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål µ på (X, E), således at ν µ for alle ν P, så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P = (ν θ ) θ Θ er antagelsen altså at der for hvert θ Θ findes en funktion f θ M + (X, E) sådan at ν θ (A) = f θ (x) dµ(x) for alle A E, θ Θ. (3.1) A Et fundamentalt statistisk hjælpemiddel for en domineret statistisk model er likelihoodfunktionen. Svarende til en observation x X definerer vi funktionen L x : Θ [0, ) givet ved L x (θ) = f θ (x) for alle θ Θ. (3.2) For et udfald x X angiver likelihoodfunktionen tæthedens værdi i x som funktion af parameteren θ Θ. For at understrege, at likelihoodfunktionen er en funktion af θ, vil man ofte blot skrive L(θ) = f θ (x), og i praksis undertrykke afhængigheden af observationen x. I andre sammenhænge er det omvendt nyttigt at huske på, at forskellige observationer giver forskellige likelihoodfunktioner, og man taler da gerne om samlingen af alle likelihoodfunktioner (L x ) x X. 69

2 70 Kapitel 3. Likelihoodfunktionen I mange tilfælde er de indgående tætheder overalt positive. Man vil da ofte arbejde med minus logaritmen af likelihoodfunktionen, l x (θ) = log f θ (x) for alle θ Θ. Der er ikke universel enighed om hvorvidt der skal sættes minus foran logaritmen, men om man følger denne konvention eller ej er uden betydning i dette kapitel. Ideen med at tage logaritmer er at tætheder for sammensatte eksperimenter ofte er produkter af tætheder for deleksperimenter - og disse produkter forvandles til summer ved en logaritmetransformation. 3.1 Eksempler på likelihoodfunktioner Vi vil starte med at give en række eksempler på likelihoodfunktioner i en dimension, så man kan få en fornemmelse af hvordan sådanne funktioner ser ud. Eksempel 3.1 Lad X 1,..., X 10 være uafhængige, reelle stokastiske variable, alle eksponentialfordelte med ukendt middelværdi λ (0, ). Lad den gjorte observation være (X 1,..., X 10 ) = (x 1,..., x 10 ) hvor x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x Idet hvert X i har tæthed med hensyn til Lebesguemålet m på (R, B), har den simultane fordeling af (X 1,..., X 10 ) tæthed med hensyn til m 10 på (R 10, B 10 ), og denne simultane tæthed er givet ved produktet f λ (x 1,..., x 10 ) = 10 1 λ e x i/λ, (x 1,..., x 10 ) (0, ) 10. Dermed er likelihoodfunktionen svarende til observationen x = (x 1,..., x 10 ) L x (λ) = ( ) 10 1 exp( λ og minus loglikelihoodfunktionen er 10 x i /λ) for λ (0, ), l x (λ) = 10 log λ + 1 λ 10 x i for λ (0, ). (3.3)

3 3.1. Eksempler på likelihoodfunktioner 71 PSfrag replacements l(λ) L(λ) PSfrag replacements l(λ) λ λ L(λ) Figur 3.1: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.1. På figur 3.1 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglikelihoodfunktion for den konkrete observation. Bemærk at data kun indgår i l x (λ) igennem summen x i. Det er et almindeligt fænomen at det kun er visse aspekter af den gjorte observation, der har betydning for likelihoodfunktionen. Eksempel 3.2 Lad X være binomialfordelt med længde og ukendt successandsynlighed p > 0. Lad den gjorte observation være x = som i eksempel 1.1. Idet X har tæthed med hensyn til tællemålet τ på N 0, givet ved ( ) f p (x) = p x (1 p) x for x = 0, 1,..., 66170, x (hvor det underforstås af tætheden er nul udenfor det angivne område), ser vi at likelihoodfunktionen svarende til en observation x er ( ) L x (p) = p x (1 p) x for p (0, 1), x og minus loglikelihoodfunktionen er ( ) l x (p) = log x log p (66170 x) log(1 p) for p (0, 1). x På figur 3.2 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglikelihoodfunktion for den konkrete observation x = Vi ser en meget skarpere markeret top end i eksempel 3.1.

4 72 Kapitel 3. Likelihoodfunktionen PSfrag replacements l(λ) L(λ) PSfrag replacements λ L(λ) l(λ) λ Figur 3.2: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.2. Bemærk at den sværest tilgængelige del af likelihoodfunktionen, binomialkoefficienten, på sin vis er uden betydning - i hvert fald for formen af likelihoodgrafen. Når x er fastlagt, er binomialkoefficienten jo en multiplikativ konstant, så tegnede man grafen for p p x (1 p) x for p (0, 1), ville man få præcis samme graf som figur blot ville y-aksen være skaleret anderledes. Eksempel 3.3 Lad os betragte den afskårne eksponentialfordelingsmodel fra eksempel 2.15, hvor en underliggende, uobserveret variabel Y er eksponentialfordelt med middelværdi λ, mens den observerede variabel X er fremkommet som X = min{y, 300}. Fordelingen af X har ikke tæthed med hensyn til Lebesguemålet, for den har positiv punktsandsynlighed i 300. På den anden side har fordelingen af X heller ikke tæthed med hensyn til et tællemål, for så skulle fordelingen være koncentreret på tælleligt mange punkter. Men med lidt opfindsomhed kan man godt finde et dominerende mål. Hvis vi betragter µ = m (0,300) + ɛ 300, altså summen af Lebesguemålets restriktion til intervallet (0, 300) og etpunktsmålet i

5 3.1. Eksempler på likelihoodfunktioner 73 punktet 300, og hvis vi ser på funktionen 1 λ e x/λ for x (0, 300) g λ (x) = e x/λ for x = ellers, så indser man let at P(X x) = x g λ (x) dµ(x) for alle x R. Det vil sig at fordelingsfunktionen for fordelingen af X er den samme som fordelingsfunktionen for g λ µ. Og på grund af entydighedssætningen for fordelingsfunktioner, må fordelingen af X derfor have tæthed g λ med hensyn til µ. Hvis vi har uafhængige observationer X 1,..., X n fra den samme afskårne eksponentialfordeling, så har den simultane fordeling af disse variable naturligvis tæthed mht. produktmålet µ... µ. For at finde et simpelt udtryk for den simultane tæthed er det hensigtsmæssigt at observere at den etdimensionale tæthed kan skrives som g λ (x) = ( ) 1(0,300) (x) 1 ( ) ( ) 1(0,300) (x) λ e x/λ e x/λ 1 {300} (x) 1 = λ e x/λ, for alle x (0, 300]. Dermed får den simultane fordeling af X 1,..., X n tæthed f λ (x 1,..., x n ) = n ( ) 1(0,300) (x 1 i ) λ e x i/λ = ( ) n 1 1 (0,300) (x i ) λ e n x i /λ. Dette oversættes til en loglikelihood på n l x1,...,x n (λ) = 1 (0,300) (x i ) log λ + 1 λ n x i. (3.4) Denne funktion er optegnet i figur 3.3, hvor observationerne er aktuargruppen fra puslespilseksperimentet i eksempel Vi ser at likelihoodfunktionen (og loglikelihoodfunktionen) kun afhænger af de gjorte observationer x 1,..., x n gennem deres sum n x i og gennem antallet af ikke-censurerede observationer. Bemærk i øvrigt hvor tæt beslægtede de to likelihoodfunktioner (3.3) og (3.4) er med hinanden. Hvis man skruede op for censurgrænsen i eksperimentet, sådan at ingen observationer i

6 74 Kapitel 3. Likelihoodfunktionen PSfrag replacements l(λ) L(λ) λ Figur 3.3: Minus loglikelihoodfunktionen for den afskårne eksponentialfordelingsmodel fra eksempel 2.15, se formel (3.4) for det eksplicitte udtryk. De underliggende data er aktuargruppen fra puslespilseksperimentet i eksempel praksis censureredes, så ville man få samme likelihoodfunktion som i det eksperiment hvor man slet ikke havde tænkt sig at censurere. Tricket, der førte en tæthed på tuborgform over i et rent multiplikativt udtryk, er godt at tage til sig. Mange tætheder, man støder på i praksis, skrives naturligt på tuborgform - men den måde at skrive tæthederne på fungerer ikke særlig godt, når sådanne tætheder skal ganges sammen. Eksempel 3.4 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, så er loglikelihoodfunktionen n l x1,...,x n (λ, β) = nλ log β + n log Γ(λ) (λ 1) log x i + 1 n x i. (3.5) β De faktiske observationer indgår kun i form af de to summariske størrelser n log x i og n x i,

7 3.1. Eksempler på likelihoodfunktioner 75 og alle likelihoodbaserede størrelser - maksimaliseringsestimatorer, kvotientteststørrelser etc. - afhænger således kun af observationernes sum og produkt. I et simulationseksperiment har vi genereret n = 100 uafhængige variable fra en Γ- fordeling med formparameter 7 og skalaparameter 2. De summariske størrelser blev 1 n n log x i = og 1 n n x i = (3.6) Niveaukurverne for den tilsvarende loglikelihoodfunktion er optegnet på figur 3.4. PSfrag replacements β λ Figur 3.4: Niveaurkurver for loglikelihoodfunktionen (3.5), baseret på de summariske størrelser (3.6). Prøver man at visualisere grafen for loglikelihoodfunktionen, ser man en krum, aflang dal. De eksempler på loglikelihoodfunktioner vi har set på indtil nu, har været ganske pæne, med en enkelt veldefineret dal på grafen. I mere komplicerede modeller med flere parametre, kan man ikke gå ud fra at tingene er så pæne. Loglikelihoodfunktioner har ofte mange lokale minima og og tilsvarende mange lokale maksima, og eftersom det er svært at visualisere disse højdimensionale funktioner, skal man passe på med ikke at undervurdere de geometriske vanskeligheder, de frembyder.

8 76 Kapitel 3. Likelihoodfunktionen 3.2 Fortolkning af likelihoodfunktionen I forbindelse med konkordansovervejelser fortolkede vi store værdier af en tæthed som udtryk for at den pågældende observation var rimelig under et konkret sandsynlighedsmål. Jo større tæthed, jo bedre. Nu vender vi situationen: vi har kun én observation, men mange sandsynlighedsmål. Ud fra et symmetriargument må vi se likelihoodfunktionen som et udtryk for hvor godt de forskellige sandsynlighedsmål er i konkordans med observationen. Jo større tæthed, jo større konkordans. Likelihoodfunktionen udtaler sig altså om hvor rimelige de enkelte parameterværdier er, set i lyset af den gjorte observation. Der er et væld af faldgruber i denne symmetribetragtning. Vi vil kun tillægge den intuitiv vægt, og ikke betragte den som et logisk tvingende argument. Dog vil hvert præcist resultat vi viser give større og større vægt til den erfaring at likelihoodfunktionen er den primære bærer af information om samspillet mellem observation og model. Vi vil (i modsætning til en del andre statistikere) omhyggeligt undgå at lægge noget religiøst i likelihoodbegrebet: de metoder vi udleder på baggrund af likelihoodfunktionen, skal vurderes på deres effektivitet, og de skal vejes op mod andre metoder - det er ikke et argument i sig selv at de er funderet på overvejelser over likelihoodfunktionen. Et problem for fortolkningen af likelihoodfunktionen er at tætheder ikke er entydigt givet. Hvis ν θ = f θ µ, så kan vi ændre f θ på en µ-nulmængde, og den resulterende funktion f θ er stadig en tæthed for ν θ med hensyn til µ. Hvis en étpunktsmængde {x 0 } er E-målelig med µ-mål nul, så kan vi i princippet sætte f 0 hvis x = x 0 θ (x) = f θ (x) hvis x x 0. Uanset hvordan den oprindelige likelihoodfunktion L x0 svarende til observationen x 0 så ud, har vi nu erstattet den med en ny likelihoodfunktion L x0 der er konstant 0! Eller ser ud på en hvilken som helst anden måde vi måtte finde for godt. Variationer af dette argument gør endvidere at vi i visse eksempler kan ændre på samtlige likelihoodfunktioner hvis vi måtte ønske det. Og derfor skal man være varsom med at tillægge en konkret likelihoodfunktion nogen selvstændig betydning. I mange modeller, hvor både parametermængden Θ og repræsentationsrummet X er delmængder af euklidiske rum, er det muligt at vælge tæthederne f θ sådan at afbildningen (θ, x) f θ (x)

9 3.3. Det dominerende måls rolle 77 som funktion af to variable har pæne egenskaber, f.eks. at den er kontinuert eller ligefrem C. I så fald er der ingen der kunne drømme om at manipulere med disse regulære tætheder. Men hvori det betydningsfulde ved regulære tætheder består (bortset fra at de gør analysen nemmere) er det svært at sige noget præcist om. Hvis (ν θ ) θ Θ er domineret af µ, sig ν θ = f θ µ, så er familien også domineret af cµ for et vilkårligt c > 0, og vi ser let at ν θ = f θ c cµ. Hvis vi kalder den oprindelige likelihoodfunktion (baseret på µ) for L x (θ) og likelihoodfunktionen baseret på det dominerende mål cµ for L c x(θ), så ser vi at L c x (θ) = f θ(x) c = 1 c L x(θ). Vi ser at L c x og L x er proportionale, skrevet L c x L x. Der giver næppe mening at hævde at µ som dominerende mål har en objektiv fortrinsstilling fremfor cµ, så vi ledes til at konkludere at den absolutte størrelse af L x (θ) ikke har nogen betydning. Det der kan fortolkes er forholdet mellem likelihoodfunktionens værdier i to punkter: Hvis L x (θ 1 ) L x (θ 2 ) > 1 så er x bedre i konkordans med ν θ1 end med ν θ2 - desto større brøken er, jo større er forskellen i konkordans. Vi ser at brøken ikke ændrer sig, når man ændrer grundmålet fra µ til cµ. 3.3 Det dominerende måls rolle Visse statistiske modeller er ikke dominerede. Et eksempel er de ikke-parametriske modeller fra eksempel Men langt de fleste i praksis forekommende statistiske modeller er domineret, som regel af et Lebesguemål eller et tællemål. Men de er også domineret af mange andre mål. Det konkrete dominerende mål er derfor noget vi selv vælger, når vi beskriver modellen. Vi vil i dette afsnit indkredse, hvilken betydning valget af dominerende mål har for hvordan likelihoodfunktionen ser ud. Eksempel 3.5 Lad X være eksponentialfordelt med parameter λ > 0. Som i eksempel 3.1 ser vi at denne statistiske model er domineret af Lebesguemålet m på R, og vi

10 78 Kapitel 3. Likelihoodfunktionen kan bruge tætheden f λ (x) = hvilket fører til likelihoodfunktion L x (λ) = 1 λ e x/λ x > 0 0 x 0, 1 λ e x/λ x > 0 0 x 0. Alternativt kan vi dominere med m (0, ) = 1 (0, ) m, altså med Lebesguemålets restriktion til den positive halvakse. I så fald kan vi bruge tætheden Der gælder nemlig at g λ (x) dm (0, ) (x) = A g λ (x) = 1 λ e x /λ x R. (3.7) A g λ (x) 1 (0, ) (x) dm(x) = A f λ (x) dm(x) for alle A B. Faktisk ser vi at det er irrelevant hvordan vi definerer g λ på den negative halvakse. Men det angivne valg af g λ fører til likelihoodfunktionen L x (λ) = 1 λ e x /λ x R. Vi ser at for x > 0 er der ingen forskel på L x og L x - de to funktioner er simpelthen ens. Men for negative x er er L x og L x vidt forskellige. Er det L x eller L x der er den rigtige likelihoodfunktion? Der er visse grunde til at foretrække L x. Men i det store og hele er de lige gode, og der er sjældent nogen grund til at skelne mellem dem. De er kun uenige for observationer der aldrig forekommer under modellen: samtlige eksponentialfordelinger tildeler jo (, 0] sandsynligheden 0. Hvis vi accepterer at det kun er relative forhold mellem likelihoodfunktionens værdier i forskellige punkter, der betyder noget, skal vi se at valget af dominerende mål ingen reel rolle spiller. Bortset fra for nogle ekstreme punkter i repræsentationsrummet - punkter der ifølge modellen selv slet ikke vil optræde som virkelige måleresultater - er alle likelihoodfunktioner bestemt af den statistiske model selv, ikke af hvad vi vælger at benytte som referencepunkt når vi skal beskrive modellen. At forklare i hvordan det hænger sammen, kræver vi udvikler lidt teori.

11 3.3. Det dominerende måls rolle 79 Vi siger at en statistisk model P på (X, E) er internt domineret hvis der findes et ν 0 P sådan at ν ν 0 for alle ν P. I teoretiske sammenhænge er det ofte bekvemt at arbejde med internt dominerede modeller. Også i praktiske tilfælde kan det være nødvendigt, f.eks. fordi man arbejder med komplicerede repræsentationsrum (X, E) der ikke på forhånd er udstyret med et grundmål. Stort set alle de modeller vi vil arbejde med er internt dominerede. Eksempel 3.6 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), sådan at ν θ = f θ µ for alle θ. Antag at f θ0 (x) > 0 for alle x X. Da er for alle θ Θ ν θ = f θ µ = f θ f θ0 Altså er familien internt domineret. f θ0 µ = f θ f θ0 ν θ0. Eksempel 3.5 viser - i form af tætheden (3.7) - at denne argumentation kan bringes i anvendelse i forbindelse med eksponentialfordelinger, med en vilkårlig af modellens sandsynlighedsmål som dominerende mål. Og generelt kan man med lidt fantasi i valget af det preliminært dominerende mål, vise at forbløffende mange statistiske modeller er internt dominerede. Som tidligere nævnt vil man i praksis gerne arbejde med logaritmen af likelihoodfunktionen. Hvis det skal give mening, må alle tætheder jo være overalt positive. Og dermed har vi faktisk sagt at modellen er internt domineret: analogt med eksempel 3.6 ser vi nemlig at ethvert sandsynlighedsmål i modellen kan bruges som dominerende mål! Omvendt, hvis alle mål i modellen kan bruges som dominerende mål, så er alle par af mål fra modellen ækvivalente, og dermed kan vi antage at alle tætheder mellem modellens mål er positive. Så bruges et af modellens mål som dominerende mål, giver det mening at tage logaritmen til likelihoodfunktionen. Eksempel 3.7 Lad ν θ være ligefordelingen på intervallet (0, θ), hvor θ > 0 er ukendt. Vi ser at ν θ = 1 (0,θ) m, så modellen (ν θ ) θ (0, ) er domineret af Lebesguemålet. Men

12 80 Kapitel 3. Likelihoodfunktionen modellen er ikke internt domineret. For hvis ν θ betegner ligefordelingen på (0, θ), så har vi for alle θ at ν θ ( (θ, 2θ) ) = 0, ν2θ ( (θ, 2θ) ) = 1 2. Dermed kan ν 2θ ikke have tæthed med hensyn til ν θ. Vi siger at et σ-endeligt mål µ er minimalt dominerende for den statistiske model P på (X, E), hvis ν µ for alle ν P, og hvis det for ethvert σ-endeligt mål ξ gælder at ν ξ ν P µ ξ. Hvis man har to minimalt dominerende mål for modellen P så må de nødvendigvis være ækvivalente. Eksempel 3.8 Hvis modellen P er internt domineret af ν 0 P, så er ν 0 et minimalt dominerende mål. For hvis ξ er et vilkårligt dominerende mål, så må ν 0 per definition have tæthed med hensyn til ξ. Mere generelt, hvis P er domineret af en tællelig konveks kombination af mål fra familien, µ = a n ν n, (3.8) n=1 hvor ν n P for alle n N, og hvor (a n ) n N er en følge af ikke-negative tal der summer til 1, så må dette µ være minimalt dominerende. For hvis ξ er endnu et dominerede mål, så er ν n = f n ξ for passende tætheder f n M +, og dermed er µ = a n ( f n ξ) = a n f n ξ. n=1 Vi vil nu gøre rede for at enhver domineret statistisk familie har et minimalt dominerende mål (hvad der ikke er klart på forhånd), og at dette minimalt dominerende mål har formen (3.8). Vi vil bruge notationen n=1 B f = {x X f (x) > 0} for f M + (X, E).

13 3.3. Det dominerende måls rolle 81 En mængde af formen C = n=1 for en følge ( f n ) n N af M + -funktioner kaldes en kæde. Vi taler om en D-kæde, hvis alle f n erne ligger i en givet mængde D M +. Bemærk at en tællelig forening af D-kæder igen er en D-kæde. B fn Lemma 3.9 Lad (X, E, µ) være et σ-endeligt målrum, og lad D være en delmængde af M + (X, E). Der findes da en D-kæde så µ ( B f \ C ) = 0 for alle f D. (3.9) BEVIS: I første omgang antager vi at µ er et sandsynlighedsmål. Vi vil finde en D- kæde med størst muligt µ-mål Sæt α = sup{µ(c) C er en D-kæde}. Da µ er et sandsynlighedsmål, er det klart at α 1. Vi kan finde D-kæder C 1, C 2,... så µ(c n ) > α 1 n. Idet foreningen af disse D-kæder selv er en D-kæde, har vi at α µ C i µ(c n) > α 1 n, og ved at lade n, ser vi at C i er en D-kæde med mål α, det vil sige med maksimalt mål. Lad os fremover kalde denne kæde C. Hvis f D, så er C B f endnu en D-kæde. Maksimaliteten af C gør at den nye kæde ikke kan have større mål end C selv. Og derfor må B f \ C have mål 0. Og vi har således vist (3.9). Hvis µ er et σ-endeligt mål, men ikke nødvendigvis et sandsynlighedsmål, så findes der et sandsynlighedsmål µ, der er ækvivalent med µ. Vi har lige fundet en D-kæde C så µ(b f \ C) = 0 for alle f D. Men da µ og µ er ækvivalente, har de samme nulmængder. Og dermed er (3.9) opfyldt.

14 82 Kapitel 3. Likelihoodfunktionen Sætning 3.10 (Halmos-Savage) Hvis en model P på (X, E) er domineret, så findes ν 1, ν 2, P sådan at målet λ = 2 n ν n (3.10) også dominerer P. n=1 BEVIS: Antag at P er domineret af et σ-endeligt mål µ. For hvert ν P vælger vi en tæthed f ν M +, så ν = f ν µ. Sæt D = { f ν ν P}, og lad os skrive B ν i stedet for B fν. Ifølge lemma 3.9 findes ν 1, ν 2, P så µ B ν \ B νn = 0 for alle ν P. n=1 Definer λ udfra disse ν n er og (3.10). Hvis λ(a) = 0 for en mængde A E, må der nødvendigvis gælde at ν n (A) = 0 for alle n. Altså at f n dµ = 0, så vi kan faktisk slutte at µ(a B νn ) = 0. For ethvert ν P har vi nu at µ (A B ν ) = µ A B ν B νn + µ A B ν \ B νn n=1 n=1 µ ( ) A B νn + µ B ν \ B νn = 0. Men heraf ser vi at n=1 ν(a) = A A n=1 f ν dµ = f ν dµ = 0. A B ν En henvisning til Radon-Nikodyms sætning fortæller nu at ν har tæthed med hensyn til λ, der således dominerer modellen P.

15 3.3. Det dominerende måls rolle 83 Lad nu P = (ν θ ) θ Θ være en parametriseret statistisk model. Hvis vi har et minimalt dominerende mål µ for en statistisk model, så vil likelihoodfunktionen baseret på et vilkårligt dominerende mål ξ kunne udtrykkes ved likelihoodfunktion baseret på µ: Antag at ν θ = f θ µ for alle θ Θ, og at µ = h ξ. Da er ν θ = f θ µ = f θ (h ξ) = ( f θ h) ξ for alle θ Θ, ser vi at ξ vitterligt dominerer modellen, med likelihoodfunktion Hvis h(x) 0 har vi således vist at L x L x. Sæt L x (θ) = f θ (x) h(x) = h(x) L x (θ). (3.11) A = {x X h(x) 0}. For alle x A er L x L x. Og for alle θ Θ er ν θ (A c ) = f θ (x)h(x) dξ(x) = 0, A c eftersom integranden er identisk 0 på den mængde der integreres over. Modellen foreskriver således at vi slet ikke kan få observationer udenfor A, uanset hvilket θ der er sandt. Pointen i (3.11) er at likelihoodfunktionerne svarende til et vilkårligt dominerende mål ξ er bestemt af likelihoodfunktionerne svarende til et minimalt dominerende mål µ. Ifølge Halmos-Savages sætning findes der altid et minimalt dominerende mål, der eksplicit knytter an til den givne model. Kombineres disse resultater, får vi altså at likelihoodfunktionerne er bestemt af modellen selv, ikke af det arbitrære dominerende mål. Vi kan opsummere disse overvejelser i en sætning: Sætning 3.11 Lad P = (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at P er domineret af to forskellige grundmål µ og µ. Det er muligt at vælge likelihoodfunktionerne (L x ) x X og ( L x ) x X med hensyn til de to dominerende mål sådan at L x (θ) = h(x) L x (θ) for alle θ Θ, x X, for en passende målelig funktion h : X (0, ).

16 84 Kapitel 3. Likelihoodfunktionen 3.4 Likelihoodfunktionen under reparametriseringer Vi så i kapitel 2, at man i mange modeller kan skifte mellem en række forskellige parametriseringer. Nogle parametriseringer er gode til nogle ting, andre er gode til noget andet, og man har ofte behov for at foretage springet mellem dem. Om modellen er domineret eller ej, har ikke noget at gøre med den parametrisering, der aktuelt er i brug. Så de forskellige parametriseringer er enige om hvorvidt der er en likelihoodfunktion. Men hvordan likelihoodfunktionen konkret ser ud, har naturligvis alt at gøre med parametriseringen. Når man skifter parametrisering, bliver likelihoodfunktionen et helt andet objekt - typisk skifter funktionerne for eksempel definitionsmængde. Lad P være en statistisk model på (X, E), domineret af grundmålet µ. Lad θ ν θ P, θ Θ, og λ ξ λ P, λ Λ, være to injektive parametrisering af denne model. Hvert sandsynlighedsmål i P kan altså skrives som ν θ for præcis ét θ Θ, og som ξ λ for præcis ét λ Λ. Der findes derfor en eksplicit, bijektiv reparametrisering φ : Θ Λ, sådan at ν θ = ξ φ(θ) for alle θ Θ. Antag at ξ λ = f λ µ for hvert λ Λ. Parametriseringen ved hjælp af λ giver da anledning til likelihoodfunktionen L x (λ) = f λ (x). Vi kan finde tæthederne i θ-formuleringen, eftersom ν θ = ξ φ(θ) = f φ(θ) µ. Og derfor er likelihoodfunktionen i θ-parametriseringen L x (θ) = f φ(θ) (x) = L x φ (θ) for alle x X, θ Θ. (3.12) Likelihoodfunktionerne i de to formuleringer er ikke ens, men de er forbundet via en ret oplagt relation. Man skal være opmærksom på at likelihoodfunktionerne i de to formuleringer ikke nødvendigvis er lige pæne ud fra et funktionsteoretisk synspunkt. Vi vil f.eks. ofte interessere os for om loglikelihoodfunktionerne er konvekse - og svaret på dette spørgsmål kan afhænge kritisk af den valgte parametrisering.

17 3.5. Likelihoodfunktionen som stokastisk variabel 85 Eksempel 3.12 I den simple møntkastmodel fra eksempel 2.6, har man uafhængige, identisk fordelte variable X 1,..., X n, der opfylder at P(X i = 1) = p, P(X i = 0) = 1 p, for et p (0, 1). Her har vi uden videre parametriseret ved hjælp af successandsynligheden p, og fastholder vi det, får vi likelihoodfunktionen L x1,...,x n (p) = n p x i (1 p) 1 x i = p n x i (1 p) n n x i. (3.13) Ønsker vi i stedet at parametrisere ved hjælp af log odds ψ, der er forbundet med successandsynligheden p ved relationen p = får vi ifølge (3.12) likelihoodfunktionen ( L x1,...,x n (ψ) = e ψ 1 + e ψ eψ 1 + e ψ, ) n x i ) n n (1 eψ x i 1 + e ψ = eψ n x i ( 1 + e ψ ) n. Denne likelihoodfunktion har forskellige tekniske fortrin frem for (3.13), fordi observationerne og parameteren blander sig på en meget simpel måde - det træder nok tydeligst frem, hvis man ser på den tilsvarende loglikelihood, l x1,...,x n (ψ) = n log ( 1 + e ψ) ψ n x i, hvor observationerne kun indgår i sidste led, og det endda i en lineær kombination med parameteren. 3.5 Likelihoodfunktionen som stokastisk variabel Lad (ν θ ) θ Θ være en parametriseret statistisk model for et eksperiment med repræsentationsrum (X, E), og antag at denne model er domineret af et grundmål µ. For hvert x X har vi indført likelihoodfunktionen L x : Θ [0, ). På baggrund af eksperimentets resultat x fæstner vi os ved en bestemt likelihoodfunktion L x. Hvis vi

18 86 Kapitel 3. Likelihoodfunktionen gentager eksperimentet, får vi (formentlig) en anden observation x X og dermed en anden likelihoodfunktion L x. I en vis forstand kan man altså sige at likelihoodfunktionen er stokastisk! Vi kan formalisere disse betragtninger ved at indføre rummet [0, ) Θ, bestående af alle funktioner Θ [0, ). Vi har konstateret at L x [0, ) Θ for alle x X. Dermed kan vi opfatte hele samlingen af likelihoodfunktioner som en transformation L : X [0, ) Θ, hvilket eventuelt kan indikeres med skrivemåden L(x)(θ) = L x (θ) for alle x X, θ Θ. (3.14) Parenteserne på venstre side af (3.14) er sat for at markere at L er en transformation af x. Men resultatet L(x) er selv en funktion, med argument θ. Det er muligt at udstyre [0, ) Θ med en forholdsvis naturlig σ-algebra. For hvert θ Θ har vi en naturlig projektionsafbildning pr θ : [0, ) Θ [0, ), givet ved pr θ ( f ) = f (θ) for alle f [0, ) Θ. Og projektions-σ-algebraen P på [0, ) Θ er den mindste σ-algebra der gør alle disse projektionsafbildninger målelige. Lemma 3.13 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E). Da er likelihoodfunktionen L en (X, E) ([0, ) Θ, P)-målelig afbildning. BEVIS: Gennemstrømningssætningen fortæller at vi skal vise at pr θ L for hvert fast θ Θ er en E B målelig funktion. Men hvis vi siger at ν θ = f θ µ, så er pr θ L(x) = L(x)(θ) = f θ (x). Og da f θ er en tæthed, er den per definition E B målelig. Principielt kan vi nu diskutere fordelingen af likelihoodfunktionen under P θ, det vil sige billedmålet L X(P θ ). Det forekommer ubehageligt, for det er et mål på et funktionsrum [0, ) Θ, og vi har slet ikke udviklet redskaberne til at tale om mål på så

19 3.5. Likelihoodfunktionen som stokastisk variabel 87 store mængder. Men overordnet set er det ikke anderledes end at tale om fordelingen af en hvilken som helst anden transformation af observationerne. Vi vil ikke lægge vægt på formelle detaljer om σ-algebraer på funktionsrum. Men ideen om at likelihoodfunktionen kan betragtes som en transformation af den gjorte observation vil være af stor betydning. PSfrag replacements X L (Ω, F) (X, E) [0, ) Θ P θ ν θ Θ Θ θ Figur 3.5: En skematisk tegning af en statistisk model, hvor likelihoodfunktionen opfattes som en transformation af den gjorte observation over i et funktionsrum. Vi vil som regel bruge betegnelsen L X når vi tænker på likelihoodfunktionen som en stokastisk variabel, og L x når vi tænker på den konkret observerede likelihoodfunktion. Selvfølgelig er funktionen ikke egentlig observeret : hvad der er observeret er x X, og på baggrund af denne værdi konstruerer vi L x. Eksempel 3.14 Lad X 1,..., X n være uafhængige stokastiske variable, alle eksponentialfordelte med en ukendt middelværdi λ > 0. Analogt med regningerne i eksempel 3.1 finder vi at loglikelihoodfunktionen på baggrund af en observation (X 1,..., X n ) = (x 1,..., x n ) er l x1,...,x n (λ) = n log λ + x λ for alle λ (0, ) hvor x = n x i. En lidt kortere skrivemåde, der ligger mindre vægt på en konkret observation og mere vægt på det stokastiske er l X (λ) = n log λ + X λ for alle λ (0, ). Hvis vi kender det sande λ, så kan vi simulere data fra eksperimentet, og dermed simulere likelihoodfunktionen. På figur 3.6 har vi optegnet 5 simulerede likelihood-

20 88 Kapitel 3. Likelihoodfunktionen funktioner for λ = 2/3 og 5 for λ = 3/2. Forsøget er kørt to gange, dels med n = 10 og dels med n = 100. PSfrag replacements l(λ) n = 10 PSfrag replacements λ l(λ) n = λ Figur 3.6: Simulerede loglikelihoodfunktioner fra en model med uafhængige eksponentialfordelte observationer. I tegningen til venstre er der 10 observationer per eksperiment, i tegningen til højre er der 100 observationer per eksperiment. De fuldt optrukne kurver med tyk streg stammer fra 5 replikationer med sand parameter λ = 2/3. De stiplede kurver med tynd streg stammer fra 5 replikationer med sand parameter λ = 1.5. Bemærk at forsøget - til en vis grad for n = 10, og i hvert fald med n = tillader os at skelne mellem de to parametre. Hvis en fjendtligsindet person brugte en af de to parametre til at simulere nye observationer med, så ville vi kunne tegne loglikelihoodfunktionen op for dette nye eksperiment, og ved at sammenholde med figur 3.6 ville vi ganske sikkert kunne afgøre hvilken parameter der var benyttet. Som tidligere nævnt er likelihoodfunktionen den primære bærer af information om samspillet mellem observation og model. Visse statistikere har taget den drastiske konsekvens at ophøje denne erfaring til et dogme: Likelihoodprincippet: Drager man inferens i en domineret statistisk model (X, E, P) på baggrund af en observation x X, så bør resultatet kun afhænge af den observerede likelihoodfunktion. Dette princip er kontroversielt, og i disse noter gøres intet forsøg på at respektere det, tværtimod. Problemet med likelihoodprincippet er at det ikke tillader overvejelser om fordelingen af L X. Groft sagt: likelihoodprincippet tillader kun at man undersøger den observerede likelihoodfunktion, ikke at man diskuterer hvilke likelihoodfunktioner man ellers kunne have observeret. Og argumentation omkring ikke-observerede

21 3.6. Kombinanter 89 likelihoodfunktioner vil være ganske vigtig for os - og for de fleste andre statistikere. Men f.eks. Bayesianere respekterer automatisk likelihoodprincippet. Likelihoodprincippet udgør et alvorligt og dybt problem for den teoretiske statistik. Det viser sig nemlig at en række tilsyneladende mere spiselige principper medfører likelihoodprincippet. Overholder man sufficiensprincippet og betingningsprincippet, så overholder man også likelihoodprincippet, uanset om man bryder sig om det eller ej. Vi vil senere komme ind på hvad disse principper går ud på. 3.6 Kombinanter Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). En kombinant er en afbildning R : Θ X Y, hvor Y er endnu en mængde. Ofte bruges en kombinant til at måle hvor godt en konkret observation og en konkret parameter er i konkordans. Den præcise måde dette gøres på, varierer fra eksempel til eksempel. Oplagte eksempler på kombinanter er likelihoodfunktionen og loglikelihoodfunktionen. Men der kan findes mange andre. Eksempel 3.15 Lad X 1,..., X n være reelle stokastiske variable, og lad (P θ ) θ Θ være en model for deres simultane fordeling. Antag at hvert X i har første moment under P θ for alle θ Θ. Vi vil nu og fremover referere til sådanne momenter som E θ X i - middelværdien af X i hvis θ er den sande parameter. Punktet (E θ X 1,..., E θ X n ) R n er det forventede punkt, hvis θ er den sande parameter. Derfor fortæller kvadratsummen n ( ) R(θ; x 1,..., x n ) = Eθ X i x 2 i (3.15) noget om hvor langt den konkrete observation (x 1,..., x n ) ligger fra det forventede punkt. Megen statistisk metodik er udviklet på baggrund af analyse af kvadratsumsstørrelser som (3.15), og det er først i helt moderne tid at likelihoodfunktionen og konstruktioner herudfra har overtaget rollen som de vigtigste kombinanter. Hvor relevant en størrelse (3.15) er for konkordansvurderinger, afhænger meget af den konkrete model. Hvis X i erne har forskellig varians, så må R betragtes med mistro, for en afvigelse på en koordinat med stor varians (den slags afvigelse må i sagens natur forventes) tæller lige så meget som en afvigelse på en koordinat med lille varians (den slags afvigelser tyder på diskordans). Tilsvarende, hvis X i erne er afhængige, så er R et usikkert mål for konkordans.

22 90 Kapitel 3. Likelihoodfunktionen Disse defekter kan nogen gange fjernes ved at betragte en vægtet kvadratsum R W (θ; x 1,..., x n ) = (x E θ X) T W (x E θ X). (3.16) hvor W er en symmetrisk, positivt definit vægtmatrix. Bemærk at (3.15) er et specielt tilfælde af (3.16) med vægtmatrix W = I. Men i komplicerede modeller er det ofte lettere sagt end gjort at finde en passende vægt. Vi vil her indføre nogle kombinanter, der er afledte af likelihoodfunktionen - disse kombinanter bliver vigtige for os i senere afsnit. Definition 3.16 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E), hvor parametermængden Θ er en åben delmængde af R k. Hvis alle loglikelihoodfunktionerne l x er C 1 på Θ, så er scorefunktionen Θ R k givet som Dl x (θ) = ( l x (θ) θ 1 l x (θ) θ 2... l x (θ) θ k ). Hvis alle loglikelihoodfunktionerne l x er C 2 på Θ, så kan vi definere den observerede informationsfunktionen Θ R k k som 2 l x (θ) θ 1 θ 2... D 2 l x (θ) = 2 l x (θ) θ l x (θ) θ 2 θ 1. 2 l x (θ) θ k θ 1 2 l x (θ) 2 l x (θ) θ 1 θ k 2 l x (θ) θ 2 θ k θ l x (θ) θ k θ l x (θ) θ k 2. Eksempel 3.17 Lad X 1,..., X n være uafhængige reelle stokastiske variable, alle eksponentialfordelte med ukendt middelværdi λ > 0. Loglikelihoodfunktion er l X (λ) = n log λ + X λ. Dermed har modellen scorefunktion og informationsfunktion l X (λ) = n λ X λ 2, l X (λ) = n λ X λ 3.

23 3.6. Kombinanter 91 Eksempel 3.18 Lad os betragte møntkastmodellen, hvor vi har uafhængige reelle stokastiske variable X 1,..., X n med P(X i = 1) = p, P(X i = 0) = 1 p for i = 1,..., n, p (0, 1). Likelihoodfunktionen er L X (p) = n p X i (1 p) 1 X i = p X (1 p) n X og dermed er loglikelihoodfunktionen, scorefunktionen og informationsfunktionen l X (p) = X log p (n X ) log(1 p), l X (p) = X p + n X 1 p, l X (p) = X p 2 + n X (1 p) 2. Eksempel 3.19 Lad X 1,..., X n være uafhængige reelle stokastiske variable, alle N(ξ, σ 2 )-fordelte. Denne model har likelihoodfunktion L X (ξ, σ 2 ) = n 1 2πσ 2 e (X i ξ) 2 /2σ 2, og dermed loglikelihoodfunktion l X (ξ, σ 2 ) = n 2 log 2π + n 2 log σ2 + n (X i ξ) 2 2σ 2. Scorefunktionen, eller scorevektoren, som man ofte siger når parameteren er flerdimensional, er Dl X (ξ, σ 2 ) = ( lx ξ ) ( l X n (X i ξ) σ 2 = σ 2 n 1 (X 2 σ 2 i ξ) 2 ) 2σ 4 Bemærk at parameteren er σ 2, ikke σ. Dette forhold kan godt forvirre, når man differentierer.

24 92 Kapitel 3. Likelihoodfunktionen Tilsvarende blive informationsfuntionen, eller informationsmatricen, D 2 l X (ξ, σ 2 ) = n σ 2 n (X i ξ) σ 4 n (X i ξ) σ 4 n n (X + i ξ) 2 2σ 4 σ 6 Eksempel 3.20 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, så vi i eksempel 3.4 at loglikelihoodfunktionen er. l X1,...,X n (λ, β) = nλ log β + n log Γ(λ) (λ 1) n log X i + 1 β n X i. Dermed er scorevektoren n Dl X1,...,X n (λ, β) = n log β + nψ(λ) log X i ; nλ β 1 β 2 n X i, og observeret information D 2 l X1,...,X n (λ, β) = nψ (λ) n β n β nλ β β 3 n X i. Her betegner Ψ(λ) og Ψ (λ) henholdvis di- og trigammafunktionerne. Definition 3.21 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E). Kvotientteststørrelsen er kombinanten Q(θ, x) = L x (θ) sup ϑ Θ L x (ϑ). Tegner man grafen for kvotientteststørrelsen op, får man samme tegning, som når man tegner grafen for likelihoodfunktionen, bortset fra ordinataksen er skaleret anderledes: kvotientteststørrelsen når præcis op i højden 1.

25 3.6. Kombinanter 93 Ligesom likelihoodfunktionen L x ofte erstattes af l x, så bliver kvotientteststørrelsen Q ofte erstattet af 2 log Q - her virker to-tallet måske lidt arbitrært, men er tilføjet af samme grund som fortegnet: for at gøre senere formler simplere. Fortolkningen af kvotientteststørrelsen er ganske subtil. Hvor likelihoodfunktionen måler graden af konkordans mellem observationen x og parameteren θ, så måler kvotientteststørrelsen i hvilken grad modellens andre parametre er i bedre konkordans med x end θ er. Selv om x og θ er i fortræffelig konkordans, kan Q(θ, x) sagtens være lille - det betyder blot at andre af modellens parametre er i endnu bedre konkordans med x. Tilsvarende betyder en høj Q-værdi ingenlunde at x og θ er i konkordans - det betyder blot at ingen andre parametre er i nævneværdig bedre konkordans med x. Vi vil i et vist omfang basere inferensen om θ på kvotientteststørrelsen. Men den fremgangsmåde er kontroversiel: den fører nogle gange til konklusioner, der kan virke absurde, og den er et yndet angrebspunkt for Bayesianske statistikere. Definition 3.22 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E), og lad τ : Θ Ψ være en parameterfunktion. Profillikelihoodfunktionen for τ er kombinanten L τ (ψ, x) = L τ x(ψ) = sup θ : τ(θ)=ψ L x (θ). Teknisk set er det en stramning at kalde profillikelihoodfunktionen for en kombinant, eftersom denne størrelse ikke er defineret på Θ X, men på Ψ X. Sprogbrugen forekommer alligevel naturlig. Ofte erstatter man profillikelihoodfunktionen med den tilsvarende profilloglikelihoodfunktion, l τ (ψ, x) = log L τ (ψ, x). Fortolkningen af disse profilerede størrelser er, at en stor værdi at L τ x (ψ) på baggrund af observationen x, giver stor tiltro til at den sande parameter θ har τ-værdi lig med ψ. Det kan være interessant at konkludere sådan, uden at gå i detaljer med hvad man forestiller sig om den sande parameters præcise beliggenhed. Eksempel 3.23 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, kan vi finde profillikelihoodfunktionen for parameterfunktionen (λ, β) λ, ved for hvert fast λ at maksimere (3.5) med hensyn til β. Dette maksimum antages af ˆβ(λ) = n X i n λ,

26 94 Kapitel 3. Likelihoodfunktionen og dermed er profilloglikelihoodfunktionen for λ givet som ( n ) X i n l X1,...,X n (λ) = l X1,...,X n (λ, ˆβ(λ)) = nλ log +n log Γ(λ) (λ 1) log X i +nλ. n λ (3.17) For det simulerede datasæt fra eksempel 3.4 er denne profilloglikelihood optegnet på figur 3.7. l(λ) PSfrag replacements λ Figur 3.7: Profiloglikelihoodfunktionen (3.17), baseret på de summariske størrelser (3.6). Data er simuleret ud fra en Γ-model med λ = 7, β = 2. Alle kombinanter kan - under passende målelighedsforudsætninger - opfattes som stokastiske, på samme måde som likelihoodfunktionen. Vi vil skrive R X hvis vi tænker på kombinanten R på denne måde. Det er altså et stokastisk valg (baseret på observationen X = x) af en funktion Θ Y. En måde at trække information ud af en kombinant R : X Θ R m på, er at regne kombinanten ud i en fast parameterværdi θ 1 Θ. På den måde bliver kombinanten blot en transformation af data, og dermed en stokastisk variabel. Men nu kan man regne middelværdien ud af den pågældende variabel, hvis man kender den sande parameter. Vi vil altså diskutere en funktion af formen (θ 1, θ 2 ) E θ2 R(X, θ 1 ),

27 3.6. Kombinanter 95 og opfatte denne funktion som et udtryk for modellens egenskaber. Disse regninger bliver mest interessante hvis θ 1 = θ 2. I så fald studerer vi θ E θ R(X, θ). Vigtigst for os bliver den forventede information, også kaldet Fisher informationen, i(θ) = E θ D 2 l X (θ), som netop er denne generelle konstruktion anvendt på informationsfunktionen. Den forventede information er naturligvis kun defineret hvis alle loglikelihoodfunktionerne l x er C 2 på Θ, og hvis den anden afledede har 1. moment. Den slags tekniske detaljer plejer man gerne at underforstå. Eksempel 3.24 Lad som i eksempel 3.17 X 1,..., X n være uafhængige, eksponentialfordelte med ukendt middelværdi λ. Da er og dermed er den forventede information E λ X = n λ, i(λ) = E λ l X (λ) = E λ ( n λ X ) λ 3 = n λ 2. Eksempel 3.25 Lad som i eksempel 3.19 X 1,..., X n være uafhængige N(ξ, σ 2 )- fordelte reelle variable. Da er E(X i ξ) = 0, E(X i ξ) 2 = σ 2, og dermed er den forventede informationsmatrix i(ξ, σ 2 ) = n σ n 2σ 4. Mere generelt end kun at interessere sig for middelværdien, kan man interessere sig for hele fordelingen af R(X, θ 1 ) under forudsætning af at θ 2 er den sande parameter. Igen er det mest interessant hvis θ 1 = θ 2 = θ. Vi taler da om kombinantens fordeling

28 96 Kapitel 3. Likelihoodfunktionen i θ. Det er altså fordelingen af den stokastiske variabel R(X, θ) hvis θ er den sande parameter. I visse (sjældne) tilfælde afhænger denne fordeling ikke af θ. Vi siger da at kombinanten er en pivot, eller at den er fordelingskonstant. 3.7 Momentresultater for kombinanter Antag i det følgende at (ν θ ) θ Θ er en statistisk model på (X, E). Antag at parametermængden Θ er en åben delmængde af R k, og antag at modellen er domineret af et σ-endeligt mål µ på (X, E), sådan at tæthederne f θ (x) > 0 for alle θ Θ og alle x X. Sætning 3.26 Under tilstrækkelige regularitetsforudsætninger vil E θ (Dl X (θ)) = 0 for alle θ Θ, (3.18) og V θ (Dl X (θ)) = i(θ) for alle θ Θ. (3.19) BEVIS: Den fundamentale relation er f θ (x) dµ(x) = 1 for alle θ Θ. (3.20) Hvis man kan differentiere under integraltegnet, ser vi for i = 1,..., k at 0 = f θ (x) dµ(x) = θ i ( ) = log f θ (x) θ i f θ (x) dµ(x) = θ i f θ (x) dµ(x) = E θ ( θ i l X (θ) θ i f θ (x) f θ (x) dµ(x) f θ (x) ). Samles disse k påstande i en vektoridentitet, har man netop (3.18) - på nær et irrelevant fortegn.

29 3.7. Momentresultater for kombinanter 97 Hvis man kan differentiere en gang til under integraltegnet i (3.20), har vi for alle i, j = 1,..., k at Endvidere ser vi at 0 = θ j f θ (x) dµ(x) = θ i 2 2 θ i θ j f θ (x) l X (θ) = + θ i θ j f θ (x) 2 θ i θ j f θ (x) = f θ (x) 2 θ i θ j f θ (x) dµ(x). θ i f θ (x) f θ (x) + θ i l X (θ) Kombineres disse oplysninger får vi at ( 2 ) E θ l X (θ) = E θ θ i θ j 2 θ i θ j f θ (x) f θ (x) + E θ ( = 0 + Cov l X (θ), θ i θ j f θ (x) f θ (x) θ j l X (θ). ( θ i l X (θ) θ j l X (θ) ), ) l X (θ) θ j eftersom middelværdien af de to stokastiske variable er nul. Men dette er netop matrixligningen (3.19) læst komponent for komponent. De nødvendige forudsætninger for at disse regninger holder, er stort set at de involverede størrelser giver mening. Loglikelihoodfunktionen skal være differentiabel, og Dl X (θ) skal være integrabel med hensyn til ν θ for alle θ, sådan at venstresiden af (3.18) giver mening. Og så skal man altså kunne differentiere ind under et integraltegn. Og tilsvarende for (3.19). Hvis Θ R er en tilstrækkelig - omend alt for stærk - betingelse, der sikrer at sætning 3.26 er opfyldt, at der findes en funktion h M + (X), der er µ-integrabel, og som opfylder at θ f θ(x) h(x), 2 2 θ f θ(x) h(x) for alle θ Θ, x X. Denne betingelse er ikke særligt intuitiv. Den er heller ikke opfyldt i ret mange modeller. Man kan komme ganske langt med at blødgøre betingelsen, sådan at man kan

30 98 Kapitel 3. Likelihoodfunktionen se at sætning 3.26 er opfyldt for de fleste modeller, men der vedbliver at være noget uintuitivt og teknisk over betingelserne, og vi vil derfor ikke gå i detaljer med dem. En vigtig lære at uddrage af sætning 3.26, er at den forventede information i(θ) i hvert punkt kan opfattes som en varians, og derfor er den positivt semidefinit - som regel endda positivt definit. Hvis Θ R kan vi give en samlet tolkning af (3.18) og (3.19): Lad θ 0 være den sande parameter. Idet middelværdien af l X (θ 0) er nul, vil den typiske værdi af l X (θ 0) i et konkret eksperiment være tæt ved nul. Og dermed vil l X (θ) være tæt ved nul for θ i en lille omegn af θ 0. Idet middelværdien af l X (θ 0) er positiv, vil den typiske værdi af l X (θ 0) også være positiv, og dermed vil l X (θ) være positiv for θ i en lille omegn af θ 0. I en lille omegn af θ 0 kan vi bruge Taylor approksimationen Sætter vi så giver (3.21) at l X (θ) l X (θ 0) + l X (θ 0)(θ θ 0 ). (3.21) θ = θ 0 l X (θ 0) l X (θ 0), (3.22) l X ( θ) 0. Idet vi går ud fra at θ ligger så tæt på θ 0 at l X ( θ) > 0, slutter vi at l X har et lokalt minimum i θ (eller i hvert fald meget tæt ved). Vi har argumenteret os frem til at den typiske loglikelihoodfunktion l X (θ) vil have et (lokalt) minimum i nærheden af den sande parameterværdi θ 0. Følgelig vil den typiske likelihoodfunktion have et (lokalt) maksimum i nærheden af den sande parameterværdi. Man kan argumentere på lignende vis hvis Θ R k, skønt notationen bliver mere indviklet. Lad os understrege at disse ræsonnementer ikke er strengt matematiske, men er af fortolkningsmæssig karakter. Hvis man går dem efter i detaljer, er de hullede som en si. At middelværdien af l X (θ 0) er nul, betyder ikke altid at den typiske værdi er lille, det betyder blot at de negative værdier kompenseres af de positive. Alle værdier kunne for den sags skyld være numerisk store. Tilsvarende indvendinger kan rejses mod resten af ræsonnementerne. Men man vil forvente at argumentkæden faktisk kan gøres præcis i en lang række modeller. Det vil vi gøre i kapitel 5, hvor vi vil se at det teknisk set handler om at

31 3.7. Momentresultater for kombinanter 99 kunne begrænse den tredie afledede af loglikelihoodfunktionen, sådan at man har kontrol over hvor meget de to første afledede ændrer sig. Denne argumentation giver vægt til den intuition, vi får fra konkordansfortolkningen af likelihoodfunktionen: den sande parameter bag en givet observation bør søges blandt de parametre, der gør likelihoodfunktionen stor. Sætning 3.27 (Cramér-Rao) Antag at Θ R. Under passende regularitetsforudsætninger vil det for enhver målelig afbildning t : X R gælde at V θ (t X) (E θ (t X)) 2 i(θ) for alle θ Θ. (3.23) BEVIS: Lad os indføre parameterfunktionen g : Θ R ved g(θ) = E θ (t(x)). Vi vil interessere os for samspillet mellem de to stokastiske variable t(x) og f η(x) f θ (X) under antagelse af at θ er den sande parameter. Her er η blot endnu en parameter, der i første omgang betragtes som fast. Vi konstaterer at Dermed er E θ ( fη (X) f θ (X) ) = Tilsvarende er ( Cov θ t(x), f ) η(x) = f θ (X) fη (x) f θ (x) f θ(x) dµ(x) = f η (x) dµ(x) = 1. ( ) ( ) fη (X) fη (x) 2 V θ = f θ (X) f θ (x) 1 f θ (x) dµ(x). t(x) f η(x) f θ (x) f θ(x) dµ(x) g(θ) 1 = g(η) g(θ). Cauchy-Schwarz ulighed medfører nu at ( ) (g(η) g(θ)) 2 fη (x) f θ (x) 2 V θ (t(x)) f θ (x) dµ(x). f θ (x) I denne ulighed dividerer vi med (η θ) 2 og går til grænsen η θ. Da får vi grænseuligheden g (θ) 2 θ V θ (t(x)) f 2 θ(x) ( f θ (x) f θ (x) dµ(x) = V θ (t(x)) E θ l X (θ) 2).

32 100 Kapitel 3. Likelihoodfunktionen Kombineres (3.18) og (3.19) får vi netop at scorefunktionens 2. moment er identisk med informationen, og det ønskede er vist. Cramér-Raos ulighed har en vigtig fortolkning i forbindelse med det parameterfølsomhedsbegreb, vi diskuterede i afsnit 2.5. Hvis modellen udviser stor parameterfølsomhed, vil gentagelser af eksperimentet under to forskellige parametre give anledning til to velseparerede punktskyer, se figur 2.4. Denne separation kan man formentlig fange ved hjælp af en afbildning t : X R, sådan at t-værdierne af de to punktskyer ligger velsepareret på den reelle akse. Hvis vi involverer mere end to parameterværdier i diskussionen, er vi interesseret i at fordelingen af t X flytter sig markant med θ. En måde at undersøge den ønskede separationsegenskab, kunne være at finde ud af hvor meget midtpunktet af fordelingen flytter sig med θ. Denne tankegang fører naturligt til at man udregner E θ (t X), der helst skal være numerisk stor. Men Cramér-Raos ulighed betyder at en stor E θ (t X)-værdi nødvendigvis vil medføre en stor varians af t X. Sagt i ord: hvis midtpunktet af fordelingen flytter sig hurtigt med θ, så må fordelingen være være bred! Og derfor vil fordelingen af t X under to nærtliggende parametre alligevel ikke være særlig godt separeret. Den størrelse, der fortæller hvor bred fordelingen af t X må være for at toppunktet kan flytte sig mærkbart med parameteren, er Fishers forventede information i(θ). En stor værdi af i(θ) for alle θ gør det potentielt muligt at vælge t-funktioner, så fordelingen af tx er forholdsvis fokuseret for hvert θ, og alligevel flytter sig når man ændrer på θ. Med andre ord: en stor værdi af i(θ) gør det muligt at se forskel på parametrene. Derfor er ordet information yderst velvalgt til i(θ): det betegner en egenskab ved modellen, der beskriver hvor meget vi vil få at vide om den sande parameter ved at gøre en observation. Det skal understreges at Cramér-Raos ulighed er en generel ulighed, og der er ikke associeret nogen påstand om at man altid kan vælge et optimalt separerende t, så uligheden forvandles til en identitet. For nogle modeller kan man finde sådan et optimalt separerende t, for andre modeller kan man ikke. For visse modeller er der endda et gab mellem den bedst opnåelige separation og den separation, Cramér-Raos ulighed antyder er mulig.

33 3.7. Momentresultater for kombinanter 101 Der findes varianter af Cramér-Raos ulighed, der gælder for modeller hvor parametermængden er flerdimensional. Disse varianter opnås ved at opsummere informationen fra de etdimensionale uligheder, der kan presses ud af alle etdimensionale delmodeller. Det er ganske svært at formulere et sådant resultat - det er noget med at en vis matrix er positivt semidefinit - og vi vil ikke give en teknisk gennemgang. Men indholdet af Cramér-Raos ulighed i flere dimensioner, er at den forventede informationsmatrix (eller mere præcist: den inverse forvente informationsmatrix) sætter en grænse for hvor godt man kan separere parametre.