så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =
|
|
- Birgitte Christensen
- 6 år siden
- Visninger:
Transkript
1 Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål µ på (X, E), således at ν µ for alle ν P, så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P = (ν θ ) θ Θ er antagelsen altså at der for hvert θ Θ findes en funktion f θ M + (X, E) sådan at ν θ (A) = f θ (x) dµ(x) for alle A E, θ Θ. (3.1) A Et fundamentalt statistisk hjælpemiddel for en domineret statistisk model er likelihoodfunktionen. Svarende til en observation x X definerer vi funktionen L x : Θ [0, ) givet ved L x (θ) = f θ (x) for alle θ Θ. (3.2) For et udfald x X angiver likelihoodfunktionen tæthedens værdi i x som funktion af parameteren θ Θ. For at understrege, at likelihoodfunktionen er en funktion af θ, vil man ofte blot skrive L(θ) = f θ (x), og i praksis undertrykke afhængigheden af observationen x. I andre sammenhænge er det omvendt nyttigt at huske på, at forskellige observationer giver forskellige likelihoodfunktioner, og man taler da gerne om samlingen af alle likelihoodfunktioner (L x ) x X. 69
2 70 Kapitel 3. Likelihoodfunktionen I mange tilfælde er de indgående tætheder overalt positive. Man vil da ofte arbejde med minus logaritmen af likelihoodfunktionen, l x (θ) = log f θ (x) for alle θ Θ. Der er ikke universel enighed om hvorvidt der skal sættes minus foran logaritmen, men om man følger denne konvention eller ej er uden betydning i dette kapitel. Ideen med at tage logaritmer er at tætheder for sammensatte eksperimenter ofte er produkter af tætheder for deleksperimenter - og disse produkter forvandles til summer ved en logaritmetransformation. 3.1 Eksempler på likelihoodfunktioner Vi vil starte med at give en række eksempler på likelihoodfunktioner i en dimension, så man kan få en fornemmelse af hvordan sådanne funktioner ser ud. Eksempel 3.1 Lad X 1,..., X 10 være uafhængige, reelle stokastiske variable, alle eksponentialfordelte med ukendt middelværdi λ (0, ). Lad den gjorte observation være (X 1,..., X 10 ) = (x 1,..., x 10 ) hvor x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x Idet hvert X i har tæthed med hensyn til Lebesguemålet m på (R, B), har den simultane fordeling af (X 1,..., X 10 ) tæthed med hensyn til m 10 på (R 10, B 10 ), og denne simultane tæthed er givet ved produktet f λ (x 1,..., x 10 ) = 10 1 λ e x i/λ, (x 1,..., x 10 ) (0, ) 10. Dermed er likelihoodfunktionen svarende til observationen x = (x 1,..., x 10 ) L x (λ) = ( ) 10 1 exp( λ og minus loglikelihoodfunktionen er 10 x i /λ) for λ (0, ), l x (λ) = 10 log λ + 1 λ 10 x i for λ (0, ). (3.3)
3 3.1. Eksempler på likelihoodfunktioner 71 PSfrag replacements l(λ) L(λ) PSfrag replacements l(λ) λ λ L(λ) Figur 3.1: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.1. På figur 3.1 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglikelihoodfunktion for den konkrete observation. Bemærk at data kun indgår i l x (λ) igennem summen x i. Det er et almindeligt fænomen at det kun er visse aspekter af den gjorte observation, der har betydning for likelihoodfunktionen. Eksempel 3.2 Lad X være binomialfordelt med længde og ukendt successandsynlighed p > 0. Lad den gjorte observation være x = som i eksempel 1.1. Idet X har tæthed med hensyn til tællemålet τ på N 0, givet ved ( ) f p (x) = p x (1 p) x for x = 0, 1,..., 66170, x (hvor det underforstås af tætheden er nul udenfor det angivne område), ser vi at likelihoodfunktionen svarende til en observation x er ( ) L x (p) = p x (1 p) x for p (0, 1), x og minus loglikelihoodfunktionen er ( ) l x (p) = log x log p (66170 x) log(1 p) for p (0, 1). x På figur 3.2 har vi tegnet grafen op for såvel likelihoodfunktion som minus loglikelihoodfunktion for den konkrete observation x = Vi ser en meget skarpere markeret top end i eksempel 3.1.
4 72 Kapitel 3. Likelihoodfunktionen PSfrag replacements l(λ) L(λ) PSfrag replacements λ L(λ) l(λ) λ Figur 3.2: Likelihoodfunktionen og minus loglikelihoodfunktionen i eksempel 3.2. Bemærk at den sværest tilgængelige del af likelihoodfunktionen, binomialkoefficienten, på sin vis er uden betydning - i hvert fald for formen af likelihoodgrafen. Når x er fastlagt, er binomialkoefficienten jo en multiplikativ konstant, så tegnede man grafen for p p x (1 p) x for p (0, 1), ville man få præcis samme graf som figur blot ville y-aksen være skaleret anderledes. Eksempel 3.3 Lad os betragte den afskårne eksponentialfordelingsmodel fra eksempel 2.15, hvor en underliggende, uobserveret variabel Y er eksponentialfordelt med middelværdi λ, mens den observerede variabel X er fremkommet som X = min{y, 300}. Fordelingen af X har ikke tæthed med hensyn til Lebesguemålet, for den har positiv punktsandsynlighed i 300. På den anden side har fordelingen af X heller ikke tæthed med hensyn til et tællemål, for så skulle fordelingen være koncentreret på tælleligt mange punkter. Men med lidt opfindsomhed kan man godt finde et dominerende mål. Hvis vi betragter µ = m (0,300) + ɛ 300, altså summen af Lebesguemålets restriktion til intervallet (0, 300) og etpunktsmålet i
5 3.1. Eksempler på likelihoodfunktioner 73 punktet 300, og hvis vi ser på funktionen 1 λ e x/λ for x (0, 300) g λ (x) = e x/λ for x = ellers, så indser man let at P(X x) = x g λ (x) dµ(x) for alle x R. Det vil sig at fordelingsfunktionen for fordelingen af X er den samme som fordelingsfunktionen for g λ µ. Og på grund af entydighedssætningen for fordelingsfunktioner, må fordelingen af X derfor have tæthed g λ med hensyn til µ. Hvis vi har uafhængige observationer X 1,..., X n fra den samme afskårne eksponentialfordeling, så har den simultane fordeling af disse variable naturligvis tæthed mht. produktmålet µ... µ. For at finde et simpelt udtryk for den simultane tæthed er det hensigtsmæssigt at observere at den etdimensionale tæthed kan skrives som g λ (x) = ( ) 1(0,300) (x) 1 ( ) ( ) 1(0,300) (x) λ e x/λ e x/λ 1 {300} (x) 1 = λ e x/λ, for alle x (0, 300]. Dermed får den simultane fordeling af X 1,..., X n tæthed f λ (x 1,..., x n ) = n ( ) 1(0,300) (x 1 i ) λ e x i/λ = ( ) n 1 1 (0,300) (x i ) λ e n x i /λ. Dette oversættes til en loglikelihood på n l x1,...,x n (λ) = 1 (0,300) (x i ) log λ + 1 λ n x i. (3.4) Denne funktion er optegnet i figur 3.3, hvor observationerne er aktuargruppen fra puslespilseksperimentet i eksempel Vi ser at likelihoodfunktionen (og loglikelihoodfunktionen) kun afhænger af de gjorte observationer x 1,..., x n gennem deres sum n x i og gennem antallet af ikke-censurerede observationer. Bemærk i øvrigt hvor tæt beslægtede de to likelihoodfunktioner (3.3) og (3.4) er med hinanden. Hvis man skruede op for censurgrænsen i eksperimentet, sådan at ingen observationer i
6 74 Kapitel 3. Likelihoodfunktionen PSfrag replacements l(λ) L(λ) λ Figur 3.3: Minus loglikelihoodfunktionen for den afskårne eksponentialfordelingsmodel fra eksempel 2.15, se formel (3.4) for det eksplicitte udtryk. De underliggende data er aktuargruppen fra puslespilseksperimentet i eksempel praksis censureredes, så ville man få samme likelihoodfunktion som i det eksperiment hvor man slet ikke havde tænkt sig at censurere. Tricket, der førte en tæthed på tuborgform over i et rent multiplikativt udtryk, er godt at tage til sig. Mange tætheder, man støder på i praksis, skrives naturligt på tuborgform - men den måde at skrive tæthederne på fungerer ikke særlig godt, når sådanne tætheder skal ganges sammen. Eksempel 3.4 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, så er loglikelihoodfunktionen n l x1,...,x n (λ, β) = nλ log β + n log Γ(λ) (λ 1) log x i + 1 n x i. (3.5) β De faktiske observationer indgår kun i form af de to summariske størrelser n log x i og n x i,
7 3.1. Eksempler på likelihoodfunktioner 75 og alle likelihoodbaserede størrelser - maksimaliseringsestimatorer, kvotientteststørrelser etc. - afhænger således kun af observationernes sum og produkt. I et simulationseksperiment har vi genereret n = 100 uafhængige variable fra en Γ- fordeling med formparameter 7 og skalaparameter 2. De summariske størrelser blev 1 n n log x i = og 1 n n x i = (3.6) Niveaukurverne for den tilsvarende loglikelihoodfunktion er optegnet på figur 3.4. PSfrag replacements β λ Figur 3.4: Niveaurkurver for loglikelihoodfunktionen (3.5), baseret på de summariske størrelser (3.6). Prøver man at visualisere grafen for loglikelihoodfunktionen, ser man en krum, aflang dal. De eksempler på loglikelihoodfunktioner vi har set på indtil nu, har været ganske pæne, med en enkelt veldefineret dal på grafen. I mere komplicerede modeller med flere parametre, kan man ikke gå ud fra at tingene er så pæne. Loglikelihoodfunktioner har ofte mange lokale minima og og tilsvarende mange lokale maksima, og eftersom det er svært at visualisere disse højdimensionale funktioner, skal man passe på med ikke at undervurdere de geometriske vanskeligheder, de frembyder.
8 76 Kapitel 3. Likelihoodfunktionen 3.2 Fortolkning af likelihoodfunktionen I forbindelse med konkordansovervejelser fortolkede vi store værdier af en tæthed som udtryk for at den pågældende observation var rimelig under et konkret sandsynlighedsmål. Jo større tæthed, jo bedre. Nu vender vi situationen: vi har kun én observation, men mange sandsynlighedsmål. Ud fra et symmetriargument må vi se likelihoodfunktionen som et udtryk for hvor godt de forskellige sandsynlighedsmål er i konkordans med observationen. Jo større tæthed, jo større konkordans. Likelihoodfunktionen udtaler sig altså om hvor rimelige de enkelte parameterværdier er, set i lyset af den gjorte observation. Der er et væld af faldgruber i denne symmetribetragtning. Vi vil kun tillægge den intuitiv vægt, og ikke betragte den som et logisk tvingende argument. Dog vil hvert præcist resultat vi viser give større og større vægt til den erfaring at likelihoodfunktionen er den primære bærer af information om samspillet mellem observation og model. Vi vil (i modsætning til en del andre statistikere) omhyggeligt undgå at lægge noget religiøst i likelihoodbegrebet: de metoder vi udleder på baggrund af likelihoodfunktionen, skal vurderes på deres effektivitet, og de skal vejes op mod andre metoder - det er ikke et argument i sig selv at de er funderet på overvejelser over likelihoodfunktionen. Et problem for fortolkningen af likelihoodfunktionen er at tætheder ikke er entydigt givet. Hvis ν θ = f θ µ, så kan vi ændre f θ på en µ-nulmængde, og den resulterende funktion f θ er stadig en tæthed for ν θ med hensyn til µ. Hvis en étpunktsmængde {x 0 } er E-målelig med µ-mål nul, så kan vi i princippet sætte f 0 hvis x = x 0 θ (x) = f θ (x) hvis x x 0. Uanset hvordan den oprindelige likelihoodfunktion L x0 svarende til observationen x 0 så ud, har vi nu erstattet den med en ny likelihoodfunktion L x0 der er konstant 0! Eller ser ud på en hvilken som helst anden måde vi måtte finde for godt. Variationer af dette argument gør endvidere at vi i visse eksempler kan ændre på samtlige likelihoodfunktioner hvis vi måtte ønske det. Og derfor skal man være varsom med at tillægge en konkret likelihoodfunktion nogen selvstændig betydning. I mange modeller, hvor både parametermængden Θ og repræsentationsrummet X er delmængder af euklidiske rum, er det muligt at vælge tæthederne f θ sådan at afbildningen (θ, x) f θ (x)
9 3.3. Det dominerende måls rolle 77 som funktion af to variable har pæne egenskaber, f.eks. at den er kontinuert eller ligefrem C. I så fald er der ingen der kunne drømme om at manipulere med disse regulære tætheder. Men hvori det betydningsfulde ved regulære tætheder består (bortset fra at de gør analysen nemmere) er det svært at sige noget præcist om. Hvis (ν θ ) θ Θ er domineret af µ, sig ν θ = f θ µ, så er familien også domineret af cµ for et vilkårligt c > 0, og vi ser let at ν θ = f θ c cµ. Hvis vi kalder den oprindelige likelihoodfunktion (baseret på µ) for L x (θ) og likelihoodfunktionen baseret på det dominerende mål cµ for L c x(θ), så ser vi at L c x (θ) = f θ(x) c = 1 c L x(θ). Vi ser at L c x og L x er proportionale, skrevet L c x L x. Der giver næppe mening at hævde at µ som dominerende mål har en objektiv fortrinsstilling fremfor cµ, så vi ledes til at konkludere at den absolutte størrelse af L x (θ) ikke har nogen betydning. Det der kan fortolkes er forholdet mellem likelihoodfunktionens værdier i to punkter: Hvis L x (θ 1 ) L x (θ 2 ) > 1 så er x bedre i konkordans med ν θ1 end med ν θ2 - desto større brøken er, jo større er forskellen i konkordans. Vi ser at brøken ikke ændrer sig, når man ændrer grundmålet fra µ til cµ. 3.3 Det dominerende måls rolle Visse statistiske modeller er ikke dominerede. Et eksempel er de ikke-parametriske modeller fra eksempel Men langt de fleste i praksis forekommende statistiske modeller er domineret, som regel af et Lebesguemål eller et tællemål. Men de er også domineret af mange andre mål. Det konkrete dominerende mål er derfor noget vi selv vælger, når vi beskriver modellen. Vi vil i dette afsnit indkredse, hvilken betydning valget af dominerende mål har for hvordan likelihoodfunktionen ser ud. Eksempel 3.5 Lad X være eksponentialfordelt med parameter λ > 0. Som i eksempel 3.1 ser vi at denne statistiske model er domineret af Lebesguemålet m på R, og vi
10 78 Kapitel 3. Likelihoodfunktionen kan bruge tætheden f λ (x) = hvilket fører til likelihoodfunktion L x (λ) = 1 λ e x/λ x > 0 0 x 0, 1 λ e x/λ x > 0 0 x 0. Alternativt kan vi dominere med m (0, ) = 1 (0, ) m, altså med Lebesguemålets restriktion til den positive halvakse. I så fald kan vi bruge tætheden Der gælder nemlig at g λ (x) dm (0, ) (x) = A g λ (x) = 1 λ e x /λ x R. (3.7) A g λ (x) 1 (0, ) (x) dm(x) = A f λ (x) dm(x) for alle A B. Faktisk ser vi at det er irrelevant hvordan vi definerer g λ på den negative halvakse. Men det angivne valg af g λ fører til likelihoodfunktionen L x (λ) = 1 λ e x /λ x R. Vi ser at for x > 0 er der ingen forskel på L x og L x - de to funktioner er simpelthen ens. Men for negative x er er L x og L x vidt forskellige. Er det L x eller L x der er den rigtige likelihoodfunktion? Der er visse grunde til at foretrække L x. Men i det store og hele er de lige gode, og der er sjældent nogen grund til at skelne mellem dem. De er kun uenige for observationer der aldrig forekommer under modellen: samtlige eksponentialfordelinger tildeler jo (, 0] sandsynligheden 0. Hvis vi accepterer at det kun er relative forhold mellem likelihoodfunktionens værdier i forskellige punkter, der betyder noget, skal vi se at valget af dominerende mål ingen reel rolle spiller. Bortset fra for nogle ekstreme punkter i repræsentationsrummet - punkter der ifølge modellen selv slet ikke vil optræde som virkelige måleresultater - er alle likelihoodfunktioner bestemt af den statistiske model selv, ikke af hvad vi vælger at benytte som referencepunkt når vi skal beskrive modellen. At forklare i hvordan det hænger sammen, kræver vi udvikler lidt teori.
11 3.3. Det dominerende måls rolle 79 Vi siger at en statistisk model P på (X, E) er internt domineret hvis der findes et ν 0 P sådan at ν ν 0 for alle ν P. I teoretiske sammenhænge er det ofte bekvemt at arbejde med internt dominerede modeller. Også i praktiske tilfælde kan det være nødvendigt, f.eks. fordi man arbejder med komplicerede repræsentationsrum (X, E) der ikke på forhånd er udstyret med et grundmål. Stort set alle de modeller vi vil arbejde med er internt dominerede. Eksempel 3.6 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), sådan at ν θ = f θ µ for alle θ. Antag at f θ0 (x) > 0 for alle x X. Da er for alle θ Θ ν θ = f θ µ = f θ f θ0 Altså er familien internt domineret. f θ0 µ = f θ f θ0 ν θ0. Eksempel 3.5 viser - i form af tætheden (3.7) - at denne argumentation kan bringes i anvendelse i forbindelse med eksponentialfordelinger, med en vilkårlig af modellens sandsynlighedsmål som dominerende mål. Og generelt kan man med lidt fantasi i valget af det preliminært dominerende mål, vise at forbløffende mange statistiske modeller er internt dominerede. Som tidligere nævnt vil man i praksis gerne arbejde med logaritmen af likelihoodfunktionen. Hvis det skal give mening, må alle tætheder jo være overalt positive. Og dermed har vi faktisk sagt at modellen er internt domineret: analogt med eksempel 3.6 ser vi nemlig at ethvert sandsynlighedsmål i modellen kan bruges som dominerende mål! Omvendt, hvis alle mål i modellen kan bruges som dominerende mål, så er alle par af mål fra modellen ækvivalente, og dermed kan vi antage at alle tætheder mellem modellens mål er positive. Så bruges et af modellens mål som dominerende mål, giver det mening at tage logaritmen til likelihoodfunktionen. Eksempel 3.7 Lad ν θ være ligefordelingen på intervallet (0, θ), hvor θ > 0 er ukendt. Vi ser at ν θ = 1 (0,θ) m, så modellen (ν θ ) θ (0, ) er domineret af Lebesguemålet. Men
12 80 Kapitel 3. Likelihoodfunktionen modellen er ikke internt domineret. For hvis ν θ betegner ligefordelingen på (0, θ), så har vi for alle θ at ν θ ( (θ, 2θ) ) = 0, ν2θ ( (θ, 2θ) ) = 1 2. Dermed kan ν 2θ ikke have tæthed med hensyn til ν θ. Vi siger at et σ-endeligt mål µ er minimalt dominerende for den statistiske model P på (X, E), hvis ν µ for alle ν P, og hvis det for ethvert σ-endeligt mål ξ gælder at ν ξ ν P µ ξ. Hvis man har to minimalt dominerende mål for modellen P så må de nødvendigvis være ækvivalente. Eksempel 3.8 Hvis modellen P er internt domineret af ν 0 P, så er ν 0 et minimalt dominerende mål. For hvis ξ er et vilkårligt dominerende mål, så må ν 0 per definition have tæthed med hensyn til ξ. Mere generelt, hvis P er domineret af en tællelig konveks kombination af mål fra familien, µ = a n ν n, (3.8) n=1 hvor ν n P for alle n N, og hvor (a n ) n N er en følge af ikke-negative tal der summer til 1, så må dette µ være minimalt dominerende. For hvis ξ er endnu et dominerede mål, så er ν n = f n ξ for passende tætheder f n M +, og dermed er µ = a n ( f n ξ) = a n f n ξ. n=1 Vi vil nu gøre rede for at enhver domineret statistisk familie har et minimalt dominerende mål (hvad der ikke er klart på forhånd), og at dette minimalt dominerende mål har formen (3.8). Vi vil bruge notationen n=1 B f = {x X f (x) > 0} for f M + (X, E).
13 3.3. Det dominerende måls rolle 81 En mængde af formen C = n=1 for en følge ( f n ) n N af M + -funktioner kaldes en kæde. Vi taler om en D-kæde, hvis alle f n erne ligger i en givet mængde D M +. Bemærk at en tællelig forening af D-kæder igen er en D-kæde. B fn Lemma 3.9 Lad (X, E, µ) være et σ-endeligt målrum, og lad D være en delmængde af M + (X, E). Der findes da en D-kæde så µ ( B f \ C ) = 0 for alle f D. (3.9) BEVIS: I første omgang antager vi at µ er et sandsynlighedsmål. Vi vil finde en D- kæde med størst muligt µ-mål Sæt α = sup{µ(c) C er en D-kæde}. Da µ er et sandsynlighedsmål, er det klart at α 1. Vi kan finde D-kæder C 1, C 2,... så µ(c n ) > α 1 n. Idet foreningen af disse D-kæder selv er en D-kæde, har vi at α µ C i µ(c n) > α 1 n, og ved at lade n, ser vi at C i er en D-kæde med mål α, det vil sige med maksimalt mål. Lad os fremover kalde denne kæde C. Hvis f D, så er C B f endnu en D-kæde. Maksimaliteten af C gør at den nye kæde ikke kan have større mål end C selv. Og derfor må B f \ C have mål 0. Og vi har således vist (3.9). Hvis µ er et σ-endeligt mål, men ikke nødvendigvis et sandsynlighedsmål, så findes der et sandsynlighedsmål µ, der er ækvivalent med µ. Vi har lige fundet en D-kæde C så µ(b f \ C) = 0 for alle f D. Men da µ og µ er ækvivalente, har de samme nulmængder. Og dermed er (3.9) opfyldt.
14 82 Kapitel 3. Likelihoodfunktionen Sætning 3.10 (Halmos-Savage) Hvis en model P på (X, E) er domineret, så findes ν 1, ν 2, P sådan at målet λ = 2 n ν n (3.10) også dominerer P. n=1 BEVIS: Antag at P er domineret af et σ-endeligt mål µ. For hvert ν P vælger vi en tæthed f ν M +, så ν = f ν µ. Sæt D = { f ν ν P}, og lad os skrive B ν i stedet for B fν. Ifølge lemma 3.9 findes ν 1, ν 2, P så µ B ν \ B νn = 0 for alle ν P. n=1 Definer λ udfra disse ν n er og (3.10). Hvis λ(a) = 0 for en mængde A E, må der nødvendigvis gælde at ν n (A) = 0 for alle n. Altså at f n dµ = 0, så vi kan faktisk slutte at µ(a B νn ) = 0. For ethvert ν P har vi nu at µ (A B ν ) = µ A B ν B νn + µ A B ν \ B νn n=1 n=1 µ ( ) A B νn + µ B ν \ B νn = 0. Men heraf ser vi at n=1 ν(a) = A A n=1 f ν dµ = f ν dµ = 0. A B ν En henvisning til Radon-Nikodyms sætning fortæller nu at ν har tæthed med hensyn til λ, der således dominerer modellen P.
15 3.3. Det dominerende måls rolle 83 Lad nu P = (ν θ ) θ Θ være en parametriseret statistisk model. Hvis vi har et minimalt dominerende mål µ for en statistisk model, så vil likelihoodfunktionen baseret på et vilkårligt dominerende mål ξ kunne udtrykkes ved likelihoodfunktion baseret på µ: Antag at ν θ = f θ µ for alle θ Θ, og at µ = h ξ. Da er ν θ = f θ µ = f θ (h ξ) = ( f θ h) ξ for alle θ Θ, ser vi at ξ vitterligt dominerer modellen, med likelihoodfunktion Hvis h(x) 0 har vi således vist at L x L x. Sæt L x (θ) = f θ (x) h(x) = h(x) L x (θ). (3.11) A = {x X h(x) 0}. For alle x A er L x L x. Og for alle θ Θ er ν θ (A c ) = f θ (x)h(x) dξ(x) = 0, A c eftersom integranden er identisk 0 på den mængde der integreres over. Modellen foreskriver således at vi slet ikke kan få observationer udenfor A, uanset hvilket θ der er sandt. Pointen i (3.11) er at likelihoodfunktionerne svarende til et vilkårligt dominerende mål ξ er bestemt af likelihoodfunktionerne svarende til et minimalt dominerende mål µ. Ifølge Halmos-Savages sætning findes der altid et minimalt dominerende mål, der eksplicit knytter an til den givne model. Kombineres disse resultater, får vi altså at likelihoodfunktionerne er bestemt af modellen selv, ikke af det arbitrære dominerende mål. Vi kan opsummere disse overvejelser i en sætning: Sætning 3.11 Lad P = (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at P er domineret af to forskellige grundmål µ og µ. Det er muligt at vælge likelihoodfunktionerne (L x ) x X og ( L x ) x X med hensyn til de to dominerende mål sådan at L x (θ) = h(x) L x (θ) for alle θ Θ, x X, for en passende målelig funktion h : X (0, ).
16 84 Kapitel 3. Likelihoodfunktionen 3.4 Likelihoodfunktionen under reparametriseringer Vi så i kapitel 2, at man i mange modeller kan skifte mellem en række forskellige parametriseringer. Nogle parametriseringer er gode til nogle ting, andre er gode til noget andet, og man har ofte behov for at foretage springet mellem dem. Om modellen er domineret eller ej, har ikke noget at gøre med den parametrisering, der aktuelt er i brug. Så de forskellige parametriseringer er enige om hvorvidt der er en likelihoodfunktion. Men hvordan likelihoodfunktionen konkret ser ud, har naturligvis alt at gøre med parametriseringen. Når man skifter parametrisering, bliver likelihoodfunktionen et helt andet objekt - typisk skifter funktionerne for eksempel definitionsmængde. Lad P være en statistisk model på (X, E), domineret af grundmålet µ. Lad θ ν θ P, θ Θ, og λ ξ λ P, λ Λ, være to injektive parametrisering af denne model. Hvert sandsynlighedsmål i P kan altså skrives som ν θ for præcis ét θ Θ, og som ξ λ for præcis ét λ Λ. Der findes derfor en eksplicit, bijektiv reparametrisering φ : Θ Λ, sådan at ν θ = ξ φ(θ) for alle θ Θ. Antag at ξ λ = f λ µ for hvert λ Λ. Parametriseringen ved hjælp af λ giver da anledning til likelihoodfunktionen L x (λ) = f λ (x). Vi kan finde tæthederne i θ-formuleringen, eftersom ν θ = ξ φ(θ) = f φ(θ) µ. Og derfor er likelihoodfunktionen i θ-parametriseringen L x (θ) = f φ(θ) (x) = L x φ (θ) for alle x X, θ Θ. (3.12) Likelihoodfunktionerne i de to formuleringer er ikke ens, men de er forbundet via en ret oplagt relation. Man skal være opmærksom på at likelihoodfunktionerne i de to formuleringer ikke nødvendigvis er lige pæne ud fra et funktionsteoretisk synspunkt. Vi vil f.eks. ofte interessere os for om loglikelihoodfunktionerne er konvekse - og svaret på dette spørgsmål kan afhænge kritisk af den valgte parametrisering.
17 3.5. Likelihoodfunktionen som stokastisk variabel 85 Eksempel 3.12 I den simple møntkastmodel fra eksempel 2.6, har man uafhængige, identisk fordelte variable X 1,..., X n, der opfylder at P(X i = 1) = p, P(X i = 0) = 1 p, for et p (0, 1). Her har vi uden videre parametriseret ved hjælp af successandsynligheden p, og fastholder vi det, får vi likelihoodfunktionen L x1,...,x n (p) = n p x i (1 p) 1 x i = p n x i (1 p) n n x i. (3.13) Ønsker vi i stedet at parametrisere ved hjælp af log odds ψ, der er forbundet med successandsynligheden p ved relationen p = får vi ifølge (3.12) likelihoodfunktionen ( L x1,...,x n (ψ) = e ψ 1 + e ψ eψ 1 + e ψ, ) n x i ) n n (1 eψ x i 1 + e ψ = eψ n x i ( 1 + e ψ ) n. Denne likelihoodfunktion har forskellige tekniske fortrin frem for (3.13), fordi observationerne og parameteren blander sig på en meget simpel måde - det træder nok tydeligst frem, hvis man ser på den tilsvarende loglikelihood, l x1,...,x n (ψ) = n log ( 1 + e ψ) ψ n x i, hvor observationerne kun indgår i sidste led, og det endda i en lineær kombination med parameteren. 3.5 Likelihoodfunktionen som stokastisk variabel Lad (ν θ ) θ Θ være en parametriseret statistisk model for et eksperiment med repræsentationsrum (X, E), og antag at denne model er domineret af et grundmål µ. For hvert x X har vi indført likelihoodfunktionen L x : Θ [0, ). På baggrund af eksperimentets resultat x fæstner vi os ved en bestemt likelihoodfunktion L x. Hvis vi
18 86 Kapitel 3. Likelihoodfunktionen gentager eksperimentet, får vi (formentlig) en anden observation x X og dermed en anden likelihoodfunktion L x. I en vis forstand kan man altså sige at likelihoodfunktionen er stokastisk! Vi kan formalisere disse betragtninger ved at indføre rummet [0, ) Θ, bestående af alle funktioner Θ [0, ). Vi har konstateret at L x [0, ) Θ for alle x X. Dermed kan vi opfatte hele samlingen af likelihoodfunktioner som en transformation L : X [0, ) Θ, hvilket eventuelt kan indikeres med skrivemåden L(x)(θ) = L x (θ) for alle x X, θ Θ. (3.14) Parenteserne på venstre side af (3.14) er sat for at markere at L er en transformation af x. Men resultatet L(x) er selv en funktion, med argument θ. Det er muligt at udstyre [0, ) Θ med en forholdsvis naturlig σ-algebra. For hvert θ Θ har vi en naturlig projektionsafbildning pr θ : [0, ) Θ [0, ), givet ved pr θ ( f ) = f (θ) for alle f [0, ) Θ. Og projektions-σ-algebraen P på [0, ) Θ er den mindste σ-algebra der gør alle disse projektionsafbildninger målelige. Lemma 3.13 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E). Da er likelihoodfunktionen L en (X, E) ([0, ) Θ, P)-målelig afbildning. BEVIS: Gennemstrømningssætningen fortæller at vi skal vise at pr θ L for hvert fast θ Θ er en E B målelig funktion. Men hvis vi siger at ν θ = f θ µ, så er pr θ L(x) = L(x)(θ) = f θ (x). Og da f θ er en tæthed, er den per definition E B målelig. Principielt kan vi nu diskutere fordelingen af likelihoodfunktionen under P θ, det vil sige billedmålet L X(P θ ). Det forekommer ubehageligt, for det er et mål på et funktionsrum [0, ) Θ, og vi har slet ikke udviklet redskaberne til at tale om mål på så
19 3.5. Likelihoodfunktionen som stokastisk variabel 87 store mængder. Men overordnet set er det ikke anderledes end at tale om fordelingen af en hvilken som helst anden transformation af observationerne. Vi vil ikke lægge vægt på formelle detaljer om σ-algebraer på funktionsrum. Men ideen om at likelihoodfunktionen kan betragtes som en transformation af den gjorte observation vil være af stor betydning. PSfrag replacements X L (Ω, F) (X, E) [0, ) Θ P θ ν θ Θ Θ θ Figur 3.5: En skematisk tegning af en statistisk model, hvor likelihoodfunktionen opfattes som en transformation af den gjorte observation over i et funktionsrum. Vi vil som regel bruge betegnelsen L X når vi tænker på likelihoodfunktionen som en stokastisk variabel, og L x når vi tænker på den konkret observerede likelihoodfunktion. Selvfølgelig er funktionen ikke egentlig observeret : hvad der er observeret er x X, og på baggrund af denne værdi konstruerer vi L x. Eksempel 3.14 Lad X 1,..., X n være uafhængige stokastiske variable, alle eksponentialfordelte med en ukendt middelværdi λ > 0. Analogt med regningerne i eksempel 3.1 finder vi at loglikelihoodfunktionen på baggrund af en observation (X 1,..., X n ) = (x 1,..., x n ) er l x1,...,x n (λ) = n log λ + x λ for alle λ (0, ) hvor x = n x i. En lidt kortere skrivemåde, der ligger mindre vægt på en konkret observation og mere vægt på det stokastiske er l X (λ) = n log λ + X λ for alle λ (0, ). Hvis vi kender det sande λ, så kan vi simulere data fra eksperimentet, og dermed simulere likelihoodfunktionen. På figur 3.6 har vi optegnet 5 simulerede likelihood-
20 88 Kapitel 3. Likelihoodfunktionen funktioner for λ = 2/3 og 5 for λ = 3/2. Forsøget er kørt to gange, dels med n = 10 og dels med n = 100. PSfrag replacements l(λ) n = 10 PSfrag replacements λ l(λ) n = λ Figur 3.6: Simulerede loglikelihoodfunktioner fra en model med uafhængige eksponentialfordelte observationer. I tegningen til venstre er der 10 observationer per eksperiment, i tegningen til højre er der 100 observationer per eksperiment. De fuldt optrukne kurver med tyk streg stammer fra 5 replikationer med sand parameter λ = 2/3. De stiplede kurver med tynd streg stammer fra 5 replikationer med sand parameter λ = 1.5. Bemærk at forsøget - til en vis grad for n = 10, og i hvert fald med n = tillader os at skelne mellem de to parametre. Hvis en fjendtligsindet person brugte en af de to parametre til at simulere nye observationer med, så ville vi kunne tegne loglikelihoodfunktionen op for dette nye eksperiment, og ved at sammenholde med figur 3.6 ville vi ganske sikkert kunne afgøre hvilken parameter der var benyttet. Som tidligere nævnt er likelihoodfunktionen den primære bærer af information om samspillet mellem observation og model. Visse statistikere har taget den drastiske konsekvens at ophøje denne erfaring til et dogme: Likelihoodprincippet: Drager man inferens i en domineret statistisk model (X, E, P) på baggrund af en observation x X, så bør resultatet kun afhænge af den observerede likelihoodfunktion. Dette princip er kontroversielt, og i disse noter gøres intet forsøg på at respektere det, tværtimod. Problemet med likelihoodprincippet er at det ikke tillader overvejelser om fordelingen af L X. Groft sagt: likelihoodprincippet tillader kun at man undersøger den observerede likelihoodfunktion, ikke at man diskuterer hvilke likelihoodfunktioner man ellers kunne have observeret. Og argumentation omkring ikke-observerede
21 3.6. Kombinanter 89 likelihoodfunktioner vil være ganske vigtig for os - og for de fleste andre statistikere. Men f.eks. Bayesianere respekterer automatisk likelihoodprincippet. Likelihoodprincippet udgør et alvorligt og dybt problem for den teoretiske statistik. Det viser sig nemlig at en række tilsyneladende mere spiselige principper medfører likelihoodprincippet. Overholder man sufficiensprincippet og betingningsprincippet, så overholder man også likelihoodprincippet, uanset om man bryder sig om det eller ej. Vi vil senere komme ind på hvad disse principper går ud på. 3.6 Kombinanter Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). En kombinant er en afbildning R : Θ X Y, hvor Y er endnu en mængde. Ofte bruges en kombinant til at måle hvor godt en konkret observation og en konkret parameter er i konkordans. Den præcise måde dette gøres på, varierer fra eksempel til eksempel. Oplagte eksempler på kombinanter er likelihoodfunktionen og loglikelihoodfunktionen. Men der kan findes mange andre. Eksempel 3.15 Lad X 1,..., X n være reelle stokastiske variable, og lad (P θ ) θ Θ være en model for deres simultane fordeling. Antag at hvert X i har første moment under P θ for alle θ Θ. Vi vil nu og fremover referere til sådanne momenter som E θ X i - middelværdien af X i hvis θ er den sande parameter. Punktet (E θ X 1,..., E θ X n ) R n er det forventede punkt, hvis θ er den sande parameter. Derfor fortæller kvadratsummen n ( ) R(θ; x 1,..., x n ) = Eθ X i x 2 i (3.15) noget om hvor langt den konkrete observation (x 1,..., x n ) ligger fra det forventede punkt. Megen statistisk metodik er udviklet på baggrund af analyse af kvadratsumsstørrelser som (3.15), og det er først i helt moderne tid at likelihoodfunktionen og konstruktioner herudfra har overtaget rollen som de vigtigste kombinanter. Hvor relevant en størrelse (3.15) er for konkordansvurderinger, afhænger meget af den konkrete model. Hvis X i erne har forskellig varians, så må R betragtes med mistro, for en afvigelse på en koordinat med stor varians (den slags afvigelse må i sagens natur forventes) tæller lige så meget som en afvigelse på en koordinat med lille varians (den slags afvigelser tyder på diskordans). Tilsvarende, hvis X i erne er afhængige, så er R et usikkert mål for konkordans.
22 90 Kapitel 3. Likelihoodfunktionen Disse defekter kan nogen gange fjernes ved at betragte en vægtet kvadratsum R W (θ; x 1,..., x n ) = (x E θ X) T W (x E θ X). (3.16) hvor W er en symmetrisk, positivt definit vægtmatrix. Bemærk at (3.15) er et specielt tilfælde af (3.16) med vægtmatrix W = I. Men i komplicerede modeller er det ofte lettere sagt end gjort at finde en passende vægt. Vi vil her indføre nogle kombinanter, der er afledte af likelihoodfunktionen - disse kombinanter bliver vigtige for os i senere afsnit. Definition 3.16 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E), hvor parametermængden Θ er en åben delmængde af R k. Hvis alle loglikelihoodfunktionerne l x er C 1 på Θ, så er scorefunktionen Θ R k givet som Dl x (θ) = ( l x (θ) θ 1 l x (θ) θ 2... l x (θ) θ k ). Hvis alle loglikelihoodfunktionerne l x er C 2 på Θ, så kan vi definere den observerede informationsfunktionen Θ R k k som 2 l x (θ) θ 1 θ 2... D 2 l x (θ) = 2 l x (θ) θ l x (θ) θ 2 θ 1. 2 l x (θ) θ k θ 1 2 l x (θ) 2 l x (θ) θ 1 θ k 2 l x (θ) θ 2 θ k θ l x (θ) θ k θ l x (θ) θ k 2. Eksempel 3.17 Lad X 1,..., X n være uafhængige reelle stokastiske variable, alle eksponentialfordelte med ukendt middelværdi λ > 0. Loglikelihoodfunktion er l X (λ) = n log λ + X λ. Dermed har modellen scorefunktion og informationsfunktion l X (λ) = n λ X λ 2, l X (λ) = n λ X λ 3.
23 3.6. Kombinanter 91 Eksempel 3.18 Lad os betragte møntkastmodellen, hvor vi har uafhængige reelle stokastiske variable X 1,..., X n med P(X i = 1) = p, P(X i = 0) = 1 p for i = 1,..., n, p (0, 1). Likelihoodfunktionen er L X (p) = n p X i (1 p) 1 X i = p X (1 p) n X og dermed er loglikelihoodfunktionen, scorefunktionen og informationsfunktionen l X (p) = X log p (n X ) log(1 p), l X (p) = X p + n X 1 p, l X (p) = X p 2 + n X (1 p) 2. Eksempel 3.19 Lad X 1,..., X n være uafhængige reelle stokastiske variable, alle N(ξ, σ 2 )-fordelte. Denne model har likelihoodfunktion L X (ξ, σ 2 ) = n 1 2πσ 2 e (X i ξ) 2 /2σ 2, og dermed loglikelihoodfunktion l X (ξ, σ 2 ) = n 2 log 2π + n 2 log σ2 + n (X i ξ) 2 2σ 2. Scorefunktionen, eller scorevektoren, som man ofte siger når parameteren er flerdimensional, er Dl X (ξ, σ 2 ) = ( lx ξ ) ( l X n (X i ξ) σ 2 = σ 2 n 1 (X 2 σ 2 i ξ) 2 ) 2σ 4 Bemærk at parameteren er σ 2, ikke σ. Dette forhold kan godt forvirre, når man differentierer.
24 92 Kapitel 3. Likelihoodfunktionen Tilsvarende blive informationsfuntionen, eller informationsmatricen, D 2 l X (ξ, σ 2 ) = n σ 2 n (X i ξ) σ 4 n (X i ξ) σ 4 n n (X + i ξ) 2 2σ 4 σ 6 Eksempel 3.20 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, så vi i eksempel 3.4 at loglikelihoodfunktionen er. l X1,...,X n (λ, β) = nλ log β + n log Γ(λ) (λ 1) n log X i + 1 β n X i. Dermed er scorevektoren n Dl X1,...,X n (λ, β) = n log β + nψ(λ) log X i ; nλ β 1 β 2 n X i, og observeret information D 2 l X1,...,X n (λ, β) = nψ (λ) n β n β nλ β β 3 n X i. Her betegner Ψ(λ) og Ψ (λ) henholdvis di- og trigammafunktionerne. Definition 3.21 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E). Kvotientteststørrelsen er kombinanten Q(θ, x) = L x (θ) sup ϑ Θ L x (ϑ). Tegner man grafen for kvotientteststørrelsen op, får man samme tegning, som når man tegner grafen for likelihoodfunktionen, bortset fra ordinataksen er skaleret anderledes: kvotientteststørrelsen når præcis op i højden 1.
25 3.6. Kombinanter 93 Ligesom likelihoodfunktionen L x ofte erstattes af l x, så bliver kvotientteststørrelsen Q ofte erstattet af 2 log Q - her virker to-tallet måske lidt arbitrært, men er tilføjet af samme grund som fortegnet: for at gøre senere formler simplere. Fortolkningen af kvotientteststørrelsen er ganske subtil. Hvor likelihoodfunktionen måler graden af konkordans mellem observationen x og parameteren θ, så måler kvotientteststørrelsen i hvilken grad modellens andre parametre er i bedre konkordans med x end θ er. Selv om x og θ er i fortræffelig konkordans, kan Q(θ, x) sagtens være lille - det betyder blot at andre af modellens parametre er i endnu bedre konkordans med x. Tilsvarende betyder en høj Q-værdi ingenlunde at x og θ er i konkordans - det betyder blot at ingen andre parametre er i nævneværdig bedre konkordans med x. Vi vil i et vist omfang basere inferensen om θ på kvotientteststørrelsen. Men den fremgangsmåde er kontroversiel: den fører nogle gange til konklusioner, der kan virke absurde, og den er et yndet angrebspunkt for Bayesianske statistikere. Definition 3.22 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E), og lad τ : Θ Ψ være en parameterfunktion. Profillikelihoodfunktionen for τ er kombinanten L τ (ψ, x) = L τ x(ψ) = sup θ : τ(θ)=ψ L x (θ). Teknisk set er det en stramning at kalde profillikelihoodfunktionen for en kombinant, eftersom denne størrelse ikke er defineret på Θ X, men på Ψ X. Sprogbrugen forekommer alligevel naturlig. Ofte erstatter man profillikelihoodfunktionen med den tilsvarende profilloglikelihoodfunktion, l τ (ψ, x) = log L τ (ψ, x). Fortolkningen af disse profilerede størrelser er, at en stor værdi at L τ x (ψ) på baggrund af observationen x, giver stor tiltro til at den sande parameter θ har τ-værdi lig med ψ. Det kan være interessant at konkludere sådan, uden at gå i detaljer med hvad man forestiller sig om den sande parameters præcise beliggenhed. Eksempel 3.23 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, kan vi finde profillikelihoodfunktionen for parameterfunktionen (λ, β) λ, ved for hvert fast λ at maksimere (3.5) med hensyn til β. Dette maksimum antages af ˆβ(λ) = n X i n λ,
26 94 Kapitel 3. Likelihoodfunktionen og dermed er profilloglikelihoodfunktionen for λ givet som ( n ) X i n l X1,...,X n (λ) = l X1,...,X n (λ, ˆβ(λ)) = nλ log +n log Γ(λ) (λ 1) log X i +nλ. n λ (3.17) For det simulerede datasæt fra eksempel 3.4 er denne profilloglikelihood optegnet på figur 3.7. l(λ) PSfrag replacements λ Figur 3.7: Profiloglikelihoodfunktionen (3.17), baseret på de summariske størrelser (3.6). Data er simuleret ud fra en Γ-model med λ = 7, β = 2. Alle kombinanter kan - under passende målelighedsforudsætninger - opfattes som stokastiske, på samme måde som likelihoodfunktionen. Vi vil skrive R X hvis vi tænker på kombinanten R på denne måde. Det er altså et stokastisk valg (baseret på observationen X = x) af en funktion Θ Y. En måde at trække information ud af en kombinant R : X Θ R m på, er at regne kombinanten ud i en fast parameterværdi θ 1 Θ. På den måde bliver kombinanten blot en transformation af data, og dermed en stokastisk variabel. Men nu kan man regne middelværdien ud af den pågældende variabel, hvis man kender den sande parameter. Vi vil altså diskutere en funktion af formen (θ 1, θ 2 ) E θ2 R(X, θ 1 ),
27 3.6. Kombinanter 95 og opfatte denne funktion som et udtryk for modellens egenskaber. Disse regninger bliver mest interessante hvis θ 1 = θ 2. I så fald studerer vi θ E θ R(X, θ). Vigtigst for os bliver den forventede information, også kaldet Fisher informationen, i(θ) = E θ D 2 l X (θ), som netop er denne generelle konstruktion anvendt på informationsfunktionen. Den forventede information er naturligvis kun defineret hvis alle loglikelihoodfunktionerne l x er C 2 på Θ, og hvis den anden afledede har 1. moment. Den slags tekniske detaljer plejer man gerne at underforstå. Eksempel 3.24 Lad som i eksempel 3.17 X 1,..., X n være uafhængige, eksponentialfordelte med ukendt middelværdi λ. Da er og dermed er den forventede information E λ X = n λ, i(λ) = E λ l X (λ) = E λ ( n λ X ) λ 3 = n λ 2. Eksempel 3.25 Lad som i eksempel 3.19 X 1,..., X n være uafhængige N(ξ, σ 2 )- fordelte reelle variable. Da er E(X i ξ) = 0, E(X i ξ) 2 = σ 2, og dermed er den forventede informationsmatrix i(ξ, σ 2 ) = n σ n 2σ 4. Mere generelt end kun at interessere sig for middelværdien, kan man interessere sig for hele fordelingen af R(X, θ 1 ) under forudsætning af at θ 2 er den sande parameter. Igen er det mest interessant hvis θ 1 = θ 2 = θ. Vi taler da om kombinantens fordeling
28 96 Kapitel 3. Likelihoodfunktionen i θ. Det er altså fordelingen af den stokastiske variabel R(X, θ) hvis θ er den sande parameter. I visse (sjældne) tilfælde afhænger denne fordeling ikke af θ. Vi siger da at kombinanten er en pivot, eller at den er fordelingskonstant. 3.7 Momentresultater for kombinanter Antag i det følgende at (ν θ ) θ Θ er en statistisk model på (X, E). Antag at parametermængden Θ er en åben delmængde af R k, og antag at modellen er domineret af et σ-endeligt mål µ på (X, E), sådan at tæthederne f θ (x) > 0 for alle θ Θ og alle x X. Sætning 3.26 Under tilstrækkelige regularitetsforudsætninger vil E θ (Dl X (θ)) = 0 for alle θ Θ, (3.18) og V θ (Dl X (θ)) = i(θ) for alle θ Θ. (3.19) BEVIS: Den fundamentale relation er f θ (x) dµ(x) = 1 for alle θ Θ. (3.20) Hvis man kan differentiere under integraltegnet, ser vi for i = 1,..., k at 0 = f θ (x) dµ(x) = θ i ( ) = log f θ (x) θ i f θ (x) dµ(x) = θ i f θ (x) dµ(x) = E θ ( θ i l X (θ) θ i f θ (x) f θ (x) dµ(x) f θ (x) ). Samles disse k påstande i en vektoridentitet, har man netop (3.18) - på nær et irrelevant fortegn.
29 3.7. Momentresultater for kombinanter 97 Hvis man kan differentiere en gang til under integraltegnet i (3.20), har vi for alle i, j = 1,..., k at Endvidere ser vi at 0 = θ j f θ (x) dµ(x) = θ i 2 2 θ i θ j f θ (x) l X (θ) = + θ i θ j f θ (x) 2 θ i θ j f θ (x) = f θ (x) 2 θ i θ j f θ (x) dµ(x). θ i f θ (x) f θ (x) + θ i l X (θ) Kombineres disse oplysninger får vi at ( 2 ) E θ l X (θ) = E θ θ i θ j 2 θ i θ j f θ (x) f θ (x) + E θ ( = 0 + Cov l X (θ), θ i θ j f θ (x) f θ (x) θ j l X (θ). ( θ i l X (θ) θ j l X (θ) ), ) l X (θ) θ j eftersom middelværdien af de to stokastiske variable er nul. Men dette er netop matrixligningen (3.19) læst komponent for komponent. De nødvendige forudsætninger for at disse regninger holder, er stort set at de involverede størrelser giver mening. Loglikelihoodfunktionen skal være differentiabel, og Dl X (θ) skal være integrabel med hensyn til ν θ for alle θ, sådan at venstresiden af (3.18) giver mening. Og så skal man altså kunne differentiere ind under et integraltegn. Og tilsvarende for (3.19). Hvis Θ R er en tilstrækkelig - omend alt for stærk - betingelse, der sikrer at sætning 3.26 er opfyldt, at der findes en funktion h M + (X), der er µ-integrabel, og som opfylder at θ f θ(x) h(x), 2 2 θ f θ(x) h(x) for alle θ Θ, x X. Denne betingelse er ikke særligt intuitiv. Den er heller ikke opfyldt i ret mange modeller. Man kan komme ganske langt med at blødgøre betingelsen, sådan at man kan
30 98 Kapitel 3. Likelihoodfunktionen se at sætning 3.26 er opfyldt for de fleste modeller, men der vedbliver at være noget uintuitivt og teknisk over betingelserne, og vi vil derfor ikke gå i detaljer med dem. En vigtig lære at uddrage af sætning 3.26, er at den forventede information i(θ) i hvert punkt kan opfattes som en varians, og derfor er den positivt semidefinit - som regel endda positivt definit. Hvis Θ R kan vi give en samlet tolkning af (3.18) og (3.19): Lad θ 0 være den sande parameter. Idet middelværdien af l X (θ 0) er nul, vil den typiske værdi af l X (θ 0) i et konkret eksperiment være tæt ved nul. Og dermed vil l X (θ) være tæt ved nul for θ i en lille omegn af θ 0. Idet middelværdien af l X (θ 0) er positiv, vil den typiske værdi af l X (θ 0) også være positiv, og dermed vil l X (θ) være positiv for θ i en lille omegn af θ 0. I en lille omegn af θ 0 kan vi bruge Taylor approksimationen Sætter vi så giver (3.21) at l X (θ) l X (θ 0) + l X (θ 0)(θ θ 0 ). (3.21) θ = θ 0 l X (θ 0) l X (θ 0), (3.22) l X ( θ) 0. Idet vi går ud fra at θ ligger så tæt på θ 0 at l X ( θ) > 0, slutter vi at l X har et lokalt minimum i θ (eller i hvert fald meget tæt ved). Vi har argumenteret os frem til at den typiske loglikelihoodfunktion l X (θ) vil have et (lokalt) minimum i nærheden af den sande parameterværdi θ 0. Følgelig vil den typiske likelihoodfunktion have et (lokalt) maksimum i nærheden af den sande parameterværdi. Man kan argumentere på lignende vis hvis Θ R k, skønt notationen bliver mere indviklet. Lad os understrege at disse ræsonnementer ikke er strengt matematiske, men er af fortolkningsmæssig karakter. Hvis man går dem efter i detaljer, er de hullede som en si. At middelværdien af l X (θ 0) er nul, betyder ikke altid at den typiske værdi er lille, det betyder blot at de negative værdier kompenseres af de positive. Alle værdier kunne for den sags skyld være numerisk store. Tilsvarende indvendinger kan rejses mod resten af ræsonnementerne. Men man vil forvente at argumentkæden faktisk kan gøres præcis i en lang række modeller. Det vil vi gøre i kapitel 5, hvor vi vil se at det teknisk set handler om at
31 3.7. Momentresultater for kombinanter 99 kunne begrænse den tredie afledede af loglikelihoodfunktionen, sådan at man har kontrol over hvor meget de to første afledede ændrer sig. Denne argumentation giver vægt til den intuition, vi får fra konkordansfortolkningen af likelihoodfunktionen: den sande parameter bag en givet observation bør søges blandt de parametre, der gør likelihoodfunktionen stor. Sætning 3.27 (Cramér-Rao) Antag at Θ R. Under passende regularitetsforudsætninger vil det for enhver målelig afbildning t : X R gælde at V θ (t X) (E θ (t X)) 2 i(θ) for alle θ Θ. (3.23) BEVIS: Lad os indføre parameterfunktionen g : Θ R ved g(θ) = E θ (t(x)). Vi vil interessere os for samspillet mellem de to stokastiske variable t(x) og f η(x) f θ (X) under antagelse af at θ er den sande parameter. Her er η blot endnu en parameter, der i første omgang betragtes som fast. Vi konstaterer at Dermed er E θ ( fη (X) f θ (X) ) = Tilsvarende er ( Cov θ t(x), f ) η(x) = f θ (X) fη (x) f θ (x) f θ(x) dµ(x) = f η (x) dµ(x) = 1. ( ) ( ) fη (X) fη (x) 2 V θ = f θ (X) f θ (x) 1 f θ (x) dµ(x). t(x) f η(x) f θ (x) f θ(x) dµ(x) g(θ) 1 = g(η) g(θ). Cauchy-Schwarz ulighed medfører nu at ( ) (g(η) g(θ)) 2 fη (x) f θ (x) 2 V θ (t(x)) f θ (x) dµ(x). f θ (x) I denne ulighed dividerer vi med (η θ) 2 og går til grænsen η θ. Da får vi grænseuligheden g (θ) 2 θ V θ (t(x)) f 2 θ(x) ( f θ (x) f θ (x) dµ(x) = V θ (t(x)) E θ l X (θ) 2).
32 100 Kapitel 3. Likelihoodfunktionen Kombineres (3.18) og (3.19) får vi netop at scorefunktionens 2. moment er identisk med informationen, og det ønskede er vist. Cramér-Raos ulighed har en vigtig fortolkning i forbindelse med det parameterfølsomhedsbegreb, vi diskuterede i afsnit 2.5. Hvis modellen udviser stor parameterfølsomhed, vil gentagelser af eksperimentet under to forskellige parametre give anledning til to velseparerede punktskyer, se figur 2.4. Denne separation kan man formentlig fange ved hjælp af en afbildning t : X R, sådan at t-værdierne af de to punktskyer ligger velsepareret på den reelle akse. Hvis vi involverer mere end to parameterværdier i diskussionen, er vi interesseret i at fordelingen af t X flytter sig markant med θ. En måde at undersøge den ønskede separationsegenskab, kunne være at finde ud af hvor meget midtpunktet af fordelingen flytter sig med θ. Denne tankegang fører naturligt til at man udregner E θ (t X), der helst skal være numerisk stor. Men Cramér-Raos ulighed betyder at en stor E θ (t X)-værdi nødvendigvis vil medføre en stor varians af t X. Sagt i ord: hvis midtpunktet af fordelingen flytter sig hurtigt med θ, så må fordelingen være være bred! Og derfor vil fordelingen af t X under to nærtliggende parametre alligevel ikke være særlig godt separeret. Den størrelse, der fortæller hvor bred fordelingen af t X må være for at toppunktet kan flytte sig mærkbart med parameteren, er Fishers forventede information i(θ). En stor værdi af i(θ) for alle θ gør det potentielt muligt at vælge t-funktioner, så fordelingen af tx er forholdsvis fokuseret for hvert θ, og alligevel flytter sig når man ændrer på θ. Med andre ord: en stor værdi af i(θ) gør det muligt at se forskel på parametrene. Derfor er ordet information yderst velvalgt til i(θ): det betegner en egenskab ved modellen, der beskriver hvor meget vi vil få at vide om den sande parameter ved at gøre en observation. Det skal understreges at Cramér-Raos ulighed er en generel ulighed, og der er ikke associeret nogen påstand om at man altid kan vælge et optimalt separerende t, så uligheden forvandles til en identitet. For nogle modeller kan man finde sådan et optimalt separerende t, for andre modeller kan man ikke. For visse modeller er der endda et gab mellem den bedst opnåelige separation og den separation, Cramér-Raos ulighed antyder er mulig.
33 3.7. Momentresultater for kombinanter 101 Der findes varianter af Cramér-Raos ulighed, der gælder for modeller hvor parametermængden er flerdimensional. Disse varianter opnås ved at opsummere informationen fra de etdimensionale uligheder, der kan presses ud af alle etdimensionale delmodeller. Det er ganske svært at formulere et sådant resultat - det er noget med at en vis matrix er positivt semidefinit - og vi vil ikke give en teknisk gennemgang. Men indholdet af Cramér-Raos ulighed i flere dimensioner, er at den forventede informationsmatrix (eller mere præcist: den inverse forvente informationsmatrix) sætter en grænse for hvor godt man kan separere parametre.
Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.
Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger
Læs mereStatistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål
Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og
Læs mereOmrådeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30
Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)
Læs mereOmrådeestimation. Kapitel 7
Kapitel 7 Områdeestimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi
Læs mereEstimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.
Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements
Læs merestandard normalfordelingen på R 2.
Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet
Læs mereEstimation. Kapitel 4
Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af
Læs mereOverheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.
Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.
Læs mereTaylors formel. Kapitel Klassiske sætninger i en dimension
Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f
Læs mereEksamen 2014/2015 Mål- og integralteori
Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt
Læs mereStatistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)
Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements
Læs mereMomenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål
Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive
Læs mereHvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.
Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er
Læs mereIntegration m.h.t. mål med tæthed
Integration m.h.t. mål med tæthed Sætning (EH 11.7) Lad ν = f µ på (X, E). For alle g M + (X, E) gælder at gdν = g f dµ. Bevis: Standardbeviset: 1) indikatorfunktioner 2) simple funktioner 3) M + -funktioner.
Læs mereStatistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)
Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk
Læs mereReeksamen 2014/2015 Mål- og integralteori
Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereLineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable
E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereFortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.
Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition
Læs mereDen lineære normale model
Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af
Læs mereAsymptotisk testteori
Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereEn martingalversion af CLT
Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte
Læs mereEt eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet
Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (X, E, ν). Udfaldsrummet X indeholder alle mulige resultater af eksperimentet men ofte også yderligere elementer
Læs mereIntegration m.h.t. mål med tæthed
Integration m.h.t. mål med tæthed Sætning (EH 11.7) Lad ν = f µ på (X, E). For alle g M + (X, E) gælder at gdν = g f dµ. Bevis: Standardbeviset: 1) indikatorfunktioner 2) simple funktioner 3) M + -funktioner.
Læs mereTrykfejlsliste - alle fejl Introduktion til matematisk statistik
29. juni 2004 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til matematisk statistik Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i noterne indtil nu. 4 5 Forkert:
Læs mereSandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument
Sandsynlighedsteori Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (, E, ν). Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål,
Læs mereSandsynlighedsregning Oversigt over begreber og fordelinger
Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)
Læs mereStatistik 1TS 2003 Obligatorisk opgave 1
Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag
Læs mereTrykfejlsliste - alle fejl Asymptotisk teori
9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle
Læs mereProgram. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mereProgram. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder
Læs mereKlassisk Taylors formel
p. 1/17 Klassisk Taylors formel Sætning Lad f : (a, b) R være n gange differentiabel. For x 0, x (a, b) findes et ξ mellem x 0 og x der opfylder at f(x) = f(x 0 )+ f (x 0 ) 1! (x x 0 )+...+ f(n 1) (x 0
Læs mere5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås
5.3. Konvergens i sandsynlighed 55 BEVIS: Lad φ 1, φ 2,... og φ være de karakteristiske funktioner for X 1, X 2,... og X. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås φ X,v
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Læs mereStatistiske modeller
Kapitel 2 Statistiske modeller Når man i praksis skal beskrive et eksperiment, så er situationen sjældent den, at man fuldt og fast tror på at mekanismen bag eksperimentet kan opsummeres i et bestemt sandsynlighedsmål.
Læs mereEt eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Læs mereTrykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave
3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af
Læs merePointen med Differentiation
Pointen med Differentiation Frank Nasser 20. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:
Læs mere8 Regulære flader i R 3
8 Regulære flader i R 3 Vi skal betragte særligt pæne delmængder S R 3 kaldet flader. I det følgende opfattes S som et topologisk rum i sportopologien, se Definition 5.9. En åben omegn U af p S er således
Læs mereDefinition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Læs mereDen lineære normale model
Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af
Læs mereFor nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.
1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mereKarakteristiske funktioner og Den Centrale Grænseværdisætning
E6 efterår 1999 Notat 10 Jørgen Larsen 20. oktober 1999 Karakteristiske funktioner og Den Centrale Grænseværdisætning Karakteristiske funktioner som er nære slægtninge til Fourier-transformationen) er
Læs mereMat H /05 Note 2 10/11-04 Gerd Grubb
Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges
Læs mereSupplerende opgaver. S1.3.1 Lad A, B og C være delmængder af X. Vis at
Supplerende opgaver Analyse Jørgen Vesterstrøm Forår 2004 S.3. Lad A, B og C være delmængder af X. Vis at (A B C) (A B C) (A B) C og find en nødvendig og tilstrækkelig betingelse for at der gælder lighedstegn
Læs mereCenter for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Læs mereEn martingalversion af CLT
Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4 Sættet består af 3 opgaver med ialt 15 delopgaver. Besvarelsen vil blive forkastet, medmindre der er gjort et
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereIntroduktion til differentialregning 1. Jens Siegstad og Annegrethe Bak
Introduktion til differentialregning 1 Jens Siegstad og Annegrete Bak 16. juli 2008 1 Indledning I denne note vil vi kort introduktion til differentilregning, idet vi skal bruge teorien i et emne, Matematisk
Læs mereLandmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Læs mereTransformation: tætheder pår k
Kapitel 19 Transformation: tætheder pår k I dette kapitel vil vi angribe følgende version af transformationsproblemet: Lad X 1,, X k være reelle stokastiske variable, defineret på (Ω,F, P), sådan at den
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereDifferentialregning i R k
Differentialregning i R k Lad U R k være åben, og lad h : U R m være differentiabel. Den afledte i et punkt x U er Dh(x) = h 1 (x) x 1 h 2 (x) x 1. h m (x) x 1 h 1 (x) x 2... h 2 (x) x 2.... h m (x) x
Læs mereGult Foredrag Om Net
Gult Foredrag Om Net University of Aarhus Århus 8 th March, 2010 Introduktion I: Fra Metriske til Topologiske Rum Et metrisk rum er en mængde udstyret med en afstandsfunktion. Afstandsfunktionen bruges
Læs mereAntag at. 1) f : R k R m er differentiabel i x, 2) g : R m R p er differentiabel i y = f(x), . p.1/18
Differentialregning i R k Kæderegel Lad U R k være åben, og lad h : U R m være differentiabel Antag at Den afledte i et punkt x U er Dh(x) = 1) f : R k R m er differentiabel i x, 2) g : R m R p er differentiabel
Læs mereGEOMETRI-TØ, UGE 12. A σ (R) = A f σ (f(r))
GEOMETRI-TØ, UGE 12 Hvis I falder over tryk- eller regne-fejl i nedenstående, må I meget gerne sende rettelser til fuglede@imfaudk Opvarmningsopgave 1, [P] 632 Vis at Ennepers flade σ(u, v) = ( u u 3 /3
Læs mereDet asymptotiske scenarie
Kapitel 5 Det asymptotiske scenarie Den simpleste asymptotiske situation opstår hvis man har uafhængige, identisk fordelte variable Y 1,..., Y n med værdier i et målbart rum (Y, K). Man forestiller sig
Læs mereBetingning med en uafhængig variabel
Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen
Læs mereπ er irrationel Frank Nasser 10. december 2011
π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion
Læs mere1 Palm teori. Palm teori 1
Palm teori 1 1 Palm teori Lad X = {X(t)} t 0 være en stokastisk proces defineret på et måleligt rum (Ω, F), og lad T = {T n } n N0 være en voksende følge af ikke-negative stokastiske variable herpå. Vi
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Læs mereFunktionsterminologi
Funktionsterminologi Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette
Læs mereProjekt 4.6 Løsning af differentialligninger ved separation af de variable
Projekt 4.6 Løsning af differentialligninger ved separation af de variable Differentialligninger af tpen d hx () hvor hx ()er en kontinuert funktion, er som nævnt blot et stamfunktionsproblem. De løses
Læs mereKalkulus 2 - Grænseovergange, Kontinuitet og Følger
Kalkulus - Grænseovergange, Kontinuitet og Følger Mads Friis 8. januar 05 Indhold Grundlæggende uligheder Grænseovergange 3 3 Kontinuitet 9 4 Følger 0 5 Perspektivering 4 Grundlæggende uligheder Sætning
Læs mereFlerdimensionale transformationer
Kapitel 18 Flerdimensionale transformationer Når man i praksis skal opstille en sandsynlighedsmodel for et eksperiment, vil man altid tage udgangspunkt i uafhængighed. Ofte kan man tænke på det udførte
Læs mereHistogrammetoden For (x i, y i ) R 2, i = 1,..., n, ser vi på den gennemsnitlige
Histogrammetoden For (x i, y i ) R 2, i = 1,..., n, ser vi på den gennemsnitlige længde: z = 1 n hvor z i = xi 2 + yi 2. n z i = 1 n i=1 n i=1 x 2 i + y 2 i Indfør tabellen samt vægtene Da er a k = #{i
Læs mereKvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Læs mereStatistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereLandmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Læs mereRepetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable
Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition
Læs mere1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable
Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder
Læs mereDen todimensionale normalfordeling
Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereUge 10 Teoretisk Statistik 1. marts 2004
1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt
Læs mereTest af statistiske hypoteser
Kapitel 8 Test af statistiske hypoteser De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formål at lokalisere den sande parameter så godt som muligt, og at beskrive hvor mange
Læs mereAnalyse 2. Bevis af Fatous lemma (Theorem 9.11) Supplerende opgave 1. Øvelser
Analyse 2 Øvelser Rasmus Sylvester Bryder 24. og 27. september 203 Bevis af Fatous lemma (Theorem 9.) Hvis (u j ) j er en følge af positive, målelige, numeriske funktioner (dvs. med værdier i [, ]) over
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereHistogrammetoden For (x i, y i ) R 2, i = 1,..., n, ser vi på den gennemsnitlige. Histogrammetoden. Histogrammetoden.
For ( i, y i ) R 2, i =,, n, ser vi på den gennemsnitlige længde: z = n hvor z i = i 2 + yi 2 Indfør tabellen samt vægtene Da er z i = n 2 i + y 2 i a k = #{i 00z i = k}, k N 0 z ned := ν k = a k n 00kν
Læs mereDeskriptiv teori i flere dimensioner
Kapitel 17 Deskriptiv teori i flere dimensioner I kapitel 13 og 14 udviklede vi en række deskriptive værktøjer til at beskrive sandsynlighedsmål på (R, B). Vi vil i dette kapitel forsøge at udvikle varianter
Læs mere= λ([ x, y)) + λ((y, x]) = ( y ( x)) + (x y) = 2(x y).
Analyse 2 Øvelser Rasmus Sylvester Bryder 17. og 20. september 2013 Supplerende opgave 1 Lad λ være Lebesgue-målet på R og lad A B(R). Definér en funktion f : [0, ) R ved f(x) = λ(a [ x, x]). Vis, at f(x)
Læs mereFunktionsterminologi
Funktionsterminologi Frank Villa 17. januar 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion
Læs mereEstimation og konfidensintervaller
Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,
Læs mereBevægelsens Geometri
Bevægelsens Geometri Vi vil betragte bevægelsen af et punkt. Dette punkt kan f.eks. være tyngdepunktet af en flue, et menneske, et molekyle, en galakse eller hvad man nu ellers har lyst til at beskrive.
Læs mereLokal estimationsteori
Kapitel 5 Lokal estimationsteori 5.1 Konsistens Vores første delmål er at sikre at regularitetsbetingelserne medfører at den reskalerede konkordanskombinant med meget stor sandsynlighed har en positivt
Læs merePointen med Funktioner
Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en
Læs mere