Maksimaliseringsestimation i praksis

Størrelse: px
Starte visningen fra side:

Download "Maksimaliseringsestimation i praksis"

Transkript

1 Kapitel 6 Maksimaliseringsestimation i praksis Lærebogseksempler på statistiske modeller er gerne så simple at man er i stand til eksplicit at maksimere likelihoodfunktionen, og opnå lukkede udtryk for maksimaliseringsestimatoren Disse udtryk har som regel en form, der tillader os at finde den asymptotiske fordeling af maksimaliseringsestimatoren ud fra CLT og Deltametoden, uden at behøve at pege på den moralsk rigtige, men svagt funderede Cramérs sætning Det forholder sig anderledes i den praktiske statistik, hvor modellerne altid har mange parametre Det er sjældent at man støder på modeller med under en halv snes parametre, og flere hundrede, ja tusinde, kan sagtens forekomme Endvidere blander disse parametre sig på kompliceret facon: det er sjældent muligt at finde formler for maksimaliseringsestimatoren, man er i praksis overladt til numerisk optimering Og som en følge af at man mangler eksplicitte formler, kan man ikke bevise noget som helst om maksimaliseringsestimatoren ved håndkraft - man er nødt til at stole på Cramérs sætning og dens generaliseringer I dette kapitel vil vi diskutere nogle af de vanskeligheder, der opstår i analysen af sådanne højdimensionale modeller, og vi vil give nogle case studies, hvor vi ser på et par modeller der faktisk anvendes i praksis 169

2 170 Kapitel 6 Maksimaliseringsestimation i praksis 61 Eksistens af maksimaliseringsestimatoren Når man skal finde maksimaliseringsestimatoren i en konkret situation, vil man næsten altid udregne scorefunktionen, og forsøge at løse likelihoodligningen (413) Blandt løsningerne til denne ligning, kan man koncentrere sig om de lokale minima - det er de stationære punkter, hvor den observerede informationsfunktion er positivt definit eller i det mindste positivt semidefinit Endelig må man inddrage globale betragtninger om loglikelihoodfunktionens opførsel ved randen af parametermængden Hvis parametermængden er etdimensional, er dette program let at følge Det kan være vanskeligt at løse likelihoodligningen eksplicit, men de øvrige programpunkter volder ingen problemer At den observerede information er positivt definit i et punkt, er jo blot en indviklet måde at sige at den anden afledede af loglikelihoodfunktionen skal være positiv Og samspillet mellem stationære punkter og funktionens randopførsel er som regel nemt at gennemskue Men flerdimensionale modeller er en helt anden verden Dels er det meget, meget sværere at løse likelihoodligningen Og dels er karakteren af de stationære punkter ikke så let at fastslå Men det virkeligt indviklede er som regel at sikre sig at randopførslen ikke ødelægger billedet: funktionsundersøgelse i flere dimensioner er langt sværere end i én dimension Eksempel 61 Betragt funktionen f : R 2 R givet ved f (x, y) = (x + 1) 2 x 3 y 2 Man finder let at ( 1, 0) er det eneste stationære punkt Man finder også at D 2 f ( 1, 0) = ( hvilket er positivt definit Funktionens eneste stationære punkt er altså et lokalt minimum I én dimension ville situationen være klar: det stationære punkt må være globalt minimum - hvis funktionen skal synke under niveauet for det lokale minimum, må der være et lokalt maksimum inden da, ellers kan funktionen ikke komme til at aftage igen ), Men i flere dimensioner er den form for argumentation forkert Man kan ikke slutte noget om hvad der sker ude ved randen af definitionsområdet udfra kendskab til hvor

3 61 Eksistens af maksimaliseringsestimatoren 171 de stationære punkter er placeret I det konkrete eksempel ser vi feks at hvis man går ud af diagonalen (x, x), så er f (x, x) for x Det lokale minimum er således ikke et globalt minimum Nogen gange kan man undgå en eksplicit undersøgelse af randen, ved at anvende følgende simple trick: Lemma 62 Antag at Θ er en åben delmængde af R k Hvis der findes en kompakt mængde K og et θ 0 K, sådan at så antager l x sit minimum i et stationært punkt l x (θ) > l x (θ 0 ) for alle θ K (61) BEVIS: Den kontinuerte funktion l x antager sit minimum over den kompakte mængde K, lad os sige i θ 1 Vi ser naturligvis at l x (θ 1 ) l x (θ) for alle θ K, men også at l x (θ 1 ) l x (θ 0 ) < l x (θ) for alle θ K Og således er θ 1 det globale minimumspunkt Det må naturligvis være et stationært punkt For nogle modeller er loglikelihoodfunktionerne konvekse Det undersøger man ved at udregne informationsfunktionen D 2 l x - hvis den er positivt definit i alle punkter, så er l x strengt konveks I så fald kan man have stor fornøjelse af følgende resultat fra teorien om konvekse funktioner:

4 172 Kapitel 6 Maksimaliseringsestimation i praksis Sætning 63 Antag Θ er en åben konveks delmængde af R k, og at l x er strengt konveks og C 1 Der kan da højst være ét stationært punkt for l x I bekræftende fald er det et globalt minimum BEVIS: Hvis Θ R er argumentationen simpel En strengt konveks C 1 -funktion l x har en afledet l x, der er strengt voksende Der kan derfor højst være ét stationært punkt Hvis der er et sådan stationært punkt, lad os kalde det θ 0, vil l x være strengt negativ til venstre for θ 0, og strengt positiv til højre for θ 0 Middelværdisætningen fortæller at l x (θ) = l x (θ 0 ) + l x (ξ) (θ θ 0) (62) for alle θ θ 0 for et passende ξ mellem θ og θ 0 Bemærk at l x(ξ) og θ θ 0 altid har samme fortegn Det medfører at sidste led i (62) altid er positivt Og derfor må θ 0 være det globale minimum Den flerdimensionale situation håndteres ved at reducere den til en række étdimensionale problemer Hvis vi ser på to punkter θ 0, θ 1 Θ, konstruerer vi funktionen f (t) = l x ( θ0 + t(θ 1 θ 0 ) ) Den præcise definitionsmængde er lidt uklar, men den indeholder i hvert fald et interval af formen ( ɛ, 1 + ɛ) for et passende lille ɛ > 0 Bemærk at f (0) = l x (θ 0 ), f (1) = l x (θ 1 ) Definitionen af flerdimensional konveksitet sikrer uden videre at f er strengt konveks, og kædereglen sikrer at f er C 1 Hvis både θ 0 og θ 1 er stationære punkter for l x, er både 0 og 1 stationære punkter for f, i modstrid med hvad vi lige har vist Altså kan l x højst have et stationært punkt Tilsvarende, hvis θ 0 er et stationært punkt for l x, så er 0 et stationært punkt for f, og dermed antages f s globale minimum i 0 Specielt er f (0) < f (1), det vil sige at l x (θ 0 ) < l x (θ 1 ) Så vi ser at l x antager sit globale minimum i θ 0, som ønsket I mange simple modeller er loglikelihoodfunktionerne konvekse Men i mere komplicerede modeller er de det sjældent Man kan feks bemærke at loglikelihoodfunktionen i den simple normalfordelingsmodel ikke er konveks - det var derfor vi benyttede profillikelihood metoden i eksempel 418 Men man kan reparametrisere den simple

5 62 Numeriske metoder 173 normalfordelingsmodel på en måde, så loglikelihoodfunktionerne for den nye parametrisering bliver konvekse En meget vigtig klasse af statistiske modeller kaldes eksponentielle familier Disse modeller har parametriseringer (ν θ ) θ Θ med følgende struktur, ν θ = 1 c(θ) e t(x),θ µ (63) Her er Θ en åben delmængde af R k, t er en afbildning X R k (kaldet familiens kanoniske stikprøvefunktion), symbolet, betegner det euklidiske indre produkt på R k, og µ er et grundmål på (X, E) (som regel kaldet strukturmålet i denne sammenhæng) Størrelsen c(θ) er en normeringskonstant Formel (63) ser muligvis eksotisk ud Men forbavsende mange modeller har parametriseringer af denne art Og loglikelihoodfunktioner baseret på tæthederne i (63) er altid konvekse 62 Numeriske metoder Bortset fra i nogle få simple tilfælde, er det umuligt at løse likelihoodligningen eksakt for en flerdimensional model Man er derfor henvist til at lede efter løsninger ved numeriske metoder Der findes et væld af specialiserede numeriske metoder til at finde stationære punkter for loglikelihoodfunktionen i denne eller hin model Men oftest er den generelle Newton-Raphson algoritme den nemmeste at implementere - og den mest effektive Den fungerer på følgende måde: Lad θ n være en approksimation til et stationært punkt θ Af Taylorudviklingen Dl x (θ) Dl x (θ n ) + D 2 l x (θ n )(θ θ n ) ser vi at hvis k k-matricen D 2 l x (θ n ) er invertibel, så er θ n+1 = θ n (D 2 l x (θ n )) 1 Dl x (θ n ) (64) formentlig en endnu bedre approksimation til θ Vi taler om at opdatere initialgættet θ n ved hjælp af Newton-Raphson scoring

6 174 Kapitel 6 Maksimaliseringsestimation i praksis Hvis θ n allerede er et stationært punkt for algoritmen, så vil θ n+1 = θ n Vi siger at de stationære punkter er fikspunkter for algoritmen Og det er tydeligvis de eneste fikspunkter Man kan godt komme ud for at algoritmen cykler mellem to eller flere θ-værdier, men det sker ikke hvis man starter algoritmen tæt ved et af de stationære punkter: de stationære punkter for l x er attraktive fikspunkter for Newton-Raphson algoritmen (endda superattraktive) Hvis man har en startværdi i nærheden af et stationært punkt θ, kræver det sædvanligvis kun et par iterationer at få lokaliseret θ med så stor nøjagtighed som man måtte ønske det Newton-Raphson algoritmen har to stærke sider Dels er den forbavsende nem at implementere Og dels er den rasende effektiv - hvis man vel at mærke er i stand til at starte den i nærheden af de stationære punkter Hvis man ikke ved hvor mange stationære punkter der er, og hvis man ikke ved hvor de ligger henne, så er det ikke givet at Newton-Raphson algoritmen vil være til den store hjælp En dårlig begyndelsesværdi vil således ofte få algoritmen til at divergere Man kan undertiden opnå konvergens i Newton-Raphson iterationen udfra et dårligt initialpunkt ved at introducere en moderator α (0, 1) Det betyder at man ændrer algoritmen til θ n+1 = θ n α(d 2 l n (θ n )) 1 Dl n (θ n ) (65) Prisen er at man får en relativt langsom konvergens Hvis man ikke på forhånd har nogen ide om hvor i parametermængden man skal søge efter en løsning til likelihoodligningen, så kan en fornuftig strategi være at starte med en meget lille moderator, feks 10 6 Hvis de enkelte skridt i iterationen er beherskede, kan man så kontinuerligt skrue op for moderatoren, indtil den til sidst sættes lig 1 Erstattes informationsfunktionen D 2 l x (θ) med den forventede information i(θ) = E θ (D 2 l X (θ)) i Newton-Raphson algoritmen, fås et andet iterationsskema θ n+1 = θ n i(θ) 1 Dl x (θ n ), (66) der kaldes Fishers scoringsmetode Bemærk igen at stationære punkter er fikspunkter for denne algoritme De teoretiske egenskaber for Fisher scoring er knap så gode som for Newton-Raphson Til gengæld kan der være betydelige regnemæssige gevinster, fordi den forventede information gerne har et meget simplere udtryk end den observerede information Likelihoodligningen har ofte adskillige løsninger, og det er vigtigt at finde dem alle - der er ingen grund til at tro at de numeriske metoder i første hug finder det globale minimum Det betyder ofte at man må køre den valgte algoritme med mange forskellige startpunkter

7 63 Logistisk regression Logistisk regression Lad X 1,, X n være indbyrdes uafhængige stokastiske variable, sådan at hvor P(X i = 1) = p i, P(X i = 0) = 1 p i for i = 1,, n, logit(p i ) := log p i 1 p i = α + β t i for i = 1,, n (67) Her er t i et kendt tal, der angiver den eksposition det i te subjekt har haft til feks smittekilde, og α og β er ukendte reelle parametre I et studie af toksiske effekter kan t i således repræsentere den giftdosis det i te subjekt har modtaget, og eksperimentet går typisk ud på at registrere hvilke subjekter der dør af behandlingen Men en lang række andre eksperimenter med en dichotom respons (det vil sige en respons på to niveauer) kan behandles med den opstillede logistiske regressionsmodel For to forskellige observationer får man, at log oddsratio er log p i/(1 p i ) p j /(1 p j ) = β(t i t j ) Dette giver fortolkningen af parameteren β i den logistiske regressionsmodel En anden fortolkelig størrelse er parameterfunktionen γ = α/β, der angiver den eksposition der balancerer sandsynligheden for succes og fiasko I forbindelse med studier af toksiske effekter, kaldes γ gerne LD50, hvor LD er en forkortelse af lethal dosis - LD50 er den dosis der slår 50% af forsøgsdyrene ihjel I forbindelse med etablering af grænseværdier for giftkoncentrationer, er man tilsvarende interesseret i den dosis der slår måske 1 ud af forsøgsdyr ihjel Sådanne størrelser er svære at måle direkte, fordi der i så fald skal involveres et umådeligt stort antal forsøgsdyr Så den type grænseværdier fastlægges typisk ud fra forsøg med langt kraftigere giftdoser, sådan at et betydeligt antal forsøgsdyr faktisk dør, efterfulgt af en ekstrapolation udfra (67) I modsætning til γ er parameteren α oftest svær at fortolke Når man fastholder parametriseringen ved hjælp af (α, β) fremfor den mere intuitive (γ, β), skyldes det matematisk bekvemmelighed: parametriseringen ved hjælp af (α, β) er på eksponentiel form som i (63), og det vil gøre en række argumenter nemmere, som vi skal se Hvis man ønsker det, kan man bagefter oversætte resultaterne til andre parametriseringer

8 176 Kapitel 6 Maksimaliseringsestimation i praksis Den fundamentale betingelse (67) kan reformuleres som p i = eα+βt i 1 + e α+βt i Dermed kan vi opskrive likelihoodfunktionen: n ( e α+βt ) Xi ( ) i 1 Xi 1 L X (α, β) = 1 + e α+βt i 1 + e α+βt = i i=1 n 1 = 1 + e α+βt i eαs +βs P, i=1 n i=1 e (α+βt i)x i 1 + e α+βt i hvor vi har indført betegnelserne S = n i=1 X i og S P = n i=1 X i t i Her ses den eksponentielle form af likelihoodfunktionen tydeligt Vi finder at loglikelihoodfunktionen er n l X (α, β) = log(1 + e α+βt i ) (αs + βs P) i=1 Vi finder endvidere scorefunktionen Dl X (α, β) = l(α,β) α l(α,β) β n = p i t i p i i=1 S S P og informationsfunktionen D 2 l X (α, β) = 2 l(α,β) α 2 2 l(α,β) α β 2 l(α,β) α β 2 l(α,β) β 2 = n i=1 p i (1 p i ) t i p i (1 p i ) t i p i (1 p i ) ti 2p i(1 p i ) Bemærk en vigtig konsekvens af den eksponentielle parametrisering: informationsfunktionen afhænger ikke af den gjorte observation Dermed er den observerede information og den forventede information ens Der kan drages temmelig kraftfulde konklusioner om konveksitet af l X (α, β) ud fra dette forhold Den forventede informationsmatrix er ifølge sætning 326 variansen af scorefunktionen, i(α, β) = V α,β (Dl X (α, β)) Variansmatricer er altid positivt semidefinitte, så vi kan uden videre konstatere at l X må være konveks At se det direkte udfra D 2 l X (α, β) kan for så vidt godt lade sig gøre, men det kræver en vis omtanke

9 63 Logistisk regression 177 Vi kan endda styrke konklusionen: Bemærk at scorefunktionen er en deterministisk størrelse fratrukket den stokastiske variabel (S, S P) Den deterministiske størrelse indgår naturligvis ikke i variansen, og vi får følgelig i(α, β) = V α,β ( Denne variansmatrix er singulær hvis og kun hvis der findes (a, b) (0, 0), således at as + bs P = n i=1 (a + bt i )X i er udartet fordelt Men V α,β (as + bs P) = S S P ) n (a + bt i ) 2 V α,β X i hvilket kun kan være nul hvis a + bt i = 0 for samtlige i er Men dette kan igen kun lade sig gøre hvis alle t i erne er ens Vi slutter derfor at informationsfunktionen er positivt definit, medmindre samtlige t i er er ens Hvis samtlige t i er er ens, så er modellen overparametriseret og i det hele taget en anelse fjollet: man har jo i så fald et almindeligt binomialforsøg Så hvis det giver mening at stille en logistisk regressionsmodel op, så kan man med sindsro går ud fra den forventede informationsmatrix er positivt definit Bruges igen at den observerede information og den forventede information er ens, konkluderer vi at l X er strengt konveks i alle rimelige tilfælde, og det er således naturligt at henvise til sætning 63 Det er ikke muligt at finde eksplicitte udtryk for maksimaliseringsestimatoren ( ˆα, ˆβ) I uheldige tilfælde eksisterer den ikke engang Man kan i et toksikologisk eksperiment risikere at alle forsøgsdyr overlever Men der er også mere komplicerede situationer, der ødelægger mulighederne for at sige noget begavet For eksempel risikerer man at alle forsøgsdyr med dosis lavere end en grænse c 1 overlever, mens alle forsøgsdyr med en dosis over c 2 dør Hvis man ingen observationer har med koncentrationer mellem c 1 og c 2, så antager loglikelihoodfunktionen ikke noget minimum - hvilket er rimeligt nok: man kan måske nok placere LD50 mellem c 1 og c 2, men det er umuligt at sige noget præcist om hvor i intervallet Men hvis man kan finde en løsning til likelihoodligningen, så er man sikker på at det er maksimaliseringsestimatoren Og en forsigtig henvisning til sætning 520 giver da en ide om estimatorens fordeling Når vi skriver forsigtig er det fordi vi er langt uden for de rammer som sætningens formulering angiver: vi har nok uafhængige observationer, men de er ikke identisk fordelte Ikke desto mindre kan meget generelle varianter af Cramérs sætning vises for eksponentielle familier i=1

10 178 Kapitel 6 Maksimaliseringsestimation i praksis Koncentration Døde Overlevende Tabel 61: Data fra dosis-respons forsøg med 260 Musca domestica Eksempel 64 Følgende data stammer fra et dosis-respons forsøg, udført af Jørgen Jespersen, Statens Skadedyrslaboratorium 260 hunner af stuefluen Musca domestica har hver fået påført en dråbe af giftstoffet dimethoat på ryggen Hver dråbe indeholdt 1 mikroliter, og koncentrationen af giftstoffet varierede fra eksperiment til eksperiment I alt 13 forskellige koncentrationer blev benyttet, hver på 20 dyr Som det er sædvanligt i denne type eksperimenter, er de undersøgte koncentrationer tilnærmet ækvidistante på en logaritmisk skala Nogen fluer døde af den påførte gift, andre overlevede En optælling er angivet i tabel 61 Lad X i være en stokastisk variabel, der beskriver overlevelsen af den i te flue - hvis X i = 1 er fluen død, hvis X i = 0 har fluen overlevet En grundbeskrivelse af dette forsøg, er at X 1,, X 260 er uafhængige og at P(X i = 1) = p i, P(X i = 0) = 1 p i for alle i = 1,, 260 I en mere detaljeret beskrivelse, må man diskutere dødssandsynlighederne p i, og hvordan de varierer med i Det er åbenlyst at p i afhænger af hvor kraftig en giftdosis fluen har fået, se figur 61 Den afhænger formentlig også af andre ting, feks fluens størrelse og alder, men eftersom vi ikke har oplysninger om disse variable, vil vi se bort fra dem Det kan vi gøre med en vis sindsro, hvis disse forhold ikke har spillet en rolle for hvordan fluerne blev tildelt giftkoncentrationer

11 63 Logistisk regression 179 Dødsfrekvens log(koncentration) Figur 61: Dødfrekvens for de 260 fluer der blev udsat for giftstoffet dimethoat, tegnet op som funktion af logaritmen til giftkoncentrationen Den indtegnede kurve er den logistiske funktion vi ender med at estimere i (68) Lad c i være giftdosis for den i te flue Vi vil antage at logit(p i ) = α + β log(c i ) for alle i = 1,, 260 Det kan diskuteres om man skal logaritmetransformere koncentrationerne før man opstiller den logistiske model, men det er sædvane at foretage denne transformation i forbindelse med studier af toksiske effekter Vi vil finde maksimaliseringsestimatoren for (α, β) For de konkrete data er S = 121, S P = For at estimere (α, β) har vi nu kun behov for et initialt gæt til Newton-Raphson algoritmen Udfra tabel 61 virker det rimeligt at sige 25% af fluerne dør, hvis de får en koncentration på 0095, mens 75% dør ved en koncentration på 0256 Vi får altså det approksimative ligningssystem α + β log(0095) logit(025), α + β log(0256) logit(075) Løses dette ligningssystem fås α 0 = 4119, β 0 = 2216

12 180 Kapitel 6 Maksimaliseringsestimation i praksis Vi finder at l(α 0, β 0 ) = 70710, og at ( ) ( 2213 Dl(α 0, β 0 ) =, D 2 l(α , β 0 ) = ) Vi ser at scorefunktionen ikke er særlig tæt ved nul, vores initialgæt var derfor ikke for godt Sættes disse størrelser ind i (64) fås et nyt gæt α 1 = 4919, β 1 = 2597 Vi finder at l(α 1, β 1 ) = 69401, og at ( ) ( 0285 Dl(α 1, β 1 ) =, D 2 l(α , β 1 ) = ) Sættes disse størrelser ind i (64) fås et nyt gæt α 2 = 5128, β 2 = 2701 Vi finder at l(α 2, β 2 ) = 69345, og at ( ) ( Dl(α 2, β 2 ) =, D 2 l(α , β 2 ) = ) Nu er scorefunktionen så tæt ved at være nul, at der ikke sker ret meget mere Køres algoritmen én gang til får vi α 3 = 5140, β 3 = 2706 Vi finder at l(α 3, β 3 ) = 69345, og at ( ) ( Dl(α 3, β 3 ) =, D 2 l(α , β 3 ) = ) Herefter er der ingenting der flytter sig Vi ender altså med estimatet ˆα = 5140, ˆβ = 2706 (68) Ud fra Cramérs sætning har vi endvidere en ide om variansen af estimatoren, nemlig ( ) V( ˆα, ˆβ) i( ˆα, ˆβ) = Dette kan vi oversætte til standardafvigelser, 067 på ˆα og 034 på ˆβ Bemærk endvidere korrelation mellem parameterestimaterne på 094

13 63 Logistisk regression 181 Det er ganske vigtigt at man starter med et kvalificeret initialgæt Hvis man feks starter med α 0 = 5, β 0 = 5, vil én iteration af Newton-Raphson algoritmen lede til α 1 = 12537, β 1 = 16968, og i næste iteration går computeren ned! Man kan rette på denne opførsel ved at benytte en moderator, og det er ikke så svært at guide computeren hen i nærheden af det faktiske minimum Det er til gengæld mere krævende at skrive en automatiseret procedure, der selv kommer med et initialgæt og uden supervision finder minimaet Hvis man ønsker at bestemme LD50-parameteren γ, bruges nu estimatoren ˆγ = = 1899 ˆαˆβ Deltametoden tillader oven i købet at vi kan påstå at ˆγ er approksimativt normalfordelt om den sande γ-værdi, og med approksimativ varians ( 1 ˆβ, ) ( ˆα 1 i( ˆα, ˆβ) 1 ˆβ 2 ˆβ, ) T ˆα = ˆβ 2 Med en approksimativ standardafvigelse på 008 er γ altså væsentligt bedre bestemt end både α og β! Dette fænomen er et udtryk for den høje korrelation mellem ˆα og ˆβ - hver for sig er de ikke bestemt så præcist endda, men en vis kombination af dem er ganske nøje fastlagt En intuitiv fornemmelse af hvorfor det forholder sig sådan, kan man få ved at tegne forskellige S-formede kurver ind på figur 61: man kan godt variere hvor stejlt kurven skal stige, og stadig få et fornuftigt fit til data Men selv små afvigelser i hvor kurven skærer en dødsfrekvens på 50% gør at fittet bliver dårligt Endvidere, hvis man undersøger den approksimative simultane fordeling af (ˆγ, ˆβ), vil man se at de er stort set ukorrelerede, med en korrelation på kun Vi kan derfor ræsonnere om γ og β hver for sig Vi kan generalisere disse betragtninger til en vigtig morale Der findes tre slags gode parametriseringer af en givet model: de fortolkelige, de matematisk bekvemme og de, der muliggør stor numerisk præcision Ofte vil det være tre forskellige parametriseringer! Og man må derfor være forberedt på at skifte mellem de forskellige parametriseringer alt efter om man skal argumentere teoretisk matematisk, numerisk eller fortolkeligt

14 182 Kapitel 6 Maksimaliseringsestimation i praksis Vi vil nu bruge nogle kræfter på at belyse om det abstrakte approksimative resultat ( ˆαˆβ ) N (( α β ), i(α, β) 1 ) giver mening i den aktuelle situation ved et simulationseksperiment Vi lader (α, β) = (5140, 2706) være de sande parametre Vi simulerer et nyt datasæt med de i tabel 61 anførte t i -værdier, og estimerer parametrene på baggrund af de simulerede observationer Gentages dette N gange, får vi estimater ( ˆα 1, ˆβ 1 ),, ( ˆα N, ˆβ N ) Disse estimater burde kunne opfattes om uafhængige observationer fra fordelingen N (( ) ( , )) ˆβ PSfrag replacements ˆα Figur 62: Maksimaliseringsestimatorer i 200 simulerede gentagelser af dosis-respons forsøget fra tabel 61, med sande parametre (α, β) = (5140, 2706) Vi har gennemført dette eksperiment med N = 200 På figur 62 har vi optegnet de fundne resultater Bemærk den kraftige korrelation: store ˆα er hører altid sammen med store ˆβ er Bemærk også de cirkulære strukturer: de er udtryk for et diskretiseringsfænomen, de svarer til datasæt med samme S -værdi Der er 261 mulige S - værdier, og derfor i princippet 261 af den slags kurver, hvorpå estimaterne nødvendigvis må falde Der er endvidere diskretiseringsfænomener på de enkelte kurver,

15 63 Logistisk regression 183 svarende til at kun visse S P-værdier er mulige Men diskretiseringen er her så fin, at man i praksis næppe kan få øje på den På figur 63 har vi optegnet de 200 simulerede ˆα er i et QQ-plot mod N(5140, 0455)- fordelingen, og tilsvarende er de 200 simulerede ˆβ er optegnet mod N(2706, 0113)- fordelingen PSfrag replacements ˆα-fraktil PSfrag replacements ˆβ-fraktil ˆβ-fraktil Normal ˆα-fraktil Normal Figur 63: Maksimaliseringsestimatorer i 200 simulerede gentagelser af dosis-respons forsøget fra tabel 61, med sande parametre (α, β) = (5140, 2706) De marginale fordelinger af ˆα erne og ˆβ erne er optegnet mod de approksimerende normalfordelinger Resultatet er ikke overbevisende Både ˆα-fordelingen og ˆβ-fordelingen har markant for skæve til at ligne normalfordelinger, med for tunge haler opad, og for lette haler nedadtil Normalfordelingsapproksimationen kunne altså være bedre Men det er jo også et asymptotisk resultat, som kun kan forventes at holde når eksperimentet indeholder et stort antal gentagelser Det er imidlertid ikke helt klart hvad man skal forstå ved gentagelser i dosis-respons rammen, i og med at de enkelte fluer får forskellige giftdoser I almindelighed vil approksimationen blive bedre, jo flere fluer der indgår i eksperimentet, men ikke hvis de alle får præcis samme giftdosis: i så fald bliver man kun i stand til at udtale sig om en bestemt kombination af α og β, ikke om parametrene hver for sig Approksimationen bliver heller ikke bedre, hvis man tilføjer en masse fluer, der alle får så lav en dosis at de ikke dør, eller hvis de får så høj en dosis at de dør alle sammen For at belyse at normalfordelingsapproksimationen som regel bliver bedre, har vi gentaget simuleringerne, men for et større eksperiment, hvor præcis de samme giftdoser som tidligere indgår, men hvor hver giftdosis bliver administreret til 200 fluer

16 184 Kapitel 6 Maksimaliseringsestimation i praksis ˆβ PSfrag replacements ˆα Figur 64: Maksimaliseringsestimatorer i 200 simulerede gentagelser af et stort dosisrespons forsøg, hvor hver giftdosis administreres til 200 fluer De sande parametre er igen (α, β) = (5140, 2706) Skalaen på akserne er den samme som i figur 62 Vi antager igen at de sande parametre er (α, β) = (5140, 2706), og vi gentager simuleringseksperimentet N = 200 gange Resultaterne er optegnet på figur 64 Vi ser en meget kraftigere koncentrering af de simulerede estimater på figur 64 end vi gjorde på figur 62 Det er ikke så overraskende: når vi forgifter 2600 fluer, så bliver vi i stand til at udtale os om de toksiske effekter på et langt bedre grundlag end da vi kun forgiftede 260 fluer Og derfor får vi selvfølgelig præcisere estimater Men der er en anden forskel, som afsløres på figur 65: Vi er langt bedre i stand til at beskrive hvordan parameterestimaterne falder, end vi var før Beregner man informationsmatricen, ser man at forøgelsen af eksperimentet betyder at den nye informationsmatrix koordinat for koordinat bliver 10 gange så stor som den gamle Derfor bliver variansestimaterne en faktor 10 mindre Den asymptotiske påstand er derfor at estimaterne skal kunne opfattes som uafhængige observationer fra fordelingen N (( ) ( , På figur 65 har vi optegnet de 200 simulerede ˆα-værdier i et QQ-plot mod ))

17 63 Logistisk regression 185 N(5140, 00455)-fordelingen, og tilsvarende er de 200 simulerede ˆβ er optegnet mod N(2706, 00113)-fordelingen PSfrag replacements ˆβ-fraktil ˆα-fraktil PSfrag replacements ˆα-fraktil Normal ˆβ-fraktil Normal Figur 65: Maksimaliseringsestimatorer i 200 simulerede gentagelser af det forstørrede dosis-respons forsøg, med sande parametre (α, β) = (5140, 2706) De marginale fordelinger af ˆα erne og ˆβ erne er optegnet mod de approksimerende normalfordelinger Resultatet er nu meget bedre Både ˆα-fordelingen og ˆβ-fordelingen kan fint gå for at være normalfordelinger Den logistiske model kan generaliseres til tilfældet, hvor man til hver observation har knyttet flere kovariater eller baggrundsvariable, altså kendte tal (t i,1,, t i,k ) Man antager da at logit(p i ) = α + β 1 t i,1 + + β k t i,k Modellen kaldes multipel logistisk regression, og har k+1 parametre (α, β 1,, β k ) For to observationer X i1 og X i2, hvor t i1, j = t i2, j for j j 0, dvs alle baggrundsvariable undtagen de j 0 te har samme værdi, er log oddsratio log p i 1 /1 p i1 p i2 /1 p i2 = β j0 (t i1, j 0 t i2, j 0 ) Dette giver fortolkningen af parameteren β j i den multiple logistiske regressionsmodel: den fortæller hvor hurtigt oddsratio vokser med den j te kovariat, når alle andre kovariater er ens

18 186 Kapitel 6 Maksimaliseringsestimation i praksis Denne model er en af de hyppigst anvendte statistiske modeller i praksis Den bruges når man tror at en respons afhænger af flere baggrundsvariable på en gang, og man ønsker at sammenligne effekterne af disse baggrundsvariable for at finde de mest betydningsfulde Eller når man skal udtale sig om en af disse baggrundsvariable, og har brug for at korrigere for effekten af de øvrige baggrundsvariable Hvis man for eksempel ønsker at studere toksiske effekter in vivo, må man ofte konstatere at flere forskellige giftstoffer er til stede samtidigt, og det kan være svært at vide hvilke af disse giftstoffer der egentlig slår dyrene ihjel Oven i købet vil det som regel være sådan at et område hvor et bestemt giftstof forekommer i høj koncentration simpelthen er meget forurenet, og derfor findes de øvrige giftstoffer også i høj koncentration i dette område Men der vil alligevel være små forskelle det relative forhold mellem koncentrationerne fra område til område, og det er disse relative forskelle den logistiske regressionsmodel forsøger at udvinde information af Analysen af den multiple logistiske regressionsmodel forløber stort set som analysen af den simple logistiske regressionsmodel Uheldige kombinationer af kovariater kan dog let give anledning til loglikelihoodfunktioner der ikke er strengt konvekse, ligesom det ofte sker at loglikelihoodfunktionen ikke antager et minimum 64 Glatte hypoteser i en polynomialfordeling Lad X 1,, X n være indbyrdes uafhængige stokastiske variable, der kan antage værdierne 1, 2,, N Vi antager at P(X i = j) = π j for j = 1,, N og i = 1,, n, (69) hvor (π 1,, π N ) er en ukendt sandsynlighedsvektor Man kan reformulere (69) på den måde at X i har tæthed f (π1,,π N )(x) = N j=1 π j 1 (x= j) med hensyn til tællemålet på {1,, N} Dermed har modellen for alle n variable likelihoodfunktion L x1,,x n (π 1,, π N ) = n i=1 N 1 π (xi = j) j = j=1 N y π j j, j=1

19 64 Glatte hypoteser i en polynomialfordeling 187 hvor (y 1,, y N ) er tabelleringen af x i erne, altså n y 1 = 1 (xi =1),, y N = i=1 n 1 (xi =N) (610) Bemærk at vi ville få præcis den samme likelihoodfunktion frem på nær en multiplikativ faktor (en polynomialkoefficient) hvis vores model baserede sig på det faktum at (Y 1,, Y N ) følger en polynomialfordeling Vi taler derfor om den simple polynomialfordelingsmodel Vanskeligheden med denne model er at den naturlige parametermængde i=1 Π N = {(π 1,, π N ) π j > 0 for alle j, N π j = 1} ikke er en åben delmængde af R N, men essentielt en delmængde af dimension N 1 Det er dermed ikke umiddelbart meningsfuldt at forsøge med den sædvanlige procedure for maksimalisering, hvor man leder efter stationære punkter I forsøget på at løse dette problem, kan vi uden ekstra besvær samtidigt løse estimationsproblemet i en række delmodeller af den fulde polynomialfordelingsmodel: j=1 Definition 65 En glat hypotese i polynomialfordelingsmodellen består af en parametermængde Θ, der er en åben delmængde af R k for et k < N, og en C 2 -afbildning π : Θ Π N Hvis π er injektiv, og hvis den afledte Dπ(θ) har rang k i hvert punkt θ Θ, er den glatte hypotese regulært parametriseret Husk at den afledte afbildning Dπ(θ) repræsenteres af N k-matricen π 1 (θ) θ 2 Dπ(θ) = π 1 (θ) θ 1 π 2 (θ) θ 1 π N (θ) θ 1 π 2 (θ) θ 2 π N (θ) θ 2 π 1 (θ) θ k π 2 (θ) θ k π N (θ) θ k For en regulær parametrisering er søjlerne lineært uafhængige for ethvert θ Eksempel 66 Lad Θ N 1 være den (N 1)-dimensionale enhedssimpleks, N 1 Θ N 1 = {(π 1,, π N 1 ) π j > 0 for alle j, π j < 1}, j=1

20 188 Kapitel 6 Maksimaliseringsestimation i praksis og lad π : Θ N 1 Π N være afbildningen N 1 π(π 1,, π N 1 ) = π 1,, π N 1, 1 π j Idet π er er bijektiv, glat afbildning, og idet søjlerne i Dπ(π 1,, π N 1 ) = (611) er lineært uafhængige, ser vi at den simple polynomialfordelingsmodel falder ind under definition 65, og kan opfattes som et specielt eksempel på en regulært parametriseret glat hypotese Likelihoodfunktionen for en glat hypotese i en polynomialfordelingsmodel er N l x1,,x n (θ) = y j log π j (θ), j=1 hvor y j erne er tabelleringen af x i erne som i (610) Dermed er scorefunktionen bestemt ved at π l x1,,x n (θ) N j (θ) θ = y i j for i = 1,, k (612) θ i π j (θ) j=1 Hvis vi opskriver π(θ) som en diagonalmatrix, π 1 (θ) π 2 (θ) 0 δ(θ) =, 0 0 π N (θ) ser vi at (612) er følgende matrixligning, skrevet ned koordinat for koordinat: Dl x1,,x n (θ) = Dπ(θ) T δ(θ) 1 y (613) Her er y samlingen af y j er skrevet op som en søjle Likelihoodligningen for den glatte hypotese er altså Dπ(θ) T δ(θ) 1 y = 0 (614) j=1

21 64 Glatte hypoteser i en polynomialfordeling 189 Differentieres en gang til i (612), fås at 2 l x1,,x n (θ) θ i θ m = N y j j=1 2 π j (θ) θ i θ m π j (θ) π j(θ) π j (θ) θ i θ m π j (θ) 2 (615) For mange glatte hypoteser vil D 2 l X (θ) være positivt definit i alle punkter, og l X (θ) således konveks, om ikke for alle, så dog for mange mulige observationer Men de nøjere detaljer afhænger af den konkrete parametrisering af modellen, og vi vil ikke gå ind på disse detaljer Hvis Y 1,, Y N betegner tabelleringen af de stokastiske variable X 1,, X n, så er E θ Y j = E θ n 1 (Xi = j) = np θ (X 1 = j) = nπ j (θ) i=1 Den (i, m) te koordinat af den forventede informationsmatrix er ( 2 ) l X1,,X i(θ) im = E n (θ) θ = n θ i θ m Hvis vi udnytter at N j=1 π j (θ) = 1 for alle θ, ser vi at N j=1 N 2 π j (θ) θ i θ m π j (θ) π j(θ) π j (θ) θ i θ m π j (θ) j=1 2 π j (θ) θ i θ m = 0 for alle i, m, og dermed er i(θ) im = n N j=1 π j (θ) π j (θ) θ i θ m π j (θ) Disse ligninger kan samles til matrixligningen for alle i, m i(θ) = n Dπ(θ) T δ(θ) 1 Dπ(θ) (616) Vi ser at den forventede information i(θ) er noget nemmere at finde end den observerede information D 2 l X (θ), bla involverer den ikke D 2 π, der er et ret ondskabsfuldt tredimensionalt objekt En vigtig pointe er også at man eksplicit kan se at i(θ) er positivt definit hvis parametriseringen er regulær, og dermed kan den inverteres Når man skal løse likelihoodligningen (614) fører det derfor til de simpleste regninger at anvende Fisher scoring fremfor Newton-Raphson scoring Der er dog ingen garanti

22 190 Kapitel 6 Maksimaliseringsestimation i praksis for at Fisher scoring fører til et fornuftigt resultat - det kan let ske at opdateringen af et initialgæt ligger uden for parametermængden Andre former for divergens er også mulige Eksempel 67 Ser vi på den fulde polynomialfordelingsmodel, parametriseret som i eksempel 66, ser vi at π π δ =, 0 0 π N π hvor π = N 1 j=1 π j Udnytter vi (611) får vi at likelihoodligningen på baggrund af observationerne x 1,, x n, og tilhørende tabelleringer y 1,, y N, er 0 = Dπ T δ 1 y = Et hermed ækvivalent ligningssystem er y 1 π 1 y N 1 π y 2 π 2 y N 1 π y N 1 π N 1 y N 1 π y 1 π 1 = y 2 π 2 = = y N 1 π N 1 = y N 1 π (617) Dette ligningssystem kan kun løses hvis alle y j erne er positive I påkommende tilfælde ser vi let at (617) har en og kun en løsning, nemlig ˆπ 1 = y 1 n,, ˆπ N 1 = y N 1 n (618) For denne specielle model bemærker vi at D 2 π = 0 Dermed kan (615) skrives som en matrixligning y 1 0 D 2 l x1,,x n = Dπ T (δ 1 ) T δ 1 Dπ 0 y N Eftersom såvel Dπ som δ har fuld rang, følger det heraf at D 2 l x1,,x n er positivt definit hvis alle y j erne er positive, og i så fald er l x1,,x n strengt konveks Ifølge sætning 63 har vi således vist at hvis alle y j erne er positive, så er (618) den entydigt

23 64 Glatte hypoteser i en polynomialfordeling 191 bestemte maksimaliseringsestimator Hvis et eller flere af y j erne er nul, findes maksimaliseringsestimatoren ikke Men (618) giver naturligvis stadig mening, dog vil (ˆπ 1,, ˆπ N 1 ) ligge udenfor parametermængden Θ N 1 I denne specielle glatte hypotese kan vi eksplicit finde fordelingen af maksimaliseringsestimatoren - det er i almindelighed ikke muligt Men vi kan udnytte at (Y 1,, Y N ) er polynomialfordelt med længde N, og sandsynlighedsparameter (π 1,, π N 1, 1 π ), og vi kan tænke på denne vektor som bygget op af en sum af uafhængige, identisk fordelte variable, der hver især er polynomialfordelte med længde 1 En direkte reference til CLT giver derfor at den asymptotiske fordeling af maksimaliseringsestimatoren er π 1 (1 π 1 ) π 1 π 2 π 1 π N 1 π 1 N π 2 π N 1, 1 n π 1 π 2 π 2 (1 π 2 ) π 2 π N 1 π 1 π N 1 π 2 π N 1 π N 1 (1 π N 1 ) Udfra (616) kan man endvidere vise at den forventede information er 1 π π 1 π 1 π π π π 1 π i(π 1,, π N 1 ) = n π 1 π π N π Med tilstrækkelig ihærdighed kan denne informationsmatrix inverteres, og resultatet bliver netop variansen i den asymptotiske normalfordeling På denne måde kan man bekræfte at sætning 520 også gælder i denne model Der findes andre metoder at til at vise at (618) er maksimaliseringsestimatoren for den fulde polynomialfordelingsmodel, og det er ikke klart at den her anførte måde er den nemmeste Men det udførte arbejde løser uden ekstra komplikationer en lang række andre modeller, især fra genetikken Nedarvelsen af egenskaber beskrives ofte i form af gener I moderne molekylærbiologi har ordet gen en meget håndfast betydning, som en delstreng af et DNA molekyle, der koder for et protein Men vi vil benytte ordet i dets oprindelige betydning

24 192 Kapitel 6 Maksimaliseringsestimation i praksis som en egenskab der nedarves ifølge Mendels love, uden at tænke på om der er en specifik materiel basis for den pågældende egenskab (genetikere bruger ordet i snart den ene, snart den anden af disse betydninger) Klassiske eksempler er menneskers øjenfarve og bønneformen for visse ærteplanter Disse gener forekommer i forskellige alleler, hvilket blot er en måde at sige at ikke alle individer har de samme egenskaber Typisk er der to alleler, men der kan være flere Det enkelte individ har en dobbelt forsyning af hvert gen, en kopi fra hver af forældrene Ved parringen udtrækkes fra hver af forældrene et af dets to kopier af genet, og det udtrukne gen gives videre til afkommet Afkommet får således en tilfældig af forældrenes fire mulige kombinationer De fleste gener har som sagt to alleler, hvoraf det ene er dominant og det andet er recessivt Har individet en dobbelt dosis af det recessive allel, får individet en bestemt fænotype (en synlig egenskab), har individet begge alleler eller en dobbelt dosis af det dominante allel fås en anden fænotype Vi bruger normalt store bogstaver til at betegne dominante alleler og små bogstaver til at betegne recessive alleler Individets faktiske beholdning af alleler omtales som dets genotype For et sædvanligt gen A har vi således følgende oversættelse mellem geno- og fænotyper: Genotype aa Aa AA Fænotype a A A For visse gener er der to ligeligt dominante alleler, hvilket betyder at man kan se forskel på genotyperne Aa og AA I så fald svarer geno- og fænotyper til hinanden Den centrale mendelske egenskab ved generne er at den allel som en forælder afgiver til sit afkom er tilfældigt valgt blandt de to mulige Kombineres det med en antagelse om tilfældig parring blandt individerne i en population, kan man tænke på populationen som én stor genbank Sandsynligheden for at et nyt individ får en bestemt fænotype, reflekterer da udelukkende de forskellige allelers frekvens i genbanken Denne tilstand kaldes Hardy-Weinberg ligevægt Hvis populationen er stor, kan man vise at disse frekvenser ikke ændres fra generation til generation Til gengæld kan man konstatere at frekvenserne ofte varierer stærkt mellem adskilte populationer Man bruger derfor disse frekvenser til for eksempel at udtale sig om hvilke populationer der er tæt beslægtede, og hvilke der kun er fjernt beslægtede Eksempel 68 Det simpleste situation opstår med et gen med to alleler, et dominant allel A og et recessivt allel a Lad p være populationsfrekvensen af det recessive

25 64 Glatte hypoteser i en polynomialfordeling 193 allel Hvis vi antager at populationen er i Hardy-Weinberg ligevægt, har vi følgende sandsynligheder for de forskellige genotyper: Genotype aa Aa AA Sandsynlighed p 2 2p(1 p) (1 p) 2 Og det fører naturligt til en lignende tabel for de forskellige fænotyper: Fænotype a A Sandsynlighed p 2 1 p 2 Hvis vi observerer n individer fra populationen, og lader Y 1 og Y 2 betegne antallet af observerede individer af fænotype a hhv A, så har vi nu opstillet en model for (Y 1, Y 2 ), og denne model er en glat hypotese i en polynomialfordeling Der er ikke nogen grund til at behandle modellen på den måde, det er nemmere at sige at modellen er en reparametrisering af den simple møntkastmodel, og derfor er maksimaliseringsestimatoren Y1 ˆp = n (619) Men det kan lade sig gøre at finde ˆp ud fra (613), (615) og (616) Eksempel 69 Et lidt mere kompliceret eksempel på en glat hypotese opstår hvis to alleler er ligeligt dominante I så fald svarer sandsynlighedstabellen for fænotyperne til sandsynlighedstabellen for genotyperne Hvis vi blandt n individer observerer Y 1, Y 2 og Y 3 individer af fænotype aa, Aa og AA, så kan vi opstille den glatte hypotese med følgende parametrisering: π(p) = p 2 2p(1 p) (1 p) 2 Idet modellen er etdimensional, er den ikke frygteligt kompliceret, og man kan fint komme analysere modellen med håndkraft Men det er en udmærket øvelse at bruge

26 194 Kapitel 6 Maksimaliseringsestimation i praksis teorien for glatte hypoteser i polynomialfordelinger til at vise at maksimaliseringsestimatoren er ˆp = 2Y 1 + Y 2 2n Eksempel 610 Blodtyper, klassificeret et AB0-systemet, er usædvanligt derved at der er tre alleler, kaldet A, B og 0 (nul) Mens 0 er recessivt, er A og B ligeligt dominante Der er seks genotyper, og de giver anledning til fire fænotyper: Genotype 00 A0 AA B0 BB AB Fænotype 0 A A B B AB Den dobbelt dominante form AB er forholdsvis sjælden Ved en undersøgelse af 1266 danskere har man bestemt deres blodtype og fået følgende resultat Fænotype 0 A B AB I alt Antal Lad Y 1, Y 2, Y 3 og Y 4 være antallet af personer med blodtype 0, A, B og AB, og sæt n = Y 1 + Y 2 + Y 3 + Y 4 Lad p være frekvensen af A-allelen i populationen, og q frekvensen af B-allelen I så fald har de fire fænotyper følgende sandsynlighed: Fænotype 0 A B AB Sandsyn (1 p q) 2 p 2 + 2p(1 p q) q 2 + 2q(1 p q) 2pq Den naturlige model for (Y 1, Y 2, Y 3, Y 4 ) er derfor en glat hypotese i en polynomialfordeling, givet ved parametriseringen ( p π q ) = (1 p q) 2 p(2 p 2q) q(2 q 2p) 2 2pq og med parametermængde {(p, q) R 2 0 < p, 0 < q, p + q < 1}

27 64 Glatte hypoteser i en polynomialfordeling 195 Dette eksempel er så kompliceret at vi ikke kan finde eksplicitte udtryk for maksimaliseringsestimatoren Men vi kan uden problemer rigge en Fisherscoringsalgoritme op Vi ser at Dπ = 2(1 p q) 2(1 p q) 2(1 p q) 2p 2q 2(1 p q) 2q 2p og det er nu en smal sag at skrive et program der sætter (613) og (616) ind i scoringsalgoritmen (66) Det eneste rigtigt problematiske er at finde et godt startgæt En godt gæt på p kan man opnå ved fiktivt at lade som om A dominerer B og endvidere lade som om B og 0 er uskelnelige I så fald har vi et dominant A allel med populationsfrekvens p og et recessivt B0 allel med populationsfrekvens 1 p Bruger vi (619) ser vi at et initialt gæt på p er Y1 + Y 3 p 1 = 1 = 0271 n Tilsvarende kan vi opnå et initialt gæt på q ved at lade som om B dominerer A, og at A og 0 er uskelnelige Det fører til Y1 + Y 2 q 1 = 1 = 0077 n Efter første iteration af scoringsalgoritmen fås ( ) ( ) p =, q 2, og efter endnu en runde fås ( p3 q 3 ) = ( ) Nu har vi ramt maksimaliseringsestimatoren med seks decimalers nøjagtighed, efter blot to iterationer At det går så hurtigt skyldes scoringsalgoritmens kvaliteter, men naturligvis også kvaliteten af det indledende gæt For de observationer vi studerer her, kan man vise at loglikelihoodfunktionen l er konveks, så det er maksimaliseringsestimatoren vi har fundet Men parametriseringen af modellen er ikke på eksponentiel form, og for uheldige observationer er loglikelihoodfunktionen ikke konveks

28 196 Kapitel 6 Maksimaliseringsestimation i praksis 65 Opgaver OPGAVE 61 Lad µ være et σ-endeligt mål på at målbart rum (X, E), og lad t : X R være en målelig afbildning Ud fra de to ingredienser µ og t, kan vi definere c(θ) = e t(x) θ dµ(x) for θ R Umiddelbart må man gå ud fra at c(θ) = for visse θ er For at undgå degenerationer, vil vi i det følgende lade Θ R være et åbent interval, hvorpå c(θ) er endelig Vi antager selvfølgelig at Θ, hvilket udelukker visse patologiske kombinationer af µ og t For at undgå yderligere et par patologier, antager vi at billedmålet t(µ) har støtte i mere end ét punkt SPGM 61(a) Vis at c er C på Θ, og at c (k) (θ) = t(x) k e t(x) θ dµ(x) for alle k N, θ Θ En etdimensional eksponentiel familie er en statistisk model (ν θ ) θ Θ på (X, E) af følgende form: 1 ν θ (A) = c(θ) et(x) θ dµ(x) for A E, θ Θ (620) A Brugt på denne måde, kaldes µ for familiens strukturmål, og t kaldes den kanoniske stikprøvefunktion En lang række af de almindeligt forekommende statistiske fordelinger er i virkeligheden eksponentielle familier - de er blot blevet parametriseret på en måde, så man ikke umiddelbart kan få øje på formen (620) SPGM 61(b) Reparametriser følgende statistiske modeller på R, så det klart fremgår at de er eksponentielle familier, og identificer strukturmål og kanonisk stikprøvefunktion: Eksponentialfordelinger med ukendt middelværdi Poissonfordelinger med ukendt formparameter Γ-fordeling med ukendt formparameter, men kendt skalaparameter Normalfordeling med ukendt middelværdi, men kendt varians Normalfordeling med ukendt varians, men kendt middelværdi

29 65 Opgaver 197 SPGM 61(c) Lad X være en stokastiske variabel med værdier i (X, E), og lad den eksponentielle familie fra (620) være en statistisk model for fordelingen af X Gør rede for at t(x) har momenter af enhver orden Man bruger gerne notationen τ(θ) = E θ t(x), κ(θ) = V θ t(x) Vis at τ(θ) = d log c(θ), dθ Vis at κ(θ) > 0 for alle θ d2 κ(θ) = log c(θ) dθ2 SPGM 61(d) Lad Y 1, Y 2, være uafhængige, identisk fordelte observationer fra en etdimensional eksponentiel familie Opskriv loglikelihoodfunktionen for de første n observationer, og vis at loglikelihoodfunktionen er strengt konveks OPGAVE 62 Enhver funktion f : R R giver anledning til en algoritme af formen x n+1 = f (x n ) for n = 1, 2,, hvor man følger et startpunkt x 0 rundt, mens f virker på det Når man bruger f på denne måde, taler man om et dynamisk system, og sekvensen af x er kaldes banen for x 0 Vi siger at punktet y er et fikspunkt for det dynamiske system, hvis f (y) = y SPGM 62(a) Antag at f er C 1, at y er et fikspunkt og at f (y) < 1 Vis at der findes et ɛ > 0 og et λ (0, 1) sådan at f (z) f (y) λ z y hvis z y < ɛ Vis at hvis x 0 ligger tilstrækkeligt tæt ved y, så vil x n y λ n x 0 y for alle n Forklar hvorfor y kaldes et attraktivt fikspunkt for det dynamiske system SPGM 62(b) Antag at f er C 2, at y er et fikspunkt og at f (y) = 0

30 198 Kapitel 6 Maksimaliseringsestimation i praksis Vis at der findes et ɛ > 0 og et C > 0 sådan at f (z) f (y) C z y 2 hvis z y < ɛ Vis - ved eventuelt at vælge et mindre ɛ - at f (z) f (y) z y 3/2 hvis z y < ɛ Konkluder at hvis x 0 ligger tilstrækkeligt tæt ved y, så vil x n y x 0 y (3/2)n for alle n Forklar hvorfor y kaldes et superattraktivt fikspunkt for det dynamiske system SPGM 62(c) Lad g være en C 3 -funktion, og sæt f (x) = x g (x) g (x) Det dynamiske system ud fra f svarer til Newton-Raphson algoritmen anvendt på g Vis at hvis y er et ikke-degenereret stationært punkt for g (altså hvis g (y) = 0, g (y) 0), så er y et superattraktivt fikspunkt for f OPGAVE 63 Betragt funktionen φ(x) = e x2, x R Denne funktion har ét stationært punkt, nemlig 0 Newton-Raphson algoritmen kan benyttes til at søge efter dette stationære punkt, men forsøget krones ikke altid med held Algoritmen er x n+1 = x n α φ (x n ) φ (x n ) hvor man starter med et initialgæt x 0 og hvor α (0, 1] Hvis man bruger α = 1, benytter man algoritmens grundform SPGM 63(a) Lad α = 1 Undersøg for alle valg af x 0 om x 1 ligger tættere på det stationære punkt end x 0 selv SPGM 63(b) Lad α = 1 Find A, bestående af de initialgæt x 0 der får algoritmen til at konvergere mod 0 Hvordan opfører algoritmen sig hvis x 0 A?

31 65 Opgaver 199 SPGM 63(c) Find for et generelt α (0, 1] mængden A(α), bestående af de initialgæt x 0 der får algoritmen til at konvergere mod 0 SPGM 63(d) Hvad sker der med A(α) for α 0? OPGAVE 64 Antag at f er defineret på hele R og er strengt konveks, Antag endvidere at f har et stationært punkt (der nødvendigvis må være det globale minimum) Er det rigtigt at Newton-Raphson algoritmen altid vil finde dette minimum? OPGAVE 65 Gennemfør analysen af eksempel 68 som glat hypotese i en polynomialfordeling OPGAVE 66 Gennemfør analysen af eksempel 69 som glat hypotese i en polynomialfordeling

32 200 Kapitel 6 Maksimaliseringsestimation i praksis

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

Statistik 1TS 2003 Obligatorisk opgave 1

Statistik 1TS 2003 Obligatorisk opgave 1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave 3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Trykfejlsliste - alle fejl Introduktion til matematisk statistik

Trykfejlsliste - alle fejl Introduktion til matematisk statistik 29. juni 2004 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til matematisk statistik Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i noterne indtil nu. 4 5 Forkert:

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås

5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås 5.3. Konvergens i sandsynlighed 55 BEVIS: Lad φ 1, φ 2,... og φ være de karakteristiske funktioner for X 1, X 2,... og X. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås φ X,v

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Områdeestimation. Kapitel 7

Områdeestimation. Kapitel 7 Kapitel 7 Områdeestimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi

Læs mere

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive

Læs mere

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag. Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20. Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Note om interior point metoder

Note om interior point metoder MØK 2016, Operationsanalyse Interior point algoritmer, side 1 Note om interior point metoder Som det er nævnt i bogen, var simplex-metoden til løsning af LP-algoritmer nærmest enerådende i de første 50

Læs mere

Estimation. Kapitel 4

Estimation. Kapitel 4 Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Mat H /05 Note 2 10/11-04 Gerd Grubb

Mat H /05 Note 2 10/11-04 Gerd Grubb Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P = Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål µ på (X, E), således at ν µ for alle ν P, så siges modellen at være! domineret af µ. Hvis modellen

Læs mere

Trykfejlsliste - alle fejl Asymptotisk teori

Trykfejlsliste - alle fejl Asymptotisk teori 9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle

Læs mere

Statistik 1TS 2005 Obligatorisk opgave 1

Statistik 1TS 2005 Obligatorisk opgave 1 9. marts 2005 Stat 1TS / EH Statistik 1TS 2005 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles onsdag d. 9. marts 2005. Rapporten skal afleveres til mig personligt. Afleveringsfristen er tirsdag

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Module 1: Lineære modeller og lineær algebra

Module 1: Lineære modeller og lineær algebra Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Eksperimentel matematik Kommentarer til tag-med opgaver

Eksperimentel matematik Kommentarer til tag-med opgaver Eksperimentel matematik Kommentarer til tag-med opgaver Hypotesedannelse I har alle produceret grafer af typen 0.8 0.6 0.4 0.2 0 0. 0.2 0.3 0.4 0.5 (de lilla punkter er fundet ved en strenglængde på 35,

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Newton-Raphsons metode

Newton-Raphsons metode Newton-Raphsons metode af John V. Petersen Indhold Indledning: Numerisk analyse og Newton-Raphsons metode... 2 Udlede Newtons iterations formel... 2 Sætning 1 Newtons metode... 4 Eksempel 1 konvergens...

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Gult Foredrag Om Net

Gult Foredrag Om Net Gult Foredrag Om Net University of Aarhus Århus 8 th March, 2010 Introduktion I: Fra Metriske til Topologiske Rum Et metrisk rum er en mængde udstyret med en afstandsfunktion. Afstandsfunktionen bruges

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Betingning med en uafhængig variabel

Betingning med en uafhængig variabel Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

standard normalfordelingen på R 2.

standard normalfordelingen på R 2. Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet

Læs mere