Introduktion til Statistik

Relaterede dokumenter
Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Estimation ved momentmetoden. Estimation af middelværdiparameter

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

antal gange krone sker i første n kast = n

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

9. Binomialfordelingen

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Motivation. En tegning

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Asymptotisk optimalitet af MLE

Program. Middelværdi af Y = t(x ) Transformationssætningen

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Løsninger til kapitel 7

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Hovedpointer fra SaSt

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Elementær Matematik. Polynomier

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Generelle lineære modeller

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Diskrete og kontinuerte stokastiske variable

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Den flerdimensionale normalfordeling

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Stikprøvefordelinger og konfidensintervaller

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Maja Tarp AARHUS UNIVERSITET

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Asymptotisk estimationsteori

Modul 14: Goodness-of-fit test og krydstabelanalyse

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Projekt 9.10 St. Petersborg paradokset

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Statistiske Modeller 1: Notat 1

Konfidens intervaller

x-klasserne Gammel Hellerup Gymnasium

Sandsynlighedsregning

Morten Frydenberg version dato:

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Vejledende opgavebesvarelser

Susanne Ditlevsen Institut for Matematiske Fag susanne

STATISTIKNOTER Simple normalfordelingsmodeller

Analyse 1, Prøve maj 2009

Projekt 1.3 Brydningsloven

Vejledende besvarelser til opgaver i kapitel 15

Sandsynlighedsregning i biologi

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

og Fermats lille sætning

Kvantitative metoder 2

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Renteformlen. Erik Vestergaard

Sammenligning af to grupper

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

STATISTISKE GRUNDBEGREBER

Sammensatte hypoteser i en polynomialfordeling

Talfølger og -rækker

DATV: Introduktion til optimering og operationsanalyse, Følsomhed af Knapsack Problemet

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Sandsynlighedsteori 1.2 og 2 Uge 5.

STATISTISKE GRUNDBEGREBER

Teoretisk Statistik, 9. februar Beskrivende statistik

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN

Eksempel 10.1 En autoregressiv proces af orden 1 (ofte blot kaldet en AR(1)- proces) pårhar et opdateringsskema (10.1) med funktionen. for y R.

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros

Georg Mohr Konkurrencen Noter om uligheder. Søren Galatius Smith

Undersøgelse af numeriske modeller

Branchevejledning. ulykker indenfor. godschauffør. området. Branchearbejdsmiljørådet for transport og engros

De reelle tal. Morten Grud Rasmussen 5. november Se Sætning 3.6 og 3.7 for forskellige formuleringer af egenskaben og dens negation.

Supplerende noter II til MM04

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal

NOTAT Det daglige arbejde med blisterpakninger

cos(t), v(t) = , w(t) = e t, z(t) = e t.

Uge 40 I Teoretisk Statistik, 30. september 2003

Transkript:

Itroduktio til Statistik 4. udgave Susae Ditlevse og Helle Sørese

Susae Ditlevse, susae@math.ku.dk Helle Sørese, helle@math.ku.dk Istitut for Matematiske Fag Købehavs Uiversitet Uiversitetsparke 5 2100 Købehav Ø 4. udgave, oktober 2015 Copyright Susae Ditlevse og Helle Sørese ISBN 978-87-7078-954-7

Forord Dette otesæt er udarbejdet med heblik på statistikdele af kurset Sadsylighedsregig og Statistik (SS) på Købehavs Uiversitet. Der hevises mage steder til MS, dvs. Michael Søreses bog E Itroduktio til Sadsylighedsregig (Sørese, 2011) der bruges på sadsylighedsregigsdele af kurset. Sidehevisiger mm. er til 12. udgave. Notesættet er ispireret af Ige Heigses oter til tidligere kurser (Heigse, 2006a,b). Ememæssigt afviger de fra Iges oter ved at æste alt vedrørede modeller på diskrete udfaldsrum er skåret væk. Vi har også ladet os ispirere af bøgere Basal Biostatistik (del I og II) som tidligere blev beyttet på Det Biovideskabelige Fakultet på Købehavs Uiversitet (Skovgaard et al., 1999; Skovgaard, 2004) og af boge Itroductio to Statistical Data Aalysis for the Life Scieces (Ekstrøm ad Sørese, 2010). Notesættet omhadler ku e lille klasse af modeller, emlig e simpel biomialfordeligsmodel, ormalfordeligsmodeller for e ekelt eller to stikprøver samt lieær regressio. Givet de mægde sadsylighedsregig vi har til rådighed fra sadsylighedsregigsdele, er de ødvedige matematik ikke svær, me det betyder ikke ødvedigvis at stoffet er let. Vores erfarig er at statistikbegrebere er svære at få id uder hude, og vi gør derfor et stort ummer ud af forsøge at forklare meige med og betydige af de idførte begreber. Alle kapitler påær kapitel 2 ideholder et afsit hvor vi viser hvorda R ka bruges til at udføre aalysere. For at få udbytte af disse afsit er det ødvedigt med et basalt kedskab til R, specielt hvorda ma idlæser data. Der fides e kort itroduktio til R på Absaloside for kurset Sadsylighedsregig og Statistik. Filer med data som bruges i eksempler eller opgaver fides samme sted. Opgaver der kræver brug af R er mærket med symbolet. I forhold til første udgave af boge har vi i ade udgave tilføjet kapitel 6, afsit

4 om R, opgaver, og desude foretaget midre rettelser. I tredje udgave er ekelte beviser delvis omskrevet, og der er foretaget midre rettelser. I fjerde udgave er der hovedsageligt lavet ædriger i kapitel 6, hvor otatio og ogle af bevisere er ædret, delvis efter oplæg fra vores kollega Erst Hase. Derudover er der ædret lidt på otatioe vedr. SSD-størrelser, layoutet er ædret e smule, og der er foretaget adre midre ædriger. Købehav, oktober 2015 Susae Ditlevse, Helle Sørese

Idhold Forord 3 1 Biomialfordelige 9 1.1 Statistisk model............................ 10 1.2 Maksimum likelihood estimatio................... 12 1.3 Modeller med edeligt udfaldsrum.................. 18 1.4 Sammefatig og perspektiv.................... 21 1.5 R.................................... 21 1.6 Opgaver................................ 22 2 Normalfordeligsmodeller 27 3 E stikprøve med kedt varias 31 3.1 Statistisk model............................ 31 3.2 Maksimum likelihood estimatio................... 33 3.3 Kofidesiterval for middelværdie................. 36 3.4 Test af hypotese om middelværdie................. 40 3.5 Sammefatig og perspektiv.................... 48 3.6 R.................................... 49 3.7 Opgaver................................ 51

6 INDHOLD 4 E stikprøve med ukedt varias 55 4.1 Statistisk model............................ 55 4.2 Maksimum likelihood estimatio................... 56 4.3 Kofidesiterval for middelværdie................. 60 4.4 Test af hypotese om middelværdie................. 62 4.5 Kotrol af ormalfordeligsatagelse................ 67 4.6 Sammefatig og perspektiv.................... 71 4.7 R.................................... 72 4.8 Opgaver................................ 76 5 To stikprøver 81 5.1 Statistisk model............................ 81 5.2 Maksimum likelihood estimatio................... 83 5.3 Kofidesitervaller.......................... 86 5.4 Hypotesetest.............................. 89 5.5 Modelkotrol............................. 94 5.6 Eksempel: Eergiforbrug....................... 96 5.7 Sammefatig og perspektiv.................... 100 5.8 R.................................... 101 5.9 Opgaver................................ 103 6 Lieær regressio 111 6.1 Statistisk model............................ 112 6.2 Maksimum likelihood estimatio................... 114 6.3 Kofidesitervaller.......................... 120 6.4 Hypotesetest.............................. 122 6.5 Regressiosliie og prædiktio................... 126 6.6 Residualer og modelkotrol...................... 130

INDHOLD 7 6.7 Eksempel: CAPM........................... 134 6.8 Sammefatig og perspektiv.................... 142 6.9 R.................................... 143 6.10 Opgaver................................ 146 Referecer 153 Ideks 153

8 INDHOLD

Kapitel 1 Biomialfordelige I mage sammehæge er ma iteresseret i hyppighede for et givet fæome, og ma vil så idsamle data der ideholder iformatio om dee hyppighed. Atag for eksempel at ma er iteresseret i risikoe for e give bivirkig (hovedpie) af et medicisk præparat. Hvis ma giver 100 patieter medicie og udersøger hvor mage der får hovedpie (passede ofte og passede kraftigt), så vil adele af patieter med hovedpie sige oget om dee risiko. Eller atag at ma vil udersøge e persos eve til at smage forskel på Coca-cola og Pepsi. Persoe får serveret to glas cola, et af hver slags, og skal så efter smagig udpege hvilket glas der ideholder Pepsi. Eksperimetet getages 10 gage, og de relative hyppighed af gage hvor persoe svarer korrekt ideholder iformatio om hvorvidt persoe ka smage forskel. Det er ikke svært at berege relative hyppigheder problemet er hvor meget vi ka stole på dem. Hvis vi udførte eksperimetet på y (med 100 ye patieter, eller med 10 ye smagstest), så ville vi æppe få præcis det samme resultat, så hvor pålidelige er de relative hyppigheder bereget fra de data der u egag er til rådighed? E vigtig poite med e statistisk aalyse er etop at de beskriver usikkerhede i de opåede resultater! Eksperimetere ovefor ka beskrives ved hjælp af biomialfordelige, og vi skal i dette kapitel itroducere de statistiske begreber statistisk model, likelihoodfuktio og estimator for e simpel biomialfordeligsmodel. Matematisk set er det gaske simpelt. Det vaskelige ligger sarere i at forstå selve begrebere og hvad de skal gøre godt for. Hovedformålet med dette kapitel er etop at give et idtryk af dette.

10 Biomialfordelige 1.1 Statistisk model E statistisk model skal bruges til at beskrive de usikkerhed der er forbudet med data. Modelle specificeres ved at agive udfaldsrummet samt de fordeliger som med rimelighed ka atages at have frembragt data. Vi vil i dette afsit opstille e simpel statistisk model baseret på biomialfordelige. Lad os atage at vores observatio (eller data) x er atallet af gage e give hædelse er idtruffet i uafhægige getagelser af samme forsøg. Sadsylighede p for at hædelse idtræffer er de samme i hvert forsøg. Forsøget ka være et smagsforsøg hvor de iteressate hædelse er om persoe ka udpege glasset med Pepsi, og p er sadsylighede for at dette sker. Eller forsøget ka være medicierig af e patiet hvor de iteressate hædelse er om patiete får hovedpiebivirkiger, og p er sadsylighede for at dette er tilfældet for e tilfældig patiet. Dette ka formaliseres ved hjælp af biomialfordelige (MS, afsit 3.2) idet vi ka tæke på observatioe x som e realisatio af e stokastisk variabel X der er biomialfordelt med atalsparameter og sadsylighedsparameter p. Udfaldsrummet for X er E = {0,1,...,}. Atalsparametere er et kedt tal (atallet af getagelser), me sadsylighedsparametere p er ukedt. Det eeste vi ved, er at de ligger i itervallet [0,1]. For ethvert p [0,1] er der e tilhørede fordelig, og de statistiske model består af udfaldsrummet for X samt dee samlig eller familie af fordeliger, altså alle biomialfordeliger med atalsparameter. Sadsylighedsparametere p er som sagt ikke et kedt tal. Vi siger at p er e ukedt parameter som skal estimeres fra data. Det vil vi gøre i æste afsit. Mægde af mulige værdier for parametere kaldes parametermægde og beæves Θ. Hvis der ikke er yderligere restriktioer på p så er p Θ = [0,1], me Θ ka også være e midre delmægde af [0,1]. Formelt ka vi specificere de statistiske model ved at agive udfaldsrummet samt familie af fordeliger, beteget P. Alterativt ka vi bruge e formulerig der ivolverer de stokastiske variabel X. Hvis vi bruger otatioe bi(, p) for biomialfordelige med parametre og p har vi altså følgede defiitio. Defiitio 1.1. Modelle for e ekelt biomialfordelt observatio består af udfaldsrummet E = {0,1,...,} samt familie P = {bi(, p) : p Θ} hvor Θ [0, 1]. Alterativ formulerig: Lad X være e stokastisk variabel med udfaldsrum {0,1,...,}, og atag at X bi(, p) hvor p Θ.

1.1 Statistisk model 11 Type af fordelig, de ekelte fordeliger i modelle og de ukedte parameter formaliserer forskellige aspekter af vores vide/uvidehed om det (videskabelige) problem som data skal belyse. Vi ka fortolke igrediesere på følgede måde: Valget af fordeligstype formaliserer vores forhådsvide eller forhådsatagelser. I situatioe med uafhægige getagelser af et forsøg med to udfald er biomialfordelige det aturlige valg. De ekelte fordeliger formaliserer de usikkerhed der er forbudet med observatioere. Mere specifikt: for e fast værdi af p agiver sadsylighedsfuktioe for bi(, p) fordelige af X: ( ) P(X = x) = f p (x) = p x (1 p) x, x = 0,1,...,. x Bemærk fodteget på f der uderstreger at sadsylighedsfuktioe afhæger af p. Mægde af sadsylighedsfordeliger specificeret ved mægde af mulige parametre i modelle formaliserer de uvidehed vi har om de mekaismer der har frembragt observatioere. Vi ved ikke hvilke værdi af p der ka atages at have frembragt x. Det er ikke ødvedigvis altid rimeligt at bruge hele [0, 1] som parametermægde. I eksemplet med smagsteste er det svært at fortolke sadsyligheder der er midre ed 1/2 det svarer til at persoe vælger det korrekte glas sjældere ed hvis ha gætter så ma ka hævde at de aturlige parametermægde er Θ = [1/2, 1]. Dette vil vi dog ikke gøre mere ud af i det følgede. I situatioe med uafhægige getagelser af samme forsøg virkede det oplagt at bruge biomialfordelige, me ormalt er det e vaskelig sag at vælge e statistisk model. Hvis getagelsere ikke er uafhægige for eksempel fordi forsøgspersoe ikke skyller mude mellem smagstestee, eller fordi ogle af patietere er i familie og dermed har fælles geer, så er atallet ikke biomialfordelt. Tilsvarede hvis sadsylighede ikke er de samme i de ekelte getagelser, for eksempel fordi der ka være forskel på mæds og kviders tedes til hovedpie. I virkelighede tror vi ikke ødvedigvis at alle forudsætigere der ligger til grud for e give model, er opfyldt. Vi bruger sarere modelle som e approksimatio til virkelighede fordi vi meer at de giver e god beskrivelse af usikkerhede i data og samtidig beskriver vores magel på fuldstædig vide. Det skal selvfølgelig

12 Biomialfordelige udersøges ærmere om modelle giver e rimelig beskrivelse af data fordi koklusioere resultatere af de statistiske aalyse afhæger kritisk af forudsætigere i modelle. 1.2 Maksimum likelihood estimatio Hvis X bi(, p) for et givet p så beskriver sadsylighedsfuktioe ( ) f p (x) = P(X = x) = p x (1 p) x, x = 0,1,..., (1.1) x sadsylighedere for de mulige udfald af X: hvis sadsylighedsparametere er p så er sadsylighede for at observere x som agivet. Det er såda vi tæker år vi laver sadsylighedsregig. Vores situatio er imidlertid de modsatte: vi har e observatio x, me keder ikke sadsylighedsparametere p. Udfra observatioe øsker vi at estimere parametere p. Det betyder løst sagt at fide de værdi af p der passer bedst muligt med observatioe x. Det ka jo betyde hvad som helst og skal præciseres ærmere: som estimat vil vi bruge de værdi af p der gør det mest sadsyligt at observere etop de værdi af X som vi har observeret. Takegage er altså at berege f p (x) = P(X = x) for de observerede værdi x for alle mulige værdier af p og så vælge de værdi af p der giver de største værdi. Dette formaliseres ved hjælp af likelihoodfuktioe. Likelihoodfuktioe er idetisk med sadsylighedsfuktioe bortset fra at de u opfattes som fuktio af p for fast x sarere ed omvedt. Hvis parametermægde er Θ, så er likelihoodfuktioe hørede til observatioe x defieret ved L x : Θ [0,1] ( ) L x (p) = f p (x) = p x (1 p) x, p Θ. x Som estimat for p vil vi bruge de værdi i Θ der gør L x størst mulig, hvor x altså holdes fast i observatiosværdie. Vi søger således e værdi ˆp Θ så L x ( ˆp) L x (p), p Θ, og kalder ˆp for et maksimum likelihood estimat eller et maksimaliserigsestimat for p. Ma bruger også forkortelse MLE. Maksimum likelihood estimatet afhæger af de observerede værdi x og for at uderstrege dette skriver vi sommetider ˆp(x).

1.2 Maksimum likelihood estimatio 13 Maksimum likelihood estimatio er illustreret i vestre side af figur 1.1. Likelihoodfuktioe er teget som fuktio af p for = 20 og x = 7. Det følger af sætige edefor at fuktioe har maksimum for p = 7/20 = 0.35. L(p) 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 p log L(p) 50 40 30 20 10 0 0.0 0.2 0.4 0.6 0.8 1.0 p Figur 1.1: Likelihoodfuktioe (til vestre) og log-likelihoodfuktioe (til højre) som fuktio af p for x = 7 i e biomialfordelig med = 20. Maksimum atages for p = x/ = 0.35. Sætig 1.2. For de statistiske model fra defiitio 1.1 med Θ = [0,1] er maksimum likelihood estimatet for p etydigt bestemt og givet ved ˆp(x) = x/. Bevis Da x er fast, er biomialkoefficiete ude betydig for optimerigsproblemet. Vi defierer derfor fuktioe g : [0,1] R ved g(p) = p x (1 p) x. Bemærk først at hvis x = 0 så har g maksimum for p = 0, og hvis x = så har g maksimum for p = 1. Altså er ˆp(x) = x/ i disse tilfælde. Atag deræst at x {1,..., 1}. Så er g(p) = 0 for p {0,1}, me g(p) > 0 for p (0,1), så e løsig skal søges bladt statioære pukter. Fuktioe h givet ved h(p) = logg(p) = xlog(p) + ( x)log(1 p) er veldefieret på (0,1) og har maksimum samme sted som g da log er stregt voksede. Desude er h to gage kotiuert differetiabel med h (p) = x p x 1 p = x p p(1 p) h (p) = x p 2 x (1 p) 2.

14 Biomialfordelige Specielt er h (p) = 0 hvis og ku hvis p = x/ og h (p) < 0 for alle p (0,1). Således har h og dermed g maksimum for p = x/. Bemærk at vi med det samme fjerede biomialkoefficiete fra optimerigsproblemet: der er ikke oge grud til at slæbe rudt på led der ikke afhæger af parametere p. Bemærk også at vi lavede fuktiosudersøgelse for fuktioe h, defieret som logaritme til likelihoodfuktioe (på ær e kostat), sarere ed likelihoodfuktioe selv. Vi taler også om log-likelihoodfuktioe. De er illustreret i højre side af figur 1.1. Dette trick beyttes ofte, bladt adet fordi produkter derved bliver omsat til summer der er meget emmere at rege med. Resultatet fra sætig 1.2 er ikke særligt overraskede: sadsylighede for at e give hædelse idtræffer skal estimeres ved de relative hyppighed af gage hædelse idtræffer i uafhægige eksperimeter. Det er faktisk svært at forestille sig oge ade estimator for p, me der er alligevel ogle vigtige poiter at otere sig. De vigtigste er fortolkige af ˆp = x/ som realisatioe af de stokastiske variabel ˆp(X) = X/. Dee variabel kaldes maksimum likelihood estimatore. Vi skeler således mellem estimatet x/ som er et tal og estimatore X/ som er e stokastisk variabel og derfor har e fordelig. Da X ka atage værdiere 0,1,..., ka ˆp atage værdiere 0,1/,2/,...,1 og sadsylighedsfuktioe for ˆp er givet ved ( P ˆp = x ) = P(X = x) = ( ) p x (1 p) x, x x = 0,1,...,. Fordelige af ˆp er illustreret i figur 1.2 for = 20, til vestre for p = 0.5 og til højre for p = 0.8. Det er ok emmest at forstå hvad fordelige af ˆp betyder hvis vi forestiller os dataidsamlige for eksempel et smagseksperimet med 20 getagelser getaget mage gage. Hver dataidsamlig giver aledig til e observatio x og dermed et estimat ˆp = x/. Hvis de sade værdi af sadsylighedsparametere er 0.5 vil vi for eksempel i cirka 12% af tilfældee få estimatet 0.6 (vestre side af figur 1.2). Hvis de sade værdi af sadsylighedsparametere derimod er 0.8 vil dette ku ske i cirka 2% af tilfældee (højre side af figur 1.2). E ade måde at udtrykke fordelige af ˆp er ved at sige at ˆp som jo etop er X er biomialfordelt med atalsparameter og sadsylighedsparameter p. Hvis de sade parameter er p således at X bi(, p), følger det af MS, eksempel 3.3.8 og eksempel 3.3.13, at ˆp har middelværdi og varias E( ˆp) = E(X) = p, Var( ˆp) = Var(X) = p(1 p).

1.2 Maksimum likelihood estimatio 15 Sadsylighedsfuktio 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 p^ Sadsylighedsfuktio 0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6 0.8 1.0 p^ Figur 1.2: Sadsylighedsfuktioe for ˆp for = 20. Sadsylighedsparametere er p = 0.5 (til vestre) og p = 0.8 (til højre). Det følger derefter fra MS, sætig 3.3.6 og formel (3.3.9), at ˆp har middelværdi E( ˆp) = E ( ) X = 1 E(X) = 1 p = p (1.2) og varias ( ) X Var( ˆp) = Var = 1 2 Var(X) = 1 p(1 p) p(1 p) =. (1.3) 2 Egeskabe (1.2) udtrykker at middelværdie af maksimum likelihood estimatore er lig de sade værdi, og vi siger at ˆp er e cetral estimator for p. Dette illustreres af figur 1.2 hvor middelværdiere er 0.5 heholdsvis 0.8. At ˆp er cetral betyder løst sagt at estimatore i geemsit rammer de sade værdi, dvs. at geemsittet af estimater fra mage uafhægige forsøg vil ærme sig de sade værdi i passede forstad. Egeskabe (1.3) udtrykker bladt adet at variase af ˆp er aftagede i. Dette giver god meig: flere getagelser giver aledig til større præcisio. Dette er illustreret i figur 1.3 hvor sadsylighedsfuktioe for ˆp er teget for (, p) = (20,0.8) til vestre og (, p) = (50,0.8) til højre. Specielt er p altså es i de to figurer. Fordelige af ˆp er tydeligvis smallere for = 50 ed for = 20. Lad os formulere egeskabere ved fordelige af ˆp i e sætig:

16 Biomialfordelige Sadsylighedsfuktio 0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6 0.8 1.0 p^ Sadsylighedsfuktio 0.00 0.04 0.08 0.12 0.0 0.2 0.4 0.6 0.8 1.0 p^ Figur 1.3: Sadsylighedsfuktioe for ˆp for = 20 (til vestre) og = 50 (til højre). Sadsylighedsparametere er p = 0.8 i begge figurer. Sætig 1.3. Lad ˆp = X/ være maksimum likelihood estimatore for de statistiske model fra defiitio 1.1 med Θ = [0,1]. Så er ˆp biomialfordelt, ˆp bi(, p). Specielt er E( ˆp) = p og Var( ˆp) = p(1 p)/. Der er e ikke ubetydelig hage ved fordeligsresultatet fra sætig 1.3: vi keder ikke de sade værdi af p. Ikke desto midre er vi glade for resultatet: estimatore har e kedt fordelig og er ove i købet cetral med e varias der aftager med atalsparametere. Desude har vi jo et estimat for ˆp og vi ka derfor få et estimat for fordelige ved at idsætte dette estimat: de estimerede fordelig for ˆp er bi(, x/). Bemærk specielt at de estimerede spredig for ˆp er ˆp(1 ˆp)/, jf. (1.3). Vi vil sommetider skrive s( ˆp) for dee estimerede spredig, altså ˆp(1 ˆp) x s( ˆp) = = (1 x ). Eksempel 1.4. (Smagsforsøg) E forsøgsperso får serveret to glas cola (Coca-cola og Pepsi) og bliver bedt om at udpege glasset med Pepsi. Dette getages 20 gage og persoe udvælger det rigtige glas x = 15 gage. Uder passede atagelser overvej selv hvilke er det rimeligt at atage at x er e realisatio af e bi(20, p)- fordelt stokastisk variabel hvor p er sadsylighede for at persoe ka udpege

1.2 Maksimum likelihood estimatio 17 glasset med Pepsi i e tilfældig smagsprøve. Estimatet for p er således ˆp = 15/20 = 0.75, og hvis vi bruger Θ = [0,1] som parametermægde, så er ˆp = X bi(20, p). De estimerede fordelig af ˆp er bi(20,0.75), og ˆp har estimeret spredig s( ˆp) = 0.0968. Bemærk at værdie p = 0.5 svarer til at forsøgspersoe ikke ka smage forskel: ha eller hu gætter, og gætter derfor rigtigt med sadsylighed 0.5 hver gag. Værdier større ed 0.5 svarer derimod til at persoe i e vis udstrækig ka smage forskel. Hvis p = 0.5, så er X bi(20,0.5) og så er sadsylighedsfuktioe for ˆp de som er teget i de vestre del af figur 1.2. Her ka vi se at det er ret usædvaligt at observere værdier af ˆp der er 0.75 eller større, dvs. værdier af X der er 15 eller større. Der er således et vist belæg for at hævde at forsøgspersoe faktisk ka smage forskel. Eksempel 1.5. (Medelsk spaltig) For at udersøge arvelighed udførte Gregor Medel i midte af 1800-tallet e lag række eksperimeter med ærteblomster. I et af forsøgee udersøgte Medel farvefordelige for 1238 såkaldte adegeeratiosfrø (se edefor): 949 var gule og 289 var grøe. Hvis vi atager at hvert af frøee har samme sadsylighed for at blive gult og at ærtefrøee ikke har oget med hiade at gøre, ka vi atage at atallet af gule frø er biomialfordelt med atalsparameter = 1238 og sadsylighedsparameter p. Estimatet for p er dermed ˆp = 949/1238 = 0.767. Estimatores fordelig er givet ved ˆp bi(1238, p), de estimerede fordelig af ˆp er bi(1238,0.767), og ˆp har estimeret spredig s( ˆp) = 0.012. Farve på frøet bestemmes af hvad vi i dag ville kalde et ge. Farvegeet forekommer i to variater: A der er domiat og giver gul farve og a der er recessiv og giver grø farve. I eksperimetet krydsede Medel idivider med geotype AA og idivider med geotype aa. I første geeratio er alle idividere af type Aa og dermed gule. I ade geeratio er geotypere givet ved følgede skema: Køscelle A a A AA Aa a aa aa Hvis de medelske regler for arvelighed gælder, vil forekomste af fæotypere altså ærteres udseede være i forholdet 3:1 mellem gule og grøe idet gul forekommer for kombiatioere AA, Aa og aa, mes grø ku forekommer for kombiatioe aa. Dette svarer til at sadsylighedsparametere i de statistiske model er p = 0.75.

18 Biomialfordelige Hvis de sade værdi af p er 0.75, så er ˆp = X bi(1238,0.75). Vi ka så berege P( ˆp 0.767) = P(X 949) = 0.927 P( ˆp 0.767) = P(X 949) = 0.094 hvilket idikerer at de observerede værdi af ˆp ligger rimeligt cetralt i fordelige. Data er således ikke umiddelbart i modstrid med de medelske regler. Sommetider er ma iteresseret i hvorvidt e specifik værdi af sadsylighedsparametere, p 0, er rimelig eller ej, data taget i betragtig. Som atydet i eksemplere ovefor udersøger ma så hvor ekstremt de observerede værdi af ˆp ligger i fordelige af ˆp hvis sadsylighedsparametere faktisk er p 0. Hvis estimatet ligger ekstremt i fordelige, svarede til at de observerede data er usadsylige, så kokluderer ma at værdie p 0 æppe er de rigtige. Omvedt, hvis estimatet ligger rimeligt cetralt i fordelige kokluderer ma at p 0 ikke ka afvises at være de rigtige. Som tommelfigerregel ka ma sige at værdie p 0 er i god overesstemmelse med data hvis p 0 ligger i itervallet fra ˆp ± 2 s( ˆp). Mere formelt ka ma udføre et hypotesetest. Vi vil ikke sige yderligere om hypotesetest for biomialdata, me veder tilbage til det i kapitel 3. Ide vi gør situatioe lidt mere geerel er det værd at dvæle ved det pricip som vi brugte til at fide ˆp: Maksimum likelihood estimatore ˆp(x) er de værdi af p som maksimerer likelihoodfuktioe, dvs. de værdi af p der gør de observerede værdi x mest sadsylig. Det virker ikke helt tåbeligt. Atag et øjeblik at der ku er to mulige sadsyligheder, for eksempel 0.15 og 0.50, svarede til Θ = {0.15, 0.50}, og at vi har observeret værdie x = 2 i e biomialfordelig med atalsparameter 10. Så er P 0.15 (X = 2) = 0.276; P 0.50 (X = 2) = 0.044 hvor vi har brugt fodteg til at markere værdie af sadsylighedsparametere, og det virker foruftigt at tro mere på at de sade sadsylighed er 0.15 ed 0.50. Det er dee takegag der er geeraliseret til tilfældet hvor p tillades at variere i hele itervallet [0,1]. 1.3 Modeller med edeligt udfaldsrum I dette afsit beskriver vi maksimum likelihood estimatio for statistiske modeller med edeligt udfaldsrum. Biomialfordeligsmodelle fra defiitio 1.1 er et specialtilfælde, og formålet med at se på de mere geerelle klasse af modeller er at uderstrege at maksimum likelihood metode er et geerelt estimatiospricip.

1.3 Modeller med edeligt udfaldsrum 19 Atag at data ka beskrives ved hjælp af e fordelig på e edelig mægde E med e sadsylighedsfuktio som er kedt, bortset fra at de afhæger af e ukedt parameter. Lad os kalde parametere θ og atage at de varierer i parametermægde Θ. Parametere θ ka være flerdimesioal, for eksempel d-dimesioal, således at Θ er e delmægde af R d. For hvert θ Θ har vi altså e sadsylighedsfuktio f θ : E [0,1] hvor f θ (x) er sadsylighede for at observere x hvis parametere er θ. Vi forestiller os u at vi har e observatio x og tæker på x som e realisatio af e stokastisk variabel X med sadsylighedsfuktio f θ. Vi opfatter sadsylighedsfuktioe som fuktio af de ukedte parameter θ, for de observerede værdi x. Dette giver os likelihoodfuktioe, L x : Θ [0,1], L x (θ) = f θ (x), θ Θ, og e maksimum likelihood estimator er e værdi ˆθ Θ der gør L x størst mulig: L x ( ˆθ) L x (θ), θ Θ. Som for biomialfordeligsmodelle vil estimatore ˆθ afhæge af observatioe x. Vi skriver således ˆθ(x) og ka også betragte estimatore ˆθ(X) som e stokastisk variabel og tale om des fordelig. Bemærk at det ikke på forhåd er givet at estimatet eksisterer og er etydigt bestemt. Det skal udersøges for e give model ligesom vi gjorde det for biomialmodelle. Eksempel 1.6. (Legetøjseksempel) Atag at observatioe x er et udfald af e stokastisk variabel der ka atage værdiere 0, 1 og 2, og at fordelige af X har sadsylighedsfuktio θ/4, x = 0 f θ (x) = 3θ/4, x = 1 1 θ, x = 2 for e ukedt parameter θ. Overvej selv at dette defierer et sadsylighedsmål hvis og ku hvis θ [0,1]. Således er Θ = [0,1] de aturlige parametermægde. Likelihoodfuktioe fås ved at betragte sadsylighedsfuktioe som fuktio af θ for fast x, altså L x (θ) = f θ (x) for θ [0,1]. Det er klart at L x har maksimum for θ = 1 hvis x = 0,1 og for θ = 0 hvis x = 2. Således eksisterer maksimum likelihood estimatet og er etydigt givet ved ˆθ(x) = { 1, x = 1,2 0, x = 2

20 Biomialfordelige De tilhørede estimator ˆθ = ˆθ(X) er e stokastisk variabel med værdier i {0,1} og fordelig givet ved P ( ˆθ(X) = 1 ) = P(X {0,1}) = θ 4 + 3θ 4 = θ P ( ˆθ(X) = 0 ) = P(X = 2) = 1 θ. Specielt er E( ˆθ) = θ, så ˆθ er e cetral estimator for θ. Eksempel 1.7. (Vetetid) Betragt et forsøg med to udfald (succes og fiasko), og atag at det getages idtil succesudfaldet idtræffer, dog højst 4 gage. Hvis X er e stokastisk variabel der tæller atallet af gage forsøget getages, så har X udfaldsrum {1,2,3,4}, og hvis successadsylighede er p, så har X sadsylighedsfuktio { p(1 p) f p (x) = x 1, x = 1,2,3 (1 p) 3, x = 4. Se også opgave 1.7. Vi atager at sadsylighedsparametere p [0, 1] er ukedt og skal estimeres på baggrud af e observatio x. Som for biomialmodelle opstiller vi likelihoodfuktioe ved at betragte sadsylighedsfuktioe som fuktio af p sarere ed x: L x (p) = f p (x), p [0,1]. Maksimum likelihood estimatet er så e værdi af p der gør L x (p) størst mulig. Det viser sig se ige opgave 1.7 at { 1/x, x = 1,2,3 ˆp(x) = 0, x = 4 Udfaldsrummet for estimatore ˆp = ˆp(X) er altså {1, 1/2, 1/3, 0}, og sadsylighedsfuktio er givet ved p, y = 1 p(1 p), y = 1/2 P( ˆp = y) = p(1 p) 2, y = 1/3 (1 p) 3, y = 0 Specielt ka vi rege på middelværdie af ˆp: E ( ˆp ) = p + 1 2 p(1 p) + 1 3 p(1 p)2 = p ( 11 6 7 6 p + 1 ) 3 p2 der er lig p år p {0,1}, me ellers skarpt større ed p. Det er altså ikke alle estimatorer der er cetrale.

1.4 Sammefatig og perspektiv 21 1.4 Sammefatig og perspektiv Vi har studeret e situatio hvor data ka tækes at komme fra uafhægige getagelser af et eksperimet med to mulige udfald. I dee ramme har vi defieret og udersøgt følgede: E statistisk model er e familie af biomialfordeliger hvor sadsylighedsparametere er ukedt og skal estimeres ved hjælp af data. Maksimum likelihood estimatet er de værdi af p der gør de observerede værdi mest sadsylig. Maksimum likelihood estimatore er de tilhørede stokastiske variabel forstået på de måde at estimatet er de observerede værdi af estimatore. Fordelige af estimatore beskriver de usikkerhed der er forbudet med estimatet, og vi ka specielt iteressere os for estimatores middelværdi, varias og spredig. Maksimum likelihood estimatio er et meget geerelt estimatiospricip, og vi beskrev metode for statistiske modeller med edeligt udfaldsrum. Seere i boge skal vi se hvorda samme pricip ka bruges for statistiske modeller baseret på ormalfordelige. Der fides adre estimatiospricipper, for eksempel mometestimatio. I de give biomialfordeligsmodel betyder det at estimere p således at E(X) er lig de observerede værdi x. Når X er biomialfordelt med parametre og p er E(X) = p så kravet er at p = x eller p = x/. I dette tilfælde giver de to estimatiospricipper altså de samme estimator, me dette er ikke altid tilfældet. Geerelt set foretrækker vi estimatorer der er cetrale, dvs. som opfylder E( ˆp) = p, og har lille varias. Ma ka for e meget geerel klasse af modeller vise at maksimum likelihood estimatore har ligede egeskaber (for stor ok) således at vi ormalt foretrækker de, me det ligger lagt udefor dette kursus at idse disse tig. 1.5 R Beregigere i dette kapitel er så simple at de emt ka udføres på e lommereger eller mauelt i R. Det ka dog være yttigt at kede fuktioere dbiom og pbiom der bereger værdier af sadsylighedsfuktioe og fordeligsfuktioe for biomialfordelige.

22 Biomialfordelige Atag for eksempel at X er biomialfordelt med atalsparameter 20 og sadsylighedsparameter 0.3. Vi ka berege P(X = 3) og P(X 3) således: > dbiom(3, size=20, p=0.3) # P(X=3), X bi(20,0.3) [1] 0.07160367 > dbiom(0:3, size=20, p=0.3) # P(X=x) for x=0,1,2,3 [1] 0.0007979227 0.0068393371 0.0278458725 0.0716036722 > sum(dbiom(0:3, size=20, p=0.3)) # Summe, dvs. P(X <= 3) [1] 0.1070868 > pbiom(3, size=20, p=0.3) # P(X <= 3) ige [1] 0.1070868 Fuktioe rbiom bruges til simulatio af udfald fra biomialfordelige. Følgede kommado simulerer 10 udfald fra bi(20,0.3): > rbiom(10, size=20, p=0.3) # 10 udfald fra bi(20,0.3) [1] 4 4 8 5 9 6 7 5 7 6 Hvis kommadoe getages, fås et adet output da kommadoe gerererer tilfældige tal. Bemærk at ma ikke behøver skrive size= og p=. Kommadoere > dbiom(3, 20, 0.3) > pbiom(3, 20, 0.3) > rbiom(10, 20, 0.3) er således idetiske med de oveståede. 1.6 Opgaver 1.1 Et opgavesæt består af 50 spørgsmål af vekslede sværhedsgrad. Hvert spørgsmål ka besvares ete rigtigt eller forkert. 1. Ka biomialfordelige bruges til at beskrive atallet af rigtige svar for e ekelt perso? 2. Ka biomialfordelige bruges til at beskrive atallet af gage 50 persoer besvarer prøves første spørgsmål rigtigt?

1.6 Opgaver 23 1.2 E valutahadler registrerer i e periode på 21 dage om rete på e bestemt obligatio stiger i forhold til de foregåede dag. Uder hvilke omstædigheder ka biomialfordelige bruges til at beskrive atallet af dage hvor rete er steget? 1.3 For at udersøge udviklige på aktiemarkedet e bestemt dag udvælges 10 aktier, og det registreres hvor mage af aktiere der er faldet i kurs de pågældede dag. 1. Uder hvilke omstædigheder ka biomialfordelige bruges til at beskrive atallet af aktier hvor kurse er faldet? Hvad er fortolkige af sasylighedsparametere p? Atag at omstædighedere er opfyldt og at kurse faldt for otte af aktiere, dvs. x = 8. 2. Opstil e statistisk model der ka bruges til at beskrive eksperimetet. Agiv et estimat for p, de tilhørede estimators fordelig, og de estimerede spredig for estimatore. 3. Værdie 0.5 af sadsylighedsparametere er særligt iteressat. Hvorfor? 4. Atag at sadsylighedsparametere er 0.5. Hvad er så sadsylighede for at midst 8 aktier faldt i kurs, og hvad er sadsylighede for at højst 8 aktier faldt i kurs? 5. Tyder data på at der har været e geerel udviklig i aktiekursere de pågældede dag? Vik: Vi har ikke præcise redskaber til at svare på dette, me atag at alle aktier ete falder eller stiger i kurs, og overvej hvad svaret på spørgsmål 4 siger om sage. 1.4 Kødprøver aalyseres med kemiske test for tilstedeværelse af bestemte typer bakterier. Ideelt set er prøve positiv hvis bakterietype er i kødet og egativ hvis bakterietype ikke er i kødet. Tabelle edefor viser resultatere for 62 kødprøver med bakterie E. coli O157 og 131 kødprøver ude bakterie E. coli-o157. Som det ses er teste ikke perfekt. Positiv test Negativ test Total Kød med E. coli-o157 57 5 62 Kød ude E. coli-o157 4 127 131

24 Biomialfordelige Sesitivitete af teste defieres som sadsylighede for at teste er positiv hvis bakterie er tilstede, mes specificitete defieres som sadsylighede for at teste er egativ hvis bakterie ikke er tilstede. 1. Agiv et estimat for sesitivitete af teste og et estimat for specificitete af teste. 2. Bereg de estimerede spredig for estimatore for sesitivitete og de estimerede spredig for estimatore for specificitete. 3. Atag at ma plalægger et yt forsøg og at ma øsker e estimeret spredig for sesitivitete på 0.02. Hvor mage kødprøver bør ma bruge? 1.5 Atag at e møt ete har sadsylighede p = 1/2 eller p = 1/4 for at vise kroe. Møte kastes gage og viser kroe x gage. 1. Opskriv e statistisk model der beskriver forsøget. Specielt: hvad er parametermægde? 2. Vis at L x (0.5) = L x (0.25) hvis og ku hvis x = x 0 hvor x 0 = log(3/2). log(3) 3. Vis at ˆp(x) = 0.25 hvis x < x 0 og at ˆp(x) = 0.75 hvis x > x 0 (bemærk at x stadig er et heltal mellem 0 og ). 4. Atag at = 5, og bestem P 1/2 ( ˆp = 1/2) og P 1/4 ( ˆp = 1/2), dvs. sadsylighede for at ˆθ = 1/2 år p = 1/2 heholdsvis p = 1/4. Kommeter resultatet. 1.6 Betragt eksempel 1.6. Vis at f θ defierer e sadsylighedsfuktio hvis og ku hvis θ [0,1], se evt. MS, defitio 3.1.1. 1.7 Betragt eksempel 1.7 om vetetid. 1. Vis at X har sadsylighedsfuktio f p som agivet i eksemplet. 2. Vis at maksimum likelihood estimatet ˆp(x) er som agivet i eksemplet. 3. Gør rede for at maksimum likelihood estimatore har sadsylighedsfuktio som agivet i eksemplet.

1.6 Opgaver 25 4. Vis at middelværdie af ˆp er som påstået i eksemplet og at de er større ed p for p (0,1). Forklar hvad det betyder. 1.8 Lad θ {1,2,...} være e ukedt parameter, og atag at X er e stokastisk variabel med udfaldsrum {1, 2,..., θ} og puktsadsyligheder f θ (x) = P(X = x) = 1, x {1,...,θ}. (1.4) θ 1. Gør rede for at (1.4) faktisk defierer e sadsylighedsfuktio for e vilkårlig værdi θ {1,2,...}. 2. Opstil likelihoodfuktioe for θ og fid derefter maksimum likelihood estimatet. Vik: For et givet x, hvad er de mulige værdier af θ? 1.9 Lad X 1,...,X være uafhægige stokastiske variable hvor X i er biomialfordelt med atalsparameter m i og sadsylighedsparameter p. Bemærk at sadsylighedsparametere er de samme for alle X i. Specielt er de mulige værdier for X i værdiere 0,1,...,m i, så fordelige af (X 1,...,X ) er kocetreret på M = {0,1,...,m 1 } {0,1,...,m }. 1. Vis at sadsylighedsfuktioe for X = (X 1,...,X ) er givet ved p(x 1,...,x ) = [ ( mi hvor s = x i og m = m i. x i ) ] p s (1 p) m s, (x 1,...,x ) M Atag u at vi har observeret (x 1,...,x ) og vil estimere p. 2. Opskriv likelihoodfuktioe og log-likelihoodfuktioe. 3. Fid maksimum likelihood estimatet for p. 4. Agiv fordelige af maksimum likelihood estimatore. Atag i stedet at vi ku har observeret summe s = x 1 +... + x (i stedet for alle x i ere). 5. Opstil e statistisk model der beskriver s. Agiv estimatet for p baseret på dee observatio og estimatores fordelig. Sammelig med spørgsmål 3 og 4 og forklar resultatet.

26 Biomialfordelige 1.10 Dette er e fortsættelse af opgave 1.9. For at udersøge tilfredshede med bibliotekere har ma i e kommue tre dage i træk spurgt 25 biblioteksgægere om de er tilfredse med serviceiveauet. Der var ku to svarmuligheder: tilfreds eller ikke tilfreds. På de tre dage svarede heholdsvis 16, 18 og 13 borgere at de var tilfredse. 1. Opstil e statistisk model der beskriver data. 2. Bestem et estimat for adele af tilfredse biblioteksgægere i kommue. 3. Agiv fordelige af estimatore samt de estimerede spredig for estimatore.

Kapitel 2 Normalfordeligsmodeller I dette og de følgede kapitler skal vi beskæftige os med statistisk aalyse af data der ka atages at være ormalfordelte. Vi skal diskutere statistiske modeller, maksimum likelihood estimatorer, kofidesitervaller, hypotesetest, og modelkotrol. Vi vil overalt atage at data består af observatioer y 1,...,y og tæke på dem som realisatioer eller udfald af stokastiske variable Y 1,...,Y. De statistiske model består så af udfaldsrummet og de mulige simultae fordeliger for (Y 1,...,Y ). Tre atagelser går ige for alle de ormalfordeligsmodeller vi skal kigge på i disse oter. Uafhægighed De første atagelse er at Y 1,...,Y er uafhægige. Dette letter opgave med at opstille e statistisk model betragteligt fordi det så er ok at beskrive de margiale fordeliger: Tæthede for de simultae fordelig er lig produktet af de margiale tætheder (MS, sætig 5.2.1). Normalfordelig De ade atagelse er at de margiale fordelig af Y i er e ormalfordelig for alle i = 1,...,, således at vi ku magler at agive de mulige middelværdier og variaser. Variashomogeitet De tredje atagelse er at alle Y i har samme varias. Dette kaldes variashomogeitet. Så er der ku middelværdiere tilbage at lege med. Vi starter med de simpleste situatio i kapitel 3 og 4 hvor atagelse er at alle observatioer har samme middelværdi og dermed samme fordelig. Vi taler om e ekelt stikprøve. I kapitel 3 atager vi desude at variase er kedt. Dette er som regel urealistisk, me de forskellige begreber ka med fordel itroduceres i dee ramme fordi modelle matematisk set er

28 Normalfordeligsmodeller em at gå til. I kapitel 4 diskuterer vi tilfældet hvor både middelværdi og varias er ukedte. I kapitel 5 fortsætter vi med to stikprøver hvor atagelse er at observatioere stammer fra to forskellige ormalfordeliger svarede til e opdelig af observatioere i to forskellige grupper. Det kue for eksempel være opdelig efter kø, efter aktietype, eller efter behadligstype. Hovedformålet med e såda aalyse er ofte at udersøge om der er forskel på de to grupper i de forstad at de to ormalfordeligers middelværdier er forskellige, og at kvatificere e evetuel forskel. Edelig hadler kapitel 6 om lieær regressio. Her atages det at der til hver observatio y i er kyttet et tal x i, og at middelværdie i ormalfordelige svarede til y i afhæger lieært af x i. Som regel er ma iteresseret i sammehæge mellem x og y. I dette kursus vil vi ku beskæftige os med disse tre specifikke tilfælde, me I vil møde e mere geerel formulerig i seere kurser. Umiddelbart ka de tre atagelser om uafhægighed, ormalfordelig og variashomogeitet lyde restriktive. Det er de også, me de giver alligevel aledig til e meget yttig klasse af modeller som har e eorm udbredelse. Det er der forskellige grude til. Dels viser det sig at forbavsede mage data med rimelighed ka beskrives ved hjælp af ormalfordelige. Dels er det typisk middelværdistrukture der er af iteresse, og på det pukt er der stadig stor frihed. Edelig har ormalfordelige pæe matematiske/sadsylighedsteoretiske egeskaber således at vi får pæe og eksakte fordeligsresultater for estimatorer og teststørrelser. På de ade side er det vigtigt at uderstrege at modellere ikke ka klare alt. De forskellige resultater vedrørede estimatio, kofidesitervaller og hypotesetest gælder hvis Y i ere opfylder modelatagelsere. Me hvis atagelsere ikke er opfyldt, ved vi ikke hvad der sker, og så ka vi ikke stole på resultatere af de statistiske aalyse. Det er derfor essetielt at udersøge om atagelsere er rimelige hver gag ma udfører statistiske aalyser. Vi vil diskutere atagelser og modelkotrol i eksemplere udervejs, me lad os komme med ogle geerelle betragtiger allerede u. Uafhægighedsatagelse er ofte rimelig hvis observatioere stammer fra forskellige idivider, me æppe rimelig hvis der er flere observatioer fra samme idivid, hvis ogle af idividere er i familie med hiade, eller hvis observatioere er måliger af de samme størrelse over e årrække. Atagelse om es varias er heller ikke altid rimelig. Det er for eksempel ret almideligt at variase er større for observatioer med store middelværdier ed for observatioer med små middelværdier. Edelig er det aturligvis ikke alle

29 data der med rimelighed ka beskrives ved hjælp af ormalfordelige. Nogle gage ka problemer med variashomogeitet og ormalfordeligsatagelse afhjælpes ved at trasformere observatioere og aalysere de trasformerede data i stedet for de opridelige, dvs. aalysere f (y 1 ),..., f (y ) for e passede fuktio f. Dette illustreres med data i eksempler og opgaver i det følgede.

30 Normalfordeligsmodeller

Kapitel 3 E stikprøve med kedt varias I dette kapitel skal vi betragte situatioe med e ekelt ormalfordelt stikprøve eller observatiosrække og yderligere atage at de fælles varias er kedt. Det er ku rimeligt i få situatioer som regel vil vi bruge data til at estimere variase som i kapitel 4 me der er e pædagogisk poite i at gå grudigt til værks. Sage er at vi emt ka vise forskellige egeskaber i dee model, og derfor ka kocetrere os om at forstå de forskellige begreber og meige med dem. Dette vil komme os til gav i de seere kapitler hvor strukture af modellere bliver lidt mere kompliceret. 3.1 Statistisk model Lad os starte med et eksempel. Eksempel 3.1. (Kobbertråd) Til kotrol af e løbede produktio af kobbertråd udtages med passede mellemrum i stykker tråd af es lægde. De i stykker tråd vejes, og erfarigere viser at ma ka atage at vægte er ormalfordelt med e varias på σ 2 = 0.000074 g 2, dvs. e spredig på σ = 0.0086 g. E stikprøve gav følgede vægte (også i gram): 18.459 18.461 18.452 18.434 18.453 18.436 18.449 18.447 18.443 Vi atager at de i måliger y 1,...,y 9 er realisatioer af stokastiske variable Y 1,...,Y 9

32 E stikprøve med kedt varias der er uafhægige og ormalfordelte med e ukedt middelværdi (som vi er iteresseret i) og e varias på 0.000074 g 2. Ma tilstræber e produktiosstadard svarede til at de geemsitlige vægt af trådstykkere i produktioe er 18.441 g, og vi skal i det følgede beskrive e metode til at udersøge hvorvidt data er i modstrid med dette mål. Udgagspuktet er at vi atager at de stokastiske variable Y 1,...,Y er uafhægige og allesamme N(µ,σ0 2 )-fordelte. Variase er et kedt tal vi har uderstreget dette ved at betege de σ0 2 mes middelværdie µ ikke er kedt. Middelværdie er med adre ord e parameter i modelle, gaske som sadsylighede p er e parameter i biomialfordeligsmodelle givet i defiitio 1.1. De simultae tæthed for (Y 1,...,Y ) er så f µ (y) = 1 2πσ0 2 exp ( 1 = exp (2πσ0 2 )/2 ( 1 ) 2σ0 2 (y i µ) 2 1 2σ 2 0 (y i µ) 2 ), y = (y 1,...,y ) R, (3.1) jf. MS formel (4.3.5) og MS sætig 5.2.1. Hvis vi lader N µ betege fordelige på R med dee tæthed, ka vi defiere de statistiske model som mægde af sådae fordeliger hvor µ varierer i e parametermægde Θ R. Vi vil atage µ R, altså Θ = R, me Θ kue også være e ægte delmægde af R. Defiitio 3.2. Modelle for e ekelt stikprøve med kedt varias består af udfaldsrummet R samt familie P = {N µ : µ R} af fordeliger på R hvor N µ har tæthed (3.1) for et givet σ 2 0 > 0. Alterativ formulerig: Lad Y 1,...,Y være uafhægige og idetisk ormalfordelte stokastiske variable, Y i N(µ,σ0 2) hvor σ 0 2 > 0 er kedt mes µ R er ukedt. Gaske som i biomialtilfældet afspejler de statistiske model vores vide og uvidehed om de mekaismer der har frembragt data. Vores atagelser om uafhægighed og margiale ormalfordeliger formaliserer vores forhådsvide eller forhådsatagelser. Det skal kotrolleres om disse atagelser er opfyldt eller rettere om de giver e rimelig beskrivelse af usikkerhede i data.

3.2 Maksimum likelihood estimatio 33 De ekelte ormalfordelig, N(µ,σ0 2 ), beskriver usikkerhede der er forbudet med dataidsamlige hvis µ er de sade parameter. De forskellige mulige værdier af µ formaliserer vores uvidehed om hvilke ormalfordelig der har frembragt data. 3.2 Maksimum likelihood estimatio Tæthede f µ (y) fra (3.1) agiver sadsylighedsmasse per volumeehed omkrig puktet y R, jf. MS formel (5.1.4). Når vi laver sadsylighedsregig tæker vi altså på f µ (y) som udtryk for hvor sadsyligt det er at få data i ærhede af y = (y 1,...,y ) år vi ved at middelværdie er µ. Når vi laver statistik er situatioe de modsatte: vi har data y og atager at de stammer fra uafhægige N(µ,σ 2 0 )-fordelte variable, me vi keder ikke µ. Vi skal bruge vores observatioer til at estimere µ. Husk at vi for biomialfordelige lavede maksimum likelihood estimatio og estimerede sadsylighedsparametere med de værdi der gjorde vores observatio mest sadsylig. Alle udfald i ormalfordelige har sadsylighed ul fordi det er e kotiuert fordelig, så vi ka ikke gøre helt det samme. På de ade side udtrykker tæthede oget ligede, og maksimum likelihood estimatio går ud på at estimere µ med de værdi der maksimerer tæthede f µ (y). Vi vil stadig tæke på estimatet som de værdi af µ der gør de observerede værdier mest sadsylige, selvom vi skal huske at tæke på sadsyligheder for områder sarere ed puktsadsyligheder. På egelsk ville ma tale om the likelihood of the data eller om how likely the data is vi magler tilsvarede formuleriger på dask. Formelt set defierer vi likelihoodfuktioe som tæthede, u opfattet som fuktio af µ for fast y R sarere ed omvedt, og søger e værdi ˆµ der gør fuktioe størst mulig. Likelihoodfuktioe hørede til observatioe y = (y 1,...,y ) R defieres derfor ved L y : R R ( 1 L y (µ) = f µ (y) = exp (2πσ0 2 )/2 1 2σ 2 0 (y i µ) 2 ) (3.2) og et maksimum likelihood estimat ˆµ R opfylder L y ( ˆµ) L y (µ), µ R. (3.3)

34 E stikprøve med kedt varias Det er klart fra strukture af L y at det er mere hesigtsmæssigt at arbejde med logaritme til likelihoodfuktioe, også kaldet log-likelihoodfuktioe. Det skyldes at likelihoodfuktioe er defieret som et produkt af tætheder, som så bliver til e sum af log-tætheder. Vi vil sommetider bruge betegelse l for log-likelihoodfuktioe, dvs. l y (µ) = logl y (µ) = 2 log(2πσ 2 0 ) 1 2σ 2 0 (y i µ) 2. Da logaritme er e stregt voksede fuktio ka vi erstatte L y med l y i (3.3). Figur 3.1 viser likelihoodfuktioe og log-likelihoodfuktioe for de i observatioer af kobbertrådsvægte (eksempel 3.1, side 31). L(µ) 0e+00 2e+12 4e+12 6e+12 8e+12 18.42 18.44 18.46 18.48 µ l(µ) 30 20 10 0 10 20 30 18.42 18.44 18.46 18.48 µ Figur 3.1: Likelihoodfuktioe (til vestre) og log-likelihoodfuktioe (til højre) for data fra eksempel 3.1. De stiplede liie svarer til geemsittet ȳ = 18.44822g. Sætig 3.3. For de statistiske model fra defiitio 3.2 er maksimum likelihood estimatet for µ etydigt bestemt og givet ved ˆµ = ȳ = 1 y i. Estimatore ˆµ = Ȳ er ormalfordelt med middelværdi µ og varias σ 2 0 /. Bevis Hvis vi differetierer log-likelihoodfuktioe med hesy til µ får vi l y(µ) = 1 σ 2 0 l y (µ) = σ 2 0 (y i µ) < 0. Vi ser at l y(µ) = 0 hvis og ku hvis y i = µ, altså hvis og ku hvis µ = 1 y i = ȳ, så ȳ er det eeste statioære pukt for l y. Desude er l y (ȳ) < 0 så l y

3.2 Maksimum likelihood estimatio 35 har maksimum i ȳ som øsket. Fordeligsresultatet om Ȳ = 1 Y i følger direkte af MS, sætig 6.3.3. Estimatet for middelværdie er altså blot geemsittet af observatioere. Det ka æppe siges at være ret overraskede. Estimatet ȳ er et tal, mes estimatore Ȳ er e stokastisk variabel. Estimatet er e realisatio af estimatore. Bemærk at vi ofte bruger samme otatio, emlig ˆµ, for begge dele. Hvis vi øsker at fremhæve at de er fuktioer af y 1,...,y heholdsvis Y 1,...,Y, ka vi skrive ˆµ = ˆµ(y 1,...,y ) = ȳ for estimatet og ˆµ = ˆµ(Y 1,...,Y ) = Ȳ for estimatore. Maksimum likelihood estimatore Ȳ er e stokastisk variabel, og som agivet i sætige har vi Ȳ N(µ,σ0 2 /). Specielt har vi altså E( ˆµ) = µ, Var( ˆµ) = σ 2 0, SD( ˆµ) = σ 0 (3.4) hvor vi bruger otatioe SD for spredig (stadard deviatio). Bemærk specielt at ˆµ = Ȳ er e cetral estimator for µ fordi middelværdie er de sade værdi. Fordelige af ˆµ = Ȳ udtrykker de usikkerhed der er forbudet med estimatet. For at forstå hvad det betyder, ka det være hesigtsmæssigt at forestille sig forsøget getaget mage gage (for eksempel målig af i stykker kobbertråd). For hver dataidsamlig får vi et yt geemsit ȳ, og tæthede for N(µ,σ0 2 /) fortæller os hvilke geemsit der er sadsylige at observere. Specielt udtrykker (3.4) at vi i geemsit over mage dataidsamliger vil få de sade værdi, og at flere observatioer i stikprøve giver aledig til større præcisio. Dette er illustreret i Figur 3.2 hvor tæthede for Ȳ s fordelig er teget for µ = 18.441 og σ0 2 = 0.000074. Atallet af observatioer er = 9 for de fuldt optruke kurve og = 25 for de stiplede kurve. Værdier lagt fra 18.441 er tydeligvis midre sadsylige år = 25 sammeliget med år = 9. Fordelige af ˆµ = Ȳ er N(µ,σ0 2 /), me husk at middelværdie µ er ukedt, uaset at vi har et estimat for de. Vi taler sommetider om fordelige som de sade eller de teoretiske fordelig. Eksempel 3.4. (Kobbertråd, fortsættelse af eksempel 3.1, side 31) Geemsittet for de i observerede vægte af kobbertrådsstykker er ȳ = 18.44822, så ˆµ = 18.44822. Dette er e realisatio af Ȳ hvis teoretiske eller sade fordelig er N(µ, 0.000074/9). Specielt er spredige i lig fordelige SD( ˆµ) = 0.002867. Vi fadt maksimum likelihood estimatet ved at maksimere likelihoodfuktioe. Fra

36 E stikprøve med kedt varias Tæthed for Y 0 50 100 150 200 18.430 18.440 18.450 y Figur 3.2: Tæthede for N(18.441,0.000074/) for = 9 (fuldt optrukket) og = 25 (stiplet). udtrykket (3.2) for likelihoodfuktioe ka vi se at dette er ækvivalet med at miimere (y i µ) 2. Derfor er ˆµ = ȳ de værdi der gør summe af de kvadrerede afstade fra observatioere til middelværdie midst mulig. Vi taler om midste kvadraters metode eller least squares method, og i dette tilfælde giver midste kvadraters metode og maksimum likelihood estimatio det samme estimat. 3.3 Kofidesiterval for middelværdie Hvis vi getog dataidsamlige ville vi få ogle adre observatioer og dermed e ade værdi af ȳ, så hvor meget ka vi stole på vores estimat? Fordelige af ˆµ = Ȳ beskriver etop dee usikkerhed, me ma opsummerer ofte usikkerhede i et kofidesiterval. Et 1 α kofidesiterval for µ er et iterval (L(Y ),U(Y )) som ideholder de sade værdi med sadsylighed midst 1 α: ( P µ ( L(Y ),U(Y ) )) 1 α.

3.3 Kofidesiterval for middelværdie 37 I de modeller vi skal se på, ka vi edda opå lighedsteg i stedet for ulighedsteg. Ma bruger ofte 95% kofidesitervaller svarede til α = 0.05, me 90% og 99% kofidesitervaller rapporteres også af og til. Bogstavere L og U står for lower og upper, og med otatioe L(Y ) og U(Y ) uderstreger vi at edepuktere i kofidesitervallet er stokastiske variable, afledt af Y = (Y 1,...,Y ). For e give observatio idsætter vi y og får det observerede kofidesiterval ( L(y),U(y) ). Spørgsmålet er hvorda vi skal vælge itervaledepuktere L(Y ) og U(Y ). Husk at Ȳ N(µ,σ 2 0 /) således at Ȳ µ σ 0 / N(0,1). Lad z 1 α/2 betege 1 α/2 fraktile i N(0,1). Der er sadsylighedsmasse α/2 til vestre for z 1 α/2 og sadsylighedsmasse α/2 til højre for z 1 α/2, så ( 1 α = P z 1 α/2 < Ȳ µ ) σ 0 / < z 1 α/2 ( σ 0 σ = P µ z 1 α/2 0 < Ȳ < µ + z 1 α/2 ). Hvis vi omrokerer leddee så de sade værdi µ optræder i midte, får vi i stedet ( ) σ 0 σ P Ȳ z 1 α/2 0 < µ < Ȳ + z 1 α/2 = 1 α. (3.5) Dette svarer til at vælge L(Y ) = Ȳ z 1 α/2 σ 0 ; U(Y ) = Ȳ + z 1 α/2 σ 0. Vi har således vist følgede sætig. Sætig 3.5. Betragt de statistiske model fra defiitio 3.2. Så er ( ) σ 0 σ Ȳ ± z 1 α/2 0 σ = Ȳ z 1 α/2 0, Ȳ + z 1 α/2 (3.6) et 1 α kofidesiterval for µ. Husk fra (3.4) at spredige for ˆµ = Ȳ er σ 0 /. Således har kofidesitervallet forme ˆµ ± fraktil spredig for ˆµ. (3.7)