Statistik 1TS 2003 Obligatorisk opgave 1

Relaterede dokumenter
Statistik 1TS 2005 Obligatorisk opgave 1

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Statistik Obligatorisk opgave

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Den lineære normale model

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Områdeestimation. Kapitel 7

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Susanne Ditlevsen Institut for Matematiske Fag susanne

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Estimation og konfidensintervaller

Den lineære normale model

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistiske principper

Trykfejlsliste - alle fejl Introduktion til matematisk statistik

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Betingning med en uafhængig variabel

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår 2007

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Preben Blæsild og Jens Ledet Jensen

Reeksamen 2014/2015 Mål- og integralteori

Maksimaliseringsestimation i praksis

Konfidensintervaller og Hypotesetest

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Note om Monte Carlo eksperimenter

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Vejledende besvarelser til opgaver i kapitel 14

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Forår 2007

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Statistik for ankomstprocesser

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kvantitative Metoder 1 - Forår Dagens program

Hypotesetests, fejltyper og p-værdier

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Kvantitative Metoder 1 - Forår Dagens program

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Om hypoteseprøvning (1)

Note om Monte Carlo metoden

Modelkontrol i Faktor Modeller

Note om Monte Carlo eksperimenter

Modelselektion Permeabilitet Permeabilitet Permeabilitet

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Normalfordelingen og Stikprøvefordelinger

Eksamen i Statistik for biokemikere. Blok

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Trykfejlsliste - alle fejl Asymptotisk teori

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Skriftlig eksamen Science statistik- ST501

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Estimation. Kapitel 4

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative metoder 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Stamoplysninger til brug ved prøver til gymnasiale uddannelser

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

En Introduktion til SAS. Kapitel 5.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Nanostatistik: Konfidensinterval

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistiske modeller

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Transkript:

Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag d. 4. marts 2003. Rapporten afleveres senest ved forelæsningen tirsdag d. 25. marts. Rapporten afleveres til mig personligt. For sent indleverede besvarelser vil ikke blive rettet. Rapporten skal skrives ind i et tekstbehandlingsanlæg (eller på maskine). Håndskrevne besvarelser vil ikke blive accepteret. Opgaven kan besvares i grupper af 1-3 studerende. Grupperne må gerne samarbejde undervejs, men den endelige rapport skal være selvstændigt arbejde for hver gruppe. Software: I princippet er valget af software frit. Det anbefales dog at man bruger R. Rapportens indhold: Besvarelsen skal indeholde tekst, formler og grafer, men ikke program-kode. Inkluder gerne et afsnit om hvilket software du har benyttet, og hvilke erfaringer du har gjort med det. Ernst Hansen 1

Rotters levetid Talmaterialet i denne opgave stammer fra et eksperiment, der skulle belyse hvilken indflydelse begrænsninger i adgangen til føde har på rotters levetid. Eksperimentet er afrapporteret i artiklen Yu, B.P., Masoro, E. J., Murata, I., Bertrand, H.A., og Lynd, F.T. (1982): Lifespan study of SPF Fisher 344 male rats fed ad libitum or restricted diets: Longevity, growth, lean body mass and disease. Journal of Gerontology 37, 130-141. Teorien bag eksperimentet gik ud på at en begrænsning i adgangen til fødevarer vil nedsætte tempoet i rotternes livscyklus, og på den måde fører til at rotterne lever længere. Men modsat kan man selvfølgelig forestille sig, at en begrænsning fører til at rotterne generelt er svagere, og derfor lever kortere. I det eksperiment vi skal studere, indgik 106 rotter med begrænset adgang til fødevarer, og en kontrolgruppe på 89 rotter, der blev holdt under normale laboratoriemæssige forhold, herunder med ubegrænset adgang til fødevarer. Rotterne blev placeret i en af de to grupper ved en lodtrækningsprocedure når de var tre uger gamle. De blev fulgt til de døde - de længstlevende rotter i eksperimentet blev næsten fire år gamle. De teoretiske/statistiske temaer for projektet drejer sig om modelopstilling og modelkontrol, om at finde maksimaliseringsestimatorer ved hjælp af numeriske metoder, og om at beskrive usikkerheden forbundet med parameterestimater. Numerisk maksimering af likelihoodfunktionen For langt de fleste af de modeller, der lever uden for tekstbøgernes beskyttede verden, kan man måske nok opstille likelihoodfunktionen, men man er ude af stand til finde eksplicitte udtryk for maksimaliseringsestimatoren. I så fald er man henvist til at benytte numeriske teknikker til maksimaliseringen. Eller til minimeringen af den negative loglikelihoodfunktion, som man af tekniske grunde som regel foretrækker. 2

Der findes et væld af specialiserede numeriske teknikker, men oftest er den generelle Newton-Raphson algoritme den nemmeste at implementere - og den mest effektive. Den fungerer på følgende måde: Lad θ n være en approksimation til et stationært punkt θ for l x. Af Taylorudviklingen Dl x (θ) Dl x (θ n ) + D 2 l x (θ n )(θ θ n ) ser vi at hvis k k-matricen D 2 l x (θ n ) er invertibel, så er θ n+1 = θ n (D 2 l x (θ n )) 1 Dl x (θ n ) (1) formentlig en endnu bedre approksimation til θ. Vi taler om at opdatere initialgættet θ n ved hjælp af Newton-Raphson scoring. Hvis parametermængden er etdimensional, antager opdateringsformlen den simple form θ n+1 = θ n l x (θ n) l x(θ n ). Hvis θ n allerede er et stationært punkt for l x, så vil θ n+1 = θ n. Vi siger at de stationære punkter er fikspunkter for algoritmen. Og det er tydeligvis de eneste fikspunkter. De er endda attraktive fikspunkter, i den forstand at hvis man har en startværdi i nærheden af et stationært punkt θ, kræver det sædvanligvis kun et par iterationer at få lokaliseret θ med så stort nøjagtighed som man måtte ønske det. I denne sammenhæng må man så bede til at det fundne stationære punkt faktisk er det globale minimum for l x - det kan i princippet udmærket være et lokalt minimum, eller ligefrem et saddelpunkt eller et lokalt maksimum! Newton-Raphson algoritmen har to stærke sider. Dels er den forbavsende nem at implementere. Og dels er den rasende effektiv - hvis man vel at mærke er i stand til at starte den i nærheden af de stationære punkter. Hvis man ikke ved hvor mange stationære punkter der er, og hvis man ikke ved hvor de ligger henne, så er et ikke givet at Newton-Raphson algoritmen vil være til den store hjælp. En dårlig begyndelsesværdi vil således ofte få algoritmen til at divergere. Konfidensområder Hvis R : Θ X R er en reel kombinant, og hvis vi for hvert θ Θ vælger et z θ R så P θ (R(θ, X) < z θ ) = 0.95 for alle θ Θ, (2) 3

så vil området C(x) = {θ Θ R(θ, x) < z θ } være et såkaldt 95% konfidensområde. Altså en x-afhængig mængde af parametre med den egenskab at P θ (θ C(X)) = 0.95 for alle θ Θ. (3) Formuleret i ord er det et område, man vælger på baggrund af den gjorte observation, med den egenskab at i et stort antal gentagelser af eksperimentet, vil man i 95% af tilfældende fange den sande parameter ind. I praksis ved man naturligvis aldrig om man står med et af de ubehagelige tilfælde hvor den sande parameter er smuttet ud af området, men eftersom det sker så sjældent, kan man med en vis ret gå ud fra at det konkrete C(x) faktisk indeholder den sande parameter. Det er uhyre regnekrævende at finde de z θ er der løser (2). Og det kan i øvrigt også være vældig regnetungt bagefter at vende konstruktionen om for at finde konfidensområdet. Bemærk at konstruktionen simplificeres betragteligt hvis R er en pivot, for i så fald varierer z θ slet ikke med θ, og man kan nøjes med at finde et enkelt z θ. Vi vil benytte denne konstruktion ud fra kombinanten 2 log Q(θ, x) = 2l x (θ) 2l x (ˆθ), hvor ˆθ er maksimaliseringsestimatoren (der nota bene minimerer l x ). Vi betragter l x (θ) som et udtryk for konkordansen mellem observation x og parameter θ, så hvis 2 log Q(x, θ) er lille, betyder det at θ er i næsten lige så god konkordans med x som den bedste parameter ˆθ. Konfidensområdet på baggrund af 2 log Q samler så at sige de gode parametre, og repræsenterer derfor et udsagn om usikkerheden forbundet med maksimaliseringsestimation. For at denne konstruktion skal være nogen nytte til i praksis, er det vigtigt at der ofte gælder at 2 log Q(θ, X) approx χ 2 df=dim Θ for alle θ Θ. (4) Altså: 2 log Q er approksimativt pivot, og den (approksimative) fælles fordeling er oven i købet kendt. Dette er et af de centrale resultater fra den asymptotiske teori for statistiske modeller, og man kan i almindelighed slippe 4

godt fra at lade som om resultatet er eksakt, hvis modellen beskriver et eksperiment med et stort antal uafhængige gentagelser. Helt konkret fører denne ide til de approksimative konfidensområder C(x) = {θ Θ 2 log Q(θ, x) < z} (5) hvor z er 95% fraktilen i χ 2 -fordelingen med dim Θ frihedsgrader. Denne konstruktion opfylder muligvis ikke helt (3), men det vil som regel være tæt på. Data Datamaterialet er gjort tilgængeligt på http://www.math.ku.dk/ erhansen/stat1ts 03/rapport/rotter.dat Denne fil indeholder samtlige levetider for de rotter, der indgik i eksperimentet. Levetiden er angivet som antal dage efter baseline, hvor baseline er det tidspunkt, hvor der er blevet trukket lod om, hvilken gruppe den pågældende rotte skulle placeres i. Levetidsvariablen hedder tid i filen. For hver rotte er der angivet om den havde begrænset eller ubegrænset adgang til føde. Det sker i form af variablen gruppe, der kan antage de to værdier Diæt (begrænset adgang) og Alm. (ubegrænset adgang). 1. Indlæs data, og beskriv den empiriske fordeling af reaktionstiderne i hver af de to grupper (histogrammer, momenter, udvalgte fraktiler etc.) Kommenter ligheder og forskelle mellem grupperne. Opstilling af model I analysen vil vi i første omgang koncentrere os om kontrolpopulationen af rotter med ubegrænset adgang til fødevarer. Når levetiden for denne population er forstået, vil vi inddrage gruppen på diæt. 5

Lad variablene X 1,..., X n være levetiderne for rotterne i grundpopulationen. Vi antager at disse stokastiske variable er uafhængige og identisk fordelte. I første omgang antager vi at de er Weibull-fordelte med formparameter c = 5.5 - eneste ukendte parameter er således skalaparameteren β. I anden omgang vil vi betragte både form- og skalaparameter som ukendte, og vi vil se at det komplicerer analysen ganske betydeligt. Vi vil interessere os dels for estimation af de ukendte parametre, og dels for en beskrivelse af usikkerheden forbundet med estimaterne. Den etdimensionale model I første omgang antager vi altså: X 1,..., X n er uafhængige. Hvert X i er Weibull-fordelt med formparamter c = 5.5 og ukendt skalaparameter β (0, ). 2. Find middelværdien af X i i denne model, og kom herudfra med et initialt skøn over β. 3. Opskriv likelihoodfunktionen L X (β) og opskriv også l X (β) = log L X (β) Tegn grafen for de observerede funktioner L x (β) og l x (β). 4. Under hvilke omstændigheder kan likelihoodfunktionen maksimaliseres, og under hvilke omstændigheder er maksimum entydigt bestemt? Opskriv et eksplicit udtryk for maksimaliseringsestimatoren ˆβ. Udregn ˆβ for de konkrete data. 5. Vurder om det er rimeligt at observationerne stammer fra en Weibullfordeling med formparameter 5.5 og skalaparameter ˆβ. 6. Angiv den forventede information i(β) = E β (l X (β)). 6

7. Simuler et stort antal (f.eks. 10.000) datasæt af samme størrelse som grundpopulationen. Disse simulerede data skal være uafhængige, Weibullfordelte med formparameter 5.5 og skalaparameter ˆβ. Find for hvert af disse simulerede datasæt maksimaliseringsestimatoren for β. Sammenlign den empiriske fordeling af de simulerede estimatorer med normalfordelingen med middelværdi ˆβ og varians 1 i( ˆβ). 8. I denne simple model er vi så heldige at kunne finde maksimaliseringsestimatoren eksplicit. Men lad os for træningens skyld rigge en Newton-Raphson algoritme op, der kan finde en numerisk approksimation til ˆβ. Hvor mange iterationer k af algoritmen skal der til for at få en approksimation β k, der opfylder at β k ˆβ < 10 ˆβ 3, hvis algoritmens startpunkt β 0 er henholdsvis 700, 800, 900 og 1000? 9. Undersøg ved et simulationseksperiment hvor god den fundamentale approksimation (4) er for den aktuelle model. Det vil sige: vælg et sandt β, simuler en lang række datasæt med n elementer ud fra dette β, og udregn for hvert af disse datasæt 2 log Q(β, x). Sammenhold de simulerede 2 log Q- værdier med χ 2 -fordelingen med 1 frihedsgrad. Gentag gerne undersøgelsen for flere β er. 10. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal β-værdier på (0, ) undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges den pågældende β-værdi på en passende markant måde, hvis nej farvelægges den pågældende β-værdi ikke. Beskriv den farvelagte mængde. 11. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning, hvorpå de to β-estimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetiderpå baggrund af denne tegning? 7

Den todimensionale model Vi vender tilbage til studiet af grundpopulationen. Men nu antager vi at både form- og skalaparameter er ukendt: X 1,..., X n er uafhængige. Hvert X i er Weibullfordelt med ukendt formparamter c (0, ) og ukendt skalaparameter β (0, ). 12. Opskriv likelihoodfunktionen L X (c, β) og opskriv også l X (c, β) = log L X (c, β) Optegn i et relevant område af (c, β)-planen nogle niveaukurver for den observerede loglikelihoodfunktion. 13. Find scorefunktion og den observerede informationsmatrix. 14. I denne model kan man ikke eksplicit finde maksimaliseringsestimatoren, og man er derfor tvunget ud i numerisk optimering. Kør en Newton-Raphson algoritme, indtil den har stabiliseret sig (sørg for at vælge et fornuftigt startpunkt) og angiv den numerisk bestemte maksimaliseringsestimator (ĉ, ˆβ). 15. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal punkter i (c, β)-planen undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges det pågældende punkt på en passende markant måde, hvis nej farvelægges det pågældende punkt ikke. Forsøg at beskrive den farvelagte mængde. 16. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning af en (c, β)-plan, hvorpå de to masimaliseringsestimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetider på baggrund af denne tegning? 8