Statistik 1TS 2003 Obligatorisk opgave 1
|
|
|
- Edith Andrea Bendtsen
- 9 år siden
- Visninger:
Transkript
1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag d. 4. marts Rapporten afleveres senest ved forelæsningen tirsdag d. 25. marts. Rapporten afleveres til mig personligt. For sent indleverede besvarelser vil ikke blive rettet. Rapporten skal skrives ind i et tekstbehandlingsanlæg (eller på maskine). Håndskrevne besvarelser vil ikke blive accepteret. Opgaven kan besvares i grupper af 1-3 studerende. Grupperne må gerne samarbejde undervejs, men den endelige rapport skal være selvstændigt arbejde for hver gruppe. Software: I princippet er valget af software frit. Det anbefales dog at man bruger R. Rapportens indhold: Besvarelsen skal indeholde tekst, formler og grafer, men ikke program-kode. Inkluder gerne et afsnit om hvilket software du har benyttet, og hvilke erfaringer du har gjort med det. Ernst Hansen 1
2 Rotters levetid Talmaterialet i denne opgave stammer fra et eksperiment, der skulle belyse hvilken indflydelse begrænsninger i adgangen til føde har på rotters levetid. Eksperimentet er afrapporteret i artiklen Yu, B.P., Masoro, E. J., Murata, I., Bertrand, H.A., og Lynd, F.T. (1982): Lifespan study of SPF Fisher 344 male rats fed ad libitum or restricted diets: Longevity, growth, lean body mass and disease. Journal of Gerontology 37, Teorien bag eksperimentet gik ud på at en begrænsning i adgangen til fødevarer vil nedsætte tempoet i rotternes livscyklus, og på den måde fører til at rotterne lever længere. Men modsat kan man selvfølgelig forestille sig, at en begrænsning fører til at rotterne generelt er svagere, og derfor lever kortere. I det eksperiment vi skal studere, indgik 106 rotter med begrænset adgang til fødevarer, og en kontrolgruppe på 89 rotter, der blev holdt under normale laboratoriemæssige forhold, herunder med ubegrænset adgang til fødevarer. Rotterne blev placeret i en af de to grupper ved en lodtrækningsprocedure når de var tre uger gamle. De blev fulgt til de døde - de længstlevende rotter i eksperimentet blev næsten fire år gamle. De teoretiske/statistiske temaer for projektet drejer sig om modelopstilling og modelkontrol, om at finde maksimaliseringsestimatorer ved hjælp af numeriske metoder, og om at beskrive usikkerheden forbundet med parameterestimater. Numerisk maksimering af likelihoodfunktionen For langt de fleste af de modeller, der lever uden for tekstbøgernes beskyttede verden, kan man måske nok opstille likelihoodfunktionen, men man er ude af stand til finde eksplicitte udtryk for maksimaliseringsestimatoren. I så fald er man henvist til at benytte numeriske teknikker til maksimaliseringen. Eller til minimeringen af den negative loglikelihoodfunktion, som man af tekniske grunde som regel foretrækker. 2
3 Der findes et væld af specialiserede numeriske teknikker, men oftest er den generelle Newton-Raphson algoritme den nemmeste at implementere - og den mest effektive. Den fungerer på følgende måde: Lad θ n være en approksimation til et stationært punkt θ for l x. Af Taylorudviklingen Dl x (θ) Dl x (θ n ) + D 2 l x (θ n )(θ θ n ) ser vi at hvis k k-matricen D 2 l x (θ n ) er invertibel, så er θ n+1 = θ n (D 2 l x (θ n )) 1 Dl x (θ n ) (1) formentlig en endnu bedre approksimation til θ. Vi taler om at opdatere initialgættet θ n ved hjælp af Newton-Raphson scoring. Hvis parametermængden er etdimensional, antager opdateringsformlen den simple form θ n+1 = θ n l x (θ n) l x(θ n ). Hvis θ n allerede er et stationært punkt for l x, så vil θ n+1 = θ n. Vi siger at de stationære punkter er fikspunkter for algoritmen. Og det er tydeligvis de eneste fikspunkter. De er endda attraktive fikspunkter, i den forstand at hvis man har en startværdi i nærheden af et stationært punkt θ, kræver det sædvanligvis kun et par iterationer at få lokaliseret θ med så stort nøjagtighed som man måtte ønske det. I denne sammenhæng må man så bede til at det fundne stationære punkt faktisk er det globale minimum for l x - det kan i princippet udmærket være et lokalt minimum, eller ligefrem et saddelpunkt eller et lokalt maksimum! Newton-Raphson algoritmen har to stærke sider. Dels er den forbavsende nem at implementere. Og dels er den rasende effektiv - hvis man vel at mærke er i stand til at starte den i nærheden af de stationære punkter. Hvis man ikke ved hvor mange stationære punkter der er, og hvis man ikke ved hvor de ligger henne, så er et ikke givet at Newton-Raphson algoritmen vil være til den store hjælp. En dårlig begyndelsesværdi vil således ofte få algoritmen til at divergere. Konfidensområder Hvis R : Θ X R er en reel kombinant, og hvis vi for hvert θ Θ vælger et z θ R så P θ (R(θ, X) < z θ ) = 0.95 for alle θ Θ, (2) 3
4 så vil området C(x) = {θ Θ R(θ, x) < z θ } være et såkaldt 95% konfidensområde. Altså en x-afhængig mængde af parametre med den egenskab at P θ (θ C(X)) = 0.95 for alle θ Θ. (3) Formuleret i ord er det et område, man vælger på baggrund af den gjorte observation, med den egenskab at i et stort antal gentagelser af eksperimentet, vil man i 95% af tilfældende fange den sande parameter ind. I praksis ved man naturligvis aldrig om man står med et af de ubehagelige tilfælde hvor den sande parameter er smuttet ud af området, men eftersom det sker så sjældent, kan man med en vis ret gå ud fra at det konkrete C(x) faktisk indeholder den sande parameter. Det er uhyre regnekrævende at finde de z θ er der løser (2). Og det kan i øvrigt også være vældig regnetungt bagefter at vende konstruktionen om for at finde konfidensområdet. Bemærk at konstruktionen simplificeres betragteligt hvis R er en pivot, for i så fald varierer z θ slet ikke med θ, og man kan nøjes med at finde et enkelt z θ. Vi vil benytte denne konstruktion ud fra kombinanten 2 log Q(θ, x) = 2l x (θ) 2l x (ˆθ), hvor ˆθ er maksimaliseringsestimatoren (der nota bene minimerer l x ). Vi betragter l x (θ) som et udtryk for konkordansen mellem observation x og parameter θ, så hvis 2 log Q(x, θ) er lille, betyder det at θ er i næsten lige så god konkordans med x som den bedste parameter ˆθ. Konfidensområdet på baggrund af 2 log Q samler så at sige de gode parametre, og repræsenterer derfor et udsagn om usikkerheden forbundet med maksimaliseringsestimation. For at denne konstruktion skal være nogen nytte til i praksis, er det vigtigt at der ofte gælder at 2 log Q(θ, X) approx χ 2 df=dim Θ for alle θ Θ. (4) Altså: 2 log Q er approksimativt pivot, og den (approksimative) fælles fordeling er oven i købet kendt. Dette er et af de centrale resultater fra den asymptotiske teori for statistiske modeller, og man kan i almindelighed slippe 4
5 godt fra at lade som om resultatet er eksakt, hvis modellen beskriver et eksperiment med et stort antal uafhængige gentagelser. Helt konkret fører denne ide til de approksimative konfidensområder C(x) = {θ Θ 2 log Q(θ, x) < z} (5) hvor z er 95% fraktilen i χ 2 -fordelingen med dim Θ frihedsgrader. Denne konstruktion opfylder muligvis ikke helt (3), men det vil som regel være tæt på. Data Datamaterialet er gjort tilgængeligt på erhansen/stat1ts 03/rapport/rotter.dat Denne fil indeholder samtlige levetider for de rotter, der indgik i eksperimentet. Levetiden er angivet som antal dage efter baseline, hvor baseline er det tidspunkt, hvor der er blevet trukket lod om, hvilken gruppe den pågældende rotte skulle placeres i. Levetidsvariablen hedder tid i filen. For hver rotte er der angivet om den havde begrænset eller ubegrænset adgang til føde. Det sker i form af variablen gruppe, der kan antage de to værdier Diæt (begrænset adgang) og Alm. (ubegrænset adgang). 1. Indlæs data, og beskriv den empiriske fordeling af reaktionstiderne i hver af de to grupper (histogrammer, momenter, udvalgte fraktiler etc.) Kommenter ligheder og forskelle mellem grupperne. Opstilling af model I analysen vil vi i første omgang koncentrere os om kontrolpopulationen af rotter med ubegrænset adgang til fødevarer. Når levetiden for denne population er forstået, vil vi inddrage gruppen på diæt. 5
6 Lad variablene X 1,..., X n være levetiderne for rotterne i grundpopulationen. Vi antager at disse stokastiske variable er uafhængige og identisk fordelte. I første omgang antager vi at de er Weibull-fordelte med formparameter c = eneste ukendte parameter er således skalaparameteren β. I anden omgang vil vi betragte både form- og skalaparameter som ukendte, og vi vil se at det komplicerer analysen ganske betydeligt. Vi vil interessere os dels for estimation af de ukendte parametre, og dels for en beskrivelse af usikkerheden forbundet med estimaterne. Den etdimensionale model I første omgang antager vi altså: X 1,..., X n er uafhængige. Hvert X i er Weibull-fordelt med formparamter c = 5.5 og ukendt skalaparameter β (0, ). 2. Find middelværdien af X i i denne model, og kom herudfra med et initialt skøn over β. 3. Opskriv likelihoodfunktionen L X (β) og opskriv også l X (β) = log L X (β) Tegn grafen for de observerede funktioner L x (β) og l x (β). 4. Under hvilke omstændigheder kan likelihoodfunktionen maksimaliseres, og under hvilke omstændigheder er maksimum entydigt bestemt? Opskriv et eksplicit udtryk for maksimaliseringsestimatoren ˆβ. Udregn ˆβ for de konkrete data. 5. Vurder om det er rimeligt at observationerne stammer fra en Weibullfordeling med formparameter 5.5 og skalaparameter ˆβ. 6. Angiv den forventede information i(β) = E β (l X (β)). 6
7 7. Simuler et stort antal (f.eks ) datasæt af samme størrelse som grundpopulationen. Disse simulerede data skal være uafhængige, Weibullfordelte med formparameter 5.5 og skalaparameter ˆβ. Find for hvert af disse simulerede datasæt maksimaliseringsestimatoren for β. Sammenlign den empiriske fordeling af de simulerede estimatorer med normalfordelingen med middelværdi ˆβ og varians 1 i( ˆβ). 8. I denne simple model er vi så heldige at kunne finde maksimaliseringsestimatoren eksplicit. Men lad os for træningens skyld rigge en Newton-Raphson algoritme op, der kan finde en numerisk approksimation til ˆβ. Hvor mange iterationer k af algoritmen skal der til for at få en approksimation β k, der opfylder at β k ˆβ < 10 ˆβ 3, hvis algoritmens startpunkt β 0 er henholdsvis 700, 800, 900 og 1000? 9. Undersøg ved et simulationseksperiment hvor god den fundamentale approksimation (4) er for den aktuelle model. Det vil sige: vælg et sandt β, simuler en lang række datasæt med n elementer ud fra dette β, og udregn for hvert af disse datasæt 2 log Q(β, x). Sammenhold de simulerede 2 log Q- værdier med χ 2 -fordelingen med 1 frihedsgrad. Gentag gerne undersøgelsen for flere β er. 10. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal β-værdier på (0, ) undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges den pågældende β-værdi på en passende markant måde, hvis nej farvelægges den pågældende β-værdi ikke. Beskriv den farvelagte mængde. 11. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning, hvorpå de to β-estimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetiderpå baggrund af denne tegning? 7
8 Den todimensionale model Vi vender tilbage til studiet af grundpopulationen. Men nu antager vi at både form- og skalaparameter er ukendt: X 1,..., X n er uafhængige. Hvert X i er Weibullfordelt med ukendt formparamter c (0, ) og ukendt skalaparameter β (0, ). 12. Opskriv likelihoodfunktionen L X (c, β) og opskriv også l X (c, β) = log L X (c, β) Optegn i et relevant område af (c, β)-planen nogle niveaukurver for den observerede loglikelihoodfunktion. 13. Find scorefunktion og den observerede informationsmatrix. 14. I denne model kan man ikke eksplicit finde maksimaliseringsestimatoren, og man er derfor tvunget ud i numerisk optimering. Kør en Newton-Raphson algoritme, indtil den har stabiliseret sig (sørg for at vælge et fornuftigt startpunkt) og angiv den numerisk bestemte maksimaliseringsestimator (ĉ, ˆβ). 15. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal punkter i (c, β)-planen undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges det pågældende punkt på en passende markant måde, hvis nej farvelægges det pågældende punkt ikke. Forsøg at beskrive den farvelagte mængde. 16. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning af en (c, β)-plan, hvorpå de to masimaliseringsestimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetider på baggrund af denne tegning? 8
Statistik 1TS 2005 Obligatorisk opgave 1
9. marts 2005 Stat 1TS / EH Statistik 1TS 2005 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles onsdag d. 9. marts 2005. Rapporten skal afleveres til mig personligt. Afleveringsfristen er tirsdag
Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.
Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Den lineære normale model
Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål
Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.
Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.
Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Kvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Preben Blæsild og Jens Ledet Jensen
χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter
Note om Monte Carlo eksperimenter
Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 9. september 003 Denne note er skrevet til kurset Økonometri på. årsprøve af polit-studiet.
Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Vejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
Kvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:
Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab
Statistik for ankomstprocesser
Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden
Center for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave
3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1
Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Kvantitative Metoder 1 - Forår Dagens program
Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2
Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition
Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006
Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Kvantitative Metoder 1 - Forår 2007. Dagens program
Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver
Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2 Københavns Universitet Susanne Ditlevsen og Helle Sørensen R opgaver Det er en god ide at vænne sig til at skrive kommandoerne i en editor
Estimation. Kapitel 4
Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af
Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Stamoplysninger til brug ved prøver til gymnasiale uddannelser
Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Afsluttes juni 2019 Institution Campus Vejle Uddannelse Fag og niveau Lærer Hold HHX Matematik B Jebbe Lukas
Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017
Bayesiansk statistik Tom Engsted DSS Aarhus, 28 november 2017 1 Figure 1: Nicolajs gur 2 Klassisk frekvensbaseret statistik Statistisk beslutningsteori Bayesiansk statistik Et kompromis mellem den klassiske
Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.
Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
1. februar Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Statistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
