NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Relaterede dokumenter
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Den lineære normale model

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Den lineære normale model

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Tema. Dagens tema: Indfør centrale statistiske begreber.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksamen i Statistik for biokemikere. Blok

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Eksamen 2014/2015 Mål- og integralteori

Skriftlig eksamen Science statistik- ST501

Forelæsning 11: Kapitel 11: Regressionsanalyse

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Løsning eksamen d. 15. december 2008

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Opgaver til kapitel 3

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Estimation og usikkerhed

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Reeksamen 2014/2015 Mål- og integralteori

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Sandsynlighedsregning Oversigt over begreber og fordelinger

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Løsning til eksaminen d. 29. maj 2009

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik 1TS 2003 Obligatorisk opgave 1

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Uge 10 Teoretisk Statistik 1. marts 2004

Reeksamen i Statistik for biokemikere. Blok

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Normalfordelingen og Stikprøvefordelinger

Kvantitative metoder 2

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl

Kvantitative metoder 2

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

(studienummer) (underskrift) (bord nr)

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Reeksamen i Statistik for biokemikere. Blok

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Kvantitative Metoder 1 - Forår 2007

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Løsning til eksamen d.27 Maj 2010

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Eksamen i Statistik for Biokemikere, Blok januar 2009

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Lidt om fordelinger, afledt af normalfordelingen

Løsning til eksaminen d. 14. december 2009

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Eksamen i Statistik for biokemikere. Blok

Statistiske modeller

Kvantitative Metoder 1 - Forår Dagens program

Elementær sandsynlighedsregning

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kvantitative metoder 2

Transkript:

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive med blyant og benytte viskelæder, så længe skriften er læselig og udviskninger foretages grundigt. Overstregning trækker ikke ned og anbefales ved større ændringer. Sættet består af 3 opgaver, med ialt 14 delspørgsmål. Ved bedømmelsen indgår disse 14 delspørgsmål med samme vægt. Opgave 1 Man har målt fluorkoncentrationen i urin fra kvæg, der græssede på fluorforurende marker, og sammenlignet med den tilsvarende koncentration i urin fra kvæg, der græssede i et ikke-forurenet område. Målingerne fra 12 køer er anført i tabel 1. Forurenet 21.3 18.7 23.0 17.1 16.8 20.9 19.7 Ikke forurenet 14.2 18.3 17.2 18.4 20.0 Tabel 1: Fluorkoncentration i kvægs urin, opgjort i ppm (parts per million). Spørgsmål 1.1. Undersøg ved en ikke-parametrisk metode om der er forskel på de to kvægpopulationer med hensyn til fluorkoncentration i urin. Spørgsmål 1.2. Undersøg det samme spørgsmål under antagelse af at observationerne er normalfordelte. 1

Opgave 2 Lad X være en reel stokastisk variabel med tæthed f(x) = 2 x λ e x2 /λ for x > 0, (1) med hensyn til Lebesguemålet på den reelle akse. Her er λ > 0 en ukendt parameter. Spørgsmål 2.1. Find middelværdi og varians for X. Find også middelværdi og varians for X 2. Lad X 1,..., X n være uafhængige, identisk fordelte stokastiske variable, alle med tæthed (1). Vi ønsker at drage inferens om den ukendte parameter λ. Spørgsmål 2.2. Opskriv likelihoodfunktionen, og gør rede for at er sufficient for λ. n Xi 2 Spørgsmål 2.3. Find scorefunktionen og informationsfunktionen, og udregn den forventede information. Spørgsmål 2.4. Gør rede for at maksimaliseringsestimatoren ˆλ er entydigt bestemt, og angiv en formel for den. Gør rede for at ˆλ er asymptotisk normalfordelt, og find de asymptotiske parametre. i 1 2 3 4 5 6 7 8 9 10 X i 2.59 1.37 1.18 0.79 1.78 1.94 1.58 0.66 1.22 1.81 Tabel 2: Et prøvedatasæt med 10 observationer. Observationerne stammer fra en fordeling med tæthed (1). 2

Spørgsmål 2.5. Udregn ˆλ på data fra tabel 2. Angiv også et approksimativt 95% konfidensområde for λ, baseret på maksimaliseringsestimatorens asymptotiske fordeling. Opgave 3 Mozarellaost bruges som smelteost, og kan i opvarmet stand strækkes ganske langt. Strækevnen kan betragtes som et kvalitetskriterium for osten. Et mejeri har ønsket at undersøge hvordan strækevnen af deres mozarella varierer med temperaturen. Man konstruerede en slags strækbænk, og foretog et eksperiment, hvor man målte hvor langt en ost kunne strækkes, før ostemassen begyndte at briste. Resultatet blev opgjort i procent af længden af den ustrakte ost. Data fra eksperimentet er angivet i tabel 3. Temperatur Strækprocent Temperatur Strækprocent 60 125 70 177 60 146 70 203 70 185 80 247 70 174 80 230 70 184 80 255 70 198 80 250 70 164 80 228 70 183 Tabel 3: Strækprocent ved bristning for mozarellaost, sat i forhold til temperaturen (målt i C). Vi antager at responsvariablene X 1,..., X N, svarende til de N strækningsprocenter, er uafhængige, normalfordelte med samme varians σ 2, og at EX i = α + βt i for i = 1,..., N, hvor t i er temperaturen for den i te måling. Der kan benyttes følgende regnestørrelser: S t = 1080 SS t = 78400 SP tx = 215820 S x = 2949 SS x = 600843. 3

Spørgsmål 3.1. Tegn en skitse af sammenhængen mellem temperatur og strækningsprocent, og kontroller at vi har opstillet en rimelig model. Estimer parametrene i den lineære regression, og angiv fordelingen af estimatorerne. Spørgsmål 3.2. Konstruer et 95% konfidensinterval for hældningsparameteren β. Find et teoretisk udtryk for den forventede længde af dette konfidensinterval. Vink: det kan være nyttigt at erindre, at hvis Z er Γ-fordelt med formparameter λ og skalaparameter γ, så er EZ δ δ Γ(λ + δ) = γ Γ(λ) for δ > 0. Et karakteristisk træk ved de eksperimentelle resultater i tabel 3, er at der kun indgår ganske få temperaturværdier - disse værdier svarer til hvordan temperaturreguleringen på nogle varmeskabe har været indstillet. Man kunne derfor fristes til at afrapportere data på en aggregeret facon, som i tabel 4. Temperatur Antal obs. Gennemsnitlig strækprocent 60 2 135.5 70 8 183.5 80 5 242.0 Tabel 4: En aggregeret afrapportering af målingerne fra tabel 3. Målet for resten af denne opgave, er at undersøge hvilken forskel, det gør for analysen, om man har adgang til de originale målinger fra tabel 3, eller om man må nøjes med de aggregerede målinger fra tabel 4. De aggregerede målinger svarer til stokastiske variable Y j = 1 X i for j = 1, 2, 3, n j i:t i =s j hvor s j er temperaturen svarende til aggregering j, og hvor n j er antallet af observationer, der indgår i denne aggregering. For at være explicitte, kan vi sige at j = 1 svarer til 60 C, at j = 2 svarer til 70 C og at j = 3 svarer til 80 C. 4

Spørgsmål 3.3. Find den marginale fordeling af hver af variablene Y 1, Y 2 og Y 3. Gør rede for at den simultane fordeling af Y 1, Y 2 og Y 3 følger en lineær normal model, hvor den indgående grundpræcision er y 1, y 2 = y 1 T B y 2 for y 1, y 2 R 3, (2) med B = n 1 0 0 0 n 2 0 0 0 n 3. Spørgsmål 3.4. Opstil en formel for maksimaliseringsestimatoren for hældningen β på baggrund af Y -observationerne. I processen kan det være naturligt også at estimere α, men opgaven er besvaret, blot der er angivet en formel for β. Vink: Projektionsformlen nederst p. 358 i noterne kan være nyttig. Spørgsmål 3.5. Gør rede for at maksimaliseringsestimatoren for β på baggrund af Y -observationerne er identisk med maksimaliseringsestimatoren på baggrund af X-observationerne. Det er ikke nok at vise at de konkrete estimater er identiske, der spørges efter en formelmæssig identitet mellem estimatorerne. Det kan være nyttigt at overbevise sig om og udnytte at 3 n j s j = N t i, 3 n j Y j = N X i, 3 n j s j Y j = N t i X i. j=1 j=1 j=1 Man kan naturligvis også estimere σ 2 på baggrund af Y -observationerne. Vi skal undlade at gøre det, blot vil vi gøre opmærksom på at den centrale estimator σ2 for σ 2 på baggrund af Y -observationerne ikke bliver identisk med den centrale estimator σ 2 på baggrund af X-observationerne. Spørgsmål 3.6. Hvad er fordelingen af σ2? 5

Spørgsmål 3.7. Opstil et 95% konfidensinterval for β på baggrund af Y -observationerne, og find den forventede længde af dette interval. Sammenlign de forventede længder af konfidensintervallerne for β, baseret på henholdsvis X-observationerne og Y -observationerne. Vink: Har man ikke adgang til en tabel over Γ-funktionens værdier, kan man uden bevis benytte at Γ(λ + 1/2) Γ(λ) λ, når blot λ ikke er alt for tæt ved nul. 6