NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive med blyant og benytte viskelæder, så længe skriften er læselig og udviskninger foretages grundigt. Overstregning trækker ikke ned og anbefales ved større ændringer. Opgave 1 En reel stokastisk variable X er Burr-fordelt med eksponent 2 hvis den har tæthed 2 α x f(x) = for x > 0, (1) (1 + x 2 ) α+1 med hensyn til Lebesguemålet på den reelle akse. Her er α > 0 en ukendt parameter. Spørgsmål 1.1. Gør rede for at (1) definerer et sandsynlighedsmål. Spørgsmål 1.2. Vis at hvis X er Burr-fordelt med eksponent 2 og parameter α, så har log(1 + X 2 ) momenter af enhver orden, og E ( log(1 + X 2 ) )k Γ(k + 1) = for alle k N. α k Find middelværdi og varians for log(1 + X 2 ). Lad X 1,..., X n være uafhængige, identisk fordelte stokastiske variable, alle Burr-fordelte med eksponent 2 og parameter α. Vi ønsker at drage inferens om den ukendte parameter α. 1
i 1 2 3 4 5 X i 0.095 0.079 0.315 1.054 0.023 i 6 7 8 9 10 X i 0.019 0.375 0.251 0.073 1.817 Tabel 1: Et prøvedatasæt med 10 observationer. Observationerne stammer fra en fordeling med tæthed (1). Spørgsmål 1.3. Opskriv likelihoodfunktionen, og gør rede for at n log(1 + Xi 2 ) er sufficient for λ. i=1 Spørgsmål 1.4. Find scorefunktionen og informationsfunktionen, og udregn den forventede information. Spørgsmål 1.5. Gør rede for at maksimaliseringsestimatoren ˆα er entydigt bestemt, og angiv en formel for den. Gør rede for at ˆα er asymptotisk normalfordelt, og find de asymptotiske parametre. Spørgsmål 1.6. Udregn ˆα på data fra tabel 1. Angiv også et approksimativt 95% konfidensområde for α, baseret på maksimaliseringsestimatorens asymptotiske fordeling. Opgave 2 En fabrik, der producerer cementfliser, udfører kvalitetskontrol af det færdige produkt. En flise spændes fast i en position, hvor halvdelen af flisen understøttes af et bord, og den anden halvdel hænger frit i luften. Den fri halvdel udsættes for et tryk indtil flisen knækker. Jo højere tryk der er nødvendigt for at knække flisen, jo bedre. 2
Tre arbejdere (her kaldet Blander, og benævnt A, B og C) har hver fremstillet 12 fliser. Tre andre arbejdere (her kaldet Bryder og benævnt 1, 2 og 3) har hver kvalitetskontrolleret 4 fliser fra hver af de tre blandere. De målte knækstyrker er anført i tabel 2. Bryder 1 Bryder 2 Bryder 3 I alt 5280 4340 4160 Blander A 4760 5020 5320 60580 5520 4400 5180 5800 6200 4600 4420 5340 4180 Blander B 5580 4960 4600 59620 5280 4880 4800 4900 6200 4480 5360 5720 4460 Blander C 5680 5620 4680 64030 6160 4760 4930 5500 5560 5600 I alt 64240 63000 56990 184230 Tabel 2: Knæktrykket for 36 cementfliser, målt i pund per kvadrattomme. Vi betragter forsøget som et faktorforsøg med de to faktorer Blander og Bryder, begge med tre niveauer. Vi antager således at de 36 målte knækstyrker er realisationer af stokastiske variable, der er uafhængige og normalfordelte med samme varians σ 2, og med en middelværdi der som udgangspunkt får lov at variere med den konkrete kombination af Blander og Bryder. I analysen kan følgende regnestørrelser uden videre benyttes: SS I = 954278900 SS Blander Bryder = 946863425 Spørgsmål 2.1. Opstil den lineære model ud fra produktfaktoren Blander Bryder. Angiv det centrale variansestimat. Angiv også variansestimatorens fordeling. Spørgsmål 2.2. Opstil den additive hypotese om af de to faktorer Blander og Bryder ikke vekselvirker. Vi ønsker at teste den 3
additive hypotese mod den fulde vekselvirkningsmodel. Opskriv et teoretisk udtryk for en teststørrelse, og gennemfør testet i praksis. Spørgsmål 2.3. Undersøg om faktorerne Blander og Bryder overhovedet har betydning for knækstyrken af fliserne. Opgave 3 Lad V være et endeligdimensionalt vektorrum med indre produkt, og lad L V være et ægte underrum. Lad X være en stokastisk variabel med værdier i V. Vi antager at X er regulært normalfordelt med centrum ξ L og præcision, σ 2, givet ved x, y σ 2 = x, y σ 2 for x, y V. Her er ξ L og σ 2 (0, ) ukendte parametre. En lineær middelværdifunktion er en lineær afbildning τ : L R. I analysen af konkrete lineære normale modeller er der ofte specielle lineære middelværdifunktioner, det er relevante at drage inferens om. Hvis V = R I kan vi skrive ξ = (ξ i ) i I, og her kan man f.eks. tænke på τ (ξ) = ξ i0 (2) hvor man ser på middelværdien af en udvalgt observation, og τ (ξ) = ξ i1 ξ i0 (3) hvor man ser på forskellen på middelværdierne af to udvalgte observationer. En vektor v V giver anledning til en lineær middelværdifunktion τ v ved τ v (ξ) = v, ξ I det følgende kan det frit benyttes at enhver lineær middelværdifunktion fremstilles på denne måde - det ønskes ikke bevist. Spørgsmål 3.1. Find vektorer i R I, der repræsenterer de lineære middelværdifunktioner (2) og (3), når vektorrummet udstyres med det sædvanlige indre produkt. 4
Der er ikke en en-til-en korrespondance mellem vektorer i V og lineære middelværdifunktioner - forskellige vektorer kan godt give anledning til samme lineære middelværdifunktion. Spørgsmål 3.2. Vis at for to vektorer v, w V gælder det at τ v = τ w hvis og kun hvis v w L. Hvis vi repræsenterer en lineær middelværdifunktion τ ved en vektor v V, så har vi samtidigt konstrueret en lineær estimator af τ (altså en estimator, der er en lineær funktion af X), nemlig τ v = v, X Spørgsmål 3.3. Gør rede for at τ v er en central estimator af τ, og find dens varians. Spørgsmål 3.4. Lad τ være en lineær middelværdifunktion. Vis at der blandt de vektorer, der repræsenterer τ, findes et entydigt bestemt v, der giver den tilhørende lineære estimator af τ mindst varians. Spørgsmål 3.5. Lad (X i ) i I være uafhængige normalfordelte reelle variable med samme varians σ 2. Lad f : I F = {1,..., F } være en faktor med mindst to niveauer, og antag at middelværdivektoren (ξ) i I ligger i L F, faktorunderrummet hørende til f. Lad i 1 og i 2 være to observationsindices, så f(i 1 ) = 1, f(i 2 ) = 2. Vi interesserer os for forskellen ξ i1 ξ i2. Hvad er den mindste varians man kan opnå, hvis man estimerer denne forskel med en central lineær estimator? Hvordan ser den pågældende lineære estimator ud? 5