SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt. Du bedes tjekke, at opgavesættet består af 6 sider i alt. Eksamen varer 3 timer hvor alle sædvanlige hjælpemidler herunder bøger, noter samt lommeregner er tilladte. Der lægges vægt på, at de benyttede metoder fremgår af besvarelsen, og at svarene begrundes. Bemærk, at senere delspørgsmål i en opgave ofte kan besvares uden at alle tidligere spørgsmål er besvaret. Det er således tilladt at bruge oplysninger fra tidligere delspørgsmål selvom disse ikke er besvaret. Bemærk: når frihedsgraderne, der skal anvendes i en hypotesetest, ikke er i den relevante tabel i bogen, så brug den nærmeste lavere frihedsgrad i tabellen til at udføre testen.
Opgave 1 Blodsukkeret måles på en gruppe af diabetikere efter de har spist et stykke kage. Følgende koncentrationer måles, hvis diabetikerne ikke har tages insulin: 17.2 20.5 22.0 19.1 23.4 18.7 19.6 17.9 17.6 21.8 18.9 1) Find middelværdien og variansen af ovenstående koncentrationer. Blodsukkeret måles efterfølgende på 13 personer, der ikke har diabetes, efter de har spist et stykke kage. Middelkoncentrationen er 8.0 og variansen er 1.1. 2) Lav en test på niveau 5% om middelkoncentrationen er forskellig for personer med og uden diabetes. Gør rede for hvilke antagelser, du har gjort. Opgave 2 Lad X være en stokastisk variabel med følgende tæthedsfunktion c, 0 x < 1 f X (x) = 0.1, 1 x < 3 0, ellers 1) Bestem værdien af c. 2) Find middelværdien og variansen af X. Lad Y være den stokastiske variabel, der er givet ved Y = X 1 + X 2 + + X 300, hvor X 1, X 2,..., X 300 er uafhængige stokastiske variable med samme fordeling som X. 3) Angiv den approksimative fordeling for Y. 4) Find den approksimative sandsynlighed for at Y antager en værdi mindre end 200. 2
Opgave 3 Man ønsker at sammenligne arbejdsbelastningen i gymnasiet og på universitetet. Man har således spurgt en tilfældig valgt gruppe på 150 universitetsstuderende, hvor mange timer om ugen de brugte på hjemmearbejde mens de gik i gymnasiet, og hvor mange timer om ugen de bruger, mens de går på universitetet. Følgende resultater (i timer) fås: Middelværdi Spredning Gymnasiet 7.5 1.4 Universitetet 16.0 2.4 Universitetet - Gymnasiet 8.5 2.7 I den sidste linje, har man betragtet forskellen i timers hjemmearbejde mellem universitetet og gymnasiet. 1) Udregn et 95% konfidensinterval, der angiver forskellen på det gennemsnitlige antal timer om ugen, der bruges på hjemmearbejde på universitetet og i gymnasiet. Hvilke antagelser gøres? Opgave 4 Angiv med sandt eller falsk sandhedsværdien af følgende udsagn. Du skal i hvert tilfælde argumentere for dit svar. 1a) For alle stokastiske variable X med middelværdi 5 og alle stokastiske variable Y med middelværdi 3 gælder, at X Y har middelværdi 2. b) For alle stokastiske variable X med varians 5 og alle stokastiske variable Y med varians 3 gælder, at X Y har varians 2. c) Fordelingsfunktionen for enhver stokastisk variabel er voksende. 2a) I et kortspil bestående af 13 klør, 13 spar, 13 hjerter og 13 ruder, modtager en spiller 8 kort. Lad X være den stokastiske variabel, der angiver antallet af ruder spilleren får. X er binomialfordelt. b) For enhver kontinuert stokastisk variabel gælder, at arealet under tæthedsfunktionen er 1. 3
Opgave 5 I amerikanske regioner formoder man, at der er en sammenhæng mellem indbyggernes uddannelsesniveau og mængden af kriminalitet, der begås. I en undersøgelse af 84 regioner sammenholder man procentdelen af indbyggere med mindst en high-school eksamen med den kriminelle rate (antal kriminelle tilfælde pr. 100000 indbyggere) i løbet af et år. Output fra en statistisk analyse ses nedenfor. Det foreslås at analysere data med en lineær regression, hvor responsvariablen er Y = den kriminelle rate, og den forklarende variabel er x = procentdelen af indbyggere med mindst en high-school eksamen. 1) Opskriv modellen for lineær regression, og angiv hvilke antagelser, der foretages. Giver residualplottene og xy-plottet anledning til at betvivle modellen? Uanset svaret på spørgsmål 1) vil vi nu benytte den lineære regressionsmodel. 2) Giv et estimat for forskellen i den gennemsnitlige kriminelle rate for to regioner, hvor forskellen på indbyggere med mindst en high-school eksamen er 1 procentpoint. 3) Lav en test på niveau 5% om den kriminelle rate afhænger af procentdelen af indbyggere med mindst en high-school eksamen. 4) Find et 95% prædiktionsinterval for den kriminelle rate i en region, hvor 83% af indbyggerne har mindst en high-school eksamen. 4
High s c h o o l eksamen Moments N 8 4. 0 0 0 0 Sum Wgts 84.0000 Mean 7 8. 5 9 5 2 Sum 6602.0000 Std. Dev 6. 2 2 1 1 CSS 3212.2380 Kriminel r a t e N 8 4. 0 0 0 0 Sum Wgts 84.0000 Mean 7 1 1 1. 2 0 2 0 Sum 597341.0000 Std. Dev 2 5 7 1. 2 4 1 0 CSS 548736.0800 Kriminel r a t e = High s c h o o l eksamen Response D i s t r i b u t i o n : Normal Link Function : I d e n t i t y Parametric Regression Fit Model Error Curve Degree ( Polynomial ) DF Mean Square DF Mean Square 1 1 93462942.00 82 5552112.00 Summary o f Fit Mean o f Response 7 1 1 1. 2 0 2 0 R Square 0.1703 Root MSE 2 3 5 6. 2 9 2 0 Adj R Sq 0.1602 Parameter Estimates Variable DF Estimate Std Error I n t e r c e p t 1 2 0 5 1 7. 6 0 3277.640 High s c h o o l eksamen 1 170.58 41.570 5
6