Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt. Opgavesættet består af 4 opgaver(6 sider incl. forside). For hver opgave er angivet den vægt i procent, hvormed opgaven indgår i bedømmelsen. 1
Opgave1(20%) Et tyverisikringsfirma har tre slags kunder, som fordeler sig på følgende måde: Private20%. Forretninger 30%. Industrivirksomheder 50%. Nårderindgårenalarmtilfirmaeterderenvissandsynlighedfor,atalarmen er falsk: Hvis alarmen kommer fra en privat kunde er sandsynligheden for falsk alarm 0.05. Hvis alarmen kommer fra en forretningskunde er sandsynligheden for falsk alarm 0.1. Hvis alarmen kommer fra en industrivirksomhed er sandsynligheden for falsk alarm 0.02. 1. Nårderindgårenalarmtilfirmaet,hvadersåsandsynlighedenforat alarmen er falsk? Svar: Brug loven om total sandsynlighed: P(Falsk) = P(Falsk Privat)P(Privat)+ P(Falsk Forretning)P(Forretning) + P(Falsk Industri)P(Industri) =0.05 0.2+0.1 0.3+0.02 0.5=0.05 2. Find den betingede sandsynlighed, givet at alarmen er falsk, for hver af følgende hændelser: Deterenprivatkunde. Svar: P(Privat Falsk) = P(Falsk Privat)P(Privat) P(Falsk) = 0.05 0.2 =0.2 0.05 2
Det er en forretningskunde.svar: P(Forretning Falsk) = P(Falsk Forretning)P(Forretning) P(Falsk) = 0.1 0.3 =0.6 0.05 Det er en industrivirksomhed. Svar: P(Industri Falsk) = P(Falsk Industri)P(Industri) P(Falsk) = 0.02 0.5 =0.2 0.05 3
Opgave2(20%) I et køsystem er ventetiden(i minutter) for hver kunde en stokastisk variabel X, som er eksponentialfordelt med middelværdi µ = 2. 1. Findsandsynlighedenfor,atventetidenforenkundeermindreend3 minutter. Svar: En eksponentialfordelt stokastisk variabel med parameter λ har middelværdi µ = 1/λ. En middelværdi på 2 giver derfor λ = 1/2. FordelingsfunktionenerderforF X (x)=1 e 0.5 x. Resultateterderfor P(X 3)=1 e 0.5 3 =0.7769. 2. LadX 1 + +X n betegnedensamledeventetidforn=500kunder, hvor det antages at de n ventetider er indbyrdes uafhængige. Udregn, approximativt, sandsynligheden for at den samlede ventetid overstiger 18 timer. Svar: Bemærk, at en eksponentialfordelt stokastisk variabel har variansvar(x)=1/λ 2,altså4idetgældendetilfælde. Fradencentrale grænseværdisætningfås,danerstor,atsummens n erapproximativt normalfordelt, S n N(n 2,n 4)=N(1000,2000) Resultatet er derfor, ved brug af Tabel A.3 ( ) 18 60 1000 P(S n > 18 60) 1 Φ 2000 ( ) 18 60 1000 = 1 Φ 2000 = 1 Φ(1.79) = 1 0.9633=0.0367 4
Opgave3(30%) Betragt et smagsdommerpanel bestående af n personer. En triangeltest udføres ved, at hver dommer præsenteres for tre smagsprøver. Af disse tre smagsprøver er de to helt ens, mens den tredje smagsprøve skiller sig ud fra de to andre. Lad Y være den stokastiske variabel, som angiver hvor mange af de n smagsdommere, som svarer rigtigt, dvs. kan identificere den smagsprøve,somskillersigudfradetoandre. 1. Hvilke antagelser kræves der, for at konkludere, at Y er binomialfordelt b(n,p)? Svar: De n smagsdommere skal være uafhængige af hinanden, med hensyn til om de svarer rigtigt. Desuden skal sandsynligheden for at svare rigtigt være den samme for alle n dommere. Under disse omstændigheder er Y binomialfordelt b(n, p). 2. Gør rede for, at værdien p = 1/3 svarer til, at smagsdommerne ikke kansmageforskel. Hvisp=1/3ogn=10hvadersåsandsynligheden for, at mere end halvdelen af smagsdommerne svarer rigtigt? Svar:Hvisensmagsdommerikkekansmageforskel,måvigåudfra,at han eller hun vælger den smagsprøve, som tilsyneladende skiller sig ud fra de to andre, helt tilfældigt blandt de tre smagsprøver, hvilket sker medsandsynlighed1/3. Forn=10fåsfraTabelA.1(medp=0.35) P(Y > 5)=1 P(Y 5) 1 0.9051=0.0949 Brugesistedetp=0.30fåsresultatat1 0.9527=0.0493. Detkorrekte tal ligger et sted mellem disse to værdier. En eksakt udregning med p=1/3udføressomfølger: 5 ( ) n P(Y 5)= p i (1 p) n i = 5 i=0 i=0 ( 10 i i ) 2 10 i 3 10 = 210 3 10+1029 3 10+4528 3 10+12027 3 10+21026 3 10+25225 = 0.9234 3 10 5
Resultatet er derfor P(Y >5)=1 0.9234=0.0766 3. I en bestemt triangeltest svarede 13 ud af 25 smagsdommere rigtigt. Ud fra disse data skal du udregne et 95%(approximativt) konfidensinterval for parameteren p. Tyder disse data på, at smagsdommerne kan smage forskel? Svar: Vi skal lave et 95% konfidensinterval for p. Estimatet er ˆp = 13/25 = 0.52. Standard error er SE= 0.52 (1 0.52)/25=0.0999 Medtabelopslag z 0.975 = 1.96 fås endepunkterne 0.52±0.0999 1.96, altså intervallet (0.3242, 0.7158). Dadetteintervalindeholderværdien1/3=0.33,såtyderdetikkepå at smagsdommerne kan smage forskel, idet ˆp således ikke er signifikant forskelligfra1/3påniveauα=5%. 6
Opgave4(30%) Den velkendte 13-skala skal nu udskiftes med den nye 7-skala, som er defineret som følger: 12: For den fremragende præstation. 10: For den fortrinlige præstation. 7: Fordengodepræstation. 4: Fordenjævnepræstation. 02: For den tilstrækkelige præstation. 00: For den utilstrækkelige præstation. 3: For den ringe præstation. I karakterbekendtgørelsen ses følgende omsætningstabel mellem ny og gammel skala. 7-skala 13-skala 12 13 12 11 10 10 7 9 7 8 4 7 02 6 00 5 00 03 3 00 En gymnasielærer ønsker at omregne karakterværdier fra gammel til ny skala ved hjælp af lineær regression. Denne metode kan især være praktisk, hvis man ønsker at omregne et karaktergennemsnit, som jo ikke behøver at være blandt de værdier som optræder i tabellen. Lad y være karakterværdi efter 7-skalaen og lad x være karakterværdi efter 13-skalaen. 7
1. Dataitabellenskalbrugessomgrundlagforomregningen,idetdeopfattessomn=10observationsparfraenlineærregressionafypåx. Nedenfor ses output fra en SAS/Insight analyse af data. Er betingelserne for at bruge lineær regression opfyldt? Angiv den estimerede sammenhæng mellem ny og gammel karakterskala. Svar: Detdrejersigomom kunstige data,sådeternoktvivlsomt, omnogenstatistiskmodelkanbeskrivehvadderjoibundoggrunder to menneskeskabte skalaer. Specielt er det uklart, hvad uafhængighed skal betyde i dette tilfælde. Men ud fra scatterplottet for x og y kan man godt gå med til at der skulle være en lineær sammenhæng. Residualplottet give ikke anledning til at tvivle på at variansen skulle være konstatn, og QQ-plottet for residualerne (som er pænt lineært) bekræfter, at residualerne er normalfordelte. I det hele taget gør det ringe antal data det vanskeligt at tilbagevise den lineære regressionsmodel. Den estimerede regressionslinie er givet ved hvilket ses af SAS-outputtet. y= 4.4469+1.3260 x, Uanset svaret på spørgsmål 1 vil vi følge gymnasielærerens idé og bruge lineær regression til omregningen. 2. Den "gennemsnitlige" præstation i 13-skalaen er 8, mens den er 7 i 7-skalaen. Undersøg, ved hjælp af en passende test, om denne sammenhænggælderteoretisk,altsåomβ 0 +β 1 8=7,hvorβ 0 ogβ 1 er regressionsliniens parametre. Svar: ViskaltestehypotesenH 0 :β 0 +β 1 8=7. Daintetandeter opgivet vil vi bruge en tosidet test. Den forventede middelrespons er ŷ 0 = 4.4469+1.3260 8=6.1611 SEforparameterenβ 0 +β 1 8ergivetved [ ] 1 SE = MSE n +(x 0 x) 2 SSX [ ] 1 = 2.0616 10 +(8 7.2)2 135.6 = 0.4646 8
Det giver følgende t-test t= 6.1611 7 0.4646 = 1.8055 Tabelopslag t 8,0.975 = 2.3060. Altså kan nulhypotesen accepteres på niveau5%. 3. Den laveste beståelseskarakter i 13-skalaen er som bekendt 6, mens den laveste beståelseskarakter i 7-skalaen er 02. Udregn et 95% prædiktionsinterval for Y svarende til værdien x = 6. Indeholder dette interval værdien y = 2? Giver dette resultat anledning til bekymring? Du skal argumentere for dine konklusioner. Svar:Den forventede middelrespons er nu ŷ 0 = 4.4469+1.3260 6=3.5091 Den tilhørende SE er [ SE = MSE 1+ 1 ] n +(x 0 x) 2 SSX [ = 2.0616 1+ 1 ] 10 +(6 7.2)2 135.6 = 1.5136 Tabelopslag t 8,0.975 = 2.3060 som før. Endepunkter i intervallet er 3.5091 ± 2.3060 1.5136, altså fås prædiktionsintervallet (0.0198, 6.9984). Intervallet indeholder værdien 2, hvilket er fint, men det er et temmelig bredt interval. Det er lidt bekymrende, da det afspejler, at sammenhængen mellem ny og gammel skala ikke er særlig velbestemt ved denne metode. 9
10
11