Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00



Relaterede dokumenter
Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Skriftlig eksamen Science statistik- ST501

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl

Skriftlig Eksamen ST501: Sandsynlighedsteori og Statistik Mandag den 31. oktober 2005 kl

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Nanostatistik: Opgavebesvarelser

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Note til styrkefunktionen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Modul 6: Regression og kalibrering

Modul 12: Regression og korrelation

Forelæsning 11: Kapitel 11: Regressionsanalyse

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Løsning til eksaminen d. 14. december 2009

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Reeksamen i Statistik for Biokemikere 6. april 2009

To samhørende variable

02402 Løsning til testquiz02402f (Test VI)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Konfidensintervaller og Hypotesetest

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Eksamen i Statistik for biokemikere. Blok

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Multipel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Produkt og marked - matematiske og statistiske metoder

Modul 5: Test for én stikprøve

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Løsning eksamen d. 15. december 2008

Estimation og konfidensintervaller

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Susanne Ditlevsen Institut for Matematiske Fag susanne

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Module 4: Ensidig variansanalyse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Reeksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning til eksamen d.27 Maj 2010

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Reeksamen i Statistik for biokemikere. Blok

Lineær regression i SAS. Lineær regression i SAS p.1/20

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Stastistik og Databehandling på en TI-83

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Forelæsning 9: Inferens for andele (kapitel 10)

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 16. december 2010 Kursus nr : (navn) (underskrift) (bord nr)

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Teoretisk Statistik, 13 april, 2005

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Bilag 7. SFA-modellen

Løsning til eksaminen d. 29. maj 2009

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

(studienummer) (underskrift) (bord nr)

Module 12: Mere om variansanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Modul 11: Simpel lineær regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Test nr. 6 af centrale elementer 02402

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Kvantitative Metoder 1 - Forår Dagens program

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Matematik A. Højere handelseksamen

(studienummer) (underskrift) (bord nr)

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Tema. Dagens tema: Indfør centrale statistiske begreber.

Transkript:

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt. Opgavesættet består af 4 opgaver(6 sider incl. forside). For hver opgave er angivet den vægt i procent, hvormed opgaven indgår i bedømmelsen. 1

Opgave1(20%) Et tyverisikringsfirma har tre slags kunder, som fordeler sig på følgende måde: Private20%. Forretninger 30%. Industrivirksomheder 50%. Nårderindgårenalarmtilfirmaeterderenvissandsynlighedfor,atalarmen er falsk: Hvis alarmen kommer fra en privat kunde er sandsynligheden for falsk alarm 0.05. Hvis alarmen kommer fra en forretningskunde er sandsynligheden for falsk alarm 0.1. Hvis alarmen kommer fra en industrivirksomhed er sandsynligheden for falsk alarm 0.02. 1. Nårderindgårenalarmtilfirmaet,hvadersåsandsynlighedenforat alarmen er falsk? Svar: Brug loven om total sandsynlighed: P(Falsk) = P(Falsk Privat)P(Privat)+ P(Falsk Forretning)P(Forretning) + P(Falsk Industri)P(Industri) =0.05 0.2+0.1 0.3+0.02 0.5=0.05 2. Find den betingede sandsynlighed, givet at alarmen er falsk, for hver af følgende hændelser: Deterenprivatkunde. Svar: P(Privat Falsk) = P(Falsk Privat)P(Privat) P(Falsk) = 0.05 0.2 =0.2 0.05 2

Det er en forretningskunde.svar: P(Forretning Falsk) = P(Falsk Forretning)P(Forretning) P(Falsk) = 0.1 0.3 =0.6 0.05 Det er en industrivirksomhed. Svar: P(Industri Falsk) = P(Falsk Industri)P(Industri) P(Falsk) = 0.02 0.5 =0.2 0.05 3

Opgave2(20%) I et køsystem er ventetiden(i minutter) for hver kunde en stokastisk variabel X, som er eksponentialfordelt med middelværdi µ = 2. 1. Findsandsynlighedenfor,atventetidenforenkundeermindreend3 minutter. Svar: En eksponentialfordelt stokastisk variabel med parameter λ har middelværdi µ = 1/λ. En middelværdi på 2 giver derfor λ = 1/2. FordelingsfunktionenerderforF X (x)=1 e 0.5 x. Resultateterderfor P(X 3)=1 e 0.5 3 =0.7769. 2. LadX 1 + +X n betegnedensamledeventetidforn=500kunder, hvor det antages at de n ventetider er indbyrdes uafhængige. Udregn, approximativt, sandsynligheden for at den samlede ventetid overstiger 18 timer. Svar: Bemærk, at en eksponentialfordelt stokastisk variabel har variansvar(x)=1/λ 2,altså4idetgældendetilfælde. Fradencentrale grænseværdisætningfås,danerstor,atsummens n erapproximativt normalfordelt, S n N(n 2,n 4)=N(1000,2000) Resultatet er derfor, ved brug af Tabel A.3 ( ) 18 60 1000 P(S n > 18 60) 1 Φ 2000 ( ) 18 60 1000 = 1 Φ 2000 = 1 Φ(1.79) = 1 0.9633=0.0367 4

Opgave3(30%) Betragt et smagsdommerpanel bestående af n personer. En triangeltest udføres ved, at hver dommer præsenteres for tre smagsprøver. Af disse tre smagsprøver er de to helt ens, mens den tredje smagsprøve skiller sig ud fra de to andre. Lad Y være den stokastiske variabel, som angiver hvor mange af de n smagsdommere, som svarer rigtigt, dvs. kan identificere den smagsprøve,somskillersigudfradetoandre. 1. Hvilke antagelser kræves der, for at konkludere, at Y er binomialfordelt b(n,p)? Svar: De n smagsdommere skal være uafhængige af hinanden, med hensyn til om de svarer rigtigt. Desuden skal sandsynligheden for at svare rigtigt være den samme for alle n dommere. Under disse omstændigheder er Y binomialfordelt b(n, p). 2. Gør rede for, at værdien p = 1/3 svarer til, at smagsdommerne ikke kansmageforskel. Hvisp=1/3ogn=10hvadersåsandsynligheden for, at mere end halvdelen af smagsdommerne svarer rigtigt? Svar:Hvisensmagsdommerikkekansmageforskel,måvigåudfra,at han eller hun vælger den smagsprøve, som tilsyneladende skiller sig ud fra de to andre, helt tilfældigt blandt de tre smagsprøver, hvilket sker medsandsynlighed1/3. Forn=10fåsfraTabelA.1(medp=0.35) P(Y > 5)=1 P(Y 5) 1 0.9051=0.0949 Brugesistedetp=0.30fåsresultatat1 0.9527=0.0493. Detkorrekte tal ligger et sted mellem disse to værdier. En eksakt udregning med p=1/3udføressomfølger: 5 ( ) n P(Y 5)= p i (1 p) n i = 5 i=0 i=0 ( 10 i i ) 2 10 i 3 10 = 210 3 10+1029 3 10+4528 3 10+12027 3 10+21026 3 10+25225 = 0.9234 3 10 5

Resultatet er derfor P(Y >5)=1 0.9234=0.0766 3. I en bestemt triangeltest svarede 13 ud af 25 smagsdommere rigtigt. Ud fra disse data skal du udregne et 95%(approximativt) konfidensinterval for parameteren p. Tyder disse data på, at smagsdommerne kan smage forskel? Svar: Vi skal lave et 95% konfidensinterval for p. Estimatet er ˆp = 13/25 = 0.52. Standard error er SE= 0.52 (1 0.52)/25=0.0999 Medtabelopslag z 0.975 = 1.96 fås endepunkterne 0.52±0.0999 1.96, altså intervallet (0.3242, 0.7158). Dadetteintervalindeholderværdien1/3=0.33,såtyderdetikkepå at smagsdommerne kan smage forskel, idet ˆp således ikke er signifikant forskelligfra1/3påniveauα=5%. 6

Opgave4(30%) Den velkendte 13-skala skal nu udskiftes med den nye 7-skala, som er defineret som følger: 12: For den fremragende præstation. 10: For den fortrinlige præstation. 7: Fordengodepræstation. 4: Fordenjævnepræstation. 02: For den tilstrækkelige præstation. 00: For den utilstrækkelige præstation. 3: For den ringe præstation. I karakterbekendtgørelsen ses følgende omsætningstabel mellem ny og gammel skala. 7-skala 13-skala 12 13 12 11 10 10 7 9 7 8 4 7 02 6 00 5 00 03 3 00 En gymnasielærer ønsker at omregne karakterværdier fra gammel til ny skala ved hjælp af lineær regression. Denne metode kan især være praktisk, hvis man ønsker at omregne et karaktergennemsnit, som jo ikke behøver at være blandt de værdier som optræder i tabellen. Lad y være karakterværdi efter 7-skalaen og lad x være karakterværdi efter 13-skalaen. 7

1. Dataitabellenskalbrugessomgrundlagforomregningen,idetdeopfattessomn=10observationsparfraenlineærregressionafypåx. Nedenfor ses output fra en SAS/Insight analyse af data. Er betingelserne for at bruge lineær regression opfyldt? Angiv den estimerede sammenhæng mellem ny og gammel karakterskala. Svar: Detdrejersigomom kunstige data,sådeternoktvivlsomt, omnogenstatistiskmodelkanbeskrivehvadderjoibundoggrunder to menneskeskabte skalaer. Specielt er det uklart, hvad uafhængighed skal betyde i dette tilfælde. Men ud fra scatterplottet for x og y kan man godt gå med til at der skulle være en lineær sammenhæng. Residualplottet give ikke anledning til at tvivle på at variansen skulle være konstatn, og QQ-plottet for residualerne (som er pænt lineært) bekræfter, at residualerne er normalfordelte. I det hele taget gør det ringe antal data det vanskeligt at tilbagevise den lineære regressionsmodel. Den estimerede regressionslinie er givet ved hvilket ses af SAS-outputtet. y= 4.4469+1.3260 x, Uanset svaret på spørgsmål 1 vil vi følge gymnasielærerens idé og bruge lineær regression til omregningen. 2. Den "gennemsnitlige" præstation i 13-skalaen er 8, mens den er 7 i 7-skalaen. Undersøg, ved hjælp af en passende test, om denne sammenhænggælderteoretisk,altsåomβ 0 +β 1 8=7,hvorβ 0 ogβ 1 er regressionsliniens parametre. Svar: ViskaltestehypotesenH 0 :β 0 +β 1 8=7. Daintetandeter opgivet vil vi bruge en tosidet test. Den forventede middelrespons er ŷ 0 = 4.4469+1.3260 8=6.1611 SEforparameterenβ 0 +β 1 8ergivetved [ ] 1 SE = MSE n +(x 0 x) 2 SSX [ ] 1 = 2.0616 10 +(8 7.2)2 135.6 = 0.4646 8

Det giver følgende t-test t= 6.1611 7 0.4646 = 1.8055 Tabelopslag t 8,0.975 = 2.3060. Altså kan nulhypotesen accepteres på niveau5%. 3. Den laveste beståelseskarakter i 13-skalaen er som bekendt 6, mens den laveste beståelseskarakter i 7-skalaen er 02. Udregn et 95% prædiktionsinterval for Y svarende til værdien x = 6. Indeholder dette interval værdien y = 2? Giver dette resultat anledning til bekymring? Du skal argumentere for dine konklusioner. Svar:Den forventede middelrespons er nu ŷ 0 = 4.4469+1.3260 6=3.5091 Den tilhørende SE er [ SE = MSE 1+ 1 ] n +(x 0 x) 2 SSX [ = 2.0616 1+ 1 ] 10 +(6 7.2)2 135.6 = 1.5136 Tabelopslag t 8,0.975 = 2.3060 som før. Endepunkter i intervallet er 3.5091 ± 2.3060 1.5136, altså fås prædiktionsintervallet (0.0198, 6.9984). Intervallet indeholder værdien 2, hvilket er fint, men det er et temmelig bredt interval. Det er lidt bekymrende, da det afspejler, at sammenhængen mellem ny og gammel skala ikke er særlig velbestemt ved denne metode. 9

10

11