Løsning til eksamen d.27 Maj 2010

Relaterede dokumenter
(studienummer) (underskrift) (bord nr)

Løsning eksamen d. 15. december 2008

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 14. december 2009

(studienummer) (underskrift) (bord nr)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Danmarks Tekniske Universitet Side?? af 20 sider

(studienummer) (underskrift) (bord nr)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

(studienummer) (underskrift) (bord nr)

Eksamen i Statistik for biokemikere. Blok

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Danmarks Tekniske Universitet Side 1 af 19 sider

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

(studienummer) (underskrift) (bord nr)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

(studienummer) (underskrift) (bord nr)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

2 X 2 = gennemsnitligt indhold af aktivt stof i én tablet fra et glas med 200 tabletter

Side 1 af 21 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december Kursus navn og nr: Introduktion til Statistik, 02402

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

(studienummer) (underskrift) (bord nr)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Appendiks Økonometrisk teori... II

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Konfidensintervaller og Hypotesetest

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

En Introduktion til SAS. Kapitel 5.

Opgaver til kapitel 3

Nanostatistik: Opgavebesvarelser

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

(studienummer) (underskrift) (bord nr)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Forelæsning 9: Inferens for andele (kapitel 10)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Modul 12: Regression og korrelation

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kapitel 7 Forskelle mellem centraltendenser

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Kvantitative Metoder 1 - Forår Dagens program

1 Hb SS Hb Sβ Hb SC = , (s = )

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsninger til kapitel 9

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Statistik II 1. Lektion. Analyse af kontingenstabeller

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistiske Modeller 1: Kontingenstabeller i SAS

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Forår Dagens program

Modelkontrol i Faktor Modeller

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kapitel 12 Variansanalyse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Test nr. 5 af centrale elementer 02402

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Test nr. 6 af centrale elementer 02402

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Kvantitative Metoder 1 - Efterår Dagens program

Kapitel 12 Variansanalyse

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Transkript:

DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1 I.2 I.3 II.1 I1.2 III.1 III.2 IV.1 IV.2 IV.3 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 1 4 2 3 5 2 1 3 3 1 Opgave V.1 V.2 V.3 VI.1 VII.1 VIII.1 VIII.2 IX.1 IX.2 X.1 Spørgsmål (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) Svar 2 1 1 2 4 5 3 4 3 5 Opgave X.2 XI.1 XII.1 XII.2 XIII.1 XIII.2 XIV.1 XV.1 XVI.1 XVI.2 Spørgsmål (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) Svar 1 1 1 1 4 2 4 1 2 4 Opgave I Spørgsmål I.1 (1): Dette er en opgave i antalstabel [Kap. 10, Kap. 9]. Først opskrives tabellen med række og søjle total: Ikke røgfri Røgfri Total Kvinder 91 352 443 Mænd 32 212 244 Total 123 564 687 Herefter udregnes de forventede frekvenser for hver celle: Ikke røgfri Røgfri Kvinder 79.3 363.7 Mænd 43.7 200.3 1

Teststørrelsen udregnes herefter til: χ 2 = (91 79.3)2 79.3 + (32 43.7)2 43.7 + (352 363.7)2 363.7 + (212 200.3)2 200.3 = 5.91 Og det ses, at det rigtige svar er 1. Opgaven kan løses i R som følgende: > x=c(91,32) > y=c(352,212) > chisq.test(matrix(c(x,y),nrow=2),correct=false) Pearson s Chi-squared test data: matrix(c(x, y), nrow = 2) X-squared = 5.9046, df = 1, p-value = 0.0151 Spørgsmål I.2 (2): Vi skal finde P (X 18) = 1 P (X 17) i binomialfordelingen, og benytter tabel 1 med n = 20, x = 17 og p = 0.80, men da 1 B(17; 20, 0.80) IKKE er en af svar mulighederne skal det indses at vi istedet vælger at kigge på sandsynligheden for at man IKKE bliver røgfri, som altså må være 20 %. Og vi finder i stedet sandsynligheden for at 2 eller færre deltagere ikke bliver røgfrie, dvs. P (X 2), dvs. B(2; 20, 0.20), og det ses at det korrekte svar er nr. 4. Spørgsmål I.3 (3): Sandsynligheden for IKKE at blive røgfri er 20 %. Så vi søger det mindste n, hvor P (X 1) > 0.5, X bin(n; 0.2; x) Og da P (X 1) = 1 P (X = 0) er dette ækvivalent med et finde det mindste n, hvor: P (X = 0) < 0.5, X bin(n; 0.2; x) Og da P (X = 0) = 0.8 n, svarer det til at checke: 0.8 1 = 0.8, 0.8 2 = 0.64, 0.8 3 = 0.512 og 0.8 4 = 0.4096, hvorved vi får at n skal være 4: Opgave II Spørgsmål II.1 (4): Idet det antages at de to grupper har samme varians, og da der er tale om små stikprøver, benyttes formlen s. [252, 264], hvor den poolede varians udregnes til 17.53. 2

Spørgsmål II.2 (5): Vi benytter formlen s. [272, 286], og udregner teststørrelsen til: F = 18.232 15.34 2 = 1.41. Den kritiske værdi findes i tabel 6(b), idet α = 0.02 og testet er tosidet. Frihedsgraderne er hhv. 20 og 7 for variansen i tælleren og nævneren, og den kritiske værdi aflæses til: F 0.01 (20, 7) = 6.16. Da teststørrelsen er mindre end den kritiske værdi, accepteres H 0. Korrekt svarmulighed er nr. 5. Opgave III Spørgsmål III.1 (6): Der er her tale om test i antalstabel. Antallet af frihedsgrader er (5 1)(3 1) = 4 2 = 8. I tabel 5 aflæses den kritiske værdi for α = 0.01 til 16.812. Da teststørrelsen er større end denne værdi, vil p-værdien være mindre end α. For at finde den eksakte p-værdi skal R benyttes med kommandoen 1-pchisq(79.25,8). Spørgsmål III.2 (7): Forskellen fra tidligere spørgsmål, er at antallet af kolonner nu kun er 3 i stedet for 5, og den nye firhedsgrad bliver da: (3 1)(3 1) = 4. Korrekt svarmulighed er nr. 1 Opgave IV Spørgsmål IV.1 (8): Antallet af producenter er 3, og dermed er frihedsgraden herfor 3 1 = 2. Det totale antal målinger er 15, hvorved frihedsgraden udfor total bliver 14. Ud for fejlen fås N k, hvor N er det samlede antal målinger og k antallet af producenter, og dermed N k = 15 3 = 12. Spørgsmål IV.2 (9): Fremgangsmåden for at udregne den 3. kvartil er givet på side [29-30,33-34]. Først opstilles målingerne i størrelses orden: 43, 49, 52, 57, 62. Vi udregner nu p n = 0.75 5 = 3.75, og runder op til 4, og den 3. kvartil findes altså til måling nr. 4 som er 57. Spørgsmål IV.3 (10): Det står beskrevet s. [361,406] at MSE er et estimat for σ 2. Dvs. et estimat for standard afvigelsen for fejlen er altså 69.8. Opgave V 3

Spørgsmål V.1 (11): Det man ønsker at bevise, vælges altid som H 1. For at de 16 elever har en dårligere kondition end landsgennemsnittet, skal det bevises at middelværdien er mindre end 2000. Dvs H 0 er µ = 2000 og H 1 er µ < 2000. Spørgsmål V.2 (12): Dette er en alm. t-test og formlen på s. [233,250] benyttes til at udregne teststørrelsen, som bliver -1.69. Da antallet af frihedsgrader er 15, fås den kritiske værdi i tabel 4 til -1.753, som er mindre end teststørrelsen. Dermed accepteres H 0, og det kan ikke konkluderes at eleverne har en dårligere kondition end landsgennemsnittet. Spørgsmål V.3 (13): Man ville i stedet benytte et fortegns test (sign test) som er alternativ til test af en middelværdi når antagelsen om normalfordeling ikke er opfyldt. Opgave VI Spørgsmål VI.1 (14): Da antallet af frihedsgrader er (2 1)(3 1) = 2, findes χ 2 0.01(2)- værdien i tabel 5 til 9.210. Korrekt svarmulighed er nr. 2 Opgave VII Spørgsmål VII.1 (15): Rank sum test kan benyttes som alternativ til almindelig t- test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelsen ikke holder. Rank sum test benyttes altså ikke som alternativ til F-test. Opgave VIII Spørgsmål VIII.1 (16): Da der ikke er nogen antagelse om normalfordeling benyttes i stedet et sign test. Der er 5 fremvisninger der ligger over medianen på 10. Yderligere er der 2 fremvisninger som er lig medianen på 10, og disse udgår derfor af testet. Vi benytter nu binomialfordelingen til at finde P (X 5) = 1 P (X 5). Vi slår op i tabel 1 for n = 8, x = 4 og p = 0.50, og får: 1 P (X 4) = 1 0.6367 = 0.3633. Idet 4

denne værdi er større end α = 0.05, accepteres H 0. Korrekt svarmulighed er nr. 5. Spørgsmål VIII.2 (17): Medianen udregnes som den 2. kvartil givet på side [30,34]. Dvs. n p = 10 0.50 = 5, og medianen findes altså som middelværdien af den femte og sjette måling når værdierne opstilles i størrelsesorden. Dvs. 10+11 2 = 10.5. Opgave IX Spørgsmål IX.1 (18): Sandsynligheden for at opleve komplikationer i en enkelt fødsel er 0.20. Vi skal finde P (X 1) = 1 P (X = 0) ud af i alt 3 fødsler. Sandsynligheden for ikke at opleve komplikationer må være 1 0.20 = 0.80. Dvs. P (X = 0) = 0.80 3. Spørgsmål IX.2 (19): Til dette benyttes formlen s. [280, 295]. z α/2 findes nederst i tabel 4 til 1.96. Opgave X Spørgsmål X.1 (20): Fordeling a har en middelværdi på 5 og strækker sig ud til ca. 3 og 7, dvs. 5 ± 2, dvs. en spredning på ca. 1. Fordeling c har en middelværdi på 5 og strækker sig ud til ca. 0 og 10, dvs. 5 ± 5, dvs. en spredning på ca. 2.5. Korrekt svarmulighed er nr. 5. Spørgsmål X.2 (21): 2.5 % og 97.5 % fraktilerne svarer til middelværdien ±2 σ. Da spredningen er oplyst til 0.3, så bliver fraktilerne ±0.6. Opgave XI Spørgsmål XI.1 (22): Af formlen s. [97,119] kan variansen direkte udregnes til 9.5. Opgave XII 5

Spørgsmål XII.1 (23): Da der er tale om en lille stikprøve benyttes formlen s. [211,233]. Middelværdien for målingerne udregnes til 6.42 og spredningen til 0.66. t(5) α/2 -værdien slås op i tabel 4 til 4.032. Indsættes værdierne i formlen fås: 6.42 ± 4.032 0.66 6 = 6.42 ± 4.032 0.268. Spørgsmål XII.2 (24): Vi benytter formlen s. [207,229] og ønsker at estimere n, således at E maksimalt er 0.2. Da α = 1 0.95 = 0.05, fås z α/2 til 1.96. Vi kan nu ( indsætte i formlen og isolere n: 0.2 > 1.96 0.362 n > 1.96 0.6 ) 2. n 0.2 Opgave XIII Spørgsmål XIII.1 (25): Vi benytter formlerne s. [304,340] til at bestemme a og b. Da b = S xy /S xx, og S xy er givet til 31.42 og S xx til 23.85, kan b direkte udregnes til 31.42/23.85 = 1.32. Til udregning af a benyttes middelværdierne for x i og y i målingerne som er givet til 3.84 og 7.19 hhv., og a kan derfor udregnes til: a = y b x = 7.19 1.32 3.84 = 2.13. Spørgsmål XIII.2 (26): Benyt formlen s. [310,346]. Da S yy = 48.25, S xx = 23.85, S xy = 31.42 og n = 12 fås at korrekt svarmulighed er nr. 2. Opgave XIV Spørgsmål XIV.1 (27): Hvis der ikke er nogle yderliggende punkter (outliers), så vil de ydre streger i boxplottet markere min og max værdierne. Når der er yderliggende punkter vil de yderste streger i stedet markere 5 % og 95 % fraktilerne. Dermed vil 95 % fraktilen i boxplot a være ca. 10 og ikke 12. Opgave XV Spørgsmål XV.1 (28) Der er tale om et antal indenfor en tidsperiode hvor der ikke er defineret en øvre grænse. Derfor er der tale om Poisson fordelingen. For at opnå en fortjeneste skal taxachaufføren have 4 kunder pr. time, dvs. minimum 12 kunder 6

pr. 3 timer. Vi ønsker nu at finde sandsynligheden for at få 9 eller færre kunder, hvis middelværdien for antal kunder er 12. Dvs. P (X 9), hvor X Poisson(12). Opgave XVI Spørgsmål XVI.1 (29) Korrelationskoefficienten beskriver den lineære sammenhæng mellem x og y, og vil altid have samme fortegn som hældningskoefficienten. Da hældningen er positiv og punktene stort set ligger på en lige linie, så vil korrelationskoefficienten være tæt på 1. Spørgsmål XVI.2 (30): Vi benytter formlerne s. [304,340]. Estimaterne for skæring med y-aksen, a, og hældningen b er givet nederst i output et til hhv. -38.3762 og 31.1562. 7