02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Transkript

1 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: side 201 og 6ed: side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling og normalfordelingen, nemlig at X LN(α, β 2 ) log(x) N(α, β 2 ) hvor log(x) betyder den naturlige logaritme N(0,1) og LN(0,1) fordelinger Log-normalfordelingen har en lang højre hale. Når man tager logaritmen af observationerne, bliver logaritmens fordeling normal og symmetrisk. Det benytter man ofte for data med kun positive værdier, som har en lang højre hale. I opgaven er X LN(8.85, ). Vi skal finde a) P r {X > 200} = P r {log(x) > log(200)} = P r {Y > } hvor Y N(8.85, ). P r {Y > } = P r { Y > } = P {N(0, 1) > } = idet P r {N(0, 1) > } = 1 P {N(0, 1) } = 1 Φ( ) I R > 1-plnorm(200,8.85,1.03) [1] b) På samme måde: P r {X < 300} = P r {log(x) < log(300)} = P r {Y < } hvor Y N(8.85, ). P r {Y < } = P r { Y < } = P r {N(0, 1) < 3.05} = Φ( 3.05) =

2 I R > plnorm(300,8.85,1.03) [1] Opgave 5.120, side 171 (7ed: 5.119, side 201 og 6ed: 5.119, side 197) Vi har følgende data: X = {12, 30, 30, 27, 30, 39, 18, 27, 48, 24, 18}. Vi ønsker at vurdere, om det er tænkeligt, at disse data kan stamme fra en normalfordeling. I følgende figur er tegnet den empiriske fordelingsfunktion og den normale fordelingsfunktion med dataenes gennemsnit og spredning som middelværdi og standard afvigelse: N(27.55, ); Det ser for så vidt nydeligt ud, men vi tegner nu det normalfordelings plot, der er bedt om i opgaveteksten. Ordnede data x ( i) Orden i p i = (i 0.5)/ Normal scores z i Værdierne z i er udregnede, så Φ(z i ) = p i. For eksempel er Φ(0.23) = Vi kan nu tegne den ønskede figur, idet der også er tegnet den linie ind, som svarer til N(27.55, )-fordelingen; den går gennem punkterne ( 2.00, ) og (+2.00, ). 2

3 (i 0.5)/n Standard normal fractiles Observations sorted På baggrund af plottet vil man ikke afvise, at data med rimelighed kan antages normalfordelte. På figuren er z erne afsat på abscisse aksen, medens observationerne er afsat på ordinataksen. Læg mærke til, at z erne er beregnet lidt anderledes end i bogen (og f.eks. også anderledes end i opgave 5.95). Den viste metode anses af de fleste for den bedste. I R Du kan også lave et normal score plot i R. Her bliver den dog beregnet lidt anderledes end i R, og resultatet vil derfor heller ikke ligne ovenstå ende plot eksakt. Vi benytter funktionen qqnorm, der tegner et normalscoreplot. I R behøver vi ikke at sortere vores data eller udregne normalscorerne. R har også en indbygget funktion kaldet qqline, som vi også vil benytte her. Den tegner en linje gennem 1. og 3. kvartil. Grunden til dette er robusthed, og princippet er lidt det samme som i boxplot. Vi ønsker ikke, at lade halerne af dataene influere vores linje. velocity = c(12,30,30,27,30,39,18,27,48,24,18) normalscore = qqnorm(velocity) qqline(velocity) 3

4 Normal Q Q Plot Sample Quantiles Theoretical Quantiles Opgave 6.2, side 186 (7ed: side 214 og 6ed: side 210) For 8.ed.: Hvis man systematisk KUN måler pådet samme lille sted påalle rullerne, kan stikprøven være fejlagtig, hvis f.eks. klarheden er anderledes i kanten end påmidten. Der ud over skal der tages hã jde for stikprøve udtagningen af de 7 ruller. Hvis de 7 ruller udtages fra produktionslinien i rækkefølge, dvs. at netop disse 7 ruller er produceret lige efter hinanden, såvil denne stikprøve ikke være tilfældig. For 6.ed og 7.ed.: I 1932 havde flertallet ikke telefon. Når man spurgte via telefoninterview, fik man kun kontakt med meget velhavende mennesker. Disse stemte imidlertid slet på samme måde som den almindelige amerikaner. Vejledende løsning 6.11 Variansen pågennemsnittet X baseret påen stikprøve af størrelse n er σ 2 /n. Dermed er standard afvigelsen (eller spredningen) σ/ n a) 1 2 b) 2 3 c) 3 d) 4 4

5 Opgave 6.17, side 187 (7ed: side 216 og 6ed: side 212) I denne opgave skal vi benytte to resultater. Det ene er, hvordan vi finder fordelingen af en sum af stokastiske variable, og det andet er, hvorledes fordelingen af en sum kan antages at være. Endelig er der et opslag i normalfordelingen. Vægten af en tilfældigt udvalgt person kalder vi X i. Vi har ifølge teksten, at E{X i } = µ = 163 pund. Og variansen af X i er V {X i } = σ 2 = 18 2 pund 2. Vi har nu summen af n personer Y = X 1 + X X n Vi benytter formlen for en sum af stokastiske variables middelværdi og varians, f.eks. som vi benyttede den i opgave 5.91, og som det står bogen side 185 (183). E{Y } = µ + µ + + µ = n µ V {Y } = 1 2 σ σ σ 2 = n σ 2 fordi alle X er har middelværdien µ og variansen σ 2 (de stammer alle fra samme fordeling, men er naturligvis ikke ens). Ifølge Den centrale grænseværdi sætning, side 212 (208), gælder for en sum (i bogen står der gennemsnittet, men det samme gælder selvfølgelig også summen), at den tilnærmelsesvist vil følge en normalfordeling. Er data fra starten normalfordelte, vil resultatet gælde eksakt. Vi har altså µ = 163 og σ 2 x = 18 2, hvoraf, da 36 Y = X i at E{Y } = = 5868 og V {Y } = = i=1 Dvs, at Y N(5868, ) eventuelt tilnærmelsesvist. P r {Y > 6000} = 1 P r {Y 6000} = 1 P r { Y } 108 = 1 P r {N(0, 1 2 ) 1.222} = 1 Φ(1.222) = = eventuelt tilnærmelsesvist (stadig på grund af normalfordelingsantagelsen). opgave 7.4 side 213 (for 7ed og 6ed se nedenfor) Fra data har vi x = og s = 1.25 ud fra n = 52 observationer. Fra bogen side 210 (7ed: 232) har vi fã lgende: P r {X + z α/2 s/ n > µ > X z α/2 s/ n} = 1 α (ved at flytte X ud og gange med -1). Derved bliver intervallet I(µ) 1 α = X ± z α/2 s/ n I R I(µ) 1 α = ± / 52 = ± = [1.5252, ] 5

6 > x=c(2.15,2.27,0.99,0.63,2.45,1.3,2.63,2.2,0.99,1,1.05, ,0.49,0.93,2.52,1.05,1.39,1.22,3.17,0.85,1.18,2.27, ,0.48,1.33,4.2,1.37,2.7,0.63,1.13,3.81,0.2,1.08, ,2.87,2.62,1.03,2.76,0.97,0.78,4.68,5.2,1.9,0.55, + 1,2.95,0.45,0.7,2.43,3.65,4.55,0.33) > t.test(x,mu=1.865,alt="two.sided",conf.level=0.95) One Sample t-test data: x t = , df = 51, p-value = alternative hypothesis: true mean is not equal to percent confidence interval: sample estimates: mean of x opgave 7.5 side 213 (for 7ed og 6ed se nedenfor) Opgaven går ud på at angive en mulig estimationsfejl for µ, idet vi vil estimere µ ved µ = x på sædvanlig måde. Vi benytter (ligesom i bogen side 207), at fordi X µ s/ t(n 1). n Dvs P r { t(n 1) α/2 < X µ s/ n < t(n 1) α/2} = 1 α P r { t(n 1) α/2 s/ n < X µ < t(n 1) α/2 s/ n} = 1 α P r { X µ < t(n 1) α/2 s/ n} = 1 α Den maximale estimationsfejl er altså t(n 1) α/2 s/ n med konfidensgrad 1 α. Fra data har vi s = ud fra n = 45 observationer. E 0.98 = t(44) / 45 = / 45 = (Bemærk, at de t(44) kommer fra en aflæsning i nederste række i Tabel 3, mens en præcis beregning fra R ville give: t(44) 0.01 = ) opgave 7.4 og 7.5, 7ed: side 235 og 6ed: side 231 Opgaven går ud på at angive en mulig estimationsfejl for µ, idet vi vil estimere µ ved µ = x på sædvanlig måde. Vi benytter (ligesom i bogen side 231 (226)), at P r { t(n 1) α/2 < X µ s/ n < t(n 1) α/2} = 1 α 6

7 fordi X µ s/ t(n 1). n Dvs P r { t(n 1) α/2 s/ n < X µ < t(n 1) α/2 s/ n} = 1 α P r { X µ < t(n 1) α/2 s/ n} = 1 α Den maximale estimationsfejl er altså t(n 1) α/2 s/ n med konfidensgrad 1 α. Fra data har vi s = ud fra n = 50 observationer. E 0.95 = t(49) / 50 = / 50 = 3896 Et (1 α) konfidensinterval konstrueres på praktisk taget samme måde: P r { t(n 1) α/2 s/ n < X µ < t(n 1) α/2 s/ n} = 1 α P r {X + t(n 1) α/2 s/ n > µ > X t(n 1) α/2 s/ n} = 1 α (ved at flytte X ud og gange med -1). Derved bliver intervallet I(µ) 1 α = X ± t(n 1) α/2 s/ n Fra data har vi x = og s = ud fra n = 50 observationer. I(µ) 1 α = ± / 50 = ± 3896 = [7899, 15691] Opgave 7.11, side 213 (7ed: side 236 og 6ed side 231) Vi har principielt samme problematik som i opgave 7.4, bortset fra, at vi nu forudsætter forhåndskendskab til σ 2, idet det antages, at σ 2 = (praksis ville man måske indsamle nogle data og benytte s 2 som skøn over σ 2 ). Vi kræver et konfidensniveau på (1 α) = 0.99, dvs at α = = 0.01 og α/2 = Vi har formlen for den maximale estimationsfejl med konfidensgrad (1 α) og det stillede krav σ E 1 α = z α/ n som ved at isolere n og kvadrere giver n ( σ ) 2 z α/ Vi regner med σ = 1.40, og har det krævede z = 2.58, hvoraf n ( ) 2 =

8 Opgave 7.15, side 213 (for 7ed og 6ed se nedenfor Konfidensintervallet er givet ved P r {X + t 1 s/ n < µ < X + t 2 s/ n} = 1 (α) Nu har vi så x = 114 og s = 69.5 = baseret på n = 9, dvs.: I(µ) 1 α = 114±t(8) / 9 = 114± / 9 = 114± = [107.59, ] I R > x=c(123,106,114,128,113,109,120,102,111) > t.test(x,mu=1.865,alt="two.sided",conf.level=0.95) One Sample t-test data: x t = , df = 8, p-value = 1.565e-10 alternative hypothesis: true mean is not equal to percent confidence interval: sample estimates: mean of x 114 Opgave 7.15 (7ed: side 236 og 6ed: side 232) I denne opgave har vi forelagt et interval [ ], og vi forstiller os, at det er beregnet som et konfidensinterval. Vi benytter (ligesom i bogen side 231 (226)), at fordi generelt X µ s/ t(n 1) n gælder P r {t 1 < X µ s/ n < t 2} = 1 (α 1 + α 2 ) hvor t 1 og t 2 er fraktiler i t(99)-fordelingen. Situationen er som vist i følgende figur: t(99) α 1 α 2 t 1 t 2 8

9 Konfidensintervallet er givet ved P r {X + t 1 s/ n < µ < X + t 2 s/ n} = 1 (α 1 + α 2 ) Grænserne er altså X + t 1 s/ n og X + t 2 s/ n hhv. Nu har vi så x = 487 og s = 48 baseret på n = 100. Intervallets grænser 472 = x + t 1 s/ n = t 1 48/ 100 = t 1 = = x + t 2 s/ n = t 1 48/ 100 = t 2 = Nu skal vi så slå og op i t(99)-fordelingen. Hvis vi går ind i tabellen side 587 (576), ender den ved v = inf., som betyder infinitum, dvs v = mange frihedsgrader. Men, hvis antal frihedgrader, v, bliver stort, kan vi approximere t-fordelingen med en N(0,1)-fordeling (skriv det til i tabellen!) N(0,1 2 ) Fra tabellen over normalfordelingen aflæser vi, at i en N(0,1)-fordeling er der sandsynligheden α 1 = under Over er der ligeledes α 2 = Det foreslåede intervals konfidensgrad er derfor ca 1 (α 1 + α 2 ) = = %. Opgave 7.24, side 214 (7ed: side 237 og 6ed: side 232) Vi har nu data X = {2.2, 1.8, 3.1, 2.0, 2.4, 2.0, 2.1, 1.2}, og vi beregner x = og s = Vi benytter (som sædvanligt) et tosidet symmetrisk konfidensinterval. Konfidensintervallet er da givet ved P r {X + t 1 s/ n < µ < X + t 2 s/ n} = 1 (α 1 + α 2 ) idet t 1 = t(n 1) α/2 og t 2 = t(n 1) α/2, dvs at t 1 = t 2. Grænserne er altså X t 2 s/ n og X + t 2 s/ n hhv. I opgaven er n = 8 og kravet til konfidensgraden er 1 α = Dvs α = 0.05, og α/2 = Ved opslag i t-fordelingen findes t(8 1) =

10 Konfidensintervallet bliver derved: I R I(µ) 0.95 = ± = ± [1.65, 2.55] > x=c(2.2,1.8,3.1,2,2.4,2,2.1,1.2) > t.test(x,mu=1.865,alt="two.sided",conf.level=0.95) One Sample t-test data: x t = , df = 7, p-value = alternative hypothesis: true mean is not equal to percent confidence interval: sample estimates: mean of x 2.1 dec04.1 Lad Y = X 1 + X 2. Såer: EY = 6, Var(Y ) = 8 Og dermed P (Y > 10) = P (Z > Og dermed er svarmulighed 1) det korrekte svar. dec kunder i timen er det samme som λ = 2/3 kunde pr. 2 minutter. Dermed kan vi bruge at Y = antal kunder i 2 minutter er poisson-fordelt, og hændelsen svarer til at der kommer mindst een kunde indefir de 2 minutter: Og det korrekte svar er 3. I R > 1-ppois(0,2/3) [1] P (Y 1) = 1 P (Y = 0) = 1 e 2/3 Vejledende løsning Ropg6.3.1 Begge kommandoer angiver en 97.5% fraktil for en t-fordeling. I første tilfælde med 17 frihedsgrader: P (t ) = I andet tilfælde med 1000 frihedsgrader: P (t ) = hvilket således i praksis svarer til standard normalfordelingen. 10

11 Vejledende løsning Ropg6.3.2 Kommandoen angiver sandsynligheden, der er givet ved fã lgende: P (t 2.75) hvor t altsåer t-fordelt med 17 frihedsgrader. Vejledende løsning 6.3 (a) Luxury cruise people are not average persons (b) Most likely NOT all questionaires are returned AND there is the risk that there is a bias in this: maybe graduates with low (or even no) income is more reluctant to return the quetionaire. And secondly there COULD be a overenthusiastic reporting for those who do return. (c) The question is sending some values ( Værdiladet ) Solution 6.5, 8Ed (a) The binomial coefficient 2 out of 7 : ( ) 7 7! = 2 (5!)(2!) = 6 7 = 21 2 > choose(7,2) [1] 21 (b) The binomial coefficient 2 out of 24 : ( ) 24 24! = = = (22!)(2!) 2 > choose(24,2) [1] 276 Solution 6.5, 7Ed (a) The binomial coefficient 2 out of 6 : ( ) 6 6! = 2 (4!)(2!) = 6 5 = 15 2 > choose(6,2) [1] 15 (b) The binomial coefficient 2 out of 25 : ( ) 25 25! = = = (23!)(2!) 2 > choose(25,2) [1]

12 Vejledende løsning 6.15 For 8. udgave af bogen: Idet σ/ n = / 40 og P ( X ) = P ( X / ) F (1.51) F ( 0.75) 40 = = > pnorm(0.226,0.225,0.0042/sqrt(40))-pnorm(0.2245,0.225,0.0042/sqrt(40)) [1] Der gœres opmærksom på, at facit i bogen IKKE er korrekt, idet der ikke er taget hœjde for n = 40. For 7. og 6. udgave af bogen: Idet σ/ n = 16/10 og P (75 X 78) = P ( X 76 16/10 > pnorm(78,76,1.6)-pnorm(75,76,1.6) [1] Vejledende løsning ) F (1.25) F ( 0.625) = a) Hvis X har tæthedsfunktion f(x) og Y = X µ, sågælder Idet µ Y = (x µ)f(x)dx = xf(x)dx µ f(x)dx og fås µ Y = µ µ = 0 b) σ 2 Y = E((X µ) 0) 2 = xf(x)dx = µ f(x)dx = 1 (x µ) 2 f(x)dx = σ 2 12