Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt 200, som har en bestemt egenskab (nemlig, at erstatningskravet > $ 3500). Vi skriver kort, at X B(200, p), og på basis af en observation x = 84 ønsker vi at udtale os om sandsynlighedsparameteren p. Estimation af p: p = x/n = 84/200 = 0.42 Vi skal benytte large sample approksimationen, dvs en approximation, som er egnet for store stikprøver. Approximationen går på at approksimere binomialfordelingen med normalfordelingen. I(p) 0.95 p±z α/2 p(1 p) n = 0.42±z α/2 0.42(1 0.42) 200 = 0.42±0.068 = [ 0.352, 0.488 ] hvor α = 0.05 og z α/2 = z 0.025 = 1.96 er 0.025 værdien i højre hale af N(0, 1) normalfordelingen. > qnorm(0.975) [1] 1.959964 Kun for 6. og 7. ed. af lærerbogen: Opgave 9.1, side 297(7ed) og side 289(6ed) (For 8. ed. se/løs opgave 10.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt 200, som har en bestemt egenskab (nemlig, at erstatningskravet > $ 1200). Vi skriver kort, at X B(200, p), og på basis af en observation x = 84 ønsker vi at udtale os om sandsynlighedsparameteren p. Estimation af p: p = x/n = 84/200 = 0.42 I figuren side 598 (587) kan et 95% konfidensinterval aflæses direkte: Abscisseværdien 0.42 opsøges og over denne værdi aflæses konfidensintervallet på kurverne for 200 på skalaen ude til venstre. Man finder I(p) 0.95 = [ 0.35, 0.49 ] ca Man kan ogå benytte large sample approksimationen, dvs en approximation, som er egnet for store stikprøver. Approximationen går på at approksimere binomialfordelingen med normalfordelingen. 1
I(p) 0.95 p±z α/2 p(1 p) n = 0.42±z α/2 0.42(1 0.42) 200 = 0.42±0.068 = [ 0.352, 0.488 ] hvor α = 0.05 og z α/2 = z 0.025 = 1.96 er 0.025 værdien i højre hale af N(0, 1) normalfordelingen: N(0,1 2 ) areal=0.025 1.96 2
Opgave 10.2, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.2) Samme problematik, som i opgave 10.1, men nu ønsker vi at vurdere den maksimale estimationsfejl for p baseret på de foreliggende data. Formlen står på side 281, og vi kunne skrive den som: E 1 α = z α/2 p(1 p) hvor konfidensgraden (1 α) er medtaget for at markere, hvor sikker E er. Idet vi erstatter p i formlen med estimatet p Ê 1 α = z α/2 For α = 0.01 er z α/2 = z 0.005 = 2.575 og n p(1 p) n > qnorm(0.995) [1] 2.575829 Ê 0.99 = 2.575 0.42(1 0.42) 200 = 0.089 0.09 Large sample 99% konfidensintervallet for p er så iøvrigt I(p) 0.99 = p ± Ê0.99 = 0.42 ± 0.089 [ 0.33, 0.51 ] Læg iøvrigt mærke til, at 99% konfidensintervallet er bredere end 95% konfidensintervallet, jfr opgave 10.1. Kun for 6. og 7. ed. af lærerbogen: Opgave 9.2, side 297(7ed) og side 289(6ed) (For 8. ed. se/løs opgave 10.2) Samme problematik, som i opgave 9.1, men nu ønsker vi at vurdere den maksimale estimationsfejl for p baseret på de foreliggende data. Formlen står på side 296 (288), og vi kunne skrive den som: p(1 p) E 1 α = z α/2 n hvor konfidensgraden (1 α) er medtaget for at markere, hvor sikker E er. Idet vi erstatter p i formlen med estimatet p 3
Ê 1 α = z α/2 For α = 0.01 er z α/2 = z 0.005 = 2.575 og p(1 p) n > qnorm(0.995) [1] 2.575829 Ê 0.99 = 2.575 0.42(1 0.42) 200 = 0.089 0.09 Large sample 99% konfidensintervallet for p er så iøvrigt I(p) 0.99 = p ± Ê0.99 = 0.42 ± 0.089 [ 0.33, 0.51 ] Læg iøvrigt mærke til, at 99% konfidensintervallet er bredere end 95% konfidensintervallet, jfr opgave 9.1. Opgave 10.9, side 283 (7ed: 9.10, side 298 og 6ed: 9.10 side 290) Vi har igen en binomialfordeling og den maksimale estimationsfejl p(1 p) E 1 α = z α/2 n Hvis vi ønsker en vis (maksimal) estimationsfejl ved konfidensniveau α, finder vi (ved at isolere n) relationen : n = p(1 p) som er størst mulig for p = 0.5. ( ) 2 zα/2 E 1 α For α = 0.05 er z α/2 = z 0.025 = 1.96. Da der er krævet E 1 α = E 0.95 kravet til n som ( ) 1.96 2 n 0.5(1 0.5) = 266.8 267 0.06 0.06, findes Opgave 10.10, side 283 (7ed: opg. 9.11, side 298 og 6ed: side 290) Hvis man tror, at p 0.75, findes i stedet n 0.75(1 0.75) ( ) 1.96 2 = 200.1 201 0.06 Opgave 10.19 side 290 (6ed og 7ed: 9.19, side 298 4
Der er igen tale om binomialfordelingen. Opgaven går ud på først at konstruere et test og derefter undersøge, om de fundne data understøtter H 0 : p = 0.30. Testet bliver det samme, dvs H 0 : p = 0.30 mod H 1 : p > 0.30. Stikprøvefunktion Z = X n p 0 np 0 (1 p 0 ) approx N(0, 1) dvs at Z approximativt følger en N(0, 1) fordeling. Testet er ensidet, og vi forkaster H 0 for store værdier af Z, dvs for Z > z α = 1.645 for α = 0.05 N(0,1 2 ) α=0.05 1.645 2.19 Vi har nu observeret x = 47 for n = 120, og vi vil teste p 0 = 0.30. Z = 47 120 0.30 120 0.30(1 0.30) = 2.19 som er beliggende i det kritiske område. Vi forkaster derfor H 0 og antager H 1 : p > 0.30. I en praktisk situation ville vi nu anføre et skøn og et konfidensinterval for p. Vi ville finde p = 47/120 = 0.3917 og et approximativt tosidet 95% interval ville blive I(p) 0.95 = 0.3917 ± 1.96 0.3917(1 0.3917) Intervallet er approximativt, fordi det bygger på normalfordelingstilnærmelsen til binomialfordelingen. 120 Opgave 10.28 side 291 (7ed: 9.28, side 307 og 6ed: 9.28 side 299) Som opgaven er formuleret, er den et simpelt eksempel på test i en antalstabel. Vi har to binomialfordelte variable, X og Y, med sandsynlighedsparametre p x og p y. Vi ønsker at teste H 0 : p x = p y mod H 1 : p x p y. 5
Observerede antal (o ij ) Baseball uds. Underholningsuds. I alt Husket reklame 64 75 139 Ikke husket reklame 116 105 221 I alt 180 180 360 Hvis H 0 er sand, vil vi estimere p ved p = 139/360 = 0.3861, og så kan vi skønne, hvor mange svar der i middel ville være i de 2 2 kategorier i ovenstående skema Forventede antal (skøn) (e ij ) Baseball uds. Underholningsuds. I alt Husket reklame 69.5 69.5 139 Ikke husket reklame 110.5 110.5 221 I alt 180 180 360 For eksempel er 180 139/360 = 180 0.3861 = 69.5. Som stikprøvefunktion kan vi nu beregne χ 2 -værdien for forskellen mellem de to tabeller 2 2 χ 2 (o ij e ij ) 2 = χ 2 ((2 1)(2 1)) = χ 2 (1) i=1 j=1 e ij dvs, at hvis H 0 er sand, vil χ 2 -værdien følge en χ 2 -fordeling med 1 frihedsgrad. Bidrag til χ 2 -værdi Baseball uds. Underholningsuds. Husket reklame 0.4353 0.4353 Ikke husket reklame 0.2738 0.2738 og χ 2 = 0.4353+0.4353+0.2738+0.2738 = 1.4182, som kræves mindre end χ 2 (1) 0.05 = 3.841 : > qchisq(0.95,1) [1] 3.841459 χ 2 (1) α=0.05 0 1.4182 3.841 Da χ 2 -værdien ikke ligger i det kritiske område, kan vi ikke på det foreliggende grundlag afvise H 0. Det samme test kunne være opnået ved at benytte den direkte sammenligning mellem to andele generelt ved hjælp af den approximativt normalfordelte størrelse : 6
Z = X/n x Y/n y (p x p y ) px (1 p x )/n x + p y (1 p y )/n y hvori vi sætter p x = p y og estimerer det fælles p med p = (X + Y )/(n x + n y ). Derved fås stikprøvestørrelsen (se side 296): Z = X/n x Y/n y p(1 p)(1/n x + 1/n y ) Ønsker man at teste H 0 : p x = p y mod H 1 : p x p y (tosidet test) får man kritisk område, som vist i følgende figur, dvs Z > z 0.025 = 1.96 : N(0,1 2 ) α/2=0.025 α/2=0.025 1.96 1.96 Dette test er i virkeligheden det samme test, som det viste χ 2 (1)-test, fordi faktisk Z 2 = χ 2 og (z α/2 ) 2 = χ 2 (1) α (f.eks. 1.96 2 = 3.84). Ønsker man at teste H 0 : p x p y mod H 1 : p x > p y, dvs et ensidet test, får man kritisk område som vist i følgende figur, dvs Z > z 0.05 = 1.645 : N(0,1 2 ) α=0.05 1.645 Fordelen ved den sidste formulering er altså, at man kan teste ensidet, hvilket χ 2 (1)- testet ikke umiddelbart kan gøre (man skal ihvertfald lige tænke sig om en ekstra gang). I R > husket=c(64,75) 7
> ikkehusket=c(116,105) > chisq.test(data.frame(husket,ikkehusket)) Pearson s Chi-squared test with Yates continuity correction data: data.frame(husket, ikkehusket) X-squared = 1.1719, df = 1, p-value = 0.279 Da p-værdien 0.279 er større end signifikansniveauet 0.05 kan vi ikke afvise H 0 Opgave 10.29, side 291 (7ed: 9.29, side 307 og 6ed: 9.29 side 299) Som opgaven er formuleret, er den, ligesom opgave 10.28, et eksempel på test i en antalstabel, hvor vi nu ønsker at undersøge, om tre binomialfordelinger kan være ens mht. sandsynlighedsparameteren p. Vi har altså tre binomialfordelte variable, X 1, X 2 og X 3, med sandsynlighedsparametre p 1, p 2 og p 3. Vi ønsker at teste H 0 : p 1 = p 2 = p 3 mod H 1 : p erne er ikke ens. Observerede antal (o ij ) Agency 1 Agency 2 Agency 3 I alt For planen 67 84 109 260 Imod 33 66 41 140 I alt 100 150 150 400 Hvis H 0 er sand, vil vi estimere det fælles p ved p = 260/400 = 0.65, og så kan vi skønne, hvor mange svar der i middel ville være i de 2 3 kategorier i ovenstående skema Forventede antal (skøn) (e ij ) Agency 1 Agency 2 Agency 3 I alt For planen 65.0 97.5 97.5 260 Imod 35.0 52.5 52.5 140 I alt 100 150 150 400 For eksempel er 100 260/400 = 100 0.65 = 65.0. Som stikprøvefunktion kan vi nu beregne χ 2 -værdien for forskellen mellem de to tabeller: 2 3 χ 2 (o ij e ij ) 2 = χ 2 ((2 1)(3 1)) = χ 2 (2) i=1 j=1 e ij dvs, at hvis H 0 er sand, vil χ 2 -værdien følge en χ 2 -fordeling med 2 frihedsgrader. Bidrag til χ 2 -værdi Agency 1 Agency 2 Agency 3 For planen 0.0615 1.8692 1.3564 Imod 0.1143 3.4714 2.5190 og χ 2 = 0.0615+1.8692+1.3564+0.1143+3.4714+2.5190 = 9.3918, som sammenlignes med den kritiske værdi χ 2 (2) 0.01 = 9.210 : > qchisq(0.99,2) 8
[1] 9.21034 χ 2 (2) 0 9.21 9.39 Da χ 2 -værdien ligger i det kritiske område (selv ved test på niveau α = 0.01) må vi på det foreliggende grundlag afvise H 0, og i stedet konkludere, at fordelingen på for og imod for de tre Agencies ikke er den samme. Ved test på f.eks niveau α = 0.05 er den kritiske værdi 5.991. Den fundne χ 2 -værdi er stærkt signifikant - siger man ofte. > foor=c(67,84,109) > imod=c(33,66,41) > chisq.test(data.frame(foor,imod)) Pearson s Chi-squared test data: data.frame(foor, imod) X-squared = 9.3919, df = 2, p-value = 0.009132 P-værdien 0.009 er ikke større end 0.01 significanceniveauet s vi kan afvise nulhypotesen. Kun for 6. og 7. ed. af bogen: Opgave 9.39, side 313(7ed) og side 305(6ed) I denne opgave går det igen ud på at sammenligne fordelinger. I dette tilfælde er der to fordelinger, som begge har tre udfald, nemlig Republikaner, Demokrat og Ikke besluttet. De to fordelinger er hhv. To uger før og Fire uger før. Observerede antal (o ij ) To uger Fire uger I alt Republikaner 79 91 170 Demokrat 84 66 150 Ikke besluttet 37 43 80 I alt 200 200 400 Ved almindelig forholdstalsregning kan vi estimere, hvor mange svar der i middel ville være i de 3 2 kategorier i ovenstående skema, hvis de tre fordelinger var ens: 9
Forventede antal (skøn) (e ij ) To uger Fire uger I alt Republikaner 85.00 85.00 170 Demokrat 75.00 75.00 150 Ikke besluttet 40.00 40.00 80 I alt 200 200 400 For eksempel er 200 170/400 = 85.0. Som stikprøvefunktion kan vi nu beregne χ 2 -værdien for forskellen mellem de to tabeller 3 2 χ 2 (o ij e ij ) 2 = χ 2 ((3 1)(2 1)) = χ 2 (2) i=1 j=1 e ij dvs, at hvis H 0 er sand, vil χ 2 -værdien følge en χ 2 -fordeling med 2 frihedsgrader. Bidrag til χ 2 -værdi To uger Fire uger Republikaner 0.4235 0.4235 Demokrat 1.0800 1.0800 Ikke besluttet 0.2250 0.2250 og χ 2 = 0.4235 + 0.4235 + 1.0800 + 1.0800 + 0.2250 + 0.2250 = 3.4570, som ved test på niveau α = 0.05 kræves mindre end χ 2 (2) 0.05 = 5.991 : χ 2 (2) α=0.05 3.457 5.991 Da χ 2 -værdien ikke ligger i det kritiske område, kan vi ikke på det foreliggende grundlag afvise H 0. Det betyder, at opinionen ikke er signifikant ændret fra fire til to uger før det pågældende valg. Man kunne f.eks interessere sig for andelen af samtlige vælgere, som agter at stemme republikansk. Kaldes denne andel p R, kan vi estimere denne ved p R = 170/400 = 0.4250, og et 95% konfidensinterval for denne størrelse ville blive I(p R ) 0.95 = 0.4250 ± 1.96 0.4250(1 0.4250)/400 (se side 287). > republikaner=c(79,91) > demokrat=c(84,66) > ikkebesluttet=c(37,43) > chisq.test(data.frame(republikaner,demokrat,ikkebesluttet)) Pearson s Chi-squared test 10
data: data.frame(republikaner, demokrat, ikkebesluttet) X-squared = 3.4571, df = 2, p-value = 0.1775 Vi kan ikke afvise nulhyposeten da 0.1775 er større end signifikansniveauet 0.05. Opgave 10.40, side 297 (un for 8. ed.) I denne opgave går det ud på at undersøge, hvorledes handicap og arbejdsevne er relaterede til hinanden. Vi kan kalde sandsynligheden for, at et emne kategoriseres i den i te række ved r i og sandsynligheden for, at et emne kategoriseres i den j te søjle ved s j. Sandsynligheden for at et emne på samme tid kategoriseres i i te række og j te søjle kaldes endelig p ij. Hypotesen om uafhængighed mellem række- og søjleinddelingerne kan nu formuleres: H 0 : p ij = r i s j mod H 1 : Alle alternativer Arbejdsevne Observerede antal (o ij ) Over middel Middel Under middel I alt Blind 21 64 17 102 Døv 16 49 14 79 Intet handicap 29 93 28 150 I alt 66 206 59 331 Vi kan estimere r i erne og s j erne: r = 102/331 79/331 150/331 = 0.3081 0.2387 0.4532 og ŝ = 66/331 206/331 59/331 De skønnede forventede antal i cellerne er e ij = n r i ŝ j. = 0.1994 0.6224 0.1782 Ved at regne lidt på det, ser vi, at vi igen ved almindelig forholdstalsregning kan estimere, hvor mange observationer, der i middel ville være i de 3 3 kategorier i ovenstående skema: Arbejdsevne Forventede antal (skøn) (e ij ) Over middel Middel Under middel I alt Blind 20.34 63.48 18.18 102 Døv 15.75 49.17 14.08 79 Intet handicap 29.9 93.35 26.74 150 I alt 66 206 59 331 For eksempel er 331 r 1 ŝ 1 = 331 (102/331) (66/331) = 102 66/331 = 20.34 11
Som stikprøvefunktion kan vi nu beregne χ 2 -værdien for forskellen mellem de to tabeller: 3 3 χ 2 (o ij e ij ) 2 = χ 2 ((3 1)(3 1)) = χ 2 (4) i=1 j=1 e ij dvs, at hvis H 0 er sand, vil χ 2 -værdien følge en χ 2 -fordeling med 4 frihedsgrader. Arbejdsevne Bidrag til χ 2 -værdi Over middel Middel Under middel Blind 0.006 0.004 0.077 Døv 0.004 0.001 0.000 Intet handicap 0.027 0.004 0.047 og χ 2 = 0.006 + 0.004 +... + 0.047 = 0.17, som ved test på niveau α = 0.05 kræves mindre end χ 2 (4) 0.05 = 9.488 for at opretholde H 0. Da χ 2 -værdien (0.17) ligger inden for det kritiske område, kan vi acceptere H 0. I praksis betyder det, at der ikke er forskel p arbejdsevnen afhngigt af handicap. > blind=c(21,64,17) > doev=c(16,49,14) > ikkehandicap=c(29,93,28) > chisq.test(data.frame(blind,doev,ikkehandicap)) Pearson s Chi-squared test data: data.frame(blind, doev, ikkehandicap) X-squared = 0.1961, df = 4, p-value = 0.9955 Da p-værden 0.9955 er sørre end signifikansniveauet 0.05 kan vi acceptere nulhypotesen. Opgave 10.41, side 297 (7ed: 9.41, side 314 og 6ed: 9.41, side 306) I denne opgave går det ud på at undersøge, om de to kvalitetskriterier Fidelity og Selectivity er relaterede til hinanden. Man kunne forestille sig, at en høj værdi af det ene kriterium ofte var sammenfaldende med en høj værdi af det andet kriterium (positivt sammenfald) eller det modsatte (negativt sammenfald). Vi kan kalde sandsynligheden for, at et emne kategoriseres i den i te række ved r i og sandsynligheden for, at et emne kategoriseres i den j te søjle ved s j. Sandsynligheden for at et emne på samme tid kategoriseres i i te række og j te søjle kaldes endelig p ij. Hypotesen om uafhængighed mellem række- og søjleinddelingerne kan nu formuleres: H 0 : p ij = r i s j mod H 1 : Alle alternativer 12
Vi kan estimere r i erne og s j erne: r = Fidelity Observerede antal (o ij ) Lav Middel Høj I alt Lav selectivitet 6 12 32 50 Middel selectivitet 33 61 18 112 Høj selectivitet 13 15 0 28 I alt 52 88 50 190 50/190 112/190 28/190 = 0.2632 0.5895 0.1474 og ŝ = 52/190 88/190 50/190 De skønnede forventede antal i cellerne er e ij = n r i ŝ j. = 0.2737 0.4632 0.2632 Ved at regne lidt på det, ser vi, at vi igen ved almindelig forholdstalsregning kan estimere, hvor mange observationer, der i middel ville være i de 3 3 kategorier i ovenstående skema: Fidelity Forventede antal (skøn) (e ij ) Lav Middel Høj I alt Lav selectivitet 13.68 23.16 13.16 50 Middel selectivitet 30.65 51.87 29.47 112 Høj selectivitet 7.66 12.97 7.37 28 I alt 52 88 50 190 For eksempel er 190 r 1 ŝ 1 = 190 (50/190) (52/190) = 50 52/190 = 13.68 Som stikprøvefunktion kan vi nu beregne χ 2 -værdien for forskellen mellem de to tabeller: 3 3 χ 2 (o ij e ij ) 2 = χ 2 ((3 1)(3 1)) = χ 2 (4) i=1 j=1 e ij dvs, at hvis H 0 er sand, vil χ 2 -værdien følge en χ 2 -fordeling med 4 frihedsgrader. Fidelity Bidrag til χ 2 -værdi Lav Middel Høj Lav selectivitet 4.31 5.38 26.97 Middel selectivitet 0.18 1.61 4.46 Høj selectivitet 3.72 0.32 7.37 og χ 2 = 4.31 + 5.38 +... + 7.37 = 54.32, som ved test på niveau α = 0.01 kræves mindre end χ 2 (4) 0.01 = 13.277 for at opretholde H 0. 13
13.277 χ 2 (4) α=0.05 α=0.01 9.488 Da χ 2 -værdien (54.32) ligger (langt ude) i det kritiske område, må vi afvise H 0. Den kritiske værdi for test på niveau α = 0.05 er indtegnet for illustrationens skyld. Den fundne χ 2 -værdi er stærkt signifikant, og man må afvise hypotesen om uafhængighed mellem de to kvalitetskriterier. I praksis kunne det betyde, at de to kvalitetsegenskaber Fidelity og Selectivity i en vis udstrækning er knyttet til de samme komponenter i det undersøgte apparat. I eksemplet giver det sig udslag i, at apparater med lav Selectivity gennemgående har højere Fidelity, mens apparater med høj Selectivity gennemgående har lav Fidelity. Man kunne f.eks interessere sig for andelen af samtlige emner, som kategoriseres som (Lav Selectivity, Høj Fidelity). Kaldes denne andel p LH, kan vi estimere denne ved p LH = 32/190 = 0.1684, og et 95% konfidensinterval for denne størrelse ville blive (se side 287): I(p LH ) 0.95 = 0.1684 ± 1.96 0.1684(1 0.1684)/190 > lav=c(6,12,32) > middel=c(33,61,18) > hoej=c(13,15,0) > chisq.test(data.frame(lav,middel,hoej)) Pearson s Chi-squared test data: data.frame(lav, middel, hoej) X-squared = 54.3283, df = 4, p-value = 4.492e-11 Da p-værdien er meget mindre end signifikansniveauet 0.05, kan vi afvise nulhypotesen. Kun for 6. og 7. ed. af lærerbogen: Opgave 9.47, side 315(7ed) og side 307(6ed) 14
Denne opgave illustrerer en hyppigt anvendt metode til at undersøge, om en empirisk fordeling kan tænkes at være udfald fra en given type fordeling. Der benyttes et χ 2 -test i en antalstabel. I det givne tilfælde ønsker man at undersøge, om data kan tænkes at være normalfordelte. Først estimeres den normalfordeling, der kan være tale om, idet observationernes gennemsnit og spredning beregnes, dvs (som opgivet i teksten) : µ = x = 18.85 og σ 2 = s 2 = 30.77 = 5.55 2 For de viste klasser beregnes et skøn over, hvor mange observationer, der gennemsnitligt ville falde i dem, hvis de n observationer stammede fra en normalfordeling med µ og σ 2 som parametre. Observeret antal n 2 = 10 N(18.85,5.55 2 ) x 80 Estimeret antal = 8.50 8.95 12.95 I figuren er det sorte areal skønnet antal observationer mellem 8.95 og 12.95, medens kassen angiver, hvor mange, der faktisk blev fundet. Det sorte areal er i vores eksempel: Det vil sige, med n = 80 : n 2 = n P r {8.95 N(18.85, 5.55 2 ) 12.95} [ ( ) ( )] 12.95 18.85 8.95 18.85 n 2 = 80 Φ Φ = 8.50 5.55 5.55 Denne beregning er udført i følgende tabel for alle klasserne: Klasse Målt Klasse- Øvre standar- Φ(.) Skønnet Skønnet antal nr. antal: n i grænser diserede (øvre grænse) andel: p i n i = n p i 1 3 ( ) 8.95 1.784 0.0372 0.0372 2.98 2 10 8.95 12.95 1.063 0.1439 0.1062 8.50 3 14 12.95 16.95 0.342 0.3662 0.2223 17.78 4 25 16.95 20.95 +0.378 0.6473 0.2811 22.49 5 17 20.95 24.95 +1.099 0.8641 0.2168 17.34 6 9 24.95 28.95 +1.820 0.9656 0.1015 8.12 7 2 28.95 (+ ) + 1.0000 0.0344 2.75 15
Klassegrænserne er beregnet med et betydende ciffer mere (0.05) end dataene er målt i. Så er der ikke tvivl om, hvor en observation skal placeres. Øvre standardiserede grænse er (øvre grænse x)/s. F.eks findes i det andet interval (8.95-12.95) værdien (12.95 18.85)/5.55 = 1.063. Herfor findes nu Φ(.) = P r {N(0, 1) (øvre grænse x)/s}. F.eks er Φ( 1.063) = 0.1439 Den relative andel af observationerne, som er beliggende i f.eks klasse 2 er derefter p 2 = Φ( 1.063) Φ( 1.784) = 0.1439 0.0372 = 0.1062 og det skønnede samlede antal er n 2 = 80 p 2 = 8.50 Vi kan nu beregne χ 2 -værdien for forskellen mellem de målte og de estimerede antal: Klasse Målt Skønnet antal χ 2 nr. antal: n i n i = n p i bidrag 1 3 2.98 0.0001 2 10 8.50 0.2647 3 14 17.78 0.8036 4 25 22.49 0.2801 5 17 17.34 0.0067 6 9 8.12 0.0954 7 2 2.75 0.2045 I alt 80 80 1.6552 7 χ 2 (n i n i ) 2 = i=1 n i Antal frihedsgrader er k 1 r, hvor k er antal klasser og r er antal parametre, vi har estimeret for at finde klassefordelingen. Her er k = 7 klasser, og r = 2 parametre (nemlig µ og σ 2 ). χ 2 (4) α=0.05 1.6552 9.488 Den fundne χ 2 (4)-værdi er ikke beliggende i det kritiske område, og der er altså ikke grund til at afvise hypotesen om, at data kan være normalfordelte. Ofte forlanger man, at der i middel skal være mindst ca 5 i alle klasser. Man ser, at det knap gælder i de to yderste klasser. Disse kan da slås sammen med de næstyderste 16
Klasse Målt Skønnet antal χ 2 nr. antal: n i n i = n p i bidrag 1 + 2 3 + 10 = 13 2.98 + 8.50 = 11.48 0.2013 3 14 17.78 0.8036 4 25 22.49 0.2801 5 17 17.34 0.0067 6 + 7 9 + 2 = 11 8.12 + 2.75 = 10.87 0.0016 I alt 80 80 1.2933 De 1.2933 sammenlignes med χ 2 (5 3) 0.05 = 5.991, og heller ikke her er der signifikans mod hypotesen om normalfordelte data. Det vil f.eks. være rimeligt at basere videre analyser af data på en antagelse om, at data stammer fra en normalfordeling. Det kan man have glæde af, hvis man f.eks. vil estimere og/eller teste midddelværdi og/eller varians. > maal=c(3,10,14,25,17,9,2) > skoennet=c(2.98,8.50,17.78,22.49,17.34,8.12,2.75) > chisq.test(data.frame(maal,skoennet)) Pearson s Chi-squared test data: data.frame(maal, skoennet) X-squared = 0.871, df = 6, p-value = 0.99 Da p-værdien 0.99 er større end signifikansnivauet 0.05 kan vi ikke afvise hypotesen. Dec04.2 Formlen i kassen side 290 (7ed: 305, 6ed: 298) anvendes med n 1 = n 2 = 50 og x 1 = 26 og x 2 = 12. Og idet z 0.005 = 2.576 er det korrekte svar 4. > qnorm(0.995) [1] 2.575829 Dec04.3 Man m bruge formlen i kassen nederst side 282 (7ed: 296, 6ed:288) med z α/2 = 1.96 og derfor er det korrekte svar 2. Dec04.13 Det korrekte svar er 2. (Se øverst side 287 (7ed: 303. 6ed: 295)) Dec04.18 17
Det korrekte svar er 5. (DF=2) Dec04.23 Ud fra formlen for et konfidensinterval, side 295 (287) kan man finde at og altså dermed at og altså endelig at z α/2 35/170(1 35/170) = (0.2833 0.1284)/2 170 z α/2 0.031012 = 0.07745 z α/2 = 0.07745/0.031012 = 2.4974 Slår man op i normalfordelingstabellen (eller nederste række i t-tabellen) finder man at α/2 = 0.00625 og derfor er det korrekte svar 3. 18