Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden går imod teorien. Oftest er det lettest at tænke på nulhypotesen som den hypotese, der støtter vores teori og alternativhypotesen som den, der går imod. Men det kan lige så vel være omvendt. Eksempel: Vores nulhypotese er, at mænd og kvinder får samme løn for samme arbejde i Danmark, mens alternativhypotesen er, at de ikke gør det. b) En type-i fejl begås, hvis man forkaster en sand nulhypotese, mens en type-ii fejl begås hvis man accepterer en falsk nulhypotese. Eksempel: Hvis vi accepterer ovenstående nulhypotese (på baggrund af en stikprøve), og mænd og kvinder i virkeligheden ikke får samme løn, så begår vi en type-ii fejl. c) Signifikansniveauet er sandsynligheden for at begå en type-ii fejl. Vi fastsætter typisk selv testens signifikansniveau ved på forhånd at bestemme, hvor stor en værdi af teststatistikken der skal til, for at vi forkaster vores nulhypotese. d) De tre trin er: i) Formulér hypoteser. Se spørgsmål a). ii) Find et mål, der kan skelne mellem hypoteserne. Her findes et kvantitativt mål, som fx er nul, hvis nulhypotesen er sand og forskelligt fra nul, hvis den er falsk. iii) Implementér testen. Først konstrueres en teststatistik på baggrund af målet fra ii). Dernæst finder vi fordelingen af denne teststatistik under nulhypotesen (dvs. hvis nulhypotesen er sand). Næste trin er at bruge stikprøven til at beregne værdien af teststatistikken. Herefter kan vi bruge de kritiske værdier (baseret på det valgte signifikansniveau) til at afgøre om nulhypotesen skal forkastes eller accepteres. Alternativt kan vi udregne P-værdien for testen. Vi forkaster nulhypotesen, hvis P-værdien er tilstrækkelig lav. e) P-værdien er sandsynligheden for at få den observerede værdi (eller en mere ekstrem værdi) af teststatistikken, givet at nulhypotesen er sand. De kritiske værdier er en eller flere værdier af teststatistikken, således at der på forhånd kun er sandsynligheden α (= signifikansniveauet) for at få en mere ekstrem værdi af teststatistikken, givet at nulhypotesen er sand. f) Ved en dobbeltsidet alternativhypotese for middelværdien forkaster vi nulhypotesen ved både lave og høje værdier af teststatistikken. Dvs. hvis enten stikprøvegennemsnittet er meget lavere eller meget højere end værdien af middelværdien under nulhypotesen. Ved en enkeltsidet alternativhypotese forkaster vi kun nulhypotesen, hvis teststatistikken antager en høj (eller en lav afhængigt af udformningen af alternativhypotesen) værdi. Ved dobbeltsidede alternativhypoteser har man derfor to kritiske værdier, mens man ved en enkeltsidet alternativhypotese kun har én som til gengæld er numerisk mindre, hvis signifikansniveauet er det samme, da der da skal være samme sandsynlighed for at begå en type-i fejl (forkaste en sand nulhypotese).

Ved dobbeltsidede alternativhypoteser udregnes P-værdien som sandsynligheden for at få en numerisk højere værdi af teststatistikken end den observerede, givet at nulhypotesen er sand. Ved en enkeltsidet alternativhypotese er det sandsynligheden for at få en værdi af teststatistikken, der er mere ekstrem end den observerede i retning af alternativhypotesen. g) En tests styrke er dets evne til at opdage en falsk nulhypotese. Formelt er det sandsynligheden for at forkaste nulhypotesen, givet at denne er falsk. h) De forskellige tilfælde: i) Det generelle tilfælde: Når stikprøvestørrelsen er stor (varians enten kendt eller ukendt), så er teststatistikken approksimativt standardnormalfordelt. ii) Normalfordelte elementer: Her er teststatistikken eksakt normalfordelt når iii) variansen er kendt, mens den er eksakt t-fordelt, når variansen er ukendt. Bernoullifordelte elementer (test på en andel): Når stikprøvestørrelsen er stor, så er teststatistikken approksimativt standardnormalfordelt. i) Både Type I of II fejl bliver mindre når stikprøvestørrelsen øges. Tradeoff mellem Type I og Type II fejl kan kontrolleres gennem valg af signifikansniveauet. Man kan derfor typisk finde en signifikanssandsynlighed således Type I og II fejlene har en bestemt størrelse når man også kan vælge stikprøvestørrelsen. j) Man kan bruge teststatistikken Y ( n 1) S. k) Statistisk signifikans bedømmer usikkerheden i forhold til den sikkerhed, man ønsker om vurderingen af en hypotese. Reel signifikans bedømmer vigtigheden af resultatet i praksis, så den er typisk målt i en til problemstillingen relevant måleenhed fx kr. l) Typisk kan man bruge et konfidensinterval til at vurdere om en hypotese skal forkastes, og denne vurdering er ækvivalent til vurderingen ved brug af hypotesetest (hvis konfidensintervallet er konstrueret ud fra samme test statistik). Opgave a) Vi ved, at elementerne i stikprøven er normalfordelte med kendt varians. Derfor er den relevante teststatistik: X Z / n b) Teststatistikken er eksakt standardnormalfordelt under nulhypotesen. Z ~ N(, 1) c) Værdien af Z beregnes til: X,9 Z 1,84 / n 4 /1 og P-værdien for denne dobbeltsidede test er: P - værdi 1,84 1,84,39, 658 d) Nej, da P-værdien er større end,5. Ja, da P-værdien er mindre end,1. e) P-værdien bliver da:

P - værdi 1 1,84 1,9671, 39 f) Ja, her er P-værdien mindre end,5. Der er kun godt 3% sandsynlighed for at få en værdi a Z der er større end 1,84 under nulhypotesen, mens der er godt 6% sandsynlighed for at få en værdi, der er enten større end 1,84 eller mindre end -1,84 (det dobbeltsidede alternativ). Opgave 3 a) Vi ved, at elementerne i stikprøven er normalfordelte med kendt varians. Derfor er den relevante teststatistik: X Z / n b) Teststatistikken er eksakt standardnormalfordelt under nulhypotesen. Z ~ N(, 1) c) Værdien af Z beregnes til: X 5,53 5 Z 1,59 / n, /18 P - værdi 1,59 1,59,559, 1118 d) De kritiske værdier for en dobbeltsidet test ved et 5% signifikansniveau er: Z Z 1,96,5 /,5 Z1,5 / Z,975 1,96 H kan altså ikke forkastes. e) Den kritiske værdi for en enkeltsidet test, H 1 : µ > µ, ved et 5% signifikansniveau er: Z 1,5 Z,95 1,6449 Ved et 1% signifikansniveau er den: Z Z 1,816 1,1,9 f) Kun ved et 1% signifikansniveau kan H forkastes. g) Hvis variansen af indholdet i en tilfældigt udvalgt sodavand er ukendt er den relevante teststatistik: X T S / n h) T er eksakt t-fordelt med n - 1 = 17 frihedsgrader under H. i) Værdien af T beregnes til: X 5,53 5 T 1,637 S / n,18859 /18

P - værdi P T 1,637,6, 1 j) De kritiske værdier for en dobbeltsidet test ved et 5% signifikansniveau er: t (18 1) t 17,11,5 /,5 17, 11 t1,5 / (18 1) t,975 Vi kan derfor ikke forkaste H. k) Den kritiske værdi for en enkeltsidet test, H 1 : µ > 5, ved et 5% signifikansniveau er: t 1,518 1 t, 9517 1, 74 Så heller ikke her kan H forkastes. Opgave 4 a) Nulhypotesen og alternativhypotesen er: H : 14 H : 14 1 b) Idet vi ikke kan antage at elementerne er normalfordelte, og fordi variansen er ukendt, er den relevante teststatistik: X Z S / n c) som er approksimativt standardnormalfordelt under H, dvs. når stikprøvestørrelsen er tilpas stor. d) De kritiske værdier for en dobbeltsidet test ved et 5% signifikansniveau er: Z Z 1,96,5 /,5 Z1,5 / Z,975 1,96 Ved et 1% signifikansniveau er de: Z Z 1,6449,1/ 1,1/,5 Z Z,95 1,6449 e) Værdien af Z beregnes til: X 138,4 14 Z,3 S / n 6,3/1 P - værdi,3,3,1 f) Ja, ved begge signifikansniveauer., 44 g) P-værdien ved en enkeltsidet test, H 1 : µ < 14 er: P - værdi,3, 1 h) Nulhypotesen kan forkastes for alle signifikansniveauer over,1%, se g).

Opgave 5 a) Det afhænger af, hvordan de er udvalgt. Har man fx taget de 8 første biler, der blev produceret, eller kun dem, der blev produceret af dagsholdet, så kan man frygte, at stikprøven ikke er simpel tilfældig. b) X i er Bernoullifordelt med parameteren p, som er sandsynligheden for, at den er defekt. ~ Ber( p) X i c) Nulhypotesen er: H : p,8 d) Alternativhypotesen ved en dobbeltsidet test: H : p,8 1 e) Her skal vi teste på en andel elementerne i stikprøven er Bernoullifordelte. Derfor bliver teststatistikken: Z p p p 1 p / n som er approksimativt standardnormalfordelt under H, når stikprøvestørrelsen er stor. f) De kritiske værdier for en dobbeltsidet test ved et 5% signifikansniveau er: Z Z 1,96,5 / Z Z 1,5 /,5,975 1,96 g) Værdien af Z beregnes til: p p 11/ 8,8 Z 1,83 p 1 p / n,81,8/8 P - værdi 1,83 1,83,336, H kan således ikke forkastes. 67 h) De kritiske værdier ved et 1% signifikansniveau er: Z Z 1,6449,1/,5 Z1,1/ Z,95 1,6449 og her kan H altså forkastes. i) Hvis alternativhypotesen i stedet er: H 1 : p >,8, bliver den kritiske værdi ved et 5% signifikansniveau: Z 1,5 Z,95 1,6449 og ved et 1% signifikansniveau er den: Z Z,363 1,1,99

j) Her kan man forkaste H ved et 5% signifikansniveau men ikke ved et 1% signifikansniveau.