Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Statistik Lektio 7 Hpotesetest og kritiske værdier Tpe I og Tpe II fejl Strke af e test Sammeligig af to populatioer 1

Tri I e Hpotesetest E hpotesetest består af 5 elemeter: I. Atagelser Primært hvilke fordelig stikprøve følger II. Hpoteser Opstil H 0 og H 1 hpoteser III. Teststørrelser Hvilke fordelig har teststørrelse Hvilke værdier er kritiske for H 0? IV. Beslutig/koklusio Vha. p-værdi Vha. kritisk værdi

Eksempel: Test af middelværdi (to-sidet test) Atagelse: Populatios-variase σ er kedt og populatioe er ete ormal eller stikprøve er stor (>30). Hpoteser: Teststørrelse: H H Z 0 1 : µ = µ : µ µ = 0 0 X µ 0 σ Stikprøvefordelig: Når H 0 er sad så følger Z e stadard ormalfordelig Beslutig: Pricippet er at H 0 hpotese er sad idtil det modsatte er bevis. Det betder bl.a. at alle beregiger foretages uder atagelse af at H 0 er sad. I e-sidet test (f: H 0 : µ<= µ 0 ) betder H 0 sad at beregig foretaget med µ=µ 0. 3

p-værdi og sigifikasiveau α p-værdie af e test, er sadslighede for at observere e teststørrelse, der er midst lige så fritisk for H 0 som de allerede observerede teststørrelse, uder atagelse af, at ul hpotese er sad. Sigifikasiveauet α er et tal, således at H 0 forkastes, hvis p- værdie er midre ed α. α er ormalvis 0.05 eller 0.01. Koklusio p-værdi H 0 H 1 p < α Forkast Accepter α vælges før aalse foretages. p > α Forkast ikke Accepter ikke Hvor lille et sigifikas iveau ma vælger, afhæger af hvilke kosekveser beslutige om at forkaste H 0 har. Hvis det er et spørgsmål om liv eller død, for eksempel i mediciske forsøg, vælges α meget lille. Me hvis det bare er at teste om et folketigsparti er større ed et adet, ka ma godt α større. 4

Eksempel Hpoteser: H 0 : µ = 30 H 1 : µ 30 Stikprøve: = 50 = 31.5 σ = 5 Teststørrelse: 31.5 30 Z = = 5 50,1 Sigifikasiveau: α=0.05 Fordelige Z uder H 0 : 0.8 0.7 0.6 0.5 0.4 0.3 0. 0.1 0.0.017.017 z =.1 0 z =. 1 p-værdi: p værdi = P( Z >,1) = p( Z >,1) = 0.017 = 0.034 Da p-værdi < α forkastes H 0. 5

Kritiske værdier I tilfælde, hvor ma ikke ka bestemme p-værdie ka ma tpisk fide de kritiske værdier. De kritiske værdier svarer til teststørrelser, der har e p-værdi lig sigifikasiveauet α. Eksempel: To-sidet test af middelværdie, σ kedt, α=0.05. I dette tilfælde er de kritiske værdier -1.96 og 1.96 Dvs. hvis 1.96 eller 1. 96, så ved vi at p-værdie 0.05. Hvis p-værdie 0.05 afviser vi H 0. 0.8 0.7 0.6 0.5 0.4 0.3 0. 0.1 0.0.95.05.05-1.96 0 1.96 Tilsvarede kritiske værdier ka fides for adre fordeliger, f t- fordelige. 6

Eksempel H 0 : µ = 30 H 1 : µ 30 Sigifikasiveau: α=0.05 Stikprøve: = 50 = 31.5 σ = 5 Test størrelse: 31.5 30 Z = =,1 5 50 Kritiske værdi: Da,1 > 1,96 forkastes H 0 (eller hvis de var midre ed -1,96) Hvis højresidet test, dvs. H 1 :μ>30: Da,1 > 1.645 forkastes H 0 Hvis vestresidet test, dvs. H 1 :μ<30: Da,1 ikke er midre ed -1,645, forkastes H 0 ikke 7

E- og to-sidet test af middelværdi for store eller ormale stikprøver og kedt varias og sigifikasiveau α. H 0 : µ = µ 0 Η 1 : µ µ 0 Forkast H 0, hvis z > Z α/ To-sidet test H 0 : µ = µ 0 H 1 : µ < µ 0 H 0 : µ = µ 0 H 1 : µ > µ 0 Forkast H 0, hvis z < -Z α Forkast H 0, hvis z > Z α E-sidet test I alle tre tilfælde er teststørrelse z = σ / µ 0 8

Tpe I og tpe II fejl Tpe I fejl: E sad H 0 forkastes. Tpe II fejl: E falsk H 0 forkastes ikke. Beslutig Forkast H 0 Forkast ikke H 0 Sad tilstad af H 0 H 0 sad Tpe I fejl Korrekt beslutig H 0 falsk Korrekt beslutig Tpe II fejl Sigifikas iveauet α er sadslighede for at begå e Tpe I fejl. Sadslighede for at begå e Tpe II fejl beteges β. Sadslighede for Tpe I og Tpe II fejl er iverst relaterede, dvs. år de ee stiger, så falder de ade, så ma ka ikke vælge begge to så lavt som muligt se æste slide. 9

Hvorda α og β afhæger af hiade For forskellige og et bestemt μ Tpisk vælger ma at fastsætte sadslighede for tpe II fejl, α, så ma ikke begår store fejl. For eksempel hvis H 0 er, at e eller ade medicisk behadlig er skadelig, er det bedre at være sikker på, at ma ikke forkaster H 0 selvom de er sad, ed at være sikker på, at ma ikke forkaster de, selvom de er falsk. 10

Beregig af β (for e vestre sidet test) Se på følgede hpoteser: H 0 : µ 1000 H 1 : µ < 1000 Lad σ = 5, α = 5%, og = 100. Vi vil berege β år µ = µ 1 = 998. Se æste slide Figure viser fordelige af år µ = µ 0 = 1000, og år µ = µ 1 = 998. Bemærk at H 0 vil blive forkastet, år er midre ed de kritiske værdi givet ved = z σ / = 1000 1.645 5/ 100 999.18. krit Omvedt, H 0 vil ikke blive forkastet, år er større ed. µ 0 α = krit 11

Beregig af β Fordelig af X år µ = µ 1. krit = 999.18 Fordelig af X år µ = µ 0. Forkast H 0 Forkast ikke H 0 1

Beregig af β Når µ = µ 1 = 998, så er β sadslighede for ikke at forkaste H 0, dvs. de er P ( X >. krit ) Når µ = µ 1, så vil X følge e ormal fordelig med middelværdi µ 1 og stadard afvigelse = σ/, så: X krit µ 1 β = P Z > = P( Z > 1.18/ 0.5) = P( Z σ / = 0.0091 >.360) Strke (power) af e test, er sadslighede for at de falske ul hpotese bliver opdaget af teste. Strke af teste = 1 β = 1 0.0091 = 0.9909. 13

Sammeligig af to grupper Tjeer mæd og kvider lige meget? (Respos: Lø, Forklarede: Kø) Er adele af helbredte kræftpatieter de samme for to forskellige tper kemoterapi? (Respos: helbredte patieter, Forklarede: Kemotpe) Er adele af overvægtige i 006 de samme som adele af overvægtige i 1999? (Forklarede: årstal, Respos: overvægtige) Kører e Fiat X-1/9 og e Lacia Stratos det samme atal kilometer per liter? (Forklarede: Bilmodel, Respos: atal kilometer per l) Kører e VW Toura det samme atal kilometer per liter på almidelig bezi, som på bio bezi? (Forklarede: Bezi tpe, Respos: atal kilometer) Er der forskel på hvor hurtigt ma løber 5 km, år ma har origiale Nike sko og Super Nike sko på? 14

Afhægige og uafhægige stikprøver Ved e uafhægig stikprøve udtages e stikprøve fra hver gruppe. 1. Mæd og kviders lø: Tag e stikprøve fra gruppe af mæd og e stikprøve fra gruppe af kvider og sammelig geemsitsløe for de to grupper.. Kilometer per liter: Tilfældig stikprøve af Toura er og tilfældig stikprøve af Skoda er. Ved e afhægig stikprøve er observatioere i de to grupper parrede. Oftest er det de samme perso/gestad, der bliver observeret i to forskellige situatioer. 1. Bio bezi kotra almidelig bezi: Vælg tilfældigt et atal VW Toura er og test dem med de to forskellige tper bezi.. Origial Nike sko kotra Super Nike sko: Vælg tilfældigt ogle persoer til at løbe 5 km og lad dem teste begge par sko. 15

Reste af forelæsige Sammeligig af to middelværdier kedt varias 1. Hpotesetest. Kofidesiterval Sammeligig af to middelværdier ukedt varias 1. Hpotesetest. Kofidesiterval 16

Sammeligig af to middelværdier Kedt varias og store eller ormalfordelte populatioer Atag vi har to uafhægige populatioer med ukedte middelværdier µ og µ og kedte variaser σ og σ. Vi vil udtale os om forskelle i middelværdi: µ d = µ -µ. Fra hver populatio har vi hhv. og observatioer. Vi har E ( X Y ) = E( X ) E( Y ) = µ µ σ σ og V ( X Y ) = V ( X ) + V ( Y ) = + dvs. X Y er e ubiased og kosistet estimator for µ d 17

Sammeligig af to middelværdier Kedt varias og store eller ormalfordelte populatioer Sætig: Atag vi har to stikprøver fra to uafhægige populatioer beståede af hhv. og observatioer. De to populatioer har middelværdier µ og µ og kedte variaser σ og σ. Hvis og er store eller de to populatioer er ormalfordelte, så er et (1 α)100% kofidesiterval for µ -µ givet ved ± z σ α + σ Som sædvaligt har vi taget udgagspukt i D0 P zα < < z σ + σ α 18

Sammeligig af to middelværdier Kedt varias og store eller ormalfordelte populatioer Atagelser: To uafhægige stikprøver fra to populatioer, og ete ormalfordelte populatioer eller store stikprøver Hpoteser H 0 : µ -µ = D 0 vs H 1 : µ -µ D 0 Teststørrelse D0 z = σ +σ p-værdi Beslutig: Afvis H 0, hvis p-værdi < α P ( Z > z ) Kritiske værdier ± z α Beslutig: Afvis H 0 hvis z >z α/ 19

Eksempel er der forskel på hvor lagt bilere kører på 5 l. bezi? Populatio X: Fiat X-1/9 = 100 σ σ = 308 = 84 Populatio Y: Lacia Stratos = 100 = 54 = 67 H 0 : µ -µ = 0 vs H 1 : µ -µ 0 Teststørrelse z = ( ) = (308 54) σ σ 84 67 + + 100 100 = 54 = 54 = 5,05 115.45 10.75 p-værdi: P(Z> 5,05 ) 0 Vi forkaster H 0, dvs. der er e forskel i hvor lagt de to biltper kører på litere. 95% Kofidesiterval: ± z α 54 ± 1.96 σ + σ 115.45 = [3.94 ; 75. 06] = 0

Sammeligig af to middelværdier To ormalfordelte populatioer med ukedte variaser Når de to populatioer har forskellige variaser variasere er ukedte er et estimat af Var[ X Y ] givet ved: s Hvis de to populatioer har es variaser, så er et estimat for Var[ X Y ] givet ved + s s (1 + 1 p ) hvor s p er de poolede varias er et estimat for de fælles varias: ( 1) ( 1) s + s s p = + 1

Sammeligig af to middelværdier Kedt varias og store eller ormalfordelte populatioer Sætig: Atag vi har to stikprøver fra to uafhægige ormale populatioer med middelværdier µ og µ beståede af hhv. og observatioer. Hvis de to populatioer har samme varias, så er et (1 α)100% kofidesiterval for µ - µ givet ved Hvis populatioere har forskellige variaser er kofidesitervallet givet ved hvor atallet af friheds grader er: ( ) p s t 1 1, + ± + α s s t, + ± α ν 1 ) ( 1 ) ( ) ( 1 1 1 1 1 + + = s s s s ν

Sammeligig af to middelværdier Kedt varias og store eller ormalfordelte populatioer Hpoteser H 0 : µ -µ = D 0 vs H 1 : µ -µ D 0 Hvis σ = σ Teststørrelse t = ( ) s p-værdi p (1 D P ( T > t ), hvor T ~ t +, α 0 + 1 Kritiske værdier ± t +, α ) Hvis σ σ Teststørrelse ( ) D0 t = s + s p-værdi P ( T > t ), hvor T ~ Kritiske værdier ± t ν,α t ν 3

Eksempel Forskel på højde af drege og piger = 10 (atal drege) = 9 = 181,30 = 170,89 s s = 10,1 = 6,17 Atag σ 1 = σ. Hpoteser: H 0 : µ 1 = µ H 1 : µ 1 µ Sigifikasiveau: α = 0.05 (atal piger) (geemsitshøjde drege) (geemsitshøjde piger) (est. varias drege) (est. varias piger) Teststørrelse: ( 1 ) t = s 1 1 s p Kritiske pukter: ( = ( ) p 1 + Beslutig: 1 1) s1 + ( 1) s + 1 H 0 afvises da.67 >.11 (10 1)10,1 + (9 1)6,17 s p = = 7,13 10 + 9 (181,30 170,89) t = =,67 7,13 1 10 ( + 1 9) ± t +, α = ± t17,0.05 = ±.11 4

Sammeligig af to middelværdier i R > sudb = read.table("sudb95.dat, header=t) > t.test(vaegt~koe, data=sudb, var.equal = F) Welch Two Sample t-test t-teststørrelse Atal frihedsgrader p-værdi data: vaegt b koe H t = -31.108, df = 449.037, p-value <.e-16 1 -hpotese alterative hpothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: -15.575-13.69148 sample estimates: mea i group Kvide mea i group Mad 64.38064 78.99001 95% kofides-iterval for forskelle i middelværdi. Da p-værdie =. 10-16 < 0.05 afviser vi H 0 - hpotese. Dvs. der er e forskel på mæds og kviders middelvægt. 5

Parrede observatioer For de i te perso har vi to observatioer X i,1 og X i,, f. blodtrk før og efter behadlig. For de i te perso defierer vi differece D i = X i,1 X i,. Forskelle mellem før og efter ka u udersøges vha. hpotesetest af middeldifferece, µ D. Tpisk atagelse er, at differecere er ormalfordelte, D i ~ N(µ D, σ D ). Estimatere for hhv. middelværdi og varias beteges og. D s D 6

Parrede observatioer Udreg differecer: Nike Super 0 17 18 15 16 17 0 0 Nike Origial 1 19 19 0 17 16 1 0 Super-Origial -1 - -1-5 -1 1-1 0 Bereg H 0 : D = µ og s D ud fra differecere. Ha : µ D µ D0 D µ D0 Teststørrelse : t =, sd Er t fordelt med D 1 frihedsgrader, hvis differecere er ormalfordelte. Kofidesiterval : sd D ± t µ D D α 0 7

Parret t-test i R > Nike = read.table("nike.dat",header=t) > fi(nike) > t.test(nike$super, Nike$Origial, paired=t) Paired t-test data: Nike$Super ad Nike$Origial t = -.0174, df = 7, p-value = 0.08345 alterative hpothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: -.7151678 0.151678 Bemærk: 95% kofidesiterval for sample estimates: forskelle i middelværdi ideholder 0! mea of the differeces -1.5 p-værdi = 0.08345 > 0.05, dvs. vi ka ikke afvise H 0. Dvs. vi ka ikke afvise at de to sko-tper er lige gode 8

Bemærkiger til parret t-test Selvom vi har to sæt af observatioer, så koger det ed til et sæt af differecer. Vi tester derfor ku é middelværdi, og ka derfor gebruge t-testet fra sidst. Ved at have parrede observatioer, forsvider variatioe i observatioere, der skldes variatioe i deltagere. Dette gælder ku hvis differecere er uafhægige af førmåligere. 9