Estimation og konfidensintervaller

Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n, p, og at vi har observeret X = hvor n er givet. Sidste uge lærte vi at estimere p: ˆp = n og at konstruere et approksimativt 95% konfidensinterval for vores estimat: ( ˆp.96sˆp ; ˆp +.96sˆp hvor vi estimerer spredningen af estimatoren til 7. undervisningsuge, mandag sˆp = ˆp( ˆp n 2 Antag for eksempel at n = 8 og at vi observerer X = 2. Hvad nu hvis vores hypotese er p = 0.5? 0 ˆp.96 sˆp 0.45 ˆp 2/3 ˆp +.96 sˆp 0.88 95% CI Antag nu at vi har en hypotese om at p = p 0. p 0 Er data foreneligt med vores hypotese? ˆp.96 sˆp 0.45 p 0 ˆp 2/3 ˆp +.96 sˆp 0.88 p Naturligt spørgsmål: Er data foreneligt med vores hypotese? 95% CI 3 4

Eksempel 4.6. Produktsammenligning ved partest. Hvad nu hvis vores hypotese er p = 0.25? Er data foreneligt med vores hypotese? Kan en forsøgsperson kende forskel mellem type A og type B af et produkt? 0 ˆp.96 sˆp 0.45 ˆp 2/3 ˆp +.96 sˆp 0.88 p 0 }{{} p Lad sandsynligheden for at personen udpeger det korrekte produkt være p. Hvad svarer p = /2 til? Hvad svarer p = til? 95% CI Hvad svarer p < /2 til? 5 6 Antag nu at forsøget gentages n = 8 gange, og at de enkelte forsøg er uafhængige (er det en rimelig antagelse?. Lad X betegne antallet af gange personen udpeger det korrekte produkt. Antag nu at personen udpeger det korrekte produkt alle 8 gange: X = 8. Kan vi konkludere at personen kan smage forskel? For at svare på det antager vi at personen ikke kan smage forskel: p 0 = /2 Under denne hypotese hvad er da sandsynligheden for det udfald, vi har observeret? Vi har under antagelsen om at p = /2 at P (X = 8 = 2 8 = 256 = 0.0039 Med andre ord: Hvis personen ikke kan kende forskel og vi gentager dette eksperiment 000 gange (hver gang prøver personen 8 gange, forventer vi at ca 4 gange ud af de 000 ville personen udpege det korrekte produkt alle 8 gange. Er det på den baggrund plausibelt at p = /2? 7 8

Definition 4.9 En hypotese (eller nulhypotese i en statistisk model er et simplificerende udsagn om modellen, typisk om modellens ukendte parametre. Hypotesen betegnes oftest H 0. Til enhver testsituation hører også en alternativ hypotese H A som vil være gyldig hvis nulhypotesen er falsk. Som regel er den alternative hypotese blot negationen af H 0, dvs H 0 er ikke sand. Hvad betyder simplificerende udsagn om modellen? Hvis H 0 er sand, da gælder en model, der er en delmodel af den oprindelige model. Eksempel 4.6 fortsat Her er nulhypotesen at personen ikke kan kende forskel, dvs mens den alternative hypotese er H 0 : p = 2 H A : p > 2 Formålet med et statistisk test er at undersøge om data understøtter eller modsiger H 0 - hertil udregnes en teststørrelse. 9 0 Definition 4.0 Antag at vi har observationer X,..., X n fra en statistisk model, og at H 0 og H A er henholdsvis en nulhypotese og en alternativ hypotese om modellen. En teststørrelse for H 0 er en stokastisk variabel af formen T = g(x,..., X n der måler hvor godt data passer til nulhypotesen H 0 i forhold til alternativet H A. Fordelingen af T under H 0 skal kunne beregnes, enten eksakt eller approksimativt. Eksempel 4.6 fortsat Her anvendtes som teststørrelse blot det observerede antal korrekte svar: T = X Hvad betyder i dette tilfælde værdier af T der er mere kritiske end T obs? Under H 0 er p = /2, under H A er p > /2 P -værdien for testet baseret på en observeret værdi T obs er lig sandsynligheden for værdier af T som er mindst lige så kritiske (som T obs for H 0 i forhold til H A, hvor sandsynligheden udregnes i fordelingen af T under H 0. Hvis X/n > /2 er kritiske værdier T T obs. Hvis X/n /2 er alle værdier af T mindst lige så kritiske som T obs. 2

Hvad siger P -værdien? Da X/n = 8/8 = > /2 er kritiske værdier T T obs = 8, dvs kun punktet {8}, da T = X {0,,..., 8}. Da T = X er fordelingen af teststørrelsen under H 0 kendt: Hvis H 0 er sand, er T fordelt efter en kendt fordeling. Vi sammenholder vores (afledte observation T obs med denne fordeling. Vi får T Bin(8, /2 P værdi = P (T T obs = P (T = 8 = 0.0039 Hvis et udfald som T obs er meget usandsynligt i denne fordeling er det svært at tro på at H 0 er sand, og at dette udfald blot var ren tilfældighed = vi afviser hypotesen. Hvis et udfald som T obs er sandsynligt i denne fordeling kan vi ikke afvise at H 0 er sand; dette udfald kunne blot være ren tilfældighed = vi accepterer hypotesen. 3 4 Hvad betyder en lav P -værdi? Eksempel 4.6 fortsat Definition 4. Et udfald af et statistisk test kaldes signifikant på signifikansniveau α, hvor 0 α, hvis P -værdien er α. Antag nu at forsøgspersonen kun kunne udpege 6 korrekte produkttyper ud af 8, dvs T = X = 6. Signifikansniveau: risikoen for at drage en fejlslutning på basis af tilfældigheder. Hvornår er noget signifikant? Hvordan beregner vi P -værdien? Udfald som er mere kritiske for H 0 i forhold til H A er {X = 7} og {X = 8}: de er længere væk fra nulhypotesen end det observerede. 5 6

P = P (X = 6 + P (X = 7 + P (X = 8 = ( ( ( 8 ( 6 2 6 ( 8 2 8 6 + ( 7 2 7 ( 8 2 8 7 + 8 ( 2 8 ( 2 8 8 = 0.4. Vi har P værdi = P (X X obs = P (X 6 = P (X = 6 + P (X = 7 + P (X = 8 ( ( ( 8 8 8 = 6 7 8 = 28 + 8 + 2 8 = 0.4 2 6 2 (8 6 + 2 7 2 (8 7 + 2 8 2 (8 6 Ö Ò Ò Ò Ö ÐÐÙ ØÖ Ö Ø ÙÖ º º ÖÑ Ö Ù Ð Ø X = 6 Ò ÒØ Ø P > 0.05 Ú Ð Ø Ú Ò Ò Ú Ú Ø Ö Ú X = 6 ÆË º Å Ø ÒÓÒ¹ Ò ÒØ Ù Ð Ò Ú ÓÖ Ø ÝÔÓØ Ò Ø p = /2 Ó Ø ÓÑÑ Ö Ò Ö ÐØ Ò Ò ÓÖ Ð Ô ØÓ ÔÖÓ Ù Ø Öº Ø ÓÑÑ Ö Ò ÐÐ Ú Ð Ù Ö Ø Ò Ø Ò ÚÖ Ò Ø Ð Ð º ÑÖ Ñ Ð ÖØ Ø Ú ÓÐÙØ Ò ÓÒ ÐÙ Ö Ø p = /2º Í Ð Ø ÙÒÒ Ó Ù ÑÖ Ø Ø ÑÑ Ñ Ø p = 0.6 ÐÐ Ö p = 0.7 Üº f( ¼º ¼º¾ ¼º½ ¼ Ò(8, 2 ¼ ½ ¾ ÒØ Ð Ö Ø X Ó ºº P {}}{ ÙÖ º ÒÓÑ Ð ÓÖ Ð Ò (8, /2 = ÓÖ Ð Ò Ò ÙÒ Ö À 0 Ø Ø Ø ÖÖ Ð Ò X ÓÖ Ô ÖØ Ø Ò ÑÔ Ð º½ Ó Ö Ò Ò P ¹ÚÖ Ú Ó ÖÚ Ö Ø ÚÖ X Ó = 6º Fortolkning? 7 ÓÖ Ô ÖØ Ø ÑÔ Ð º½ º½ ÒÝØØ Ú Ò ÐØ ÖÒ Ø Ú ÝÔÓØ À : p > /2º ÖÙÒ Ð Ò ÓÖ Ø ÖÒ ÐØ ÖÒ Ø Ú Ø Ø Ð p¹úö Ö > /2 Ø Ø ÓÖ ÐÐ p¹úö Ö /2 Ú Ö Ø Ú Ò Ø ÙÒ Ö ÓÑ ÓÑÑ Ö Ò ÓÚ Ö ÓÚ Ø ÙÒÒ Ò ÓÖ Ð Ô ØÓ ÔÖÓ Ù Ø Ö Ó Ø Ø Ð Ð Ø p < /2 Ú Ö Ú Ò Ð Ø Ø ÓÖ Ø ÒÒ ØÝÔ ÓÖ Ó Ñ ÙÒÒ 8 ØÝ Ô Ø Ö Ú Ö Ø Ò Ð ÓÖ Øº ÀÚ Ñ Ò Ö ÒÓ Ò Ô Ð ÒØ Ö ÐÐ Ö ÓÖ Ò Ú Ò ÓÑ ØÙ Ø ÓÒ Ò ÒÖ H 0 accepteres H 0 afvises H 0 er sand OK Type I fejl sandsynlighed α α (signifikansniveau H 0 er falsk Type II fejl OK sandsynlighed β β (styrke Definition 4.2 Betragt en statistisk model hvori der er givet en nulhypotese H 0, en alternativ hypotese H A og en teststørrelse T for H 0 mod H A. Testet T kaldes et ensidet test hvis de kritiske værdier er et interval enten af formen {T t} eller af formen {T t}, altså at enten store værdier eller små værdier af T er kritiske. Testet T kaldes et tosidet test hvis de kritiske værdier er af form som en foreningsmængde {T t } {T t 2 }, altså at både store og små værdier af T er kritiske. 9 20

Ensidet test: H 0 : p = /2 og H A : p > /2 ; P = P (T T obs Definition 4.3 Betragt en statistisk model med en hypotese H 0, en tilhørende teststørrelse T og en observeret værdi T obs. P -værdien for testets udfald beregnes, alt efter om testet er ensidet eller tosidet, efter følgende retningslinier:. Ensidet test. Hvis det kritiske område er af formen {T t} (dvs store værdier er kritiske, er P = P (T T obs. Hvis det kritiske område er af formen {T t} (dvs små værdier er kritiske, er P = P (T T obs. 2. Tosidet test. P = 2 min{p (T T obs, P (T T obs }. f( 0.0 0. 0.2 0.3 Bin(8,/2 X obs I begge tilfælde udregnes sandsynlighederne i fordelingen af T under H 0. 2 0 2 4 6 8 P (T T obs P (T T obs 22 Ensidet test: H 0 : p = /2 og H A : p < /2 ; P = P (T T obs Tosidet test: H 0 : p = /2 og H A : p /2 ; P = 2 min{p (T T obs, P (T T obs } Bin(8,/2 Bin(8,/2 f( 0.0 0. 0.2 0.3 X obs f( 0.0 0. 0.2 0.3 X obs 0 2 4 6 8 P (T T obs P (T T obs 0 2 4 6 8 P (T T obs P (T T obs 23 24

Tosidet test: H 0 : p = /2 og H A : p /2 ; P = 2 min{p (T T obs, P (T T obs } Bin(8,/2 Test i binomialfordelingen f( 0.0 0. 0.2 0.3 X obs 0 2 4 6 8 }{{} P (T T obs }{{} P (T T obs Lad X Bin(n, p. Vi estimerer ˆp = X /n. Vi ønsker at teste hypotesen: hvor p 0 (0, er et kendt tal. H 0 : p = p 0 Teststørrelse: observationen X. Beregning af P -værdi for udfaldet X obs afhænger af den alternative hypotese: H A : p > p 0 : P = P (X X obs H A : p < p 0 : P = P (X X obs 2P (X X obs for ˆp p 0 H A : p p 0 : P = 2P (X X obs for ˆp < p 0 25 26 Beregning af P -værdi (testsandsynlighed Eksempel 4.8. Nedarvning hos fluer P (X = P (X = ( n i i=0 n ( n i i= p i 0( p 0 (n i p i 0( p 0 (n i Hvis n er stor er det besværligt at regne ud. Man kan bruge normalfordelingsapproksimationen: ( + 0.5 np 0 P (X Φ np0 ( p 0 ( 0.5 np 0 P (X Φ np0 ( p 0 Krydsningsforsøg med fluer: i en afkomstgeneration på 76 individer var 46 mutanter af en bestemt type. En genetisk hypotese forudsiger at forholdet mellem normale og muterede individer er 3 :. Er det i overensstemmelse med data? Statistisk model: X Bin(n, p Her er n = 76 og p = mutationssandsynligheden. Vi estimerer ˆp = 46/76 = 0.26. Nulhypotese: H 0 : p 0 = 0.25. Alternativ hypotese: H A : p 0.25. Teststørrelse: X Testsandsynlighed: P (X 46 (da ˆp > p 0. 27 28

45 ( 76 P (X 46 = P (X 45 = 0.25 i ( 0.25 (76 i i i=0 = 0.608 = 0.392 Alternativt kan denne sandsynlighed approksimeres: ( 46 0.5 76 0.25 P (X 46 Φ 76 0.25( 0.25 = Φ(0.26 = 0.603 = 0.397 Note 4.9 Maimum likelihood metoden er en standardmetode til at estimere parametrene i en model. Det er en generel metode, der (i princippet giver en løsning automatisk udfra modellen. På samme vis findes en generel (automatisk metode til at konstruere en teststørrelse ud fra den statistiske model og hypotesen: Se også Tabellen E. side 304 i MS. 29 30 Antag at vi har en model med parameter θ og en hypotese H 0. Lad ˆθ være maimum likelihood estimatet for θ i modellen, dvs L(ˆθ L(θ for alle θ i parameterrummet, hvor L(θ er likelihoodfunktionen. Lad ˆθ 0 være maimum likelihood estimatet for θ i den reducerede model givet ved H 0, dvs L(ˆθ 0 L(θ for alle θ i nulhypotesen. (For nu lad ˆθ 0 = θ 0. Teststørrelsen = L(ˆθ 0 L(ˆθ kaldes kvotientteststørrelsen eller likelihood ratio teststørrelsen. Den kan antage værdier mellem 0 og. (Hvorfor det? Jo mindre er, jo mere strider data mod hypotesen (Hvorfor det? Dvs testet er et ensidet test, hvor små værdier af er kritiske. P -værdien eller testsandsynligheden ɛ( ved kvotienttestet er P værdi = ɛ( = P ((X ( hvor ( = obs. 3 32

Test i binomialfordelingen Hypotese: Test ved kvotientteststørrelsen: H : p = p 0 ( = L(, p 0 L(, ˆp ( n p = 0 ( p 0 n ( n ˆp ( ˆp n = p 0( p 0 n ( n ( n n 0 5 0 5 20 ( ved test af p = 0.5 i binomialfordeling med n = 20. 33 34 0 20 40 60 80 00 0 200 400 600 800 000 ( ved test af p = 0.5 i binomialfordeling med n = 00. ( ved test af p = 0.5 i binomialfordeling med n = 000. 35 36

Testsandsynlighed ɛ( = P p0 ((X ( 0 5 0 5 20 = 0 37 38 0 5 0 5 20 = 0; (0 = 0 5 0 5 20 ( E : ( (0 39 40

0 5 0 5 20 P ( (X (0 = 0 5 0 5 20 = 8 4 42 0 5 0 5 20 = 8; (8 = 0.67 0 5 0 5 20 ( E : ( (8 43 44

0 5 0 5 20 0 5 0 5 20 P ( (X (8 < P ( (X (5 < P ( (X (8 45 46 Beregning af testsandsynlighed ɛ( = P p0 ((X ( = = = { {0,,...,n}:( (} { {0,,...,n}:( (} ( n p 0 ( p 0 n ( n ( n (hvis p 0 = /2 2 { {0,,...,,n,...n}} ( n ( 2 n (hvis < n/2 (hvis = n/2 ( n ( n { {0,,...,n,,...n}} 2 (hvis > n/2 Beregning af testsandsynlighed Hvis n er stor er det besværligt at regne ud. Heldigvis kan vi approksimere for 0 < p 0 < og n stor (og np 0 5 og n( p 0 5: ɛ( F χ 2 ( 2 log ( 47 48

Beregning af testsandsynlighed Hvis n er stor er det besværligt at regne ud. Heldigvis kan vi approksimere for 0 < p 0 < og n stor (og np 0 5 og n( p 0 5: F χ 2( 0 2 3 4 5 F χ 2 ( 2log ɛ( F χ 2 ( 2 log ( Eksempel: p 0 = /2, n = 20, = 8 (NB: n er ikke stor ( 2 20 ( = ( 8 8 ( 20 8 20 8 = 0.6685 20 F χ 2 ( 2 log ( = F χ 2 ( 2 log(0.6685 = 0.3695 ( 20 ( 20 ɛ( = = 0.5034 2 { [0,8] [2,20]} 49 50 Beregning af testsandsynlighed ɛ( F χ 2 ( 2 log ( Eksempel: p 0 = /2, n = 000, = 450 (NB: n er stor ( 2 000 ( = ( 450 450 ( 000 450 000 450 = 0.006682 000 F χ 2 ( 2 log ( = F χ 2 ( 2 log(0.006682 = 0.0055 ( 000 ( 000 ɛ( = = 0.0073 2 { [0,450] [550,000]} F χ 2 ( 2log approksimation n=8 n = 20 n = 00 n = 000 5 52