Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk Oversigt 1 Intro 2 Konfidensinterval for én andel Eksempel 1 3 4 Hypotesetest for to andele Eksempel 2 5 6 7 R (R note 8) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 1 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 2 / 38 Intro Forskellige Hypotesetest-situationer Estimation af andele Intro Gennemsnit for kvantitative data: Hypotesetest for én middelværdi (one-sample) Hypotesetest for to middelværdier (two samples) Varianser for kvantitative data: Hypotesetest for én varians Hypotesetest for to varianser I dag: Andele: Hypotesetest for to og flere andele Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet ud af n forsøg: ˆp = x n ˆp [0; 1] Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 4 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 5 / 38
Konfidensinterval for én andel Konfidensinterval for én andel Eksempel 1 Konfidensinterval for én andel Eksempel 1 Såfremt der haves en stor stikprøve, fås et (1 α)% konfidensinterval for p x x n z n (1 x n ) α/2 < p < x x n n + z n (1 x n ) α/2 n Ovenstående formel fås ved approximation til normalfordelingen. og/eller: p = Andelen af venstrehåndede i Danmark p = Andelen af kvindelige ingeniørstuderende Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 7 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 8 / 38 Konfidensinterval for én andel Maksimal fejl på estimat Konfidensinterval for én andel Den maksimale fejl med (1 α)% konfidens bliver E = z α/2 p(1 p) n hvor et estimat af p fås ved p = x n Såfremt man højst vil tillade en maksimal fejl E med (1 α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved n = p(1 p)[ z α/2 E ]2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 9 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 10 / 38
Konfidensinterval for én andel Konfidensinterval for én andel Såfremt man højst vil tillade en maksimal fejl E med (1 α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved n = 1 4 [z α/2 E ]2 idet man får den mest konservative stikprøvestørrelse ved at vælge p = 1 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 11 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 12 / 38 Trin ved Hypoteseprøvning 1. Opstil hypoteser og vælg signifikansniveau α 2. Beregn teststørrelse 3. Beregn kritisk værdi (eller p-værdi) 4. Sammenlign teststørrelse og kritisk værdi og drag en konklusion (evt. 4. Sammenlign p-værdi og signifikansniveau og drag en konklusion) Vi betragter en nul- og alternativ hypotese for én andel p: H 0 : p = p 0 H 1 : p p 0 Man vælger som sædvanligt enten at acceptere H 0 eller at forkaste H 0 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 14 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 15 / 38
Beregning af teststørrelse Beregning af kritisk værdi Såfremt stikprøven er tilstrækkelig stor fås teststørrelsen: Z = X np 0 np0 (1 p 0 ) Under nulhypotesen gælder at Z følger en standard normalfordeling, dvs. Z N(0, 1 2 ) Afhængig af den alternative hypotese fås følgende kritiske værdier Alternativ Afvis hypotese nul-hypotese hvis p < p 0 Z < z α p > p 0 Z > z α p p 0 Z < z α/2 eller Z > z α/2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 16 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 17 / 38 Hypotesetest for to andele Hypotesetest for to andele Såfremt man ønsker at sammenligne to andele (her vist for et tosidet alternativ) Fås teststørrelsen H 0 : p 1 = p 2 H 1 : p 1 p 2 Z = X 1 n 1 X 2 n 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ), hvor ˆp = X 1 + X 2 n 1 + n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 18 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 20 / 38
Eksempel 2 Hypotesetest for to andele Eksempel 2 I et studie (USA, 1975) undersøgte man sammenhæng mellem brug af p-piller og risikoen for hjerteinfarkt. Fra et hospital havde man indsamlet følgende stikprøve Infarkt Ikke infarkt p-piller 23 34 Ikke p-piller 35 132 Udfør et test for om der er sammenhæng mellem brug af p-piller og risiko for hjerteinfarkt. Anvend signifikansniveau α = 1% I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordlinger har den samme parameter p, dvs. man er interesseret i at teste nul-hypotesen H 0 : p 1 = p 2 =... = p k = p mod en alternativ hypotese at disse andele ikke er ens Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 21 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 23 / 38 stikprøve 1 stikprøve 2... stikprøve k Total Succes x 1 x 2... x k x Fiasko n 1 x 1 n 2 x 2... n k x k n x Total n 1 n 2... n k n Under nul-hypotesen fås et estimat for p: ˆp = x n Under nul-hypotesen fås et estimat for p: ˆp = x n såfremt nul-hypotesen gælder, vil vi forvente at den j te gruppe har e 1j successer og e 2j fiaskoer, hvor e 1j = n j ˆp = n j x n e 2j = n j (1 ˆp) = n j (n x) n Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 24 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 25 / 38
Beregning af teststørrelse Beregning af kritisk værdi Teststørrelsen bliver Vi har teststørrelsen χ 2 = 2 i=1 k (o ij e ij ) 2 e j=1 ij χ 2 = 2 i=1 k (o ij e ij ) 2 e j=1 ij hvor o ij er observeret antal i celle (i, j) og e ij er forventet antal i celle (i, j) Teststørrelsen sammenlignes med χ 2 α(k 1) Såfremt χ 2 > χ 2 α(k 1) forkastes nul-hypotesen Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 26 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 27 / 38 Observerede Infarkt Ikke infarkt p-piller 23 34 Ikke p-piller 35 132 Forventede Infarkt Ikke infarkt Total p-piller 57 Ikke p-piller 167 Total 58 166 224 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 28 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 29 / 38
4 uger før 2 uger før 1 uge før Kandidat I 79 91 93 Kandidat II 84 66 60 ved ikke 37 43 47 Er stemmefordelingen ens? H 0 : p i1 = p i2 = p i3 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 30 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 32 / 38 Beregning af teststørrelse dårlig middel god dårlig 23 60 29 middel 28 79 60 god 9 49 63 Er der uafhængighed mellem inddelingskriterier? I en antalstable med r rækker og c søjler, fås teststørrelsen χ 2 = r i=1 c (o ij e ij ) 2 j=1 hvor o ij er observeret antal i celle (i, j) og e ij er forventet antal i celle (i, j) e ij Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 33 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 34 / 38
Beregning af kritisk værdi R (R note 8) R (R note 8) ("orienterende") Vi har teststørrelsen χ 2 = r i=1 c (o ij e ij ) 2 e j=1 ij Eksemplet side 295: > prop.test(36,100) Eksemplet side 302 (eksemplet anvendt på side 612): Teststørrelsen sammenlignes med χ 2 α((r 1)(c 1)) Såfremt χ 2 > χ 2 α((r 1)(c 1)) forkastes nul-hypotesen > crumbled=c(41,27,22) > intact=c(79,53,78) > prop.test(crumbled,crumbled+intact) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 35 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 37 / 38 R (R note 8) Oversigt 1 Intro 2 Konfidensinterval for én andel Eksempel 1 3 4 Hypotesetest for to andele Eksempel 2 5 6 7 R (R note 8) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 38 / 38