Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Itroducerede Statistik Forelæsig 12: Iferes for adele Klaus K. Aderse og Per Bruu Brockhoff DTU Compute, Statistik og Dataaalyse Damarks Tekiske Uiversitet 2800 Lygby Damark e-mail: klaus@cacer.dk Oversigt 1 Itro 2 Kofidesiterval for é adel Eksempel 1 3 4 Kofidesiterval og hypotesetest for to adele Eksempel 2 5 6 Aalyse af atalstabeller 7 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 1 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 2 / 51 Itro Forskellige aalyse/data-situatioer Estimatio af adele Itro Geemsit for kvatitative data: Hypotesetest/KI for é middelværdi (oe-sample) Hypotesetest/KI for to middelværdier (two samples) Hypotesetest/KI for flere middelværdier (K samples) I dag: Adele: Hypotesetest/KI for é adel Hypotesetest/KI for to adele Hypotesetest for flere multi-categorical adele Estimatio af adele fås ved at observere atal gage x e hædelse har idtruffet ud af forsøg: ˆp = x ˆp [0; 1] Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 4 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 5 / 51

Kofidesiterval for é adel Kofidesiterval for é adel Kofidesiterval for é adel Kofidesiterval for é adel Method 7.3 Såfremt der haves e stor stikprøve, fås et (1 α)% kofidesiterval for p x x z (1 x ) 1 α/2 < p < x x + z (1 x ) 1 α/2 Hvorda? Følger af at approximere biomialfordelige med ormalfordelige. As a rule of thumb the ormal distributio gives a good approximatio of the biomial distriutio if p ad (1 p) are both greater tha 15 Middelværdi og varias i biomialfordelige, enote2: This meas that E(X) = p V ar(x) = p(1 p) E(ˆp) = E( X ) = p = p V ar(ˆp) = V ar( X ) = 1 p(1 p) V ar(x) = 2 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 7 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 8 / 51 Eksempel 1 Kofidesiterval for é adel Eksempel 1 Eksempel 1 Kofidesiterval for é adel Eksempel 1 Vestrehådede: p = Adele af vestrehådede i Damark og/eller: Kvidelige igeiørstuderede: p = Adele af kvidelige igeiørstuderede Vestrehådede: ˆp(1 ˆp) 10/100(1 10/100) = = 0.03 100 0.10 ± 1.96 0.03 0.10 ± 0.059 [0.041, 0.159] Bedre small sample metode - "plus 2-approach":(emark 7.7) Aved samme formel på x = 10 + 2 = 12 og ñ = 104: p(1 p) 12/104(1 12/104) = = 0.031328 ñ 104 0.1154 ± 1.96 0.03132 0.1154 ± 0.0614 [0.054, 0.177] Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 9 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 10 / 51

Kofidesiterval for é adel Kofidesiterval for é adel Margi of Error på estimat Margi of Error med (1 α)% kofides bliver hvor et estimat af p fås ved p = x ME = z 1 α/2 p(1 p) Method 7.12 Såfremt ma højst vil tillade e Margi of Error ME med (1 α)% kofides, bestemmes de ødvedige stikprøvestørrelse ved = p(1 p)[ z 1 α/2 ME ]2 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 11 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 12 / 51 Kofidesiterval for é adel Kofidesiterval for é adel Method 7.12 Såfremt ma højst vil tillade e Margi of Error ME med (1 α)% kofides, og p ikke kedes, bestemmes de ødvedige stikprøvestørrelse ved = 1 4 [z 1 α/2 ME ]2 idet ma får de mest koservative stikprøvestørrelse ved at vælge p = 1 2 Vestrehådede: Atag vi øsker ME = 0.01 (med α = 0.05) - hvad skal være? Atag p 0.10: = 0.1 0.9 ( ) 1.96 2 = 3467.4 3468 0.01 UDEN atagelse om størrelse af p: = 1 ( ) 1.96 2 = 9604 4 0.01 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 13 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 14 / 51

Tri ved Hypoteseprøvig 1. Opstil hypoteser og vælg sigifikasiveau α 2. Bereg teststørrelse 3. Bereg p-værdi (eller kritisk værdi) 4. Fortolk p-værdi og/eller Sammelig p-værdi og sigifikasiveau og drag e koklusio (Alterativ 4. Sammelig teststørrelse og kritisk værdi og drag e koklusio) Vi betragter e ul- og alterativ hypotese for é adel p: H 0 : p = p 0 H 1 : p p 0 Ma vælger som sædvaligt ete at acceptere H 0 eller at forkaste H 0 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 16 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 17 / 51 Beregig af teststørrelse Test ved brug af p-værdi (Method 7.10) Theorem 7.9 og Method 7.10 Såfremt stikprøve er tilstrækkelig bruges teststørrelse: (p 0 > 15 og (1 p 0 ) > 15) z obs = x p 0 p0 (1 p 0 ) Fid p-værdie (evidece mod ulhypotese): If two-sided: 2P (Z > z obs ) If oe-sided less : P (Z < z obs ) If oe-sided greater : P (Z > z obs ) Uder ulhypotese gælder at de tilsvarede tilfældige variabel Z følger e stadard ormalfordelig, dvs. Z N(0, 1 2 ) Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 18 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 19 / 51

Test ved brug af kritisk værdi (Method 7.10) Er halvdele af alle daskere vestrehådede? Afhægig af de alterative hypotese fås følgede kritiske værdier Alterativ hypotese p < p 0 p > p 0 p p 0 Afvis ul-hypotese hvis z obs < z 1 α z obs > z 1 α z obs < z 1 α/2 eller z obs > z 1 α/2 Teststørrelse: p-værdi: z obs = H 0 : p = 0.5, H 1 : p 0.5 x p 0 p0 (1 p 0 ) = 10 100 0.5 = 8 100 0.5(1 0.5) 2 P (Z > 8) = 1.2 10 15 Der er meget stærk evidece imod ulhypotese - vi ka forkaste dee (med α = 0.05). Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 20 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 21 / 51 Evt med kritisk værdi i stedet: Kofidesiterval og hypotesetest for to adele Kofidesiterval for to adele z 0.975 = 1.96 Idet z obs = 8 er (meget) midre ed 1.96 ka vi forkaste hypotese. dorm(x) 0.0 0.1 0.2 0.3 0.4 P(Z< 1.96)=0.025 P(Z>1.96)=0.025 Method 7.14 hvor ule of thumb: ˆσˆp1 ˆp 2 = (ˆp 1 ˆp 2 ) ± z 1 α/2 ˆσˆp1 ˆp 2 ˆp 1 (1 ˆp 1 ) 1 + ˆp 2(1 ˆp 2 ) 2 Både i p i 10 ad i (1 p i ) 10 for i = 1, 2. 4 2 0 2 4 x Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 22 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 24 / 51

Kofidesiterval og hypotesetest for to adele Hypotesetest for to adele, Method 7.17 Two sample proportios hypothesis test Såfremt ma øsker at sammelige to adele (her vist for et tosidet alterativ) Fås teststørrelse: z obs = Og for passede store stikprøver: H 0 : p 1 = p 2 H 1 : p 1 p 2 ˆp 1 ˆp 2, hvor ˆp = x 1 + x 2 ˆp(1 ˆp)( 1 1 + 1 2 ) 1 + 2 Brug stadardormalfordelige ige. Kofidesiterval og hypotesetest for to adele Eksempel 2 Eksempel 2 Sammehæg mellem brug af p-piller og risikoe for hjerteifarkt I et studie (USA, 1975) udersøgte ma dette. Fra et hospital havde ma idsamlet følgede stikprøve Ifarkt Ikke ifarkt p-piller 23 34 Ikke p-piller 35 132 Er der sammehæg mellem brug af p-piller og sygdomsrisiko Udfør et test for om der er sammehæg mellem brug af p-piller og risiko for hjerteifarkt. Aved sigifikasiveau α = 5% Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 25 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 26 / 51 Kofidesiterval og hypotesetest for to adele Eksempel 2 Eksempel 2 Sammehæg mellem brug af p-piller og risikoe for hjerteifarkt Estimater i hver stikprøve Ifarkt Ikke ifarkt Total p-piller 23 34 1 = 57 Ikke p-piller 35 132 2 = 167 x = 58 = 224 ˆp 1 = 23 57 = 0.4035, ˆp 2 = 35 167 = 0.2096 Sammeligig af c adele I ogle tilfælde ka ma være iteresseret i at vurdere om to eller flere biomialfordliger har de samme parameter p, dvs. ma er iteresseret i at teste ul-hypotese H 0 : p 1 = p 2 =... = p c = p mod e alterativ hypotese at disse adele ikke er es Fælles estimat: ˆp = 23 + 35 57 + 167 = 58 224 = 0.2589 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 27 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 29 / 51

Tabel af observerede atal for k stikprøver: stikprøve 1 stikprøve 2... stikprøve c Total Succes x 1 x 2... x c x Fiasko 1 x 1 2 x 2... c x c x Total 1 2... c Fælles (geemsitlig) estimat: Uder ul-hypotese fås et estimat for p: ˆp = x Fælles (geemsitlig) estimat: Uder ul-hypotese fås et estimat for p: ˆp = x Brug dette fælles estimat i hver gruppe: såfremt ul-hypotese gælder, vil vi forvete at de j te gruppe har e 1j successer og e 2j fiaskoer, hvor e 1j = j ˆp = j x e 2j = j (1 ˆp) = j ( x) Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 30 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 31 / 51 Beregig af teststørrelse - Method 7.19 Geerel formel for beregig af forvetede værdier i atalstabeller: e ij = (i th row total) (j th colum total) (total) Teststørrelse bliver 2 c χ 2 obs = (o ij e ij ) 2 i=1 j=1 hvor o ij er observeret atal i celle (i, j) og e ij er forvetet atal i celle (i, j) e ij Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 32 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 33 / 51

Fid p-værdi eller brug kritisk værdi - Method 7.19 Stikprøvefordelig for test-størrelse: χ 2 -fordelig med (c 1) frihedsgrader Kritisk værdi metode Såfremt χ 2 obs > χ2 α(c 1) forkastes ul-hypotese De OBSEVEEDE værdier o ij Observerede Ifarkt Ikke ifarkt p-piller 23 34 Ikke p-piller 35 132 ule of thumb for validity of the test: Alle forvetede værdier e ij 5. Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 34 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 35 / 51 Bereg de FOVENTEDE værdier e ij Forvetede Ifarkt Ikke ifarkt Total p-piller 57 Ikke p-piller 167 Total 58 166 224 Brug regle for forvetede værdier fire gage, f.eks. : e 22 = De FOVENTEDE værdier e ij 167 166 224 = 123.76 Forvetede Ifarkt Ikke ifarkt Total p-piller 14.76 42.24 57 Ikke p-piller 43.24 123.76 167 Total 58 166 224 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 36 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 37 / 51

Aalyse af atalstabeller Aalyse af atalstabeller Teststørrelse: χ 2 obs = (23 14.76)2 14.76 Kritisk værdi: [1] 3.8415 Koklusio: + (34 42.24)2 42.24 + = 8.33 (35 43.24)2 43.24 + (132 123.76)2 123.76 Vi forkaster hulhypotese - der E e sigifikat forhøjet sygdomsrisiko i p-pille gruppe. E 3 3 tabel - 3 stikprøver, 3-kategori udfald 4 uger før 2 uger før 1 uge før Kadidat I 79 91 93 Kadidat II 84 66 60 ved ikke 37 43 47 1 = 200 2 = 200 3 = 200 Er stemmefordelige es? H 0 : p i1 = p i2 = p i3, i = 1, 2, 3. Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 38 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 40 / 51 Aalyse af atalstabeller Aalyse af atalstabeller Aalyse af atalstabeller Beregig af teststørrelse uaset type af tabel E 3 3 tabel - 1 stikprøve, to stk. 3-kategori variable: dårlig middel god dårlig 23 60 29 middel 28 79 60 god 9 49 63 Er der uafhægighed mellem iddeligskriterier? H 0 : p ij = p i p j I e atalstable med r rækker og c søjler, fås teststørrelse r c χ 2 obs = (o ij e ij ) 2 i=1 j=1 hvor o ij er observeret atal i celle (i, j) og e ij er forvetet atal i celle (i, j) Geerel formel for beregig af forvetede værdier i atalstabeller: e ij = e ij (i th row total) (j th colum total) (total) Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 41 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 42 / 51

Aalyse af atalstabeller Fid p-værdi eller brug kritisk værdi - Method 7.21 : prop.test - ee adel Stikprøvefordelig for test-størrelse: χ 2 -fordelig med (r 1)(c 1) frihedsgrader Kritisk værdi metode Såfremt χ 2 obs > χ2 α med (r 1)(c 1) frihedsgrader forkastes ul-hypotese # WITHOUT CONTINUITY COECTIONS prop.test(518, 1154, p = 0.5, correct = FALSE) ule of thumb for validity of the test: Alle forvetede værdier e ij 5. Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 43 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 45 / 51 : prop.test - to adele : chisq.test - to adele colames(pill.study) <- c("blood Clot", "No Clot") rowames(pill.study) <- c("pill", "No pill") # TESTING THAT THE POBABILITIES FO THE TWO GOUPS AE EQUAL prop.test(pill.study, correct = FALSE) #IF WE WANT THE EXPECTED NUMBES SAVE THE TEST IN AN OBJECT chi <- chisq.test(pill.study, correct = FALSE) #THE EXPECTED VALUES chi$expected Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 46 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 47 / 51

: chisq.test - atalstabeller : chisq.test - atalstabeller colames(poll) <- c("4 weeks", "2 weeks", "1 week") rowames(poll) <- c("cad1", "Cad2", "Udecided") barplot(t(colpercet), beside = TUE, col = 2:4, las = 1, ylab = "Percet each week", xlab = "Cadidate", mai = "Distributio of Votes") leged( leged = colames(poll), fill = 2:4,"topright", cex = 0.5) par(mar=c(5,4,4,2)+0.1) #COLUMN PECENTAGES colpercet<-prop.table(poll, 2) colpercet Percet each week 0.4 0.3 0.2 0.1 0.0 Distributio of Votes 4 weeks 2 weeks 1 week Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 48 / 51 Cad1 Cad2 Udecided Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 49 / 51 Cadidate : chisq.test - atalstabeller Oversigt 1 Itro chi #EXPECTED VALUES chi$expected 2 Kofidesiterval for é adel Eksempel 1 3 4 Kofidesiterval og hypotesetest for to adele Eksempel 2 5 6 Aalyse af atalstabeller 7 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 50 / 51 Klaus KA og Per BB (klaus@cacer.dk) Itroduktio til Statistik, Forelæsig 12 Efteråret 2016 51 / 51