Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Relaterede dokumenter
Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Forelæsning 9: Inferens for andele (kapitel 10)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 14. december 2009

Løsning eksamen d. 15. december 2008

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Konfidensintervaller og Hypotesetest

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Forelæsning 11: Envejs variansanalyse, ANOVA

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Løsning til eksamen d.27 Maj 2010

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Postoperative komplikationer

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Forelæsning 8: Inferens for varianser (kap 9)

Forsøgsplanlægning Stikprøvestørrelse

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetests, fejltyper og p-værdier

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Tema. Dagens tema: Indfør centrale statistiske begreber.

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Note om Monte Carlo metoden

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Normalfordelingen og Stikprøvefordelinger

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 7 Forskelle mellem centraltendenser

Forelæsning 11: Kapitel 11: Regressionsanalyse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Afdeling for Anvendt Matematik og Statistik December 2006

(studienummer) (underskrift) (bord nr)

To-sidet varians analyse

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Produkt og marked - matematiske og statistiske metoder

Estimation og konfidensintervaller

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Vejledende besvarelser til opgaver i kapitel 14

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

1 Hb SS Hb Sβ Hb SC = , (s = )

c) For, er, hvorefter. Forklar.

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Susanne Ditlevsen Institut for Matematiske Fag susanne

Opgavebesvarelse, Basalkursus, uge 3

Forelæsning 10: Statistik ved hjælp af simulering

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Vejledende løsninger kapitel 8 opgaver

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

(studienummer) (underskrift) (bord nr)

02402 Løsning til testquiz02402f (Test VI)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

(studienummer) (underskrift) (bord nr)

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Opgavebesvarelse, Basalkursus, uge 3

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Personlig stemmeafgivning

Kapitel 8 Chi-i-anden (χ 2 ) prøven

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Transkript:

Introduktion til Statistik Forelæsning 12: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 DTU Compute Introduktion til Statistik Efterår 2016 1 / 59

enote 7: Inferens for andele Engelsk Statistik for andele: Andel: p = n x (x successer ud af n observationer) Specifikke metoder, én, to og k > 2 grupper Binær/kategorisk respons Specifikke metoder: Estimation og konfidensintervaller for andele Metoder til store stikprøver vs. til små stikprøver Hypoteser for én andel (p) Hypoteser for to andele Analyse af antalstabeller (χ 2 -test) (Alle forventede antal > 5) DTU Compute Introduktion til Statistik Efterår 2016 2 / 59

enote 7: Inferences for Proportions Dansk Statistics for proportions: Proportion: p = n x (x successes out of n observations) Specific methods: one, two and k > 2 samples: Binary/categorical response Specific methods: Estimation and confidence interval of proportions: Large sample vs. small sample methods Hypotheses for one proportion Hypotheses for two proportions Analysis of contingency tables (χ 2 -test) (All expected > 5) DTU Compute Introduktion til Statistik Efterår 2016 3 / 59

Oversigt 1 Intro 2 Konfidensinterval for én andel Eksempel 1 Bestemmelse af stikprøvestørrelse Eksempel 1 - fortsat 3 Hypotesetest for én andel Eksempel 1 - fortsat 4 Konfidensinterval og hypotesetest for to andele Eksempel 2 5 Hypotesetest for flere andele Eksempel 2 - fortsat 6 Analyse af antalstabeller DTU Compute Introduktion til Statistik Efterår 2016 4 / 59

Intro Forskellige analyse/data-situationer Gennemsnit for kvantitative data: Hypotesetest/KI for én middelværdi (one-sample) Hypotesetest/KI for to middelværdier (two samples) Hypotesetest/KI for flere middelværdier (K samples) I dag: Andele: Hypotesetest/KI for én andel Hypotesetest/KI for to andele Hypotesetest for flere andele Hypotesetest for flere multi-categorical andele DTU Compute Introduktion til Statistik Efterår 2016 6 / 59

Estimation af andele Intro Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet ud af n forsøg: ˆp = x n ˆp [0;1] DTU Compute Introduktion til Statistik Efterår 2016 7 / 59

Intro Spørgsmål om andel (socrative.com, ROOM: pbac) Hvilken kan ikke en være en andel? A: 103/900 B: 12/80 C: 0.957 D: 202/154 E: 0.224 Svar: D, x kan ikke være højere end n. DTU Compute Introduktion til Statistik Efterår 2016 8 / 59

Konfidensinterval for én andel Konfidensinterval for én andel Method 7.3 Såfremt der haves en stor stikprøve, fås et (1 α)% konfidensinterval for p ] [ˆp [ˆp ] ˆp(1 ˆp) ˆp(1 ˆp) z1 α/2 ˆσˆp ; ˆp + z 1 α/2 ˆσˆp z 1 α/2 ; ˆp + z n 1 α/2 n (Vi siger: Med 95% sikkerhed ligger p i dette interval) Hvordan? Følger af at approximere binomialfordelingen med normalfordelingen As a rule of thumb The normal distribution gives a good approximation of the binomial distrinution if np and n(1 p) are both greater than 15 DTU Compute Introduktion til Statistik Efterår 2016 10 / 59

Konfidensinterval for én andel Konfidensinterval for én andel Middelværdi og varians i binomialfordelingen, enote2: E(X) = np Var(X) = np(1 p) Derfor får man ( X E(ˆp) = E n ( X Var(ˆp) = σ 2ˆp = Var n ) = np n = p ) = 1 p(1 p) Var(X) = n2 n DTU Compute Introduktion til Statistik Efterår 2016 11 / 59

Eksempel 1 Konfidensinterval for én andel Eksempel 1 Venstrehåndede: p = Andelen af venstrehåndede i Danmark eller: Kvindelige ingeniørstuderende: p = Andelen af kvindelige ingeniørstuderende DTU Compute Introduktion til Statistik Efterår 2016 12 / 59

Eksempel 1 Konfidensinterval for én andel Eksempel 1 Venstrehåndede (x = 10 ud af n = 100): ˆp(1 ˆp) 10/100(1 10/100) ˆσˆp = = = 0.03 n 100 0.10 ± 1.96 0.03 0.10 ± 0.059 [0.041,0.159] Bedre small sample metode - plus 2-approach (Remark 7.7): Anvend samme formel på x = 10 + 2 = 12 og ñ = 104: p(1 p) 12/104(1 12/104) = = 0.031328 ñ 104 0.1154 ± 1.96 0.03132 0.1154 ± 0.0614 [0.054,0.177] DTU Compute Introduktion til Statistik Efterår 2016 13 / 59

Konfidensinterval for én andel Eksempel 1 Spørgsmål om konfidensinterval fejl (socrative.com, ROOM: pbac) Mulig fejl ved konfidensinterval er, at den rigtige værdi ikke er inkluderet i intervallet. Hvor ofte vil man begå en denne fejl ved α = 5%? A: 95% af gangene B: 1% af gangene C: 5% af gangene D: 50% af gangene E: Ved ikke Svar: C. Der er α sandsynlighed for ikke at fange populations værdi (den rigtige værdi) (ligesom Type I fejl for Hypotesetest: H 0 er sand, men man kommer til at afvise den) DTU Compute Introduktion til Statistik Efterår 2016 14 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Stikprøvestørrelse: Margin of Error (ME): Margin of Error på estimat kan siges at være: Forventningsværdi af halvdelen af konfidensintervallets bredde Den forskel i middelværdi man gerne vil være i stand til at påvise Under H 0 : Forventningsværdi af afstanden mellem middelværdien og det kritiske niveau Margin of Error med (1 α)% konfidens bliver hvor et estimat af p fås ved p = x n ME = z 1 α/2 p(1 p) n DTU Compute Introduktion til Statistik Efterår 2016 15 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Spørgsmål om Margin of Error (socrative.com, ROOM: pbac) Hvad er Margin of Error (ME) hvis man vil have et konfidensinterval med bredde på 0.2? A: 0.1 B: -0.15 C: 0.2 D: 0.4 E: Ved ikke Svar: A. ME er Forventningsværdi af halvdelen af konfidensintervallets bredde DTU Compute Introduktion til Statistik Efterår 2016 16 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Spørgsmål om forskel i middel (socrative.com, ROOM: pbac) Hvad er Margin of Error (ME) hvis man vil være i stand til at påvise forskel i middelværdi på 0.2? A: 0.1 B: -0.15 C: 0.2 D: 0.4 E: Ved ikke Svar: C. Den forskel i middelværdi man gerne vil være i stand til at påvise DTU Compute Introduktion til Statistik Efterår 2016 17 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Bestemmelse af stikprøvestørrelse Method 7.12 Såfremt man højst vil tillade en Margin of Error (ME) med (1 α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved Method 7.12 n = p(1 p) [ z1 α/2 ] 2 Såfremt man højst vil tillade en Margin of Error ME med (1 α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved n = 1 4 ME [ z1 α/2 ] 2 idet man får den mest konservative stikprøvestørrelse ved at vælge p = 1 2 ME DTU Compute Introduktion til Statistik Efterår 2016 18 / 59

Eksempel 1 - fortsat Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Venstrehåndede: Antag vi ønsker ME = 0.01 (med α = 0.05) - hvad skal n være? Antag p 0.10: n = 0.1 0.9 ( ) 1.96 2 = 3467.4 3468 0.01 UDEN antagelse om størrelsen af p: n = 1 4 ( ) 1.96 2 = 9604 0.01 DTU Compute Introduktion til Statistik Efterår 2016 19 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Spørgsmål om stikprøvestørrelse (socrative.com, ROOM: pbac) Ved test af hvilken af følgende nulhypoteser skal bruges den største stikprøvestørrelse (n) ved samme α konfidens? A: H 0 : p = 0.2 B: H 0 : p = 0.1 C: H 0 : p = 0.4 D: H 0 : p = 0.95 E: Ved ikke Svar: C. Jo tættere på p = 0.5 man kommer jo højere n DTU Compute Introduktion til Statistik Efterår 2016 20 / 59

Konfidensinterval for én andel Bestemmelse af stikprøvestørrelse Spørgsmål om stikprøvestørrelse (socrative.com, ROOM: pbac) Kan I nu beregne hvor mange gange man skal slå med en terning for at teste om den har sandsynlighed 1/6 indenfor 0.01 for at slå en sekser? A: Ja B: Nej C: Ved ikke Svar: Ja, det har vi lige lært, så i R: ## Andel (sandsynlighed) vi vil teste for p <- 1/6 ## Signifikansniveau ## (hvor ofte vil vi lave denne fejl: Terningen er fair, men ## vi konkluderer den ikke er fair) alpha <- 0.05 ## Fejlmargen vi vil tillade ME <- 0.01 ## Beregn antal gange vi skal slå med terningen p * (1-p) * (qnorm(1-alpha/2)/me)^2 ## [1] 5335 DTU Compute Introduktion til Statistik Efterår 2016 21 / 59

Hypotesetest for én andel Trin ved Hypotesetest Trin ved Hypotesetest: 1. Opstil hypoteser og vælg signifikansniveau α 2. Beregn teststørrelse 3. Beregn p-værdi (eller kritisk værdi) 4. Fortolk p-værdi og/eller sammenlign p-værdi og signifikansniveau, og derefter drag en konklusion (Alternativ 4. Sammenlign teststørrelse og kritisk værdi og drag en konklusion) DTU Compute Introduktion til Statistik Efterår 2016 23 / 59

Hypotesetest for én andel Hypotesetest for én andel Vi betragter en nul- og alternativ hypotese for én andel p: H 0 : p = p 0 H 1 : p p 0 Man vælger som sædvanligt enten at acceptere H 0 eller at forkaste H 0 Theorem 7.9 og Method 7.10 Såfremt stikprøven er tilstrækkelig stor (np 0 > 15 og n(1 p 0 ) > 15) bruges teststørrelsen: z obs = x np 0 np0 (1 p 0 ) Under nulhypotesen gælder at den tilsvarende tilfældige variabel Z følger en standard normalfordeling, dvs. Z N(0,1 2 ) DTU Compute Introduktion til Statistik Efterår 2016 24 / 59

Hypotesetest for én andel Test ved brug af p-værdi (Method 7.10) Find p-værdien (bevis mod nulhypotesen): If two-sided: 2P(Z > z obs ) If one-sided less : P(Z < z obs ) If one-sided greater : P(Z > z obs ) Afhængig af den alternative hypotese fås følgende kritiske værdier Alternativ hypotese p < p 0 p > p 0 p p 0 Afvis nulhypotese hvis z obs < z 1 α z obs > z 1 α z obs < z 1 α/2 eller z obs > z 1 α/2 DTU Compute Introduktion til Statistik Efterår 2016 25 / 59

Eksempel 1 - fortsat Hypotesetest for én andel Eksempel 1 - fortsat Er halvdelen af alle danskere venstrehåndede? H 0 : p = 0.5, H 1 : p 0.5 Teststørrelse: z obs = x np 0 np0 (1 p 0 ) = 10 100 0.5 100 0.5(1 0.5) = 8 p-værdi: 2 P(Z > 8) = 1.2 10 15 Der er meget stærk evidence imod nulhypotesen - vi kan forkaste denne (med α = 0.05) Er p-værdien under 0.05? (dvs. skal nulhypotesen forkastes ved α = 0.05) A: Ja B: Nej C: Ved ikke Svar: A DTU Compute Introduktion til Statistik Efterår 2016 26 / 59

Eksempel 1 - fortsat Hypotesetest for én andel Eksempel 1 - fortsat Evt. med kritisk værdi i stedet: z 0.975 = 1.96 Idet z obs = 8 er (meget) mindre end 1.96 kan vi forkaste nulhypotesen dnorm(x) 0.0 0.1 0.2 0.3 0.4 P(Z< 1.96)=0.025 P(Z>1.96)=0.025 4 2 0 2 4 x DTU Compute Introduktion til Statistik Efterår 2016 27 / 59

Hypotesetest for én andel R: prop.test - een andel Eksempel 1 - fortsat ## Single proportion ## Testing the probability = 0.5 with a two-sided alternative ## We have observed 518 out of 1154 ## Without continuity corrections prop.test(x=518, n=1154, p = 0.5, correct = FALSE) DTU Compute Introduktion til Statistik Efterår 2016 28 / 59

Konfidensinterval og hypotesetest for to andele Konfidensinterval for to andele Method 7.14 hvor ˆσˆp1 ˆp 2 = (ˆp 1 ˆp 2 ) ± z 1 α/2 ˆσˆp1 ˆp 2 ˆp 1 (1 ˆp 1 ) n 1 + ˆp 2(1 ˆp 2 ) n 2 Rule of thumb: Både n i p i 10 and n i (1 p i ) 10 for i = 1,2 DTU Compute Introduktion til Statistik Efterår 2016 30 / 59

Konfidensinterval og hypotesetest for to andele Hypotesetest for to andele, Method 7.17 Two sample proportions hypothesis test Såfremt man ønsker at sammenligne to andele (her vist for et tosidet alternativ) H 0 : p 1 = p 2 H 1 : p 1 p 2 Fås teststørrelsen: z obs = ˆp 1 ˆp 2, hvor ˆp = x 1 + x 2 ˆp(1 ˆp)( n 1 1 + n 1 2 ) n 1 + n 2 Og for passende store stikprøver: Brug standardnormalfordelingen igen DTU Compute Introduktion til Statistik Efterår 2016 31 / 59

Eksempel 2 Konfidensinterval og hypotesetest for to andele Eksempel 2 Sammenhæng mellem brug af p-piller og risikoen for blodprob i hjertet (hjerteinfarkt) I et studie (USA, 1975) undersøgte man dette. Fra et hospital havde man indsamlet følgende to stikprøver p-piller Ikke p-piller Blodprob 23 35 Ikke blodprob 34 132 Er der sammenhæng mellem brug af p-piller og sygdomsrisiko Udfør et test for om der er sammenhæng mellem brug af p-piller og risiko for blodprob i hjertet. Anvend signifikansniveau α = 5%. DTU Compute Introduktion til Statistik Efterår 2016 32 / 59

Eksempel 2 Konfidensinterval og hypotesetest for to andele Eksempel 2 Sammenhæng mellem brug af p-piller og risikoen for blodprob i hjertet p-piller Ikke p-piller Sum Blodprob x 1 = 23 x 2 = 35 x = 58 Ikke blodprob 34 132 Sum n 1 = 57 n 2 = 167 n = 224 Estimater i hver stikprøve ˆp 1 = 23 57 = 0.4035, ˆp 2 = 35 167 = 0.2096 DTU Compute Introduktion til Statistik Efterår 2016 33 / 59

Konfidensinterval og hypotesetest for to andele Eksempel 2 R: prop.test - to andele ## Pill study: two proportions ## Reading the table into R pill.study <- matrix(c(23, 34, 35, 132), ncol = 2) rownames(pill.study) <- c("blood Clot", "No Clot") colnames(pill.study) <- c("pill", "No pill") ## Testing that the probabilities for the two groups are equal prop.test(t(pill.study), correct = FALSE) DTU Compute Introduktion til Statistik Efterår 2016 34 / 59

Konfidensinterval og hypotesetest for to andele Eksempel 2 I pausen, udfyld spørgeskema om indeklima: http://byg-cweb2.win.dtu.dk/dtu_auditorier/ DTU Compute Introduktion til Statistik Efterår 2016 35 / 59

Konfidensinterval og hypotesetest for to andele Eksempel 2 Nu udfyld spørgeskema Questionnaire ved at tage link på hjemmesiden under Course Material uge12. DTU Compute Introduktion til Statistik Efterår 2016 36 / 59

Hypotesetest for flere andele Hypotesetest for flere andele Sammenligning af c andele I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordlinger har den samme parameter p, dvs. man er interesseret i at teste nulhypotesen H 0 : p 1 = p 2 =... = p c = p mod en alternativ hypotese at disse andele ikke er ens DTU Compute Introduktion til Statistik Efterår 2016 38 / 59

Hypotesetest for flere andele Hypotesetest for flere andele Tabel af observerede antal for c stikprøver: stikprøve 1 stikprøve 2... stikprøve c Total Succes x 1 x 2... x c x Fiasko n 1 x 1 n 2 x 2... n c x c n x Total n 1 n 2... n c n Fælles (gennemsnitlig) estimat: Under nulhypotesen fås et estimat for p ˆp = x n DTU Compute Introduktion til Statistik Efterår 2016 39 / 59

Hypotesetest for flere andele Hypotesetest for flere andele Fælles (gennemsnitlig) estimat: Under nulhypotesen fås et estimat for p ˆp = x n Brug dette fælles estimat i hver gruppe: såfremt nulhypotesen gælder, vil vi forvente at den j te gruppe har e 1j successer og e 2j fiaskoer, hvor e 1j = n j ˆp = n j x n e 2j = n j (1 ˆp) = n j n x n DTU Compute Introduktion til Statistik Efterår 2016 40 / 59

Hypotesetest for flere andele Hypotesetest for flere andele Generel formel for beregning af forventede værdier i antalstabeller: (i th row total) e ij = (j th column total) (total) DTU Compute Introduktion til Statistik Efterår 2016 41 / 59

Hypotesetest for flere andele Beregning af teststørrelse - Method 7.19 Teststørrelsen bliver χ 2 obs = 2 c i=1 j=1 (o ij e ij ) 2 hvor o ij er observeret antal i celle (i,j) og e ij er forventet antal i celle (i,j) e ij DTU Compute Introduktion til Statistik Efterår 2016 42 / 59

Hypotesetest for flere andele Find p-værdi eller brug kritisk værdi - Method 7.19 Stikprøvefordeling for test-størrelse: χ 2 -fordeling med (c 1) frihedsgrader Kritisk værdi metode Såfremt χobs 2 > χ2 1 α (c 1) forkastes nulhypotesen Rule of thumb for validity of the test: Alle forventede værdier e ij 5 DTU Compute Introduktion til Statistik Efterår 2016 43 / 59

Eksempel 2 - fortsat Hypotesetest for flere andele Eksempel 2 - fortsat De OBSERVEREDE værdier o ij p-piller Ikke p-piller Total Blodprob 23 35 Ikke blodprob 34 132 DTU Compute Introduktion til Statistik Efterår 2016 44 / 59

Eksempel 2 - fortsat Hypotesetest for flere andele Eksempel 2 - fortsat Beregn de FORVENTEDE værdier e ij (altså forventede under H 0 ) p-piller Ikke p-piller Total Blodprob x = 58 Ikke blodprob n 1 = 57 n 2 = 167 n = 224 DTU Compute Introduktion til Statistik Efterår 2016 45 / 59

Eksempel 2 - fortsat Hypotesetest for flere andele Eksempel 2 - fortsat Beregn de FORVENTEDE værdier e ij (altså forventede under H 0 ) p-piller Ikke p-piller Total Blodprob 14.76 43.24 x = 58 Ikke blodprob 42.24 123.76 n 1 = 57 n 2 = 167 n = 224 Brug reglen for forventede værdier fire gange, f.eks. : e 12 = 167 58 224 = 43.24 DTU Compute Introduktion til Statistik Efterår 2016 46 / 59

Eksempel 2 - fortsat Hypotesetest for flere andele Eksempel 2 - fortsat Teststørrelsen: χ 2 obs = (o 11 e 11 ) 2 e 11 + (o 12 e 12 ) 2 e 12 + (o 21 e 21 ) 2 e 21 + (o 22 e 22 ) 2 = χ 2 (23 14.76)2 obs = 14.76 = 8.33 Kritisk værdi og p-værdi: qchisq(0.95, 1) [1] 3.8 1 - pchisq(8.33, df=1) [1] 0.0039 e 22 (35 43.24)2 (34 42.24)2 (132 123.76)2 + + + 43.24 42.24 123.76 DTU Compute Introduktion til Statistik Efterår 2016 47 / 59

Hypotesetest for flere andele R: chisq.test - to andele Eksempel 2 - fortsat ## Pill study: two proportions, chi-square test ## Chi2 test for testing the probabilities for the two groups are equal chisq.test(pill.study, correct = FALSE) ## If we want the expected numbers save the test in an object chi <- chisq.test(pill.study, correct = FALSE) ## The expected values chi$expected DTU Compute Introduktion til Statistik Efterår 2016 48 / 59

Analyse af antalstabeller Antalstabeller Antalstabel Flere end 2 kategorier (f.eks. fire.: rød, grøn, blå, sort) Beregningerne er ens for begge følgende setups To mulige setups Setup 1: c stikprøver med r kategorier: Test om der er forskel i fordelingen mellem kategorierne for hver stikprøve Setup 2: To kategoriske variabel (r kategorier) målt på samme individer (parret setup): Test om der er forskel i fordelingen mellem de to grupper DTU Compute Introduktion til Statistik Efterår 2016 50 / 59

Analyse af antalstabeller Setup 1: c stikprøver med r kategorier En 3 3 tabel - 3 stikprøver, 3-kategori udfald 4 uger før 2 uger før 1 uge før Kandidat I 79 91 93 Kandidat II 84 66 60 ved ikke 37 43 47 n 1 = 200 n 2 = 200 n 3 = 200 Er stemmefordelingen ens? H 0 : p i1 = p i2 = p i3,i = 1,2,3 DTU Compute Introduktion til Statistik Efterår 2016 51 / 59

Analyse af antalstabeller Setup 2: To kategoriske variabel (r kategorier) målt på samme individer (parret setup) En 3 3 tabel - 1 stikprøve, to stk. 3-kategori variable: dårlig middel god dårlig 23 60 29 middel 28 79 60 god 9 49 63 Er der uafhængighed mellem inddelingskriterier? H 0 : p ij = p i p j F.eks. Klarer elever sig generelt lige godt så i matematik som i dansk? DTU Compute Introduktion til Statistik Efterår 2016 52 / 59

Analyse af antalstabeller Beregning af teststørrelse uanset type af tabel I en antalstable med r rækker og c søjler, fås teststørrelsen χ 2 obs = r c i=1 j=1 (o ij e ij ) 2 hvor o ij er observeret antal i celle (i,j) og e ij er forventet antal i celle (i,j) e ij Generel formel for beregning af forventede værdier i antalstabeller: (i th row total) e ij = (j th column total) (total) DTU Compute Introduktion til Statistik Efterår 2016 53 / 59

Analyse af antalstabeller Spørgsmål (socrative.com, ROOM: pbac) En 3 4 tabel - 4 stikprøver, 3-kategori udfald Gruppe A Gruppe B Gruppe C Gruppe D n j Han 3 3 2 2 10 Hun 3 3 5 2 13 Tvekøn 4 4 3 6 17 n i 10 10 10 10 40 Hvad er e 23? (H 0 forventning af hunner i gruppe C) A: 10 10/40 B: 3 C: 10 13/40 D: 17 4/40 E: Ved ikke Svar: C DTU Compute Introduktion til Statistik Efterår 2016 54 / 59

Analyse af antalstabeller Find p-værdi eller brug kritisk værdi - Method 7.21 Stikprøvefordeling for test-størrelse: χ 2 -fordeling med (r 1)(c 1) frihedsgrader Kritisk værdi metode Såfremt χobs 2 > χ2 1 α med (r 1)(c 1) frihedsgrader forkastes nulhypotesen Rule of thumb for validity of the test: Alle forventede værdier e ij 5 DTU Compute Introduktion til Statistik Efterår 2016 55 / 59

Analyse af antalstabeller R: chisq.test - antalstabeller ## Poll study: contingency table, chi-square test ## Reading the table into r poll <-matrix(c(79, 91, 93, 84, 66, 60, 37, 43, 47), ncol = 3, byrow = TRUE) colnames(poll) <- c("4 weeks", "2 weeks", "1 week") rownames(poll) <- c("cand1", "Cand2", "Undecided") ## Column percentages colpercent <- prop.table(poll, 2) colpercent DTU Compute Introduktion til Statistik Efterår 2016 56 / 59

Analyse af antalstabeller R: chisq.test - antalstabeller barplot(t(colpercent), beside = TRUE, col = 2:4, las = 1, ylab = "Percent each week", xlab = "Candidate", main = "Distribution of Votes") legend( legend = colnames(poll), fill = 2:4,"topright", cex = 0.5) par(mar=c(5,4,4,2)+0.1) Distribution of Votes Percent each week 0.4 0.3 0.2 0.1 0.0 Cand1 Cand2 Undecided Candidate 4 weeks 2 weeks 1 week DTU Compute Introduktion til Statistik Efterår 2016 57 / 59

Analyse af antalstabeller R: chisq.test - antalstabeller ## Testing same distribution in the three populations chi <- chisq.test(poll, correct = FALSE) chi ## Expected values chi$expected DTU Compute Introduktion til Statistik Efterår 2016 58 / 59

Oversigt Analyse af antalstabeller 1 Intro 2 Konfidensinterval for én andel Eksempel 1 Bestemmelse af stikprøvestørrelse Eksempel 1 - fortsat 3 Hypotesetest for én andel Eksempel 1 - fortsat 4 Konfidensinterval og hypotesetest for to andele Eksempel 2 5 Hypotesetest for flere andele Eksempel 2 - fortsat 6 Analyse af antalstabeller DTU Compute Introduktion til Statistik Efterår 2016 59 / 59