Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Relaterede dokumenter
Forelæsning 9: Inferens for andele (kapitel 10)

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 8: Inferens for varianser (kap 9)

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Konfidensintervaller og Hypotesetest

Forelæsning 10: Statistik ved hjælp af simulering

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Løsning til eksaminen d. 14. december 2009

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Løsning eksamen d. 15. december 2008

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Vejledende besvarelser til opgaver i kapitel 14

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Forelæsning 1: Intro og beskrivende statistik

Vejledende løsninger kapitel 8 opgaver

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Test nr. 5 af centrale elementer 02402

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Løsning til eksaminen d. 29. maj 2009

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Test nr. 4 af centrale elementer 02402

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Forelæsning 11: Envejs variansanalyse, ANOVA

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

1 Hb SS Hb Sβ Hb SC = , (s = )

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Løsning til eksamen d.27 Maj 2010

Kapitel 7 Forskelle mellem centraltendenser

Dagens program. Praktisk information: Husk evalueringer af kurset

Estimation og konfidensintervaller

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

(studienummer) (underskrift) (bord nr)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Statistiske principper

Nanostatistik: Test af hypotese

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Løsninger til kapitel 9

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Schweynoch, Se eventuelt

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Forsøgsplanlægning Stikprøvestørrelse

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

StatDataN: Test af hypotese

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Module 4: Ensidig variansanalyse

(studienummer) (underskrift) (bord nr)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

To-sidet varians analyse

Multiple choice opgaver

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

c) For, er, hvorefter. Forklar.

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Test nr. 6 af centrale elementer 02402

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Hypotesetests, fejltyper og p-værdier

Nanostatistik: Opgavebesvarelser

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Kapitel 12 Variansanalyse

Kursus Introduktion til Statistik. Oversigt, Inferens for gennemsnit (One-sample setup)

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Transkript:

Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk Oversigt 1 Intro 2 Konfidensinterval for én andel Eksempel 1 3 4 Hypotesetest for to andele Eksempel 2 5 6 7 R (R note 8) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 1 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 2 / 38 Intro Forskellige Hypotesetest-situationer Estimation af andele Intro Gennemsnit for kvantitative data: Hypotesetest for én middelværdi (one-sample) Hypotesetest for to middelværdier (two samples) Varianser for kvantitative data: Hypotesetest for én varians Hypotesetest for to varianser I dag: Andele: Hypotesetest for to og flere andele Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet ud af n forsøg: ˆp = x n ˆp [0; 1] Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 4 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 5 / 38

Konfidensinterval for én andel Konfidensinterval for én andel Eksempel 1 Konfidensinterval for én andel Eksempel 1 Såfremt der haves en stor stikprøve, fås et (1 α)% konfidensinterval for p x x n z n (1 x n ) α/2 < p < x x n n + z n (1 x n ) α/2 n Ovenstående formel fås ved approximation til normalfordelingen. og/eller: p = Andelen af venstrehåndede i Danmark p = Andelen af kvindelige ingeniørstuderende Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 7 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 8 / 38 Konfidensinterval for én andel Maksimal fejl på estimat Konfidensinterval for én andel Den maksimale fejl med (1 α)% konfidens bliver E = z α/2 p(1 p) n hvor et estimat af p fås ved p = x n Såfremt man højst vil tillade en maksimal fejl E med (1 α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved n = p(1 p)[ z α/2 E ]2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 9 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 10 / 38

Konfidensinterval for én andel Konfidensinterval for én andel Såfremt man højst vil tillade en maksimal fejl E med (1 α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved n = 1 4 [z α/2 E ]2 idet man får den mest konservative stikprøvestørrelse ved at vælge p = 1 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 11 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 12 / 38 Trin ved Hypoteseprøvning 1. Opstil hypoteser og vælg signifikansniveau α 2. Beregn teststørrelse 3. Beregn kritisk værdi (eller p-værdi) 4. Sammenlign teststørrelse og kritisk værdi og drag en konklusion (evt. 4. Sammenlign p-værdi og signifikansniveau og drag en konklusion) Vi betragter en nul- og alternativ hypotese for én andel p: H 0 : p = p 0 H 1 : p p 0 Man vælger som sædvanligt enten at acceptere H 0 eller at forkaste H 0 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 14 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 15 / 38

Beregning af teststørrelse Beregning af kritisk værdi Såfremt stikprøven er tilstrækkelig stor fås teststørrelsen: Z = X np 0 np0 (1 p 0 ) Under nulhypotesen gælder at Z følger en standard normalfordeling, dvs. Z N(0, 1 2 ) Afhængig af den alternative hypotese fås følgende kritiske værdier Alternativ Afvis hypotese nul-hypotese hvis p < p 0 Z < z α p > p 0 Z > z α p p 0 Z < z α/2 eller Z > z α/2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 16 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 17 / 38 Hypotesetest for to andele Hypotesetest for to andele Såfremt man ønsker at sammenligne to andele (her vist for et tosidet alternativ) Fås teststørrelsen H 0 : p 1 = p 2 H 1 : p 1 p 2 Z = X 1 n 1 X 2 n 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ), hvor ˆp = X 1 + X 2 n 1 + n 2 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 18 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 20 / 38

Eksempel 2 Hypotesetest for to andele Eksempel 2 I et studie (USA, 1975) undersøgte man sammenhæng mellem brug af p-piller og risikoen for hjerteinfarkt. Fra et hospital havde man indsamlet følgende stikprøve Infarkt Ikke infarkt p-piller 23 34 Ikke p-piller 35 132 Udfør et test for om der er sammenhæng mellem brug af p-piller og risiko for hjerteinfarkt. Anvend signifikansniveau α = 1% I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordlinger har den samme parameter p, dvs. man er interesseret i at teste nul-hypotesen H 0 : p 1 = p 2 =... = p k = p mod en alternativ hypotese at disse andele ikke er ens Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 21 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 23 / 38 stikprøve 1 stikprøve 2... stikprøve k Total Succes x 1 x 2... x k x Fiasko n 1 x 1 n 2 x 2... n k x k n x Total n 1 n 2... n k n Under nul-hypotesen fås et estimat for p: ˆp = x n Under nul-hypotesen fås et estimat for p: ˆp = x n såfremt nul-hypotesen gælder, vil vi forvente at den j te gruppe har e 1j successer og e 2j fiaskoer, hvor e 1j = n j ˆp = n j x n e 2j = n j (1 ˆp) = n j (n x) n Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 24 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 25 / 38

Beregning af teststørrelse Beregning af kritisk værdi Teststørrelsen bliver Vi har teststørrelsen χ 2 = 2 i=1 k (o ij e ij ) 2 e j=1 ij χ 2 = 2 i=1 k (o ij e ij ) 2 e j=1 ij hvor o ij er observeret antal i celle (i, j) og e ij er forventet antal i celle (i, j) Teststørrelsen sammenlignes med χ 2 α(k 1) Såfremt χ 2 > χ 2 α(k 1) forkastes nul-hypotesen Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 26 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 27 / 38 Observerede Infarkt Ikke infarkt p-piller 23 34 Ikke p-piller 35 132 Forventede Infarkt Ikke infarkt Total p-piller 57 Ikke p-piller 167 Total 58 166 224 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 28 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 29 / 38

4 uger før 2 uger før 1 uge før Kandidat I 79 91 93 Kandidat II 84 66 60 ved ikke 37 43 47 Er stemmefordelingen ens? H 0 : p i1 = p i2 = p i3 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 30 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 32 / 38 Beregning af teststørrelse dårlig middel god dårlig 23 60 29 middel 28 79 60 god 9 49 63 Er der uafhængighed mellem inddelingskriterier? I en antalstable med r rækker og c søjler, fås teststørrelsen χ 2 = r i=1 c (o ij e ij ) 2 j=1 hvor o ij er observeret antal i celle (i, j) og e ij er forventet antal i celle (i, j) e ij Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 33 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 34 / 38

Beregning af kritisk værdi R (R note 8) R (R note 8) ("orienterende") Vi har teststørrelsen χ 2 = r i=1 c (o ij e ij ) 2 e j=1 ij Eksemplet side 295: > prop.test(36,100) Eksemplet side 302 (eksemplet anvendt på side 612): Teststørrelsen sammenlignes med χ 2 α((r 1)(c 1)) Såfremt χ 2 > χ 2 α((r 1)(c 1)) forkastes nul-hypotesen > crumbled=c(41,27,22) > intact=c(79,53,78) > prop.test(crumbled,crumbled+intact) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 35 / 38 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 37 / 38 R (R note 8) Oversigt 1 Intro 2 Konfidensinterval for én andel Eksempel 1 3 4 Hypotesetest for to andele Eksempel 2 5 6 7 R (R note 8) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 9 Foråret 2014 38 / 38