Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Størrelse: px

Starte visningen fra side:

Download "Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller"

Ellen Mikkelsen
7 år siden
Visninger:

1 Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

2 Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles i k kategorier. Lad O i være antallet af observationer, der falder i den i te kategori. Lad E i være det forventede antal observationer i te kategori under antagelse af, at en given H 0 hypotese er sand.

Lad O i være antallet af observationer, der falder i den i te kategori.

3 Chi-i-anden Teststørrelse O i er faktiske antal observationer i i te kategori og E i er det forventede antal observationer under H 0. Chi-i-anden teststørrelsen er givet ved X = i= 1 O E E k 2 2 ( i i ) Når stikprøvestørrelsen vokser og k fastholder, så nærmer X 2 sig en Chi-i-anden fordeling. Bemærk: For at chi-i-anden approksimationen er god skal alle E i være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori. i

Chi-i-anden teststørrelsen er givet ved X = i= 1 O E E k 2 2 ( i i ) Når stikprøvestørrelsen vokser og k

4 Chi-i-anden Test for Goodness of Fit Vi opstiller en hypotese om at data x 1,,x n er en stikprøve fra en bestemt fordeling, fx. multinomialeller normalfordelingen. Vi bestemmer, hvordan hvert x i tilhører en af k kategorier. Under antagelse af at H 0 er sand udregner vi hvor mange x i er vi forventer falder i den j te kategori, E j. Via X 2 -teststørrelsen sammenligner vi dette med det faktiske observerede antal O i.

Vi bestemmer, hvordan hvert x i tilhører en af k kategorier.

5 Goodness of Fit: Multinomial fordelingen Multinomial fordelingen er en udvidelse af binomial fordelingen. For multinomial fordelingen gælder at en observation kan falde i en af k forskellig kategorier. sandsynligheden for at en observation falder i den i te kategori er p i. summen af p i erne er 1. Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i te kategori E i =np i.

For multinomial fordelingen gælder at en observation kan falde i en af k forskellig kategorier.

6 Goodness of Fit: Multinomial Nul-hypotesen og ogalternativ hypotesen: H 0 : for 1, 2...,H k er 0 : Sandsynligheden for hændelserne H 1, H 2...,H k er givet ved vedp 1,p 2,...,p 1,p 2,...,p k k H 1 : for de er ikke 1 : Sandsynligheden for de k hændelser er ikke specificeret ved vednul-hypotesen. H 0 : Antag ens sandsynligheder, p 1 = p 2 = p 3 = p 4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed Expected(np) (O-E) k ( O ) 2 ( 8) 2 (20) 2 ( 12) 2 (0) χ = i E = = 30.4 > χ i (0.01,3) = E i i H 0 afvises på signifikansniveau H 0 afvises på signifikansniveau 0.01.

H 0 : Antag ens sandsynligheder, p 1 = p 2 = p 3 = p 4 =0.

7 Goodness of Fit: Normalfordeling Hypotese: Data x 1,,x n, følger en en standard normalfordeling (N(0,σ 2 ) ). Ide: Vi inddeler normalfordelingen i k bidder. Vi udregner sandsynligheden for at standard normalfordelt tal falder i den j te bid Dernæst kan vi genbruge multinomal eksemplet f(z) Partitioning the Standard Normal Distribution z

Vi udregner sandsynligheden for at standard normalfordelt tal 0.1700 0.4 falder i den j te bid. 0.1713 0.

8 Goodness of Fit: Normalfordeling Vi anvender følgende inddeling: -1, -0.44, 0, 0.44 og 1. Vi har da 6 kategorier: 1. kategori: Z kategori: -1 < Z kategori: < Z 0 4. kategori: 0 < Z kategori: 0.44 < Z 1 6. kategori: 1 < Z Hvad er sandsynligheden for at Z er i 5. kategori? Det samme som P[0.44 < Z 1] = Areal af 5. område i figuren = 0,1713. (Kan findes vha. tabel) f(z) Partitioning the Standard Normal Distribution z

kategori: 1 < Z -1 0 1 Hvad er sandsynligheden for at Z er i 5. kategori? Det samme som P[0.44 < Z 1] = Areal af 5.

9 Goodness of Fit: Normalfordeling Vi kan bestemme sandsynligheden p i for den i te kategori. Partitioning the Standard Normal Distribution Vi har da 6 sandsynligheder kategori: p 1 = 0, kategori: p 2 = 0, kategori: p 3 = 0, kategori: p 4 = 0,1700 z kategori: p 5 = 0, kategori: p 6 = 0,1578 Har vi n observationer, forventer vi E i =np i observationer i den i te kategori. Vi kan nu udregne X 2 teststørrelsen. f(z)

kategori: p 1 = 0,1578 0.3 2. kategori: p 2 = 0,1713 0.2 0.1587 0.1587 3. kategori: p 3 = 0,1700 0.1 4. kategori: p 4 = 0,1700 z 0.

10 Kontingenstabeller Hidtil: Følger en kategorisk variabel en given fordeling? Nu: Er to kategoriske variable uafhængige? Fx uafhængighed mellem følgende to kategoriske variable: Jobtype (4 kategorier, Uden, Lavt-, mellem og højtlønnet) Helbred (5 kategorier: meget dårligt til meget godt) Værktøj: Kontingenstabeller (cross-tabs) I en kontingenstabel er hver celle et antal / frekvens.

Fx uafhængighed mellem følgende to kategoriske variable: Jobtype (4 kategorier, Uden, Lavt-,

11 Kontingenstabeller Kontingstabellen består af r rækker og c kolonner. Første kategoriske variabel (Helbred) har c kategorier. Anden kategoriske variabel (Jobtype) har r kategorier. Første kategoriske variable (Helbred) Anden kategoriske variable (Jobtype) c = 5 Række Total 1 O 11 O 12 O 13 O 14 O 15 R 1 2 O 21 O 22 O 23 O 24 O 25 R 2 3 O 31 O 32 O 33 O 34 O 35 R 3 r = 4 O 41 O 42 O 43 O 44 O 45 R 4 kolonne Total C 1 C 2 C 3 C 4 C 5 n Celle (3,4) O ij er antallet af observationer (personer), hvor Helbred er tilhører i te Helbreds-kategori og Jobtype j te Jobtype.

Første kategoriske variable (Helbred) Anden kategoriske variable (Jobtype) 1 2 3 4 c = 5 Række Total 1 O 11 O 12 O 13 O 14 O 15 R 1 2 O 21 O 22

12 Kontingenstabel Anden kategoriske variable (Jobtype) Første kategoriske variable (Helbred) c = 5 Række Total 1 O 11 O 12 O 13 O 14 O 15 R 1 2 O 21 O 22 O 23 O 24 O 25 R 2 3 O 31 O 32 O 33 O 34 O 35 R 3 r = 4 O 41 O 42 O 43 O 44 O 45 R 4 kolonne Total C 1 C 2 C 3 C 4 C 5 n R i er rækketotalen, dvs. totale antal observationer af Jobtype = i. P( i ) = P( Jobtype = i ) = Sandsynlighed for at en tilfældig valgt person har Jobtype i P( i ) = R i / n = antal med Jobtype = i / total antal personer.

kolonne Total C 1 C 2 C 3 C 4 C 5 n R i er rækketotalen, dvs. totale antal observationer af Jobtype = i.

13 Kontingenstabel Anden kategoriske variable (Jobtype) Første kategoriske variable (Helbred) c = 5 Række Total 1 O 11 O 12 O 13 O 14 O 15 R 1 2 O 21 O 22 O 23 O 24 O 25 R 2 3 O 31 O 32 O 33 O 34 O 35 R 3 r = 4 O 41 O 42 O 43 O 44 O 45 R 4 kolonne Total C 1 C 2 C 3 C 4 C 5 n C j er kolonnetotalen, dvs. totale antal observationer af Helbred = j. P( j ) = P( Helbred = j ) = Sandsynlighed for at en tilfældig valgt person har Helbred=j P( j ) = C j / n = antal med Helbred = j / total antal personer.

Total C 1 C 2 C 3 C 4 C 5 n C j er kolonnetotalen, dvs. totale antal observationer af Helbred = j.

14 Test for uafhængighed X 2 teststørrelsen er c r ( O = ij Eij ) 2 X E j= 1 i= 1 dvs. en sum over alle rækker og søjler. X 2 følger approksimativt en Χ 2 -fordeling med (r-1)(c-1) frihedsgrader. E ij er det forventede antal observationer i celle (i,j) under antagelse af, at H 0 er sand (uafhængighed). Hvis P( i j ) er sandsynligheden for at en tilfældig valgt person er i celle (i,j), da er E ij = n P( i j ). ij 2

X 2 følger approksimativt en Χ 2 -fordeling med (r-1)(c-1) frihedsgrader.

15 Kontingenstabel: Uafhængighed Lad P( i j ) = P( Jobtype = i og Helbred = j ) Under H 0 (uafhængighed) gælder (pr definition): P( i j ) = P( i )P( j ) Forventede frekvens er (som ved multinomial) E ij = n P( i j ) Fra før har vi: P( i ) = R i / n og P( j ) = C j / n. Dvs. E ij = n (R i / n )( C j / n ) = R i C j / n.

Forventede frekvens er (som ved multinomial) E ij = n P( i j ) Fra før har vi:

16 Kontingenstabel: Eksempel To kategoriske variabel: Industry: Service eller Nonservice Result: Profit eller Loss Result Total Profit Loss Count Expected Count % within Result Count Expected Count % within Result Count Expected Count % within Result Industry Service Nonservice Total ,8 31,2 60,0 70,0% 30,0% 100,0% ,2 20,8 40,0 15,0% 85,0% 100,0% ,0 52,0 100,0 48,0% 52,0% 100,0% SPSS: Analyze Descriptive Statistics Crosstabs Forventede frekvenser og række procenter tilvælges under Cells.

Industry Service Nonservice Total 42 18 60 28,8 31,2 60,0 70,0% 30,0% 100,0% 6 34 40 19,2 20,8 40,0 15,0% 85,0% 100,0% 48 52 100

17 Kontingenstabel: Eksempel H 0 : Industry og Result er uafhængige H 1 : Der er en sammenhæng ml Industry og Result. For 2 2 tabeller anvendes en kontinuitets korrektion (såkaldt Yates korrektion) af teststørrelsen X 2 : X = j= 1 i= 1 ( O E 0. ) c r 2 ij ij 5 c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. Yates korrigeret X 2 = 26,92. Kritisk værdi: Χ (1) = 3,84 Da 29,92 > 3,84 forkaster vi H 0 dvs. vi accepterer hypotesen om, at Industry og Result er afhængige. E ij 2

E 0. ) c r 2 ij ij 5 c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. Yates korrigeret X 2 = 26,92.

18 Kontingenstabel: Eksempel I SPSS vælges Chi-square i Statistics menuen i Crosstabs. Resultat i SPSS. Bemærk Continuity Correction : Chi-Square Tests Asymp. Sig. Value df (2-sided) Pearson Chi-Square 29,087 b 1,000 Continuity Correction a 26,925 1,000 Likelihood Ratio 31,349 1,000 Fisher's Exact Test Linear-by-Linear Association 28,796 1,000 N of Valid Cases 100 a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided),000,000 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 19,20.

Value df (2-sided) Pearson Chi-Square 29,087 b 1,000 Continuity Correction a 26,925 1,000 Likelihood Ratio 31,349 1,000 Fisher's

19 Chi-i-anden Test af Andele Hidtil: Vi har spurgt n personer og analyseret sammenhængen mellem to kategoriske variable, fx helbred og jobtype. Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer? Eksempler: Er andelen der stemmer hhv, til venstre, i midten, til højre den samme for årige, årige, årige og over 65 år? Er andelen af personer med grøn tandbørste den samme blandt hjemløse og ikke-hjemløse?

Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer?

20 Chi-i-anden Test af Andele Fremgangsmåde: Vi bestemmer hvor mange tilfældigt udvalgte vi vil spørge i hver population (fx i hver aldersgruppe). Dvs. vi fastlægger kolonne-totalerne. Meget nyttig, hvis en af populationerne naturligt er meget mindre end de andre, fx hjemløse.

aldersgruppe). Dvs. vi fastlægger kolonne-totalerne.

21 Chi-i-anden Test af Andele Selvom vi kolonne totalerne er fastlagte ændrer ikke ved udregning af teststørrelsen eller antal frihedsgrader!! Vi har stadig Hvor E ij er udregnet som før og X 2 følger en Χ 2 fordeling med (r-1)(c-1) frihedsgrader. Dvs. E ij = R i C j / n. c r ( O = ij Eij ) 2 X E j= 1 i= 1 ij 2

22 Test af andele: Eksempel Er andelen af skades-anmeldelser den samme i tre aldersgrupper? 100 tilfældige kunder udvalgt i hver aldersgruppe. Claim Total Skade Skadefri Count Expected Count Count Expected Count Count Expected Count Age Alder<=25 25<Alder<50 Alder>=50 Total ,0 45,0 45,0 135, ,0 55,0 55,0 165, ,0 100,0 100,0 300,0 Forventede frekvenser: E ij = R i C j / n. Antal frihedsgrader: (c-1)(r-1) = (3-1)(2-1) = 2 Kritisk værdi: Χ 2 0,05 (2) = 5,99. Teststørrelse: X 2 =

23 Flyskræk! Passer overskriften? Politiken 6/12-07 Er du tryg ved at flyve? Ja: 86% i 2005 og 83% i 2007 Vi antager de har spurgt 1000 tilfældige personer begge år. Dvs. 860 svarede ja i 2005 og 830 i H 0 hypotese: Andelen af utrygge er den samme de to år!

24 Flyskræk! Da det er en 2 2 tabel bruger vi Yates korrektionen: X = j= 1 i= 1 ( O E 0. ) c r 2 ij ij 5 E Kritisk værdi: Χ 2 0,05 (1) = 3,84 Teststørrelse: X 2 = ij 2 Observerede frekvenser O ij Tryg? Total Ja Nej Total Forventede frekvenser E ij Tryg? Total Ja Nej Total

Relaterede dokumenter

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,