Modul 14: Goodness-of-fit test og krydstabelanalyse

Forskigsehede for Statistik ST01: Elemetær Statistik Bet Jørgese Modul 14: Goodess-of-fit test og krydstabelaalyse 14.1 Idledig....................................... 1 14.2 χ 2 -test i e r c krydstabel............................. 1 14.3 Teststørrelse..................................... 2 14.4 Uafhægighedstest - e oversigt........................... 3 14.5 Uafhægighedstest - et eksempel.......................... 4 14.6 Homogeitetstest - e oversigt............................ 6 14.7 Homogeitetstest - et eksempel........................... 7 14.8 χ 2 -test - geerelt................................... 8 14.9 χ 2 -test - et eksempel................................. 9 14.1 Idledig Når data klassificeres efter to eller flere karakteristika/kriterier, ka vi dae e krydstabel, hvor vi optæller atallet af udfald for hver mulig kombiatio af de forskellige kriterier. Vi skal her beskæftige os med det simpleste tilfælde, emlig klassificerig efter to kriterier, e situatio som har visse træk tilfælles med tosidig variasaalyse. Aalyse af flerdimesioale krydstabeller falder, ligesom flersidig variasaalyse, ude for rammere af dette kursus. Hvert kriterium svarer til e opdelig i et atal kategorier, og svarer således til e faktor, i samme forstad som i variasaalyse. Geerelt taler vi om e r c krydstabel, hvor det ee kriterium er opdelt i r kategorier (rækker/rows), og det adet kriterium er opdelt i c kategorier (søjler/colums). Krydstabeller beyttes primært til at vise relatioe mellem to kvalitative variable, målt på omielt eller ordialt skalaiveau (ma udytter dog ikke ordialitete i krydstabelaalyse), me ka også beyttes ved kvatitative variable, år disse grupperes og dermed bliver til omielle eller ordiale variable. 14.2 χ 2 -test i e r c krydstabel De test som bruges i forbidelse med aalyse af krydstabeller kaldes e χ 2 -test, og ka til e vis grad sammeliges med teste for ige iteraktio i e tosidig variasaalyse.

14.3 Teststørrelse 2 Fortolkige af teste afhæger af stikprøvegrudlaget, og vi skeler pricipielt mellem to typer af tests: test for uafhægighed test for homogeitet Der skeles mellem tre typer af stikprøvegrudlag: multiomisk, hvor stikprøvestørrelse,, er givet og fastlagt på forhåd. Poisso, hvor stikprøvestørrelse ikke er fastlagt på forhåd, me typisk afhæger af, hvor mage idivider ma træffer i løbet af et på forhåd fastlagt tidsrum produkt-multiomisk, hvor der er flere stikprøver af e give størrelse, i, fra hver si populatio. Når stikprøvegrudlaget er multiomisk eller Poisso ka vi lave uafhægighedstest, mes homogeitetstest beyttes, år stikprøvegrudlaget er produkt-multiomisk. Det skal uderstreges at χ 2 -teste i alle tilfælde udreges på samme måde, mes det ku er fortolkige som varierer. 14.3 Teststørrelse E r c krydstabel opskrives på følgede måde: 1 c 1 f 11 f 1c R 1.... r f r1 f rc R r C 1 C c f ij står for det observerede atal i de ij-te celle. R i er rækkesumme i de i-te række. C j er søjlesumme i de j-te søjle. R i og C j kaldes tabelles margialer. er det samlede atal observatioer. ˆf ij kaldes de forvetede atal, og udreges som følger: ˆf ij = R i C j De forvetede atal udtrykker de atal vi forveter hvis de to iddeligskriterier er uafhægige af hiade.

14.4 Uafhægighedstest - e oversigt 3 Ligesom i variasaalyse vil vi beytte e teststørrelse baseret på summe af de kvadratiske ( afvigelser f ij ˆf ) 2, ij me på grud af de specielle omstædigheder ved tælletal bruger vi e teststørrelse som er vægtet: χ 2 = r c (f ij ˆf ) 2 ij i=1 j=1 ˆf ij idet vægtee 1/ ˆf ij afspejler det faktum at variase på f ij er større jo større ˆf ij er. Dee teststørrelse kaldes χ 2 -teststørrelse, med tilhørede frihedsgrader ν = (r 1)(c 1). Ved fuldstædig overesstemmelse mellem de observerede og de forvetede værdier atager teststørrelse værdie 0. Jo større uoveresstemmelse, jo større teststørrelse, og jo mere afviger data fra det som forvetes uder uafhægighed af iddeligskriteriere. χ 2 -størrelse skal vurderes i e χ 2 ν fordelig. Da dee fordelig er e approximatio til χ 2 -størrelses sade fordelig, og da approximatioe gælder for store værdier af ˆf ij, så kræves der i praksis at de forvetede atal ˆf ij alle er midst 5. Dog ka det tillades at ogle få forvetede atal er så små som 2, se Zar, afsit 22.5. I dee forbidelse bemærkes at teste ku ka geemføres hvis alle R i og alle C j er stregt positive, da ˆf ij skal være stregt positiv for overhovedet at kue udrege χ 2. Derimod er det ikke i sig selv et problem hvis ekelte f ij er 0, bortset fra at sådae uller er et teg på at ikke er valgt stor ok til at belyse alle kombiatioer af i og j tilfredsstillede. 14.4 Uafhægighedstest - e oversigt Forudsætiger: Data i form af e r c krydstabel. Stikprøvegrudlaget er multiomisk eller Poisso. Notatio: Lad p ij være sadsylighede for at et tilfældigt udfald falder i de ij-te celle. Lad p i være sadsylighede for at udfaldet falder i række i, og lad p j være sadsylighede for at udfaldet falder i søjle j. Nulhypotese H 0 : p ij = p i p j for alle i, j, dvs. hypotese om uafhægighed.af de to iddeligskriterier. Alterativ hypotese H A : der er ikke uafhægighed. Teststørrelse: χ 2 = r i=1 j=1 c (f ij ˆf ) 2 ij ˆf ij, hvor ˆf ij = R i C j

14.5 Uafhægighedstest - et eksempel 4 Fortolkig af ˆfij : Da ˆp i = R i / og ˆp j = C j /, så fås de forvetede atal uder H 0 som følger: ˆp i ˆp j = Ri Cj = R i C j = ˆf ij Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = (r 1)(c 1) frihedsgrader. Approximatioe kræver ˆf ij 5 i alle celler, se dog ovefor. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν Koklusio: Hvis H 0 forkastes ka ma yderligere se på bidragee i de ekelte celler for at få idtryk af hvorda afhægighede er mellem de to variable. 14.5 Uafhægighedstest - et eksempel Data: På et studium er der tilfældigt udvalgt et atal studerede, der klassificeres efter kø og alder (itervalgrupperet): 18 19 20 21 I alt Kvide 18 13 12 43 Mad 22 14 17 53 I alt 40 27 29 96 Forudsætiger: På grudlag af tabelle syes det rimeligt at lave e uafhægighedstest, idet forudsætigere er opfyldte. Nulhypotese H 0 : Uafhægighed mellem de to kriterier/variable, som også ka fortolkes som aldersfordelige er de samme for mæd og kvider køsfordelige er de samme i de tre aldersgrupper Teststørrelse: χ 2 = 0.26 Fordelig: χ 2 er approximativt χ 2 -fordelt med (3 1)(2 1) = 2 frihedsgrader. Approximatioe er ok, da de forvetede værdier i alle celler er større ed eller lig med 5 (se SAS-output).

14.5 Uafhægighedstest - et eksempel 5 p-værdi = 0.878 Koklusio: Dee p-værdi er så stor, at vi ved ethvert rimeligt valg af α vil acceptere H 0, dvs. der er ige sammehæg mellem kø og alder. Dette betyder også, at alle cellebidragee til teststørrelse er små. Diskussio: Forskelle mellem det multiomiske og Poisso stikprøvegrudlag ka illustreres som følger: Det multiomiske stikprøvegrudlag fremkommer hvis forsøgsdesiget på forhåd fastlægger at der skal iterviewes = 96 studerede, og disse udvælges tilfældigt bladt alle studerede på studiet. Poisso stikprøvegrudlaget fremkommer hvis forsøgsdesiget f.eks. siger at hver femte studerede i katiekøe skal iterviewes, så mage ma ka å ide for 30 miutter, således at det er tilfældigt at ma etop opåede at få = 96. Her forudsættes det at alle studerede på studiet går igeem katiekøe, og at det sker i tilfældig rækkefølge. Ma ka også tæke sig e mellemtig, hvor desiget med katiekøe bruges, på de måde at ma fortsætter med at iterviewe, idtil et forud fastlagt atal ( = 96) er opået. SAS-output: The FREQ Procedure Table of SEX by ALDER SEX ALDER Frequecy Expected Cell Chi-Square Row Pct Col Pct 18-19 20 21- Total --------------- -------- -------- -------- K 18 13 12 43 17.917 12.094 12.99 0.0004 0.0679 0.0754 41.86 30.23 27.91 45.00 48.15 41.38 --------------- -------- -------- -------- M 22 14 17 53 22.083 14.906 16.01 0.0003 0.0551 0.0612 41.51 26.42 32.08 55.00 51.85 58.62 --------------- -------- -------- -------- Total 40 27 29 96

14.6 Homogeitetstest - e oversigt 6 Statistics for Table of SEX by ALDER Statistic DF Value Prob ------------------------------------------------------ Chi-Square 2 0.2603 0.8780 Likelihood Ratio Chi-Square 2 0.2605 0.8779 Matel-Haeszel Chi-Square 1 0.0680 0.7943 Phi Coefficiet 0.0521 Cotigecy Coefficiet 0.0520 Cramer s V 0.0521 14.6 Homogeitetstest - e oversigt Dee test mider i praksis meget om uafhægighedsteste, me stikprøvegrudlaget og hypotesere er aderledes. Dermed bliver koklusioere også formuleret aderledes. Vi opererer u med flere stikprøver, udtaget fra hver si populatio, og observatioere klassificeres ide for hver stikprøve efter et givet kriterium. Hver række opfattes her som e stikprøve, mes søjlere repræseterer kriteriet. Stikprøvegrudlaget er således produkt-multiomisk (i praksis kue det lige så godt være søjlere, der udgjorde stikprøvere). Forudsætiger: Stikprøvegrudlaget er produkt-multiomisk. Der udtrækkes e tilfældig stikprøve af størrelse R i fra de i-te populatio, for alle i. Produkt-multiomisk modelle forudsætter at de r stikprøver er idsamlet uafhægigt af hiade. Notatio: Lad u p ij være sadsylighede for at et objekt fra de i-te populatio klassificeres i de j-te kategori. Nulhypotese H 0 : p 1j = = p rj for j = 1,...,c, dvs. at der for alle kategorier j gælder at sadsylighede for at falde i de j-te kategori er de samme for alle r populatioer. Dette kaldes hypotese om homgeitet. Alterativ hypotese H A : der er ikke homogeitet. Teststørrelse: χ 2 = r i=1 j=1 c (f ij ˆf ) 2 ij ˆf ij, hvor ˆf ij = R i C j

14.7 Homogeitetstest - et eksempel 7 Fortolkig af ˆfij : Da estimatere uder H 0 er ˆp ij = ˆp j = C j / er de forvetede atal i de i-te populatio R i ˆp j = R i Cj = ˆf ij Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = (r 1)(c 1) frihedsgrader. Approximatioe kræver ˆf ij 5 i alle celler, se dog ovefor. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ 2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν. Koklusio: Formulerige af koklusio bliver aturligvis aderledes ed i uafhægighedsteste som følge af, at hypotese er formuleret aderledes. Hvis H 0 forkastes ka ma yderligere se på bidragee til teststørrelse i de ekelte celler for at få idtryk af hvorda fordeligere afviger fra hiade. 14.7 Homogeitetstest - et eksempel Problemstillig: Der øskes e udersøgelse af, om fordelige på hårfarve er de samme for mæd og kvider (Zar, eks. 23.1, p. 487). Udersøgelse: Der udtages e tilfældig stikprøve af 100 mæd og 200 kvider. Persoere klassificeres efter hårfarve. Data: Observatioere placeres i e krydstabel, hvor rækkere er de to stikprøver (se SAS-output). Forudsætiger: Stikprøvegrudlaget er produkt-multiomisk. Dette forudsætter at de to stikprøver er idsamlet uafhægigt af hiade. Nulhypotese er, at observatioere i de ee stikprøve fordeler sig på de 4 kategorier af variable hårfarve som observatioere i de ade stikprøve, dvs. adele i hver af hårfarvegruppere er de samme for mæd og kvider. H 0 : p 11 = p 21, p 12 = p 22, p 13 = p 23 og p 14 = p 24 dvs. homogeitet. Alterativ hypotese H A : der er ikke homogeitet. Fordelige med hesy til hårfarve fremgår af de fjerde liie i hver celle af SAS-output (row pct.) og syes ikke at være særlig es.

14.7 Homogeitetstest - et eksempel 8 Teststørrelse: χ 2 = 8.987 Fordelig: χ 2 er approximativt χ 2 -fordelt med (4 1)(2 1) = 3 frihedsgrader. Approximatioe er ok, da ˆf ij 5 i alle celler. p-værdi: p = P(χ 2 > 8.987) = 0.029 Koklusio: Ved ethvert valg af α på mere ed 3%, vil vi forkaste H 0, dvs. der er formetlig ikke homogeitet. Altså er fordelige på hårfarve ikke de samme for mæd og kvider. Ud fra row pct. i tabelle ses det at der er flere mæd ed kvider med sort og bru hårfarve, mes der er flere kvider ed mæd med hårfarve blod. SAS-output: The FREQ Procedure Table of SEX by COLOR SEX COLOR Frequecy Expected Cell Chi-Square Row Pct Col Pct BLACK BROWN BLOND RED Total --------------- -------- -------- -------- -------- MALE 32 43 16 9 100 29 36 26.667 8.3333 0.3103 1.3611 4.2667 0.0533 32.00 43.00 16.00 9.00 36.78 39.81 20.00 36.00 --------------- -------- -------- -------- -------- FEMALE 55 65 64 16 200 58 72 53.333 16.667 0.1552 0.6806 2.1333 0.0267 27.50 32.50 32.00 8.00 63.22 60.19 80.00 64.00 --------------- -------- -------- -------- -------- Total 87 108 80 25 300 Statistics for Table of SEX by COLOR Statistic DF Value Prob ------------------------------------------------------ Chi-Square 3 8.9872 0.0295 Likelihood Ratio Chi-Square 3 9.5121 0.0232 Matel-Haeszel Chi-Square 1 2.6155 0.1058

14.8 χ 2 -test - geerelt 9 Phi Coefficiet 0.1731 Cotigecy Coefficiet 0.1705 Cramer s V 0.1731 14.8 χ 2 -test - geerelt χ 2 -teste er e geerel og meget fleksibel metode til behadlig af tælletal, og ka bruges på mage adre måder ed vist ovefor. Her er e skematisk geemgag af metode. Forudsætiger: Der er idsamlet e stikprøve på, som er iddelt efter et kriterium med k kategorier (k = r c for krydstabeller). De observerede atal er f i for i = 1,...,k. De forvetede atal er ˆf i = ˆp i, hvor ˆp i er estimatet for sadsylighede p i for at falde i de i-te kategori. Disse forvetede atal er udreget uder e ulhypotese H 0 som har m ukedte parametre (m = (r 1)+(c 1) = r+c 2 for krydstabeller). Teststørrelse: χ 2 = k (f i ˆf ) 2 i i=1 ˆf i Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = k 1 m frihedsgrader. Approximatioe kræver ˆf i 5 i alle celler, påær ogle få. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ 2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν Koklusio: Hvis H 0 forkastes ka ma yderligere se på bidragee i de ekelte celler for at få idtryk af hvor afvigelsere mellem f i og ˆf i især fides. 14.9 χ 2 -test - et eksempel Problemstillig: Farve og form for ærter (á la Medel), fra Zar eksempel 22.2, p. 465. Udersøgelse: 250 ærter iddeles efter kriteritet (gul, glat); (gul, ryket); (grø, glat); (grø, ryket) (k = 4) Data: Fordelige på de fire kategorier er (152, 39, 53, 6) Forudsætiger:

14.9 χ 2 -test - et eksempel 10 Stikprøvegrudlaget er multiomisk. Dette forudsætter at stikprøve er idsamlet tilfældigt fra de øskede populatio. Nulhypotese er, at udspaltige i de fire kategorier sker i forholdet 9:3:3:1. Bemærk at dee hypotese ka fortolkes som uafhægighed mellem de to kriterier farve og form, samtidig med at det kræves at udspaltige sker i forholdet 3:1 for begge kriterier. Hypotese ka også skrives som H 0 : p 1 = 9 16 p 2 = 3 16 p 3 = 3 16 p 4 = 1 16 Da hypotese således ige ukedte parametre har er m = 0. De forvetede atal er ˆf 1 = 250 9 16 = 140.6 ˆf 2 = 250 3 16 = 46.9 ˆf 3 = 250 3 16 = 46.9 ˆf 4 = 250 1 16 = 15.3 Alterativ hypotese H A : udspaltige sker ikke i forholdet 9:3:3:1. Teststørrelse: χ 2 = 8.972 (se Zar). Fordelig: χ 2 er approximativt χ 2 -fordelt med 4 1 0 = 3 frihedsgrader. Approximatioe er ok, da ˆf i 5 i alle celler. p-værdi: p = P(χ 2 > 8.972) = 0.030 Koklusio: Ved ethvert valg af α på mere ed 3%, vil vi forkaste H 0, dvs. der er formetlig ikke udspaltig i forholdet 9:3:3:1. Sammeliges de observerede og forvetede atal ses det at der er fudet flere glatte bøer ed forvetet, både gule og grøe.