Modul 14: Goodness-of-fit test og krydstabelanalyse

Relaterede dokumenter
Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

9. Binomialfordelingen

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Vejledende besvarelser til opgaver i kapitel 15

Motivation. En tegning

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Løsninger til kapitel 7

Elementær Matematik. Polynomier

Maja Tarp AARHUS UNIVERSITET

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Estimation ved momentmetoden. Estimation af middelværdiparameter

Den flerdimensionale normalfordeling

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Sammenligning af to grupper

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Stikprøvefordelinger og konfidensintervaller

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Projekt 9.10 St. Petersborg paradokset

Renteformlen. Erik Vestergaard

Lys og gitterligningen

Sandsynlighedsregning i biologi

Vejledende opgavebesvarelser

STATISTIKNOTER Simple normalfordelingsmodeller

Begreber og definitioner

Introduktion til uligheder

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros

Sprednings problemer. David Pisinger

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Konfidens intervaller

Introduktion til uligheder

DATV: Introduktion til optimering og operationsanalyse, Følsomhed af Knapsack Problemet

Teoretisk Statistik, 9. februar Beskrivende statistik

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Claus Munk. kap. 1-3

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Matematisk Modellering 1 Hjælpeark

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

6 Populære fordelinger

og Fermats lille sætning

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Termodynamik. Indhold. Termodynamik. Første og anden hovedsætning 1/18

Rettevejledning til HJEMMEOPGAVE 1 Makro 1, 2. årsprøve, foråret 2007 Peter Birch Sørensen

Branchevejledning. ulykker indenfor. godschauffør. området. Branchearbejdsmiljørådet for transport og engros

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Facilitering ITU 15. maj 2012

Postoperative komplikationer

Projekt 1.3 Brydningsloven

Projekt 9.8 Betingede sandsynligheder og paradokser i sandsynlighedsregningen

Forelæsning 9: Inferens for andele (kapitel 10)

Statistik Lektion 8. Test for ens varians

Transkript:

Forskigsehede for Statistik ST01: Elemetær Statistik Bet Jørgese Modul 14: Goodess-of-fit test og krydstabelaalyse 14.1 Idledig....................................... 1 14.2 χ 2 -test i e r c krydstabel............................. 1 14.3 Teststørrelse..................................... 2 14.4 Uafhægighedstest - e oversigt........................... 3 14.5 Uafhægighedstest - et eksempel.......................... 4 14.6 Homogeitetstest - e oversigt............................ 6 14.7 Homogeitetstest - et eksempel........................... 7 14.8 χ 2 -test - geerelt................................... 8 14.9 χ 2 -test - et eksempel................................. 9 14.1 Idledig Når data klassificeres efter to eller flere karakteristika/kriterier, ka vi dae e krydstabel, hvor vi optæller atallet af udfald for hver mulig kombiatio af de forskellige kriterier. Vi skal her beskæftige os med det simpleste tilfælde, emlig klassificerig efter to kriterier, e situatio som har visse træk tilfælles med tosidig variasaalyse. Aalyse af flerdimesioale krydstabeller falder, ligesom flersidig variasaalyse, ude for rammere af dette kursus. Hvert kriterium svarer til e opdelig i et atal kategorier, og svarer således til e faktor, i samme forstad som i variasaalyse. Geerelt taler vi om e r c krydstabel, hvor det ee kriterium er opdelt i r kategorier (rækker/rows), og det adet kriterium er opdelt i c kategorier (søjler/colums). Krydstabeller beyttes primært til at vise relatioe mellem to kvalitative variable, målt på omielt eller ordialt skalaiveau (ma udytter dog ikke ordialitete i krydstabelaalyse), me ka også beyttes ved kvatitative variable, år disse grupperes og dermed bliver til omielle eller ordiale variable. 14.2 χ 2 -test i e r c krydstabel De test som bruges i forbidelse med aalyse af krydstabeller kaldes e χ 2 -test, og ka til e vis grad sammeliges med teste for ige iteraktio i e tosidig variasaalyse.

14.3 Teststørrelse 2 Fortolkige af teste afhæger af stikprøvegrudlaget, og vi skeler pricipielt mellem to typer af tests: test for uafhægighed test for homogeitet Der skeles mellem tre typer af stikprøvegrudlag: multiomisk, hvor stikprøvestørrelse,, er givet og fastlagt på forhåd. Poisso, hvor stikprøvestørrelse ikke er fastlagt på forhåd, me typisk afhæger af, hvor mage idivider ma træffer i løbet af et på forhåd fastlagt tidsrum produkt-multiomisk, hvor der er flere stikprøver af e give størrelse, i, fra hver si populatio. Når stikprøvegrudlaget er multiomisk eller Poisso ka vi lave uafhægighedstest, mes homogeitetstest beyttes, år stikprøvegrudlaget er produkt-multiomisk. Det skal uderstreges at χ 2 -teste i alle tilfælde udreges på samme måde, mes det ku er fortolkige som varierer. 14.3 Teststørrelse E r c krydstabel opskrives på følgede måde: 1 c 1 f 11 f 1c R 1.... r f r1 f rc R r C 1 C c f ij står for det observerede atal i de ij-te celle. R i er rækkesumme i de i-te række. C j er søjlesumme i de j-te søjle. R i og C j kaldes tabelles margialer. er det samlede atal observatioer. ˆf ij kaldes de forvetede atal, og udreges som følger: ˆf ij = R i C j De forvetede atal udtrykker de atal vi forveter hvis de to iddeligskriterier er uafhægige af hiade.

14.4 Uafhægighedstest - e oversigt 3 Ligesom i variasaalyse vil vi beytte e teststørrelse baseret på summe af de kvadratiske ( afvigelser f ij ˆf ) 2, ij me på grud af de specielle omstædigheder ved tælletal bruger vi e teststørrelse som er vægtet: χ 2 = r c (f ij ˆf ) 2 ij i=1 j=1 ˆf ij idet vægtee 1/ ˆf ij afspejler det faktum at variase på f ij er større jo større ˆf ij er. Dee teststørrelse kaldes χ 2 -teststørrelse, med tilhørede frihedsgrader ν = (r 1)(c 1). Ved fuldstædig overesstemmelse mellem de observerede og de forvetede værdier atager teststørrelse værdie 0. Jo større uoveresstemmelse, jo større teststørrelse, og jo mere afviger data fra det som forvetes uder uafhægighed af iddeligskriteriere. χ 2 -størrelse skal vurderes i e χ 2 ν fordelig. Da dee fordelig er e approximatio til χ 2 -størrelses sade fordelig, og da approximatioe gælder for store værdier af ˆf ij, så kræves der i praksis at de forvetede atal ˆf ij alle er midst 5. Dog ka det tillades at ogle få forvetede atal er så små som 2, se Zar, afsit 22.5. I dee forbidelse bemærkes at teste ku ka geemføres hvis alle R i og alle C j er stregt positive, da ˆf ij skal være stregt positiv for overhovedet at kue udrege χ 2. Derimod er det ikke i sig selv et problem hvis ekelte f ij er 0, bortset fra at sådae uller er et teg på at ikke er valgt stor ok til at belyse alle kombiatioer af i og j tilfredsstillede. 14.4 Uafhægighedstest - e oversigt Forudsætiger: Data i form af e r c krydstabel. Stikprøvegrudlaget er multiomisk eller Poisso. Notatio: Lad p ij være sadsylighede for at et tilfældigt udfald falder i de ij-te celle. Lad p i være sadsylighede for at udfaldet falder i række i, og lad p j være sadsylighede for at udfaldet falder i søjle j. Nulhypotese H 0 : p ij = p i p j for alle i, j, dvs. hypotese om uafhægighed.af de to iddeligskriterier. Alterativ hypotese H A : der er ikke uafhægighed. Teststørrelse: χ 2 = r i=1 j=1 c (f ij ˆf ) 2 ij ˆf ij, hvor ˆf ij = R i C j

14.5 Uafhægighedstest - et eksempel 4 Fortolkig af ˆfij : Da ˆp i = R i / og ˆp j = C j /, så fås de forvetede atal uder H 0 som følger: ˆp i ˆp j = Ri Cj = R i C j = ˆf ij Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = (r 1)(c 1) frihedsgrader. Approximatioe kræver ˆf ij 5 i alle celler, se dog ovefor. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν Koklusio: Hvis H 0 forkastes ka ma yderligere se på bidragee i de ekelte celler for at få idtryk af hvorda afhægighede er mellem de to variable. 14.5 Uafhægighedstest - et eksempel Data: På et studium er der tilfældigt udvalgt et atal studerede, der klassificeres efter kø og alder (itervalgrupperet): 18 19 20 21 I alt Kvide 18 13 12 43 Mad 22 14 17 53 I alt 40 27 29 96 Forudsætiger: På grudlag af tabelle syes det rimeligt at lave e uafhægighedstest, idet forudsætigere er opfyldte. Nulhypotese H 0 : Uafhægighed mellem de to kriterier/variable, som også ka fortolkes som aldersfordelige er de samme for mæd og kvider køsfordelige er de samme i de tre aldersgrupper Teststørrelse: χ 2 = 0.26 Fordelig: χ 2 er approximativt χ 2 -fordelt med (3 1)(2 1) = 2 frihedsgrader. Approximatioe er ok, da de forvetede værdier i alle celler er større ed eller lig med 5 (se SAS-output).

14.5 Uafhægighedstest - et eksempel 5 p-værdi = 0.878 Koklusio: Dee p-værdi er så stor, at vi ved ethvert rimeligt valg af α vil acceptere H 0, dvs. der er ige sammehæg mellem kø og alder. Dette betyder også, at alle cellebidragee til teststørrelse er små. Diskussio: Forskelle mellem det multiomiske og Poisso stikprøvegrudlag ka illustreres som følger: Det multiomiske stikprøvegrudlag fremkommer hvis forsøgsdesiget på forhåd fastlægger at der skal iterviewes = 96 studerede, og disse udvælges tilfældigt bladt alle studerede på studiet. Poisso stikprøvegrudlaget fremkommer hvis forsøgsdesiget f.eks. siger at hver femte studerede i katiekøe skal iterviewes, så mage ma ka å ide for 30 miutter, således at det er tilfældigt at ma etop opåede at få = 96. Her forudsættes det at alle studerede på studiet går igeem katiekøe, og at det sker i tilfældig rækkefølge. Ma ka også tæke sig e mellemtig, hvor desiget med katiekøe bruges, på de måde at ma fortsætter med at iterviewe, idtil et forud fastlagt atal ( = 96) er opået. SAS-output: The FREQ Procedure Table of SEX by ALDER SEX ALDER Frequecy Expected Cell Chi-Square Row Pct Col Pct 18-19 20 21- Total --------------- -------- -------- -------- K 18 13 12 43 17.917 12.094 12.99 0.0004 0.0679 0.0754 41.86 30.23 27.91 45.00 48.15 41.38 --------------- -------- -------- -------- M 22 14 17 53 22.083 14.906 16.01 0.0003 0.0551 0.0612 41.51 26.42 32.08 55.00 51.85 58.62 --------------- -------- -------- -------- Total 40 27 29 96

14.6 Homogeitetstest - e oversigt 6 Statistics for Table of SEX by ALDER Statistic DF Value Prob ------------------------------------------------------ Chi-Square 2 0.2603 0.8780 Likelihood Ratio Chi-Square 2 0.2605 0.8779 Matel-Haeszel Chi-Square 1 0.0680 0.7943 Phi Coefficiet 0.0521 Cotigecy Coefficiet 0.0520 Cramer s V 0.0521 14.6 Homogeitetstest - e oversigt Dee test mider i praksis meget om uafhægighedsteste, me stikprøvegrudlaget og hypotesere er aderledes. Dermed bliver koklusioere også formuleret aderledes. Vi opererer u med flere stikprøver, udtaget fra hver si populatio, og observatioere klassificeres ide for hver stikprøve efter et givet kriterium. Hver række opfattes her som e stikprøve, mes søjlere repræseterer kriteriet. Stikprøvegrudlaget er således produkt-multiomisk (i praksis kue det lige så godt være søjlere, der udgjorde stikprøvere). Forudsætiger: Stikprøvegrudlaget er produkt-multiomisk. Der udtrækkes e tilfældig stikprøve af størrelse R i fra de i-te populatio, for alle i. Produkt-multiomisk modelle forudsætter at de r stikprøver er idsamlet uafhægigt af hiade. Notatio: Lad u p ij være sadsylighede for at et objekt fra de i-te populatio klassificeres i de j-te kategori. Nulhypotese H 0 : p 1j = = p rj for j = 1,...,c, dvs. at der for alle kategorier j gælder at sadsylighede for at falde i de j-te kategori er de samme for alle r populatioer. Dette kaldes hypotese om homgeitet. Alterativ hypotese H A : der er ikke homogeitet. Teststørrelse: χ 2 = r i=1 j=1 c (f ij ˆf ) 2 ij ˆf ij, hvor ˆf ij = R i C j

14.7 Homogeitetstest - et eksempel 7 Fortolkig af ˆfij : Da estimatere uder H 0 er ˆp ij = ˆp j = C j / er de forvetede atal i de i-te populatio R i ˆp j = R i Cj = ˆf ij Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = (r 1)(c 1) frihedsgrader. Approximatioe kræver ˆf ij 5 i alle celler, se dog ovefor. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ 2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν. Koklusio: Formulerige af koklusio bliver aturligvis aderledes ed i uafhægighedsteste som følge af, at hypotese er formuleret aderledes. Hvis H 0 forkastes ka ma yderligere se på bidragee til teststørrelse i de ekelte celler for at få idtryk af hvorda fordeligere afviger fra hiade. 14.7 Homogeitetstest - et eksempel Problemstillig: Der øskes e udersøgelse af, om fordelige på hårfarve er de samme for mæd og kvider (Zar, eks. 23.1, p. 487). Udersøgelse: Der udtages e tilfældig stikprøve af 100 mæd og 200 kvider. Persoere klassificeres efter hårfarve. Data: Observatioere placeres i e krydstabel, hvor rækkere er de to stikprøver (se SAS-output). Forudsætiger: Stikprøvegrudlaget er produkt-multiomisk. Dette forudsætter at de to stikprøver er idsamlet uafhægigt af hiade. Nulhypotese er, at observatioere i de ee stikprøve fordeler sig på de 4 kategorier af variable hårfarve som observatioere i de ade stikprøve, dvs. adele i hver af hårfarvegruppere er de samme for mæd og kvider. H 0 : p 11 = p 21, p 12 = p 22, p 13 = p 23 og p 14 = p 24 dvs. homogeitet. Alterativ hypotese H A : der er ikke homogeitet. Fordelige med hesy til hårfarve fremgår af de fjerde liie i hver celle af SAS-output (row pct.) og syes ikke at være særlig es.

14.7 Homogeitetstest - et eksempel 8 Teststørrelse: χ 2 = 8.987 Fordelig: χ 2 er approximativt χ 2 -fordelt med (4 1)(2 1) = 3 frihedsgrader. Approximatioe er ok, da ˆf ij 5 i alle celler. p-værdi: p = P(χ 2 > 8.987) = 0.029 Koklusio: Ved ethvert valg af α på mere ed 3%, vil vi forkaste H 0, dvs. der er formetlig ikke homogeitet. Altså er fordelige på hårfarve ikke de samme for mæd og kvider. Ud fra row pct. i tabelle ses det at der er flere mæd ed kvider med sort og bru hårfarve, mes der er flere kvider ed mæd med hårfarve blod. SAS-output: The FREQ Procedure Table of SEX by COLOR SEX COLOR Frequecy Expected Cell Chi-Square Row Pct Col Pct BLACK BROWN BLOND RED Total --------------- -------- -------- -------- -------- MALE 32 43 16 9 100 29 36 26.667 8.3333 0.3103 1.3611 4.2667 0.0533 32.00 43.00 16.00 9.00 36.78 39.81 20.00 36.00 --------------- -------- -------- -------- -------- FEMALE 55 65 64 16 200 58 72 53.333 16.667 0.1552 0.6806 2.1333 0.0267 27.50 32.50 32.00 8.00 63.22 60.19 80.00 64.00 --------------- -------- -------- -------- -------- Total 87 108 80 25 300 Statistics for Table of SEX by COLOR Statistic DF Value Prob ------------------------------------------------------ Chi-Square 3 8.9872 0.0295 Likelihood Ratio Chi-Square 3 9.5121 0.0232 Matel-Haeszel Chi-Square 1 2.6155 0.1058

14.8 χ 2 -test - geerelt 9 Phi Coefficiet 0.1731 Cotigecy Coefficiet 0.1705 Cramer s V 0.1731 14.8 χ 2 -test - geerelt χ 2 -teste er e geerel og meget fleksibel metode til behadlig af tælletal, og ka bruges på mage adre måder ed vist ovefor. Her er e skematisk geemgag af metode. Forudsætiger: Der er idsamlet e stikprøve på, som er iddelt efter et kriterium med k kategorier (k = r c for krydstabeller). De observerede atal er f i for i = 1,...,k. De forvetede atal er ˆf i = ˆp i, hvor ˆp i er estimatet for sadsylighede p i for at falde i de i-te kategori. Disse forvetede atal er udreget uder e ulhypotese H 0 som har m ukedte parametre (m = (r 1)+(c 1) = r+c 2 for krydstabeller). Teststørrelse: χ 2 = k (f i ˆf ) 2 i i=1 ˆf i Fordelig: χ 2 er approximativt χ 2 -fordelt med ν = k 1 m frihedsgrader. Approximatioe kræver ˆf i 5 i alle celler, påær ogle få. Sigifikasiveau: α. p-værdi: p = P(χ 2 > χ 2 obs ) udreget uder χ2 ν fordelige, hvor χ 2 obs er de observerede værdi af teststørrelse. Beslutigsregel: Forkast H 0, hvis p-værdi < α eller hvis χ 2 > χ 2 α,ν Koklusio: Hvis H 0 forkastes ka ma yderligere se på bidragee i de ekelte celler for at få idtryk af hvor afvigelsere mellem f i og ˆf i især fides. 14.9 χ 2 -test - et eksempel Problemstillig: Farve og form for ærter (á la Medel), fra Zar eksempel 22.2, p. 465. Udersøgelse: 250 ærter iddeles efter kriteritet (gul, glat); (gul, ryket); (grø, glat); (grø, ryket) (k = 4) Data: Fordelige på de fire kategorier er (152, 39, 53, 6) Forudsætiger:

14.9 χ 2 -test - et eksempel 10 Stikprøvegrudlaget er multiomisk. Dette forudsætter at stikprøve er idsamlet tilfældigt fra de øskede populatio. Nulhypotese er, at udspaltige i de fire kategorier sker i forholdet 9:3:3:1. Bemærk at dee hypotese ka fortolkes som uafhægighed mellem de to kriterier farve og form, samtidig med at det kræves at udspaltige sker i forholdet 3:1 for begge kriterier. Hypotese ka også skrives som H 0 : p 1 = 9 16 p 2 = 3 16 p 3 = 3 16 p 4 = 1 16 Da hypotese således ige ukedte parametre har er m = 0. De forvetede atal er ˆf 1 = 250 9 16 = 140.6 ˆf 2 = 250 3 16 = 46.9 ˆf 3 = 250 3 16 = 46.9 ˆf 4 = 250 1 16 = 15.3 Alterativ hypotese H A : udspaltige sker ikke i forholdet 9:3:3:1. Teststørrelse: χ 2 = 8.972 (se Zar). Fordelig: χ 2 er approximativt χ 2 -fordelt med 4 1 0 = 3 frihedsgrader. Approximatioe er ok, da ˆf i 5 i alle celler. p-værdi: p = P(χ 2 > 8.972) = 0.030 Koklusio: Ved ethvert valg af α på mere ed 3%, vil vi forkaste H 0, dvs. der er formetlig ikke udspaltig i forholdet 9:3:3:1. Sammeliges de observerede og forvetede atal ses det at der er fudet flere glatte bøer ed forvetet, både gule og grøe.