Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 3 Standardiserede residualer 4 Tabeldata i Rcmdr PSE (I17) ASTA - 8. lektion 1 / 15

Kontingenstabeller En kontingenstabel Statistics Contingency tables Two-way table... Vi vender tilbage til datasættet popularkids, hvor vi studerer sammenhæng mellem 2 faktorer aktuelt faktorerne Goals og Urban.Rural På basis af en stikprøve krydstabuleres faktorerne og vi opnår en såkaldt kontingenstabel PSE (I17) ASTA - 8. lektion 2 / 15

Kontingenstabeller Betinget fordeling En betinget fordeling En anden repræsentation af data er den procentvise fordeling på Goals for hvert niveau af Urban.Rural, dvs procentsummen i hver række af tabellen er 100. Vi vil her snakke om Den betingede fordeling af Goals givet Urban.Rural. Og et centralt spørgsmål kunne være: Er der forskel på elevernes mål afhængig af, om de kommer fra by,forstad eller land? Dvs er rækkerne i den betingede fordeling signifikant forskellige? Der er næsten ingen forskel på by og forstad, men det kunne se ud til at land skiller sig ud. PSE (I17) ASTA - 8. lektion 3 / 15

Kontingenstabeller Uafhængighed Uafhængighed To faktorer er uafhængige, når der ikke er forskel på populationens fordelinger af den ene faktor givet niveauerne af den anden faktor. I modsat fald siges faktorerne at være afhængige. Hvis vi eksempelvis har følgende betingede populationsfordelinger af Goals givet Urban.Rural: Så er faktorerne Goals og Urban.Rural uafhængige. Hypotese om uafhængighed Vi tager en stikprøve og måler faktorerne F 1 og F 2. Fex Goals og Urban.Rural for et tilfældig barn. Dagens tema er test for: H 0 : F 1 og F 2 er uafhængige. H a : F 1 og F 2 er afhængige. PSE (I17) ASTA - 8. lektion 4 / 15

Chi-kvadrat test for uafhængighed Test for uafhængighed Vores bedste bud på fordelingen af Goals er de relative frekvenser i stikprøven: Hvis vi antager uafhængighed, så er dette også et bud på de betingede fordelinger af Goals givet Urban.Rural. De tilsvarende forventede antal i stikprøven bliver da: PSE (I17) ASTA - 8. lektion 5 / 15

Chi-kvadrat test for uafhængighed Beregning af forventet tabel Forventede værdier Vi bemærker at Den relative frekvens for en given søjle er søjletotal divideret med tabeltotal. Eksempelvis Grades, som er 247 478 = 51.7%. Den forventede værdi i en given celle i tabellen er da cellens relative søjlefrekvens ganget med cellens rækketotal. Eksempelvis Rural og Grade: 149 51.7% = 77.0. Dette kan sammenfattes til Den forventede værdi i en celle er produktet af cellens rækketotal og søjletotal divideret med tabeltotal. PSE (I17) ASTA - 8. lektion 6 / 15

Chi-kvadrat test for uafhængighed Chi-kvadrat teststatistik Ki-kvadrat størrelsen Vi står med en observeret tabel Og en forventet tabel, hvis H 0 er sand: Hvis disse tabeller er langt fra hinanden, så forkaster vi H 0. Vi vil måle afstanden vha størrelsen X 2 = (f o f e) 2 f e : Sum over alle indgange i tabellen f o er frekvensen i en given indgang i den observerede tabel f e er den tilsvarende frekvens i den forventede tabel. X 2 (57 77)2 (26 33.5)2 = +... + = 18.8 77 33.5 Er dette en stor afstand?? PSE (I17) ASTA - 8. lektion 7 / 15

Chi-kvadrat test for uafhængighed Chi-kvadrat test. χ 2 -test. Vi vil teste hypotesen H 0 om uafhængighed i en tabel med r rækker og c søjler. Vi indsamler en stikprøve og beregner Xobs 2 - den observerede værdi af Ki-kvadrat størrelsen. p-værdi: Antag H 0 er sand. Hvad er så chancen for at få en større X 2 end Xobs 2, hvis vi gentager forsøget? Dette kan approksimeres vha χ 2 -fordelingen med df = (r 1)(c 1) frihedsgrader. Distributions/Continuous distributions/chi-squared distribution... I forbindelse med Goals og Urban.Rural har vi r = c = 3, dvs df = 4 og X 2 obs = 18.8. Vi får p-værdi= 0.00086. Der er en klart signifikant sammenhæng mellem Goals og Urban.Rural. PSE (I17) ASTA - 8. lektion 8 / 15

Chi-kvadrat test for uafhængighed Chi-kvadratfordelingen χ 2 -fordelingen χ 2 fordelingen med df frihedsgrader: Kan aldrig blive negativ. Og X 2 = 0 forekommer kun, hvis f e = f o. Har middelværdi µ = df Har standardafvigelse σ = 2df Er højreskæv, men nærmer sig en normalfordeling når df vokser. tæthed 0.00 0.05 0.10 0.15 Tæthed for Chi kvadrat fordelingen 0 10 20 30 40 Chi kvadrat df= 1 df= 5 df= 10 df= 20 PSE (I17) ASTA - 8. lektion 9 / 15

Chi-kvadrat test for uafhængighed Agresti - Summary Sammenfatning Hvornår kan vi bruge Chi-kvadratfordelingen som approksimation? Betingelsen er Alle forventede størrelser skal opfylde f e 5. Vi kan herefter sammenfatte ingredienserne i Chi-kvadrat testet for uafhængighed. PSE (I17) ASTA - 8. lektion 10 / 15

Standardiserede residualer Residualanalyse Hvis vi forkaster hypotesen om uafhængighed kan det have interesse at identificere de signifikante afvigelser. I en given celle i tabellen er det f o f e, som udtrykker afvigelsen mellem data og nulhypotesen. Vi antager at f e 5. Hvis H 0 er sand, så er standardfejlen på f o f e givet ved se = f e (1 rækkeandel)(1 søjleandel) Den tilhørende z-score z = fo fe se, bør i 95% af cellerne ligge mellem ±2. Værdier over 3 eller under -3 bør ikke forekomme. I popkids tabelcelle Rural og Grade fik vi f e = 77.0 og f o = 57. Her var søjleandel= 51.7% og rækkeandel= 149/478 = 31.2%. 57 77 Vi kan så beregne z = = 3.95. I forhold til 77(1 0.517)(1 0.312) nulhypotesen er der alt for få landbørn som lægger vægt på karakterer. PSE (I17) ASTA - 8. lektion 11 / 15

Tabeldata i Rcmdr Eksempel Vi skal kigge på datasættet HairEyeColor. Data/Data in packages/read dataset from an attached package... Data er organiseret således, at for hver kombination af faktorerne Hair, Eye og Sex angiver Freq frekvensen af denne kombination. Dvs stikprøven indeholder 32 mænd med sort hår og brune øjne. PSE (I17) ASTA - 8. lektion 12 / 15

Tabeldata i Rcmdr Eksempel Vi vil kigge på sammenhængen mellem øjenfarve og hårfarve og aggregerer data, så vi har en tabel med frekvenser for kombination af Hair og Eye. Data/Active dataset/aggregate variables in active dataset PSE (I17) ASTA - 8. lektion 13 / 15

Tabeldata i Rcmdr Eksempel Vi skal gå en lille omvej for at analysere data på denne form. Og vi vil ikke gå i detaljer vedr modelspecifikation, men blot bruge værktøjet. Statistics/Fit models/generalized linear model... Vi skal kun bruge en lille del af outputtet: Med X 2 = 146.44 og df = 9 er der meget kraftig signifikans (p-værdi= 0). PSE (I17) ASTA - 8. lektion 14 / 15

Tabeldata i Rcmdr Eksempel Vi vil også gerne kigge på forventede værdier og standardiserede residualer. Models/Add observation statistics to data... Vi ser 68 med brune øjne og sort hår. Nulhypotesen forudsiger 40.1. Dette er signifikant for lavt, idet det standardiserede residual er 5.86. Vi ser 7 med brune øjne og blond hår. Nulhypotesen forudsiger 47.2. Dette er signifikant for højt, idet det standardiserede residual er -9.42. PSE (I17) ASTA - 8. lektion 15 / 15