Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary



Relaterede dokumenter
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Regressionsproblemet 2

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Konfidensintervaller og Hypotesetest

2 Logaritme- og eksponentialfunktion 6

Statistik II 1. Lektion. Analyse af kontingenstabeller

1 Multipel lineær regression

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Personlig stemmeafgivning

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kapitel 12 Variansanalyse

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

1 Multipel lineær regression

Vejledende løsninger kapitel 9 opgaver

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Normalfordelingen og Stikprøvefordelinger

Kapitel 12 Variansanalyse

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Løsning eksamen d. 15. december 2008

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program dag 2 (11. april 2011)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Afdeling for Anvendt Matematik og Statistik December 2006

Postoperative komplikationer

Løsning til eksamen d.27 Maj 2010

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Vejledende besvarelser til opgaver i kapitel 14

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Kapitel 8 Chi-i-anden (χ 2 ) prøven

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

c) For, er, hvorefter. Forklar.

Schweynoch, Se eventuelt

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik II 4. Lektion. Logistisk regression

Kapitel 7 Forskelle mellem centraltendenser

1 Hb SS Hb Sβ Hb SC = , (s = )

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Forsøgsplanlægning Stikprøvestørrelse

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Kvantitative Metoder 1 - Forår 2007

Forelæsning 9: Inferens for andele (kapitel 10)

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Løsning til eksaminen d. 14. december 2009

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Kvantitative Metoder 1 - Forår 2007

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Spørgeskemaundersøgelser og databehandling

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Forelæsning 11: Envejs variansanalyse, ANOVA

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

To-sidet varians analyse

Transkript:

1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 3 Standardiserede residualer 4 Tabeldata i Rcmdr PSE (I17) ASTA - 8. lektion 1 / 15

Kontingenstabeller En kontingenstabel Statistics Contingency tables Two-way table... Vi vender tilbage til datasættet popularkids, hvor vi studerer sammenhæng mellem 2 faktorer aktuelt faktorerne Goals og Urban.Rural På basis af en stikprøve krydstabuleres faktorerne og vi opnår en såkaldt kontingenstabel PSE (I17) ASTA - 8. lektion 2 / 15

Kontingenstabeller Betinget fordeling En betinget fordeling En anden repræsentation af data er den procentvise fordeling på Goals for hvert niveau af Urban.Rural, dvs procentsummen i hver række af tabellen er 100. Vi vil her snakke om Den betingede fordeling af Goals givet Urban.Rural. Og et centralt spørgsmål kunne være: Er der forskel på elevernes mål afhængig af, om de kommer fra by,forstad eller land? Dvs er rækkerne i den betingede fordeling signifikant forskellige? Der er næsten ingen forskel på by og forstad, men det kunne se ud til at land skiller sig ud. PSE (I17) ASTA - 8. lektion 3 / 15

Kontingenstabeller Uafhængighed Uafhængighed To faktorer er uafhængige, når der ikke er forskel på populationens fordelinger af den ene faktor givet niveauerne af den anden faktor. I modsat fald siges faktorerne at være afhængige. Hvis vi eksempelvis har følgende betingede populationsfordelinger af Goals givet Urban.Rural: Så er faktorerne Goals og Urban.Rural uafhængige. Hypotese om uafhængighed Vi tager en stikprøve og måler faktorerne F 1 og F 2. Fex Goals og Urban.Rural for et tilfældig barn. Dagens tema er test for: H 0 : F 1 og F 2 er uafhængige. H a : F 1 og F 2 er afhængige. PSE (I17) ASTA - 8. lektion 4 / 15

Chi-kvadrat test for uafhængighed Test for uafhængighed Vores bedste bud på fordelingen af Goals er de relative frekvenser i stikprøven: Hvis vi antager uafhængighed, så er dette også et bud på de betingede fordelinger af Goals givet Urban.Rural. De tilsvarende forventede antal i stikprøven bliver da: PSE (I17) ASTA - 8. lektion 5 / 15

Chi-kvadrat test for uafhængighed Beregning af forventet tabel Forventede værdier Vi bemærker at Den relative frekvens for en given søjle er søjletotal divideret med tabeltotal. Eksempelvis Grades, som er 247 478 = 51.7%. Den forventede værdi i en given celle i tabellen er da cellens relative søjlefrekvens ganget med cellens rækketotal. Eksempelvis Rural og Grade: 149 51.7% = 77.0. Dette kan sammenfattes til Den forventede værdi i en celle er produktet af cellens rækketotal og søjletotal divideret med tabeltotal. PSE (I17) ASTA - 8. lektion 6 / 15

Chi-kvadrat test for uafhængighed Chi-kvadrat teststatistik Ki-kvadrat størrelsen Vi står med en observeret tabel Og en forventet tabel, hvis H 0 er sand: Hvis disse tabeller er langt fra hinanden, så forkaster vi H 0. Vi vil måle afstanden vha størrelsen X 2 = (f o f e) 2 f e : Sum over alle indgange i tabellen f o er frekvensen i en given indgang i den observerede tabel f e er den tilsvarende frekvens i den forventede tabel. X 2 (57 77)2 (26 33.5)2 = +... + = 18.8 77 33.5 Er dette en stor afstand?? PSE (I17) ASTA - 8. lektion 7 / 15

Chi-kvadrat test for uafhængighed Chi-kvadrat test. χ 2 -test. Vi vil teste hypotesen H 0 om uafhængighed i en tabel med r rækker og c søjler. Vi indsamler en stikprøve og beregner Xobs 2 - den observerede værdi af Ki-kvadrat størrelsen. p-værdi: Antag H 0 er sand. Hvad er så chancen for at få en større X 2 end Xobs 2, hvis vi gentager forsøget? Dette kan approksimeres vha χ 2 -fordelingen med df = (r 1)(c 1) frihedsgrader. Distributions/Continuous distributions/chi-squared distribution... I forbindelse med Goals og Urban.Rural har vi r = c = 3, dvs df = 4 og X 2 obs = 18.8. Vi får p-værdi= 0.00086. Der er en klart signifikant sammenhæng mellem Goals og Urban.Rural. PSE (I17) ASTA - 8. lektion 8 / 15

Chi-kvadrat test for uafhængighed Chi-kvadratfordelingen χ 2 -fordelingen χ 2 fordelingen med df frihedsgrader: Kan aldrig blive negativ. Og X 2 = 0 forekommer kun, hvis f e = f o. Har middelværdi µ = df Har standardafvigelse σ = 2df Er højreskæv, men nærmer sig en normalfordeling når df vokser. tæthed 0.00 0.05 0.10 0.15 Tæthed for Chi kvadrat fordelingen 0 10 20 30 40 Chi kvadrat df= 1 df= 5 df= 10 df= 20 PSE (I17) ASTA - 8. lektion 9 / 15

Chi-kvadrat test for uafhængighed Agresti - Summary Sammenfatning Hvornår kan vi bruge Chi-kvadratfordelingen som approksimation? Betingelsen er Alle forventede størrelser skal opfylde f e 5. Vi kan herefter sammenfatte ingredienserne i Chi-kvadrat testet for uafhængighed. PSE (I17) ASTA - 8. lektion 10 / 15

Standardiserede residualer Residualanalyse Hvis vi forkaster hypotesen om uafhængighed kan det have interesse at identificere de signifikante afvigelser. I en given celle i tabellen er det f o f e, som udtrykker afvigelsen mellem data og nulhypotesen. Vi antager at f e 5. Hvis H 0 er sand, så er standardfejlen på f o f e givet ved se = f e (1 rækkeandel)(1 søjleandel) Den tilhørende z-score z = fo fe se, bør i 95% af cellerne ligge mellem ±2. Værdier over 3 eller under -3 bør ikke forekomme. I popkids tabelcelle Rural og Grade fik vi f e = 77.0 og f o = 57. Her var søjleandel= 51.7% og rækkeandel= 149/478 = 31.2%. 57 77 Vi kan så beregne z = = 3.95. I forhold til 77(1 0.517)(1 0.312) nulhypotesen er der alt for få landbørn som lægger vægt på karakterer. PSE (I17) ASTA - 8. lektion 11 / 15

Tabeldata i Rcmdr Eksempel Vi skal kigge på datasættet HairEyeColor. Data/Data in packages/read dataset from an attached package... Data er organiseret således, at for hver kombination af faktorerne Hair, Eye og Sex angiver Freq frekvensen af denne kombination. Dvs stikprøven indeholder 32 mænd med sort hår og brune øjne. PSE (I17) ASTA - 8. lektion 12 / 15

Tabeldata i Rcmdr Eksempel Vi vil kigge på sammenhængen mellem øjenfarve og hårfarve og aggregerer data, så vi har en tabel med frekvenser for kombination af Hair og Eye. Data/Active dataset/aggregate variables in active dataset PSE (I17) ASTA - 8. lektion 13 / 15

Tabeldata i Rcmdr Eksempel Vi skal gå en lille omvej for at analysere data på denne form. Og vi vil ikke gå i detaljer vedr modelspecifikation, men blot bruge værktøjet. Statistics/Fit models/generalized linear model... Vi skal kun bruge en lille del af outputtet: Med X 2 = 146.44 og df = 9 er der meget kraftig signifikans (p-værdi= 0). PSE (I17) ASTA - 8. lektion 14 / 15

Tabeldata i Rcmdr Eksempel Vi vil også gerne kigge på forventede værdier og standardiserede residualer. Models/Add observation statistics to data... Vi ser 68 med brune øjne og sort hår. Nulhypotesen forudsiger 40.1. Dette er signifikant for lavt, idet det standardiserede residual er 5.86. Vi ser 7 med brune øjne og blond hår. Nulhypotesen forudsiger 47.2. Dette er signifikant for højt, idet det standardiserede residual er -9.42. PSE (I17) ASTA - 8. lektion 15 / 15