Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]



Relaterede dokumenter
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik II 1. Lektion. Analyse af kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

c) For, er, hvorefter. Forklar.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

02402 Løsning til testquiz02402f (Test VI)

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Konfidensinterval for µ (σ kendt)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program dag 2 (11. april 2011)

Statistik i basketball

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Løsning eksamen d. 15. december 2008

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Personlig stemmeafgivning

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Note til styrkefunktionen

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Statistik II 4. Lektion. Logistisk regression

Forelæsning 8: Inferens for varianser (kap 9)

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Fig. 1 Billede af de 60 terninger på mit skrivebord

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

En intro til radiologisk statistik

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik Lektion 17 Multipel Lineær Regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Normalfordelingen og Stikprøvefordelinger

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

K.U Metode Skriveøvelse 1 Af Marie Hammer og Steffen Tiedemann Christensen. Indholdsfortegnelse Opgave Opgave 2...

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Logistisk Regression - fortsat

Kvantitative Metoder 1 - Forår Dagens program

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Modul 5: Test for én stikprøve

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

for gymnasiet og hf 2016 Karsten Juul

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Spørgeskemaundersøgelser og databehandling

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksempel på logistisk vækst med TI-Nspire CAS

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Maple 11 - Chi-i-anden test

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

for matematik pä B-niveau i hf

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

To-sidet varians analyse

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Multipel Lineær Regression

Kapitel 12 Variansanalyse

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Tema. Dagens tema: Indfør centrale statistiske begreber.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Schweynoch, Se eventuelt

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Elaborering: Analyse af betingede relationer

Løsning til eksaminen d. 14. december 2009

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Transkript:

Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1

Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af kategorier. Cellen: Indeholder antal observationer, der falder i den kombination af kategorier. Eksempel: Celle: Antal mænd, der er independent 2

Eksempel Spørgsmål: Er der sammenhæng mellem køn og ens politiske ståsted? To variable: Køn: Mand / kvinde Partiforhold: Demokrat/ Uafhængig / Republikaner Vi er interesserede i fordelingen af stemmer, ikke de absolutte antal. 3

Relative fordeling Tabel over stemme fordelingen Stemmefordelingen blandt: Kvinder: Mænd: Alle: Vi ser at stemmefordelingen er forskellig Er forskellen statistisk signifikant? 4

Statistisk uafhængighed To kategoriske variable er statistisk uafhængige, hvis den betingede fordeling for den ene variabel er den samme uanset værdien af den anden variabel. Er den betingede fordeling ikke den samme, så er de to variable statistisk afhængige. Eksempel: Køn og partiforhold er uafhængige, hvis andelen af hhv. demokrater, uafhængige og republikanere er den sammen blandt mænd og kvinder. Eksempel: Køn og partiforhold er uafhængige, hvis andelen af hhv. mænd og kvinder er den sammen blandt demokrater, uafhængige og republikanere. 5

Eksempel på uafhængighed Eksempel Sammenhæng mellem race og partiforhold. De to variable er uafhængige, da fordelingen blandt de tre politiske grupper er den samme for alle tre race-grupper. 6

Eksempel på uafhængighed (forts) Eksempel Sammenhæng mellem race og partiforhold. De to variable er uafhængige, da fordelingen blandt de tre race-grupperer den samme for alle tre politiske grupper. 7

Tilbage til Køn og Parti Fordelingen opfylder ikke betingelsen for uafhængighed. Men det er jo kun data. Det rigtige spørgsmål er: Er der uafhængighed i populationen? Er afvigelsen fra uafhængighed i data, så stor at vi ikke tror på at der kan være uafhængighed i populationen? 8

χ 2 -test af uafhængighed To variable er uafhængige, hvis populations-fordelingen af den ene variabel er den samme uanset værdien af den anden. Vi vil teste hypoteserne H 0 : De to variable er statistisk uafhængige H 1 : De to variable er statistisk afhængige En χ 2 -test sammenligner data med hvad vi ville forvente hvis H 0 var sand. 9

Forventede antal Hvilke antal vil vi forvente hvis H 0 er sand, dvs. der er statistisk uafhængighed? Vi ved at uafhængighed kræver den samme fordeling i hver række Notation: For hver celle Lad f o betegne det observerede antal. Lad f e betegne det forventede antal. Tabel over de observerede antal (f o ) 10

Forventede antal Eksempel: Kvinde og Demokrat Observerede antal f o = 573 Andelen af demokrater generelt er: 959/2771 = 34.6% Hvis køn og partiforhold er uafhængige skal andelen af demokrater være den samme uanset køn. Dvs. under H 0 forventer vi, at 34.6% af de 1511 kvinder er demokrater: f e = 0.346 1511 = (959/2771) 1511 = 522.9 f o f e = rækketotal søjletotal / n 11

χ 2 -teststørrelse Forskellen mellem de observerede og forventede antal opsummeres ved χ 2 -teststørrelsen: 2 χ ( f f ) = o f Summen er over alle celler i tabellen. Der gælder at χ 2 0. χ 2 = 0 er et perfekt match (f e =f o i alle celler). Jo større χ 2 er jo længere fra uafhængighed. Jo større χ 2 er jo mere kritisk for H 0. e e 2 12

Eksempel SPSS har udregnet forventede antal Udregning af χ 2 -teststørrelsen 2 χ 2 2 ( f f ) ( 573 522.9) ( 399 373.3) o e = = + + f 522.9 Hvor kritisk er 16.2? e 373.3 2 = 16.2 13

χ 2 -fordelingen Hvis H 0 er sand (uafhængighed) og stikprøven er stor, så følger χ 2 - teststørrelsen en χ 2 -fordeling. χ 2 -fordeling antager kun positive værdier er højreskæv 0.00 0.05 0.10 0.15 df = 5 df = 10 df = 10 0 10 20 30 40 faconen er givet ved antal frihedsgrader (df = degrees of freedom) har middelværdi µ = df og standardafvigelse σ = 2df. 14

χ 2 -test og χ 2 -fordeling For test af H 0 i en tabel med r rækker og c kolonner er df = (r - 1)(c - 1) P-værdien er sandsynligheden for mere kritiske værdier, hvis H 0 er sand χ 2, df = (r 1)(c 1) P-værdien χ 2 15

Eksempel: Køn og partiforhold Vi vil teste følgende hypoteser H 0 : Køn og partiforhold er uafhængige H 1 : Køn og partiforhold er afhængige Vi har r = 2 og c = 3, dvs. df = (2-1)(3-1) = 2 Teststørrelsen er χ 2 = 16.2 P-værdien er P = 0.0003. Konklusion: Da P- værdien er mindre end 0.05 afviser vi H 0 Dvs. vi konkluderer at køn og partiforhold er statistisk afhængige. χ 2, df = (r 1)(c 1) P-værdien 16.2 16

χ 2 -test vha. tabel Udsnit af Tabel C s. 594 α α=0.05 P-værdi 5.99 χ 2 =16.2 Da 16.2 > 5.99 kan vi se, at P-værdien nødvendigvis er mindre end 0.05, dvs. vi forkaster H 0. 17

Krav til Stikprøvestørrelsen Tidligere skrev vi, at χ 2 -testet kræver at stikprøven er stor nok. En tommelfingerregel er at alle forventede antal er større end fem, dvs. f e > 5. 18

χ 2 -test i SPSS : Input Analyze Descriptive Statistics Crosstabs 19

χ 2 -test i SPSS : Output Resultatet af en analyse i SPSS χ 2 teststørrelsen df = antal frihedsgrader P-værdien Antal celler med f e < 5, helst nul. 20

Frihedsgrader Hvorfor har en 2x3 tabel 2 frihedsgrader? Antag vi kender alle række- og søjletotaler. Hvis vi kender antallet i bare to celler, så kan vi finde resten af antallene. Vi har frihed til at vælge to antal derefter er resten givet! Partiforhold Demokrat Uafhængig Republikaner Total Kvinde 573 516-1511 Mand - - - 1260 959 991 821 2711 21

Residual: Motivation χ 2 -testet kan afsløre, at data passer dårligt med nulhypotesen om statistisk uafhængighed. χ 2 -testet siger intet om hvordan data passer dårligt. Det kunne fx være fordi: Et lille antal celler afviger meget. Et stort antal celler afviger lidt. Et residual siger noget om, hvor meget den enkelte celle afviger fra det forventede. 22

Residual Et (råt) residual for en celle er forskellen mellem f o og f e. Et standardiseret residual for en celle er z = f o se f e = f e f o f ( 1 rækkeandel)( 1 søjleandel) e Her er se standardfejlen, hvis H 0 er sand. Dvs. det standardiserede residual måler antal se som forskellen mellem f o - f e afviger fra 0. z svinger omkring 0 med standardafvigelse 1. For store stikprøver er z ca. normalfordelt. 23

Residual: Eksempel For cellen Kvinde og Demokrat har vi z = f e f o f ( 1 rækkeandel)( 1 søjleandel) e = 522.9 1 573 522.9 ( 0.346)( 1 0.545) = 4.0 Søjleandel: 1511/2771 = 0.545 Rækkeandel: 959/2771 = 0.346 24

Residual: Eksempel fortsat Da z er cirka normalfordelt med middelværdi 0 og standardafvigelse 1, så er 4.0 ret ekstremt. I SPSS vælges Adjusted Standardized under Residuals 0.0 0.1 0.2 0.3 0.4-3 -2-1 0 1 2 3 Det ses at det specielt er blandt demokrater, at afvigelsen mellem forventede og observerede værdier er stor. 25

Grad af sammenhæng i 2 2 tabel Et mål for graden af sammenhæng er typisk et tal mellem -1 og 1, hvor 0 = Ingen sammenhæng. Minimal sammenhæng Maksimal sammenhæng Mening Mening For Imod Total For Imod Total Hvid 360 240 600 Hvid 600 0 600 Sort 240 160 400 Sort 0 400 400 Total 600 400 1000 Total 600 400 1000 Forskel i andel For : Forskel i andel For : 360 240 600 0 = 0.6 0.6 = 0 = 1.0 0.0 = 1. 0 600 400 600 400 Ingen sammenhæng Maksimal sammenhæng 26

Lille P-værdi betyder ikke stærk sammenhæng Tre tabeller med samme grad af sammenhæng, men forskellig stikprøve-størrelser: 27

Uduelige piger eller? (based on a true story ) Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid. Resultat: Mænd 71,7% Kvinder 56,8%! Forskellen er statistisk signifikant! 28

Stratificeret Analyse Vi har også spurgte om hvilket fakultet folk har studeret ved (INS eller Samf). Vi udfører nu analyses separat for hvert fakultet: (Vi siger vi stratificerer efter fakultet) 29

Simpsons Paradoks Internt på de to fakulteter er der ingen forskel mellem mænds og kvinders gennemførsels-procent! Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre til tiden. Mænd er lige modsat Baseret på en sand historie fra Berkeley i midt 70 erne. 30

Stratificering i SPSS Variablen, der stratificeres efter placeres i Layer : 31

Tabelopslag i SPSS 0.95 χ 2 -fordeling, df =2 α=0.05??? 32

Tabelopslag i SPSS 0.95 χ 2 -fordeling, df =2 α=0.05 5.99 33

Tabelopslag i SPSS 0.0 0.1 0.2 0.3 0.4??? z-fordelingen aka N(0,1) -3-2 -1 0 1 2 3 1.72 34

Tabelopslag i SPSS 0.0 0.1 0.2 0.3 0.4 0.96 z-fordelingen aka N(0,1) -3-2 -1 0 1 2 3 1.72 35