Statistik II 1. Lektion. Analyse af kontingenstabeller

Relaterede dokumenter
Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Elaborering: Analyse af betingede relationer

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Program dag 2 (11. april 2011)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik II 4. Lektion. Logistisk regression

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Løsning til eksaminen d. 14. december 2009

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Personlig stemmeafgivning

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Logistisk Regression - fortsat

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Multipel Lineær Regression

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Løsning eksamen d. 15. december 2008

Løsning til eksamen d.27 Maj 2010

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Vejledende besvarelser til opgaver i kapitel 14

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Konfidensintervaller og Hypotesetest

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Forelæsning 9: Inferens for andele (kapitel 10)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Hb SS Hb Sβ Hb SC = , (s = )

Basal Statistik Kategoriske Data

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Logistisk regression

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

c) For, er, hvorefter. Forklar.

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Kapitel 8 Chi-i-anden (χ 2 ) prøven

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Eksamen i Statistik og skalavalidering

Kapitel 11 Lineær regression

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistiske Modeller 1: Kontingenstabeller i SAS

Skriftlig eksamen i samfundsfag

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kvantitative metoder 2

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Lineær og logistisk regression

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Løsning til eksaminen d. 29. maj 2009

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Kapitel 12 Variansanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Statistik Lektion 4. Variansanalyse Modelkontrol

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Vejledende løsninger kapitel 9 opgaver

Transkript:

Statistik II 1. Lektion Analyse af kontingenstabeller

Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS Eksamen Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt mind mig lige om det!!

Variabeltyper Spørgeskemaundersøgelse (Survey) Svartyperne er Kategoriske der er et antal svarmuligheder Nominel kategorisk, dvs. ordnede kategorier Fx. Indkomstgruppe: Lav, Mellem eller Høj Ordinale kategoriske, dvs. kategorier uden ordning. Fx. Favorit M&M: Rød, Grøn eller Blå.

Dikotome variable Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. Hvis de to kategori er hhv 0 og 1kaldes variablen binær. I SPSS omkoder dikotome variable til binære hold øje med hvad omkodes til hvad. I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

Kontingenstabel: Eksempel Sammenhængen mellem arbejdsløshed og eksponering for vold: Arbejdsløs Nej 2483 96.9% Ja 386 94.6% Total 2869 96.6% Er der en sammenhæng? Udsat for vold/trusler Nej Ja Total 80 3.1% 22 5.4% 102 3.4% 2563 408 2000

Sammenligne forhold Antagelser: Data repræsentativ for befolkningen Der er en kausalitet Udsat for vold/trusler Nej Ja Total Arbejdsløs Nej 2483 96.9% Ja 386 94.6% Total 2869 96.6% 80 3.1% 22 5.4% 102 3.4% 2563 408 2000 Ide: Sammenlign forholder mellem Nej er og Ja er blandt hhv. folk i og uden arbejde: I arbejde : 2483/80 = 31.03 Uden arbejde: 386/22 = 17.54 Kaldes også Odds Delkonklusion: De ser ret forskellige ud!

Forhold mellem forhold Næste trin: Forholdet af forholdene: 2463 80 386 22 = 2563 22 386 80 1.83 Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

Krydsprodukt-forholdet En 2x2 tabel: a c b d Krydsproduktforhold: Forholdet mellem række-forhold: Forholdet mellem søjle-forhold: κ = a b c d a c b d = = ad cb ad bc ad cb Det samme!

γ-koeffcienten Definition: Relation til κ:... og omvendt: γ = ad ad + κ 1 γ = κ + 1 1+ γ κ = 1 γ bc bc Der er en en-til-en korrespondance mellem γ og κ. Dvs. γ og κ indeholder samme information om data.

Fortolkning af γ γ = ad ad + bc bc γ = 0 hvis X og Y er uafhængige. γ = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. a 0 0 d γ = 1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. 0 b c Minder om almindelig korrelation. 0

Generel kontingenstabel I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Farve på foretrukne M&M Rød Grøn Blå Køn Mand 21 35.0% 13 21.7% 26 43.3% 60 Kvinde 34 53.2% 7 10.9% 23 35.9% 64 Total 55 44.4% 20 16.1% 49 39.5% 124 Celle: Antal personer, der er kvinde og som foretrækker rød Spørgsmål: Er der sammenhæng mellem farvevalg og køn?

Spørgsmålet på hovedet Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Vi vender spørgsmålet på hovedet: Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? Antag at der ingen sammenhæng er mellem køn og farvevalg. Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.

Forventede antal Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. Farve på foretrukne M&M Rød Grøn Blå Køn Mand 60 Kvinde 64 Total 55 44.4% 20 16.1% 49 39.5% 124 Andel røde: 55/124 = 44.4% Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4

Generel formel for det forventede I hver celle har vi X ij : observerede antal i celle (i,j) E ij : forventede antal i celle (i,j) Desuden har vi N: Totale antal observationer C i : Antal observationer i te kolonne R j : Antal observationer er j te række Forventede antal for celle ( i,j ) er E ij = C i R j / N

Ombytning uden betydning Vi kan bytte rundt på farve og køn uden at det gør en forskel: Andelen af mænd: 60/124 = 48.4% Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4

Så langt så godt Vi har Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. Vi mangler Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.

Mål for afvigelsen Vi bruger følgende mål 2 χ ( X E ) = ij E i j ij ij 2 Vi kalder χ 2 ( ki-i-anden ) en teststørrelse. χ 2 bruges til at teste arbejdshypotesen. Bemærk: χ 2 0 χ 2 = 0 perfekt match Jo større χ 2, jo mindre tror vi på arbejdshypotesen

χ 2 teststørrelse for eksemplet I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Køn Mand 21 26.6 Kvinde 34 28.4 Farve på foretrukne M&M Rød Grøn Blå 2 21 26.6 13 9.7 26 23.7 23 25.3 χ = + + + + = 4.9 26.6 9.7 23.7 25.3 Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng? 13 9.7 7 10.3 26 23.7 23 25.3 Total 55 20 49 124 2 2 2 ( ) ( ) ( ) ( ) 2 60 64

Simuleret svar Antag at arbejdshypotesen er sand. Vi får en computer til at simulere nye tabeller, under antagelse af at arbejdshypotesen er sand at række- og søjletotaler er som de observerede. For hver tabel udregner vi χ 2. Resultat med 1000 nye tabeller: Hvis arbejdshypotesen er sand vil 8.2% af tabellerne have en mere ekstrem χ 2 værdi. Er χ 2 = 4.9 ekstremt?

Lidt mere teoretiske tilgang

Lidt mere teoretisk tilgang Vi har en teoretisk fordeling, der svarer til histogrammet: En såkaldt χ 2 -fordeling med 2 frihedsgrader. Det røde areal svarer til sandsynligheden for at observere en mere ekstrem χ 2 -værdi. Her er arealet 8.49%. Denne værdi kaldes også p-værdien. I en general tabel med r rækker og c kolonner, vil histogrammet svare til en χ 2 -fordeling med (r-1)(c-1).

Beslutningen! Jo mere ekstrem χ 2 -værdi, jo mindre tror vi på arbejdshypotesen. Jo mere ekstrem χ 2 -værdi, jo mindre p-værdi. Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. Vi siger at testen (af arbejdshypotesen) er signifikant. Grænsen på de 5% kaldes signifikans-niveauet, og betegnes α. Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. Signifikans-niveauet vælges før teststørrelsen udregnes! I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.

Signifikanstest generelt 1) Opstil statistisk model / statistiske antagelser 1) Fx. at stikprøven er tilfældigt udvalgt. 2) Opstil arbejds-hypotese 1) Betegnes H 0, nul-hypotesen 2) Fx. uafhængighed mellem køn og farvevalg 3) Opstil alternativ-hypotese 1) Den modsatte hypotese af H 0 2) Betegnes H 1 Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil bevise. Arbejdshypotesen er generelt valgt, så den er mere præcis end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.

Signifikanstest generelt forts. 1) Vælg signifikans niveau α 1) Typisk 5%. 2) Konstruer en test-størrelse 1) Hvilke værdier er ekstreme for H 0? 2) Beregn teststørrelsen 3) Beregning af test-størrelse ordnes af SPSS 3) Beregn p-værdien 1) p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse næste gang, under antagelse af at modellen og dens antagelser er korrekte. 4) Hvis p-værdien < α, så kan vi ikke afvise H 0. 5) Hvis p-værdien > α, så afviser vi H 0 og accepterer H 1 hypotesen. 6) Fortolk resultatet.

Man begår fejl Når vi udfører en signifikanstest kan vi begå en af to fejl Type 1 fejl: Vi afviser H 0 selvom den er sand Type 2 fejl: Vi accepterer H 0 selvom den er falsk Antag modellen er korrekt, H 0 er sand og at vi har valg et signifikansniveau α. Hvad er da sandsynligheden for at begå en Type 1 fejl?

Lidt gode råd p-værdien er ikke sandsynligheden for at H 0 er sand. p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H 0 hypotesen. HVER GANG i ser en p-værdi i SPSS ( sig. ), så gør jer hver gang klart, hvilken H 0 hypotese den passer sammen med!!! Det er nemt nu, men det bliver mere indviklet senere

Eksempel i SPSS Analyze Descriptive Statistics Crosstabs

SPSS output Opstiller hypoteser: H 0 : Uafhængighed mellem arbejdsløs og vold/trusler H 0 : Afhængighed Sig. niv. α = 5% χ 2 -teststørrelse p-værdi Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige.

Mere SPSS output

Mere end to variable Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen? Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. Lad os se på nogle eksempler

Sammenhæng mellem race og dom Morder Sort 59 2.4% Dom Dødsdom Anden dom Total Hvid 72 3.2% Total 131 2.7% 2448 97.6% 2185 96.8% 4633 97.3% 2507 2257 4764 Test: H 0 : Ingen sammenhæng ml. race og dom. Teststørrelse: χ 2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), γ = -0.155 Konklusion: Vi kan ikke afvise H 0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

Kontrolvariabel: Offers race Dom Offer Dødsdom Anden dom Total Sort Morder Sort 11 0.5% 2209 99.5% Hvid 111 Total 11 0.5% Hvid Morder Sort 48 16.7% Hvid 72 3.4% Total 120 2.7% 2320 99.5% 239 83.3% 2074 96.6% 2313 95.1% 2220 111 2331 287 2146 2433 Χ 2 = 0.55 df = 1 p = 0.59 γ = 1.00 Χ 2 = 96.5 df = 1 p = 0.000 γ = 0.71

Opsummering Sammenhængen mellem race og dom var skjult Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid Simpsons paradoks sammenhængen er vendt Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest uanset offers race.

Stratificering i SPSS Stratificering efter offers race.

Elaborering: Arbejde og boligforhold Bolig God Dårlig Total Tilknytning til arbjedsmarkedet Fuldtid 83 69.7% Deltid 74 82.2% 36 30.3% 16 17.8% 119 90 Pensioneret 736 82.5% 156 17.5% 892 Ingen 167 77.0% 50 23.0% 217 Total 1060 80.4% 258 19.6% 1318 Test: H 0 : Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ 2 = 12.9, df = 3, p = 0.005 Konklusion: Signifikant sammenhæng

Bemærkninger Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

Elaborering: Job-status og boligstandard Bolig God Dårlig Total 1967 Tilknytning til arbjedsmarkedet Fuldtid 83 69.7% Deltid 74 82.2% 36 30.3% 16 17.8% 119 90 Pensioneret 736 82.5% 156 17.5% 892 Ingen 167 77.0% 50 23.0% 217 Total 1060 80.4% 258 19.6% 1318 Test: H 0 : Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ 2 = 0.0, df = 3, p = 0.998 Konklusion: Vi kan ikke afvise H 0 : Ingen signif. sammenhæng.

Elaborering: Job-status og boligstandard Bolig God Dårlig Total 1984 Tilknytning til arbjedsmarkedet Fuldtid 83 69.7% Deltid 74 82.2% 36 30.3% 16 17.8% 119 90 Pensioneret 736 82.5% 156 17.5% 892 Ingen 167 77.0% 50 23.0% 217 Total 1060 80.4% 258 19.6% 1318 Test: H 0 : Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ 2 = 1.3, df = 3, p = 0.725 Konklusion: Vi kan ikke afvise H 0 : Ingen signif. sammenhæng.

Konklusioner Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. Statistiker: Betinget uafhængighed.