Kapitel 8 Chi-i-anden (χ 2 ) prøven



Relaterede dokumenter
Kapitel 7 Forskelle mellem centraltendenser

Kapitel 1 Statistiske grundbegreber

Kapitel 10 Simpel korrelation

Personlig stemmeafgivning

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Vejledende besvarelser til opgaver i kapitel 14

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Konfidensintervaller og Hypotesetest

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kapitel 11 Lineær regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kapitel 4 Sandsynlighed og statistiske modeller

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Note til styrkefunktionen

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

02402 Løsning til testquiz02402f (Test VI)

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Statistik II 1. Lektion. Analyse af kontingenstabeller

Forelæsning 9: Inferens for andele (kapitel 10)

c) For, er, hvorefter. Forklar.

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Kapitel 4 Sandsynlighed og statistiske modeller

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Stamoplysninger til brug ved prøver til gymnasiale uddannelser

Spørgeskemaundersøgelser og databehandling

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Statistiske modeller

3. Trekantsberegninger. Gør rede for cosinusrelationen i vilkårlige trekanter.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Simulering af stokastiske fænomener med Excel

Kønsproportion og familiemønstre.

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Kapitel 3 Centraltendens og spredning

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

J E T T E V E S T E R G A A R D

Løsning til eksaminen d. 14. december 2009

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Kvantitative metoder 2

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kapitel 2 Frekvensfordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Kvantitative Metoder 1 - Forår Dagens program

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Program dag 2 (11. april 2011)

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y = 100 x 0.6 y = x 0.6 y y 0.4 = x 0.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Simulering af stokastiske fænomener med Excel

Statistik II 4. Lektion. Logistisk regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Transkript:

Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på interval- eller ratioskala Mann-Whitney eller Wilcoxon for data målt på ordinalskala For data målt på nominalskala kan vi benytte χ 2 -testet til at undersøge om én stikprøve er fordelt svarende til et bestemt mønster (goodness-of-fit test) to eller flere stikprøver er forskelligt fordelt på kategorierne (test for uafhængighed) Baseres på normeret forskel mellem observeret antal O og forventet antal E i de forskellige kategorier χ 2 = (O E) 2 E 2 / 19

Goodness-of-fit med én stikprøve eksempel Vi starter med et eksempel: På audiologopædi er der 110 studerende, der er fordelt med 100 kvinder og 10 mænd De i alt 5000 indskrevne ved fakultetet er fordelt med 3500 kvinder og 1500 mænd Skulle kønsfordelingen hos aud.log. være som på fakultetet som helhed ville vi forvente E K = 110 3500 5000 = 77 og E M = 110 1500 5000 = 33 Teststørrelsen beregnes nu som χ 2 = (100 77)2 77 + (10 33)2 33 = 22, 90 Jo større forskel mellem observeret og forventet antal, jo større bidrag til teststørrelsen 3 / 19 Eksempel (fortsat) Teststørrelsen skal sammenlignes med en χ 2 -fordeling med 2 1 = 1 frihedsgrader, da der er to grupper Kritiske værdier for χ 2 -fordeling med df = 1 p 5% 1% 0,1% χ 2 3,84 6,63 10,83 Konklusionen på testet er, at stikprøven er signifikant forskellig fra modellen (p < 0, 1%), dvs. aud.log. ligner ikke resten af fakultetet 4 / 19

Lidt om χ 2 -fordelingen Lad Z 1,..., Z r være uafhængige og standardnormalfordelte stokastiske variable Fordelingen af den afledte stokastiske variabel Y = Z 2 1 +... + Z 2 r kaldes en χ 2 -fordeling med r frihedsgrader Vi benytter ofte den korte skrivemåde Y χ 2 (r) 5 / 19 Lidt om χ 2 -fordelingen Tæthedsfunktion 0.0 0.2 0.4 df = 1 df = 2 df = 3 df = 4 df = 5 0 5 10 15 Fordelingsfunktion 0.0 0.4 0.8 x df = 1 df = 2 df = 3 df = 4 df = 5 0 5 10 15 6 / 19

Lidt om χ 2 -fordelingen Tæthedsfunktion 0.00 0.10 0.20 df = 5 df = 10 df = 15 df = 20 0 10 20 30 40 Fordelingsfunktion 0.0 0.4 0.8 x df = 5 df = 10 df = 15 df = 20 0 10 20 30 40 7 / 19 Én stikprøve med mere end to grupper Samme princip ved mere end to grupper, idet antal frihedsgrader er antal grupper minus én Ingen celler må have E < 1, og højst 1/5 af cellerne må have E < 5 kan dette ikke overholdes må man lave passende sammenlægninger Goodness-of-fit kan også benyttes til sammenligning af stikprøve med teoretisk fordeling (kapitel 9) 8 / 19

Test for uafhængighed Vi kan sammenligne om n stikprøver er fordelt forskelligt over m kategorier ved at benytte et χ 2 -test for uafhængighed Nulhypotesen er, at der ikke er forskel, og alternativhypotesen er, at der er forskel Bemærk dog: Er data korrelerede (fx. før- og efterscore) benyttes i stedet McNemars test (senere) 9 / 19 Test for uafhængighed (fortsat) Samme princip ved beregning af teststørrelsen, nemlig summation over (O E) 2 /E Data ordnes i en n m tabel (matrix) Forventet antal beregnes for en celle som rækkesum gange søjlesum divideret med totalsum Antal frihedsgrader er (n 1)(m 1) 10 / 19

Test for uafhængighed (fortsat) O Gode Middel Dårlige Piger 60 15 5 80 Drenge 30 15 15 60 90 30 20 140 E Gode Middel Dårlige Piger 51,4 17,1 11,4 79,9 Drenge 38,6 12,9 8,6 60,1 90,0 30,0 20,0 140,0 χ 2 Gode Middel Dårlige Piger 1,43 0,27 3,62 5,31 Drenge 1,90 0,36 4,82 7,08 3,33 0,63 8,44 12,40 11 / 19 Test for uafhængighed (fortsat) Teststørrelsen skal sammenlignes med en χ 2 -fordeling med (2 1)(3 1) = 2 frihedsgrader Kritiske værdier er p 5% 1% 0,1% χ 2 (2) 5,99 9,21 13,82 Vi kan se at 0, 01 > p > 0, 001 (faktisk er p = 0, 002) Vi kan altså afvise, at drenge og piger fordeler sig ens på de tre læsekategorier Sandsynligheden for, at de faktisk er ens, og at den observerede forskel skyldes en tilfældighed, er 1/500 12 / 19

Enkeltsidet alternativhypotese Retningsbestemt alternativ kun muligt for df = 1, dvs. ved et goodness-of-fit test for 2 kategorier eller uafhængighedstest for en 2 2 tabel Ønsker vi meget at få en retningsbestemt hypotese, så kan vi lægge beslægtede kategorier sammen p ved retningsbestemt alternativ får vi ved at dele p fra tabellen med 2... 13 / 19 Korrektion ved små frekvenser Hvis E < 5 kunne vi slå celler sammen, men det forudsætter at df > 1 Hvis vi har df = 1 kan vi lave en Yates korrektion (på engelsk: Yates correction for continuity): O > E : O O 1 2 O < E : O O + 1 2 Et eksempel kan være 8 kast med en mønt, der resulterer i 7 krone og én plat: Data Krone Plat χ 2 p Forventet 4 4 Observeret 7 1 4,500 3,4 % Med korrektion 6,5 1,5 3,125 7,7 % 14 / 19

McNemars test for ændringer Benyttes når data er korrelerede, typisk i form af fordelingen før/efter på samme to kategorier Kan essentielt ordnes i en 2 2 tabel: Efter Før Kategori 1 Kategori 2 Kategori 1 x 11 x 12 x 1 Kategori 2 x 21 x 22 x 2 x 1 x 2 x Ændringerne (x 12 og x 21 ) er de interessante, og det er dem, der benyttes til beregning af χ 2 teststørrelsen 15 / 19 McNemar s test (fortsat) Vi beregner teststørrelsen som χ 2 McNemar = ( x 12 x 21 1) 2 x 12 + x 21 Nulhypotesen for testen er, at antal ændringer fra kategori 1 til kategori 2 (x 12 ) er det samme som fra kategori 2 til 1 (x 21 ), hvilket netto svarer til ingen ændring Alternativhypoten er enten x 21 > x 12 (forbedring) eller også x 21 < x 12 (forværring) 16 / 19

McNemar s test (fortsat) Valg af alternativhypotese afhænger af data, der afgør hvilken af hypoteserne der er relevant Teststørrelsen sammenlignes med en χ 2 -fordeling med én frihedsgrad (2 kategorier minus 1) idet vi benytter énhalet signifikanssandsynlighed ( dividerer p med 2 ) på grund af den retningsbestemte alternativhypotese 17 / 19 McNemars signifikanstest for ændringer eksempel Antal Efter Før Rigtig Forkert Rigtig 9 4 13 Forkert 12 5 17 21 9 30 Vi beregner χ 2 -teststørrelsen på baggrund af cellerne med ændringer (rigtig før forkert efter og omvendt) χ 2 = ( x 12 x 21 1) 2 x 12 + x 21 = ( 4 12 1)2 4 + 12 = 49 16 = 3, 063 Med df = 1 finder vi p = 0, 040 énhalet og kan konkludere, at den observerede forbedring er signifikant 18 / 19

χ 2 med Excel chidist(x;df) beregnes som P(X > x), hvor X følger en χ 2 fordeling med df frihedsgrader Den giver os altså vores p for en given værdi af teststørrelsen samt antallet af frihedsgrader Nørdet: Fordelingsfunktionen for χ 2 -fordelingen får vi altså ved 1-chidist(x;df) chiinv(p;df) er den omvendte funktion af chidist, så den kan vi bruge til at beregne kritiske værdier med chitest(actual;expected) kan vi bruge til at få beregnet p med det samme Supernørdet: Vil vi gerne kende teststørrelsen kan vi bruge chiinv( chitest(actual;expected);df) 19 / 19