Kategoriske data. Basal Statistik for medicinske PhD-studerende October 2008

Relaterede dokumenter

Basal Statistik for medicinske PhD-studerende Oktober 2007

Basal Statistik Kategoriske Data

Postoperative komplikationer

Afdeling for Anvendt Matematik og Statistik December 2006

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Opgavebesvarelse, Basalkursus, uge 3

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Modul 5: Test for én stikprøve

Konfidensinterval for µ (σ kendt)

9. Chi-i-anden test, case-control data, logistisk regression.

Forelæsning 8: Inferens for varianser (kap 9)

Opgavebesvarelse, Basalkursus, uge 3

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Opgavebesvarelse, Basalkursus, uge 3

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basal Statistik for medicinske PhD-studerende November 2008

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Introduktion til SAS. Faculty of Health Sciences

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Opgavebesvarelse, Basalkursus, uge 3

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Note til styrkefunktionen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Susanne Ditlevsen Institut for Matematiske Fag susanne

Løsning eksamen d. 15. december 2008

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Faculty of Health Sciences. Basal Statistik. Kategorisk outcome. Tabeller. Lene Theil Skovgaard. 20. september 2016

Basal Statistik. Kategorisk outcome. Sandsynligheder. Bestemmelse af sandsynligheder. Faculty of Health Sciences

Basal statistik. 30. januar 2007

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Faculty of Health Sciences. Basal Statistik. Kategorisk outcome. Tabeller. Lene Theil Skovgaard. 19. september 2017

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Ensidet variansanalyse

Basal Statistik. Kategorisk outcome. Sandsynligheder. Bestemmelse af sandsynligheder. Faculty of Health Sciences

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

En Introduktion til SAS. Kapitel 6.

Opgavebesvarelse, logistisk regression

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Forsøgsplanlægning Stikprøvestørrelse

Simpel og multipel logistisk regression

Konfidensintervaller og Hypotesetest

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Besvarelse af opgavesættet ved Reeksamen forår 2008

Løsning til opgave i logistisk regression

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Reeksamen i Statistik for biokemikere. Blok

Statistik II 4. Lektion. Logistisk regression

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Statistik i basketball

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Module 12: Mere om variansanalyse

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Løsning til eksaminen d. 29. maj 2009

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Løsning til eksaminen d. 14. december 2009

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Produkt og marked - matematiske og statistiske metoder

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Estimation og konfidensintervaller

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Susanne Ditlevsen Institut for Matematiske Fag susanne

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Ikke-parametriske tests

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Modul 3: Kontinuerte stokastiske variable

Epidemiologi og Biostatistik

2 Logaritme- og eksponentialfunktion 6

En Introduktion til SAS. Kapitel 5.

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Vejledende besvarelse af hjemmeopgave

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Forsøgsplanlægning Stikprøvestørrelse

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Transkript:

Kategoriske data Basal Statistik for medicinske PhD-studerende October 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Kategoriske vaiable Dikotom to kategorier: Respons: Ja / Nej Levende / Død Nominal flere kategorier: Selvstændig / Faglært / Ufaglært / Funktionær Blå / Brune / Grå / Grønne Ordinal flere ordnede kategorier: Ingen < Let < Moderat < Svær 0 10 < 11 30 < 31 50 < 51+ October 2008: Kategoriske data 1

Data repræsentation Individer Person Kategori 1 a 2 f 3 c 4 b 5 b 6 d 7 d.. n b Tabel Kategori Antal a 8 b 14 c 4 d 9 e 12 f 3 n October 2008: Kategoriske data 2

100 patienter behandles og respons registreres: ptt. udfald i x i 1 0 2 1 3 0 4 1 5 1.. 100 0 Model for x i og x i nødvendig. { 65 = xi Respons 35 = 100 x i Intet respons October 2008: Kategoriske data 3

Sandsynlighed for at en tilfældigt valgt person responderer: p{respons} = p p{intet respons} = 1 p Personer er ikke ens. Variationen kommer fra den tilfældige udvælgelse af patienter. p er ukendt - en parameter som karakteriserer populationen. Observationer: x responderer, n x responderer ikke. October 2008: Kategoriske data 4

Binomialfordelingen: Sum af uafhængige Bernoulli-variable, med samme sandsynlighed, p: x = # 1-taller = x i binom(n, p) ( ) n Punktsandsynlighed: p{x = x} = p x (1 p) n x x Middelværdi: E(X) = n p Spredning: std(x) = var(x) = n p (1 p) October 2008: Kategoriske data 5

0.0 0.2 0.4 N=5, p=0.1 N=5, p=0.2 N=5, p=0.3 N=5, p=0.5 N=5, p=0.8 N=5, p=0.97 0.0 0.2 0.4 0.6 0 1 2 3 4 5 N=10, p=0.1 0 1 2 3 4 5 N=10, p=0.2 0 1 2 3 4 5 N=10, p=0.3 0 1 2 3 4 5 N=10, p=0.5 0 1 2 3 4 5 N=10, p=0.8 0 1 2 3 4 5 N=10, p=0.97 0.0 0.2 0.4 0.6 0 2 4 6 8 10 N=20, p=0.1 0 2 4 6 8 10 N=20, p=0.2 0 2 4 6 8 10 N=20, p=0.3 0 2 4 6 8 10 N=20, p=0.5 0 2 4 6 8 10 N=20, p=0.8 0 2 4 6 8 10 N=20, p=0.97 0.0 0.2 0.4 0.6 0 5 10 15 20 N=50, p=0.1 0 5 10 15 20 N=50, p=0.2 0 5 10 15 20 N=50, p=0.3 0 5 10 15 20 N=50, p=0.5 0 5 10 15 20 N=50, p=0.8 0 5 10 15 20 N=50, p=0.97 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 October 2008: Kategoriske data 6

Estimation i binomialfordelingen: Parameter: p = Pr{ positiv } Observation: x ud af n er positive (succes, død,... ). Estimat: ˆp = x n p(1 p) Spredning af estimat: s.e.(ˆp) = n Approximativt 95% konfidensinterval for p: ˆp ± 1.960 ˆp(1 ˆp) n October 2008: Kategoriske data 7

215 kvinder fra almen praksis. 39 har astmatisk sygdom i familien. p = p{tilfældigt valgt kvinde har astma i familien} = prævalensen af familiær astma ˆp = 39 215 = 0.181 p(1 p) 0.181 0.819 s.e.(ˆp) = = = 0.0263 n 215 95% c.i: 0.181 ± 1.96 0.0263 = (0.130; 0.233) Dvs.: Data er foreneligt med prævalenser i populationen i området 13% 23%. October 2008: Kategoriske data 8

Eksakt konfidensinterval: 0.00 0.02 0.04 0.06 0.08 N=215, p=0.1323 0.00 0.02 0.04 0.06 0.08 N=215, p=0.2395 0 20 40 60 80 100 0 20 40 60 80 100 October 2008: Kategoriske data 9

Eksakt konfidensinterval: 5 ud af 20 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 N=20, p=0.087 0 5 10 15 20 N=20, p=0.06 0.56 % 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 N=20, p=0.491 0 5 10 15 20 N=20, p=0.44 6.60 % ˆp = 5/20 = 0.25 Konfidensinterval: 0.25±1.96 = (0.06; 0.44) 0.25 0.75 20 0 5 10 15 20 0 5 10 15 20 October 2008: Kategoriske data 10

Eksakt konfidens interval for 0 ud af N Den nedre grænse er: p L = 0 Den øvre grænse, p U, skal vælges så ssh. for 0 er 2.5%: p 0 U (1 p U ) N = (1 p U ) N = 0.025 p U = 1 0.025 1/N Eksempel: Observeres 0 ud af 7 bliver den øvre grænse for et eksakt 95% konfidensinterval: p U = 1 0.025 1/7 = 0.410 October 2008: Kategoriske data 11

Konfidensintervaller for p En god approximation til de eksakte konfidensintervaller er 1 : erf = exp ( 1.960/ np(1 p) ) og derefter udregne grænserne: p p + (1 p) erf 1 Denne formel er baseret på en normal-approximation til log-odds, ln(p/(1 p)). October 2008: Kategoriske data 12

F.eks får vi for 5 ud af 20: p = 0.25, erf = exp ( 1.96/ 20 0.25 0.75 ) = 2.75 dvs. et 95% c.i bliver: p = p + (1 p) erf 0.25 0.25 + 0.75 2.75 = (10.8; 47.8)% Traditonelt c.i: (6.0; 44.0)% Eksakt c.i: (8.7, 49.1)% October 2008: Kategoriske data 13

Test H 0 : p = p 0 Hvis nulhypotesen er sand: s.e.(ˆp) = s.e. ( x n) = p0 (1 p 0 ) n z = x/n p 0 p0 (1 p 0 )/n N (0, 1) N (0, 1) er den standardiserede normalfordeling middelværdi 0 og varians 1. October 2008: Kategoriske data 14

Ud af 215 havde 39 astma i familien. Er det foreneligt med en prævalens på 15%? z = 39/215 0.15 0.15 0.85/215 = 1.23 Opslag i tabel giver: p{ z > 1.23} = 21.87% October 2008: Kategoriske data 15

Kontinuitetskorrektion Testsandsynligheden approximeres i normalfordelingen, ved at tage sandsynligheden fra x og udefter. Bedre at tage ssh. fra x + 1 2 (eller x 1 2 ). Det giver den korrigerede teststørrelse: z C = x/n p 0 1/2n p0 (1 p 0 )/n October 2008: Kategoriske data 16

I eksemplet fra før med 39 ud af 215 og p 0 = 0.15: z C = 39/215 0.15 1/(2 215) 0.15 0.85/215 = 1.194, p = 23.26% October 2008: Kategoriske data 17

Antagelser: Forudsætninger for at anvende binomialfordelingen: Observationerne er uafhængige, dvs: Viden om en persons status indeholder ikke information om andres. (Afhængighed kan forekomme hvis personer er i familier, og udfaldet er familiært associeret). Effekt af afhængige observationer: n bliver overvurderet. P-værdi for lille. October 2008: Kategoriske data 18

Observationerne er repræsentative, dvs: Personerne skal repræsentere den population der skal generaliseres til. (Problemer hvis udvælgelsen afhænger af forhold som har med udfaldet at gøre). Effekt af manglende repræsentativitet: Afhænger af den konkrete situation. October 2008: Kategoriske data 19

M Kalani, J Apelqvist, M Blombäck, K Brismar, B Eliasson, JW Eriksson, B Fagrell, A Hamsten, O Torffvit & G Jörneskog: Effect of Dalteparin on Healing of Chronic Foot Ulcers in Diabetic Patients With Peripheral Arterial Occlusive Disease. Diabetes Care 26: 2575-2580, 2003 Ulcer outcome in 85 diabetic patients with PAOD and chronic foot ulcers, randomly assigned to treatment. Dalteparin Placebo Healed 14 9 Improved 15 11 Unchanged 7 9 Impaired 5 5 Amputation 2 8 Total 43 42 Dalteparin Placebo Better 29 20 Worse 14 22 Total 43 42 October 2008: Kategoriske data 20

Sammenligning af 2 grupper Gruppe Resp. 1 2 Ja x 1 x 2 Nej n 1 x 1 n 2 x 2 n 1 n 2 ˆp 1 = x 1 /n 1 ˆp 2 = x 2 /n 2 p 1 (1 p 1 ) s.e.(ˆp 1 ˆp 2 ) = + p 2(1 p 2 ) n 1 n 2 October 2008: Kategoriske data 21

85 diabetes-patienter med fodsår: Dalteparin (Dal) Placebo (Pl) Gruppe Dalterapin Placebo Udfald: Bedre 29 20 Værre 14 22 43 42 ˆp Dal = 29 43 = 67% ˆp Pl = 20 42 = 47% October 2008: Kategoriske data 22

Forskellen mellem sandsynlighederne er andelen af patienter der har glæde af behandlingen: p Dal p Pl ˆp Dal ˆp Pl = 20% s.e.(ˆp Dal ˆp Pl ) = p Dal (1 p Dal ) n Dal + p Pl(1 p Pl ) n Pl = 0.11 95%c.i. : 20% ± 1.96 11% = (0%; 40%) October 2008: Kategoriske data 23

data c ; proc freq data = a ; input resp $ grp $ ; table grp * resp / chisq measures nopercent nocol ; cards ; run ; B Dal B Dal B Dal... B Dal B Dal B Dal W Dal W Dal... data c ; W Dal input resp $ grp $ antal; W Dal cards ; B Pl B Dal 29 B Pl W Dal 14 B Pl B Pl 20 B Pl W Pl 22... ; B Pl run ; W Pl W Pl proc freq data = c ; W Pl table grp * resp / chisq measures nopercent nocol ;... run ; W Pl W Pl W Pl ; run ; October 2008: Kategoriske data 24

Eksempel i SAS Analyst: Indtast data i regnearket som: resp grp count ---------------- B Dal 29 W Dal 14 B Pl 20 W Pl 22 Vælg Statistics Table Analysis. Put responsvariablen, her resp i column. I Tables vælges både row og col percents. October 2008: Kategoriske data 25

Frequency Row Pct Col Pct B W Total --------- -------- -------- Dal 29 14 43 67.44 32.56 59.18 38.89 --------- -------- -------- Pl 20 22 42 47.62 52.38 40.82 61.11 --------- -------- -------- Total 49 36 85... Statistic Value ASE ------------------------------------------------------ Somers D C R 0.1982 0.1051 Somers D R C 0.2029 0.1074 C R = Column response given Row (67.44 47.62 = 19.82) R C = Row response given Column (59.18 38.89 = 20.29) ASE = Asymtotic Standard Error October 2008: Kategoriske data 26

Odds (for respons) i de to grupper er defineret som: odds 1 = p 1 1 p 1 odds 2 = p 2 1 p 2 Odds er forholdet mellem antal responser og non-responser i hver af grupperne. Odds-ratio, OR, er forholdet mellem odds i de to grupper: OR = p 1 1 p 1 / p2 1 p 2 Hvor mange gange større er forholdet mellem response og non-response i gruppe 1 i forhold til gruppe 2. October 2008: Kategoriske data 27

Estimat for OR: ˆ OR = Resp. Gr. 1 Gr. 2 Ja a b Nej c d a + c b + d / a/(a + c) b/(b + d) c/(a + c) d/(b + d) = a / b c d = ad bc Spredning skal udregnes på den naturlige logaritme: s.e.[ln( ˆ OR)] = 1 a + 1 b + 1 c + 1 d October 2008: Kategoriske data 28

Konfidensinterval skal udregnes for den naturlige logaritme og transformeres tilbage: ln( ˆ OR) ± 1.96 s.e.[ln( ˆ OR)] OR ˆ exp(1.96 } {{ s.e.[ln( OR)]) ˆ } error factor Test: ln( ˆ OR) s.e.[ln(or)] N (0, 1) October 2008: Kategoriske data 29

Relativ risiko. RR response = p 1 p 2 Estimat for RR: ˆ RR response = a / b a + c b + d Spredning skal udregnes på den naturlige logaritme: s.e.[ln( ˆ RR response )] = 1 a 1 a + c + 1 b 1 b + d October 2008: Kategoriske data 30

OBS: RR er ikke symmetrisk: RR response 1 RR non-response OBS: OR er symmetrisk: OR response = 1 OR non-response October 2008: Kategoriske data 31

OR og RR fra SAS output The FREQ Procedure Table of grp by resp grp resp Frequency Row Pct B W Total --------- -------- -------- Dal 29 14 43 67.44 32.56 --------- -------- -------- Pl 20 22 42 47.62 52.38 --------- -------- -------- Total 49 36 85 October 2008: Kategoriske data 32

Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Conf. Limits ----------------------------------------------------- Case-Control (Odds Ratio) 2.2786 0.9456 5.4907 Cohort (Col1 Risk) 1.4163 0.9694 2.0692 Cohort (Col2 Risk) 0.6216 0.3703 1.0433 Sample Size = 85 OR = 2.2786 = (29 22)/(20 14) RR B = 1.4163 = (29/43)/(20/42) RR W = 0.6216 = (14/43)/(22/42) 1/0.6216 = 1.6088 1.4163 October 2008: Kategoriske data 33

OR eller RR Mortalitet efter appendictomi Gruppe Udfald Hospital A Hospital B Død 2 3 Overlever 834 733 836 736 / RR + = 2 3 836 736 = 0.59 OR + = 2 733 834 3 = 0.59 / RR = 834 733 836 736 = 1.00 OR = 834 3 2 733 = 1.71 October 2008: Kategoriske data 34

OR eller RR 1-års mortalitet efter lungecancer: Gruppe Udfald Hospital A Hospital B Død 93 87 Overlever 5 3 98 90 / RR + = 93 87 98 90 = 0.98 OR + = 93 3 5 87 = 0.64 RR = 5 98/ 3 90 = 1.53 OR = 5 87 93 3 = 1.56 October 2008: Kategoriske data 35

Test: p 1 = p 2 Gruppe Respons 1 2 Ja x 1 x 2 Nej n 1 x 1 n 2 x 2 n 1 n 2 ˆp 1 = x 1 /n 1 ˆp 2 = x 2 /n 2 Under nulhypotesen, dvs. hvis p 1 = p 2 = p er sand: ˆp = x 1 + x 2 n 1 + n 2 October 2008: Kategoriske data 36

dvs.: s.e.(ˆp 1 ˆp 2 ) = p(1 p) n 1 + p(1 p) n 2 = ( 1 n 1 + 1 n 2 ) p(1 p) Teststørrelsen bliver derfor: z = ˆp 1 ˆp 2 s.e.(ˆp 1 ˆp 2 ) N (0, 1) October 2008: Kategoriske data 37

Test: OR = 1 eller RR = 1 Samme hypotese som p 1 = p 2! Observeret, O Gruppe 1 2 J a b a + b N c d c + d Forventet, E Gruppe 1 2 (a+b)(a+c) N (c+d)(a+c) N (a+b)(b+d) N (c+d)(b+d) N a + c b + d N a + c b + d χ 2 P = (O E) 2 E = z 2 October 2008: Kategoriske data 38

SAS output fra Proc Freq Statistics for Table of grp by resp Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 3.4195 0.0644 Likelihood Ratio Chi-Square 1 3.4434 0.0635 Continuity Adj. Chi-Square 1 2.6558 0.1032 Mantel-Haenszel Chi-Square 1 3.3793 0.0660 Phi Coefficient 0.2006 Contingency Coefficient 0.1967 Cramer s V 0.2006 October 2008: Kategoriske data 39

Oversigt over 2 2-tabellen Gruppe Respons 1 2 Ja a b a + b Nej c d c + d a + c b + d N Model: ˆp 1 = a/(a + c) ˆp 2 = b/(b + d) a bin(a + c, p 1 ) b bin(b + d, p 2 ) October 2008: Kategoriske data 40

Tre forskelige mål for afhængighed: p 1 p 2 s.e.(p 1 p 2 ) = p1 (1 p 1 ) a + c + p 2(1 p 2 ) b + d OR = p 1/(1 p 1 p 2 /(1 p 2 ) RR = p 1 p 2 s.e.(ln[rr]) = Én nulhypotese H 0 : s.e.(ln[or]) = 1 a + 1 b + 1 c + 1 d 1 a 1 a + c + 1 b 1 b + d p 1 = p 2 p 1 p 2 = 0 OR = 1 RR = 1 Forudsætning: Alle forventede tal > 5. October 2008: Kategoriske data 41

Oversigt over 2 2-tabellen Proc Freq Statistics for Table of grp by resp Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 3.4195 0.0644 Likelihood Ratio Chi-Square 1 3.4434 0.0635 Continuity Adj. Chi-Square 1 2.6558 0.1032 Statistic Value ASE ------------------------------------------------------ Somers D C R 0.1982 0.1051 Somers D R C 0.2029 0.1074 October 2008: Kategoriske data 42

Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Conf. Limits ------------------------------------------------------ Case-Control (Odds Ratio) 2.2786 0.9456 5.4907 Cohort (Col1 Risk) 1.4163 0.9694 2.0692 Cohort (Col2 Risk) 0.6216 0.3703 1.0433 Sample Size = 85 October 2008: Kategoriske data 43

Tynde tabeller Hvis nogen forventede tal er mindre end 5, f.eks. (DGA, tabel 10.14): Obs. (O) Exp. (E) Delinquent Delinquent Spectactles Yes No Total Yes No Yes 1 5 6 3.38 2.62 No 8 2 10 5.62 4.38 Total 9 7 16 9 7 October 2008: Kategoriske data 44

Fisher s eksakte test: Fasthold marginalerne. P-værdien er sandsynligheden for: den observerede tabel samt mere ekstreme tabeller: Ensidet test: Tabeller med mere skæv fordeling mellem grupperne end den observerede, i samme retning væk fra uafhængighed. Tosidet test: Alle tabeller med mindre sandsynlighed end den observerede. October 2008: Kategoriske data 45

Spectactle Juvenile Non- cum. wearers delinquents delinquents Total ssh. ssh. Yes 0 6 6 No 9 1 10 0.00087 0.00087 Yes 1 5 6 No 8 2 10 0.02360 0.02448 Yes 2 4 6 No 7 3 10 0.15734 0.18182 Yes 3 3 6 No 6 4 10 0.36713 0.54895 Yes 4 2 6 No 5 5 10 0.33042 0.87937 Yes 5 1 6 No 4 6 10 0.11014 0.98951 Yes 6 0 6 No 3 7 10 0.01049 1.00000 Total 9 7 16 October 2008: Kategoriske data 46

Eksempel The FREQ Procedure Table of spect by del spect del Frequency Row Pct Col Pct J N Total --------- -------- -------- N 8 2 10 80.00 20.00 88.89 28.57 --------- -------- -------- Y 1 5 6 16.67 83.33 11.11 71.43 --------- -------- -------- Total 9 7 16 October 2008: Kategoriske data 47

Statistics for Table of spect by del Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 6.1122 0.0134 Likelihood Ratio Chi-Square 1 6.5153 0.0107 Continuity Adj. Chi-Square 1 3.8095 0.0510 WARNING: 75% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Fisher s Exact Test ---------------------------------- Cell (1,1) Frequency (F) 8 Left-sided Pr <= F 0.9991 Right-sided Pr >= F 0.0245 Table Probability (P) 0.0236 Two-sided Pr <= P 0.0350 October 2008: Kategoriske data 48

R C-tabeller Caffeine consumption (mg/day) 0 1-150 151-300 >300 Total Married 652 1537 598 242 3029 Divorced 36 46 38 21 141 Single 218 327 106 67 718 906 1910 742 330 3888 October 2008: Kategoriske data 49

Er fordelingen af koffein-konsumption den samme i de forskellige civilstandsgrupper? Er civilstandsfordelingen den samme for de forskellige niveauer af koffein-konsumption? Det er det samme spørgsmål, og det samme som: Er der uafhængighed i tabellen? Er inddelingen af de 3888 kvinder efter de to kriterier uafhængige? October 2008: Kategoriske data 50

R C-tabeller: udregninger χ 2 -test ved sammenligning af O, observerede, og E, forventede v.h.a. Pearsons s χ 2 : χ 2 P = (O E) 2 E χ 2 ((r 1) (c 1)) October 2008: Kategoriske data 51

R C-tabeller: udregninger i SAS data cm ; input civ $ kaf $ antal ; cards ; Married 0 652 DivWid 0 36 Single 0 218 Married 1-150 1537 DivWid 1-150 46 Single 1-150 327 Married 151-300 598 DivWid 151-300 38 Single 151-300 106 Married >300 242 DivWid >300 21 Single >300 67 ; run ; October 2008: Kategoriske data 52

proc freq data = cm ; weight antal ; table kaf * civ / chisq expected norow nocol nopercent ; table kaf * civ / nopercent ; run ; October 2008: Kategoriske data 53

Table of civ by kaf civ kaf Frequency Expected 0 1-150 151-300 >300 Total --------- -------- -------- -------- -------- DivWid 36 46 38 21 141 32.856 69.267 26.909 11.968 --------- -------- -------- -------- -------- Married 652 1537 598 242 3029 705.83 1488 578.07 257.09 --------- -------- -------- -------- -------- Single 218 327 106 67 718 167.31 352.72 137.03 60.941 --------- -------- -------- -------- -------- Total 906 1910 742 330 3888 October 2008: Kategoriske data 54

Statistics for Table of kaf by civ Statistic DF Value Prob ------------------------------------------------------ Chi-Square 6 51.6556 <.0001 Likelihood Ratio Chi-Square 6 50.2965 <.0001 Mantel-Haenszel Chi-Square 1 15.8169 <.0001 Phi Coefficient 0.1153 Contingency Coefficient 0.1145 Cramer s V 0.0815 Sample Size = 3888 October 2008: Kategoriske data 55

Uafhængighedstest hvad kan de bruges til? Man får en P-værdi. Signifikant test: Beskriv den observerede afhængighed teststørrelsen siger ikke noget om hvordan afhængigheden ser ud. Beskriv tabellen med procenter etc. Ikke signifikant test: Teststørrelsen siger ikke nødvendigvis at uafhængigheden er fuldstændig. Beskriv tabellen med procenter etc. October 2008: Kategoriske data 56

Table of civ by kaf civ kaf Frequency Row Pct Col Pct 0 1-150 151-300 >300 Total --------- -------- -------- -------- -------- DivWid 36 46 38 21 141 25.53 32.62 26.95 14.89 3.97 2.41 5.12 6.36 --------- -------- -------- -------- -------- Married 652 1537 598 242 3029 21.53 50.74 19.74 7.99 71.96 80.47 80.59 73.33 --------- -------- -------- -------- -------- Single 218 327 106 67 718 30.36 45.54 14.76 9.33 24.06 17.12 14.29 20.30 --------- -------- -------- -------- -------- Total 906 1910 742 330 3888 October 2008: Kategoriske data 57

Antal fra tabeller 0 500 1500 2500 0 500 1000 1500 Married DivWid Single 0 1 150 151 300 >300 0 200 600 1000 1400 0 200 600 1000 1400 Married DivWid Single 0 1 150 151 300 >300 October 2008: Kategoriske data 58

Procenter fra tabeller 0 20 40 60 80 100 0 20 40 60 80 100 Married DivWid Single 0 1 150 151 300 >300 0 10 20 30 40 50 0 20 40 60 80 Married DivWid Single 0 1 150 151 300 >300 October 2008: Kategoriske data 59

Procenter fra tabeller med SAS goptions hsize=10cm vsize=10cm ; proc gchart data=cm; vbar civ / sumvar=antal subgroup=kaf ; run; October 2008: Kategoriske data 60

proc freq data=cm ; weight antal ; table civ * kaf / out = ud outpct ; run ; proc print data= ud ; run ; civ kaf... PCT_ROW PCT_COL DivWid 0... 25.5319 3.9735 DivWid 1-150... 32.6241 2.4084 DivWid 151-300... 26.9504 5.1213 DivWid >300... 14.8936 6.3636 Married 0... 21.5253 71.9647 Married 1-150... 50.7428 80.4712 Married 151-300... 19.7425 80.5930 Married >300... 7.9894 73.3333 Single 0... 30.3621 24.0618 Single 1-150... 45.5432 17.1204 Single 151-300... 14.7632 14.2857 Single >300... 9.3315 20.3030 proc gchart data=ud; vbar civ / sumvar=pct_row subgroup=kaf; label pct_row="%" ; run; October 2008: Kategoriske data 61

2 k-tabel med ordnede kategorier Skonummer CS < 4 4 4.5 5 5.5 6 Ialt Ja 5 7 6 7 8 10 43 Nej 17 28 36 41 46 140 308 Ialt 22 35 42 48 54 150 351 χ 2 test for uafhængighed: 9.28 med 5 frihedsgrader; P = 0.098. Konklusion: Ingen sammenhæng! October 2008: Kategoriske data 62

Table of sko by cs sko cs Frequency N Y Total --------- -------- -------- 3.5 17 5 22 --------- -------- -------- 4 28 7 35 --------- -------- -------- 4.5 36 6 42 --------- -------- -------- 5 41 7 48 --------- -------- -------- 5.5 46 8 54 --------- -------- -------- 6 140 10 150 --------- -------- -------- Total 308 43 351 Statistic DF Value Prob ---------------------------------------- Chi-Square 5 9.2874 0.0981 October 2008: Kategoriske data 63

Kejsersnit som funktion af skonummer. P(kejsersnit) 0.00 0.05 0.10 0.15 0.20 0.25 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 Skonummer October 2008: Kategoriske data 64

Trend test Regression af p i = P {CS} på skonummer, s i : p i = α + βs i Estimer α og β (afskæring og hældning). Test om hældningen er 0. Kejsersnitseksempel: χ 2 trend = 8.023 P = 0.0046 October 2008: Kategoriske data 65

Trend test SAS proc freq data = a ; table sko * cs / nopercent nocol trend ; run ; Table of sko by cs sko cs Frequency Row Pct N Y Total --------- -------- -------- 3.5 17 5 22 77.27 22.73 --------- -------- -------- 4 28 7 35 80.00 20.00 --------- -------- -------- 4.5 36 6 42 85.71 14.29 --------- -------- -------- 5 41 7 48 October 2008: Kategoriske data 66

85.42 14.58 --------- -------- -------- 5.5 46 8 54 85.19 14.81 --------- -------- -------- 6 140 10 150 93.33 6.67 --------- -------- -------- Total 308 43 351 Statistics for Table of sko by cs Cochran-Armitage Trend Test -------------------------- Statistic (Z) 2.8326 One-sided Pr > Z 0.0023 Two-sided Pr > Z 0.0046 Sample Size = 351 Bemærk at 2.8326 2 = 8.0236. Dette er χ 2 -testet med 1 d.f. October 2008: Kategoriske data 67

Trend test forudsætninger Forudsætningen er at data faktisk er velbeskrevet ved en ret linje. Opdeling af χ 2 -testet i test for linearitet og test for trend: χ 2 total (5) = χ2 lin (4) + χ2 trend (1) χ 2 : 9.29 = 1.27 + 8.02 f: 5 = 4 + 1 p: 0.098 0.868 0.005 Det samlede test skjuler en signifikant trend. October 2008: Kategoriske data 68

Testet for linearitet bidrager med lidt til teststørrelsen, men med mange frihedsgrader. Husk altid at udregne test for linearitet. Det er jo blot simpel subtraktion. October 2008: Kategoriske data 69

Vigtig forudsætning: Observationerne skal være uafhængige. Hvis der er flere observationer på samme objekt er de enkelte observationer ikke uafhængige. Et ofte forekommende tilfælde af dette er: Parrede data: Samme prøve set af to (eller flere) observatører. Samme prøve målt med to forskellige metoder. To personer fra samme matchede sæt. October 2008: Kategoriske data 70

Parrede data To læger skal stille en pos. / neg. diagnose på de samme patienter: Læge 1 Læge 2 Antal ptt. + + a + b + c d Er der overensstemmelse mellem lægernes diagnose? Er sandsynligheden for en positiv diagnose den samme? October 2008: Kategoriske data 71

Opsummering af data Tabel over antal par af resultater (her patienter): Læge 1 + Læge 2 Andel positive diagnoser: a + c N a + b N + a b c d differens: b c N October 2008: Kategoriske data 72

McNemar s test Læge 2 Læge 1 + + a b c d Hvis de to læger har samme sandsynlighed for positiv diagnose må c b. McNemar s test sammenligner b og c: (b c) 2 b + c χ 2 (1) October 2008: Kategoriske data 73

McNemar s test med kontinuitetskorrektion: OBS: ( b c 1) 2 b + c χ 2 (1) Afhænger kun af b og c. (Diskordante observationer, dvs. observationer hvor lægerne er uenige). Test for ens diagnose-sandsynligheder: P 1 {+} = P 2 {+} ikke test for overensstemmelse. October 2008: Kategoriske data 74

Estimation af differens Læge 1 + Læge 2 + a b a + b c d c + d a + c b + d N ˆp 1 = a + c N ˆp 2 = a + b N October 2008: Kategoriske data 75

Differens mellem sandsynligheder for pos. diagnose: ˆp 2 ˆp 1 = a + b N a + c N s.e.( ˆp 2 ˆp 1 ) = 1 b + c N = b c N (b c)2 N Bruges til at konstruerere approximative konfidensintervaller for p 1 p 2. Men det har ikke noget med sammenligning af de to læger at gøre! October 2008: Kategoriske data 76

Odds-ratio for pos. diagnose mellem lægerne Læge 2 Læge 1 + + a b a + b c d c + d a + c b + d N Odds-ratio (OR) mellem læge 1 og 2: OR = p 1/(1 p 1 ) p 2 /(1 p 2 ) = p 1(1 p 2 ) (1 p 1 )p 2 October 2008: Kategoriske data 77

P {+, } = p 1 (1 p 2 ) c/n P {, +} = (1 p 1 )p 2 b/n OR = P {+, } /P {, +} = c/n b/n = c b s.e.[ln(or)] = 1 b + 1 c Bruges til at konstruerere konfidensintervaller for OR. October 2008: Kategoriske data 78

Eksakte grænser Læge 2 Læge 1 + + a b a + b c d c + d a + c b + d N Betinget af uenighed [dvs. enten (+, ) eller (, +)] er c binom(c + b, θ) Det giver muligheder for eksakte grænser for θ. October 2008: Kategoriske data 79

Differens i antal diskordanser (c b): N(p 1 p 2 ) = (c + b) (θ (1 θ)) p 1 p 2 = c + b (2θ 1) N Forhold mellem antal diskordanser (c/b): OR = p 1(1 p 2 ) (1 p 1 )p 2 = θ 1 θ Eksakte grænser for θ kan umiddelbart oversættes til eksakte grænser for p 1 p 2 hhv. OR. October 2008: Kategoriske data 80

Eksempel: Dyrkning af tuberkelbaciller. Spytprøver fra 50 tuberkulosepatienter dyrkes i substrat A hhv. B. En positiv prøve vil sige at man får vækst af tuberkelbaciller: A B Antal ptt. + + 20 + 12 + 2 16 50 Er substraterne lige effektive, dvs. har de samme sporingssandsynlighed? October 2008: Kategoriske data 81

Tuberkelbaciller (fortsat) Substrat A + Substrat B + 20 2 22 12 16 18 32 18 50 October 2008: Kategoriske data 82

Sporingssandsynlighed for A: p A = 32 50 = 64% 0.64 0.36 95% c.i.: 0.64 ± 1.96 50 = (0.507; 0.773) Sporingssandsynlighed for B: p B = 22 50 = 44% 0.44 0.56 95% c.i.: 0.44 ± 1.96 50 = (0.304; 0.576) October 2008: Kategoriske data 83

Differens mellem sporingssandsynligheder: p A p B = 20% 95% c.i.: 0.20 ± 1.96 1 2 + 12 50 (2 12)2 50 = (0.064; 0.336) McNemar s test: χ 2 (1) = (2 12)2 2 + 12 = 100 14 = 7.14, p = 0.0075 October 2008: Kategoriske data 84

McNemar s test med kontinuitets-korrektion: χ 2 (1) = ( 2 12 1)2 2 + 12 = 81 14 = 5.78, p = 0.0162 October 2008: Kategoriske data 85

McNemars s test i SAS data g ; input A $ B $ antal ; cards ; + + 20 + - 12 - + 2 - + 16 ; run ; proc freq data = g ; weight antal ; table A * b / nopercent agree ; run ; ------------------------------------------------------------ Table of A by B A B Frequency October 2008: Kategoriske data 86

Row Pct Col Pct + - Total --------- -------- -------- + 20 12 32 62.50 37.50 90.91 42.86 --------- -------- -------- - 2 16 18 11.11 88.89 9.09 57.14 --------- -------- -------- Total 22 28 50 Statistics for Table of A by B McNemar s Test ----------------------- Statistic (S) 7.1429 <-- Ingen kontinuitetskorrektion! DF 1 Pr > S 0.0075 Sample Size = 50 October 2008: Kategoriske data 87