Kategoriske data Basal Statistik for medicinske PhD-studerende October 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc
Kategoriske vaiable Dikotom to kategorier: Respons: Ja / Nej Levende / Død Nominal flere kategorier: Selvstændig / Faglært / Ufaglært / Funktionær Blå / Brune / Grå / Grønne Ordinal flere ordnede kategorier: Ingen < Let < Moderat < Svær 0 10 < 11 30 < 31 50 < 51+ October 2008: Kategoriske data 1
Data repræsentation Individer Person Kategori 1 a 2 f 3 c 4 b 5 b 6 d 7 d.. n b Tabel Kategori Antal a 8 b 14 c 4 d 9 e 12 f 3 n October 2008: Kategoriske data 2
100 patienter behandles og respons registreres: ptt. udfald i x i 1 0 2 1 3 0 4 1 5 1.. 100 0 Model for x i og x i nødvendig. { 65 = xi Respons 35 = 100 x i Intet respons October 2008: Kategoriske data 3
Sandsynlighed for at en tilfældigt valgt person responderer: p{respons} = p p{intet respons} = 1 p Personer er ikke ens. Variationen kommer fra den tilfældige udvælgelse af patienter. p er ukendt - en parameter som karakteriserer populationen. Observationer: x responderer, n x responderer ikke. October 2008: Kategoriske data 4
Binomialfordelingen: Sum af uafhængige Bernoulli-variable, med samme sandsynlighed, p: x = # 1-taller = x i binom(n, p) ( ) n Punktsandsynlighed: p{x = x} = p x (1 p) n x x Middelværdi: E(X) = n p Spredning: std(x) = var(x) = n p (1 p) October 2008: Kategoriske data 5
0.0 0.2 0.4 N=5, p=0.1 N=5, p=0.2 N=5, p=0.3 N=5, p=0.5 N=5, p=0.8 N=5, p=0.97 0.0 0.2 0.4 0.6 0 1 2 3 4 5 N=10, p=0.1 0 1 2 3 4 5 N=10, p=0.2 0 1 2 3 4 5 N=10, p=0.3 0 1 2 3 4 5 N=10, p=0.5 0 1 2 3 4 5 N=10, p=0.8 0 1 2 3 4 5 N=10, p=0.97 0.0 0.2 0.4 0.6 0 2 4 6 8 10 N=20, p=0.1 0 2 4 6 8 10 N=20, p=0.2 0 2 4 6 8 10 N=20, p=0.3 0 2 4 6 8 10 N=20, p=0.5 0 2 4 6 8 10 N=20, p=0.8 0 2 4 6 8 10 N=20, p=0.97 0.0 0.2 0.4 0.6 0 5 10 15 20 N=50, p=0.1 0 5 10 15 20 N=50, p=0.2 0 5 10 15 20 N=50, p=0.3 0 5 10 15 20 N=50, p=0.5 0 5 10 15 20 N=50, p=0.8 0 5 10 15 20 N=50, p=0.97 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 0 10 30 50 October 2008: Kategoriske data 6
Estimation i binomialfordelingen: Parameter: p = Pr{ positiv } Observation: x ud af n er positive (succes, død,... ). Estimat: ˆp = x n p(1 p) Spredning af estimat: s.e.(ˆp) = n Approximativt 95% konfidensinterval for p: ˆp ± 1.960 ˆp(1 ˆp) n October 2008: Kategoriske data 7
215 kvinder fra almen praksis. 39 har astmatisk sygdom i familien. p = p{tilfældigt valgt kvinde har astma i familien} = prævalensen af familiær astma ˆp = 39 215 = 0.181 p(1 p) 0.181 0.819 s.e.(ˆp) = = = 0.0263 n 215 95% c.i: 0.181 ± 1.96 0.0263 = (0.130; 0.233) Dvs.: Data er foreneligt med prævalenser i populationen i området 13% 23%. October 2008: Kategoriske data 8
Eksakt konfidensinterval: 0.00 0.02 0.04 0.06 0.08 N=215, p=0.1323 0.00 0.02 0.04 0.06 0.08 N=215, p=0.2395 0 20 40 60 80 100 0 20 40 60 80 100 October 2008: Kategoriske data 9
Eksakt konfidensinterval: 5 ud af 20 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 N=20, p=0.087 0 5 10 15 20 N=20, p=0.06 0.56 % 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 N=20, p=0.491 0 5 10 15 20 N=20, p=0.44 6.60 % ˆp = 5/20 = 0.25 Konfidensinterval: 0.25±1.96 = (0.06; 0.44) 0.25 0.75 20 0 5 10 15 20 0 5 10 15 20 October 2008: Kategoriske data 10
Eksakt konfidens interval for 0 ud af N Den nedre grænse er: p L = 0 Den øvre grænse, p U, skal vælges så ssh. for 0 er 2.5%: p 0 U (1 p U ) N = (1 p U ) N = 0.025 p U = 1 0.025 1/N Eksempel: Observeres 0 ud af 7 bliver den øvre grænse for et eksakt 95% konfidensinterval: p U = 1 0.025 1/7 = 0.410 October 2008: Kategoriske data 11
Konfidensintervaller for p En god approximation til de eksakte konfidensintervaller er 1 : erf = exp ( 1.960/ np(1 p) ) og derefter udregne grænserne: p p + (1 p) erf 1 Denne formel er baseret på en normal-approximation til log-odds, ln(p/(1 p)). October 2008: Kategoriske data 12
F.eks får vi for 5 ud af 20: p = 0.25, erf = exp ( 1.96/ 20 0.25 0.75 ) = 2.75 dvs. et 95% c.i bliver: p = p + (1 p) erf 0.25 0.25 + 0.75 2.75 = (10.8; 47.8)% Traditonelt c.i: (6.0; 44.0)% Eksakt c.i: (8.7, 49.1)% October 2008: Kategoriske data 13
Test H 0 : p = p 0 Hvis nulhypotesen er sand: s.e.(ˆp) = s.e. ( x n) = p0 (1 p 0 ) n z = x/n p 0 p0 (1 p 0 )/n N (0, 1) N (0, 1) er den standardiserede normalfordeling middelværdi 0 og varians 1. October 2008: Kategoriske data 14
Ud af 215 havde 39 astma i familien. Er det foreneligt med en prævalens på 15%? z = 39/215 0.15 0.15 0.85/215 = 1.23 Opslag i tabel giver: p{ z > 1.23} = 21.87% October 2008: Kategoriske data 15
Kontinuitetskorrektion Testsandsynligheden approximeres i normalfordelingen, ved at tage sandsynligheden fra x og udefter. Bedre at tage ssh. fra x + 1 2 (eller x 1 2 ). Det giver den korrigerede teststørrelse: z C = x/n p 0 1/2n p0 (1 p 0 )/n October 2008: Kategoriske data 16
I eksemplet fra før med 39 ud af 215 og p 0 = 0.15: z C = 39/215 0.15 1/(2 215) 0.15 0.85/215 = 1.194, p = 23.26% October 2008: Kategoriske data 17
Antagelser: Forudsætninger for at anvende binomialfordelingen: Observationerne er uafhængige, dvs: Viden om en persons status indeholder ikke information om andres. (Afhængighed kan forekomme hvis personer er i familier, og udfaldet er familiært associeret). Effekt af afhængige observationer: n bliver overvurderet. P-værdi for lille. October 2008: Kategoriske data 18
Observationerne er repræsentative, dvs: Personerne skal repræsentere den population der skal generaliseres til. (Problemer hvis udvælgelsen afhænger af forhold som har med udfaldet at gøre). Effekt af manglende repræsentativitet: Afhænger af den konkrete situation. October 2008: Kategoriske data 19
M Kalani, J Apelqvist, M Blombäck, K Brismar, B Eliasson, JW Eriksson, B Fagrell, A Hamsten, O Torffvit & G Jörneskog: Effect of Dalteparin on Healing of Chronic Foot Ulcers in Diabetic Patients With Peripheral Arterial Occlusive Disease. Diabetes Care 26: 2575-2580, 2003 Ulcer outcome in 85 diabetic patients with PAOD and chronic foot ulcers, randomly assigned to treatment. Dalteparin Placebo Healed 14 9 Improved 15 11 Unchanged 7 9 Impaired 5 5 Amputation 2 8 Total 43 42 Dalteparin Placebo Better 29 20 Worse 14 22 Total 43 42 October 2008: Kategoriske data 20
Sammenligning af 2 grupper Gruppe Resp. 1 2 Ja x 1 x 2 Nej n 1 x 1 n 2 x 2 n 1 n 2 ˆp 1 = x 1 /n 1 ˆp 2 = x 2 /n 2 p 1 (1 p 1 ) s.e.(ˆp 1 ˆp 2 ) = + p 2(1 p 2 ) n 1 n 2 October 2008: Kategoriske data 21
85 diabetes-patienter med fodsår: Dalteparin (Dal) Placebo (Pl) Gruppe Dalterapin Placebo Udfald: Bedre 29 20 Værre 14 22 43 42 ˆp Dal = 29 43 = 67% ˆp Pl = 20 42 = 47% October 2008: Kategoriske data 22
Forskellen mellem sandsynlighederne er andelen af patienter der har glæde af behandlingen: p Dal p Pl ˆp Dal ˆp Pl = 20% s.e.(ˆp Dal ˆp Pl ) = p Dal (1 p Dal ) n Dal + p Pl(1 p Pl ) n Pl = 0.11 95%c.i. : 20% ± 1.96 11% = (0%; 40%) October 2008: Kategoriske data 23
data c ; proc freq data = a ; input resp $ grp $ ; table grp * resp / chisq measures nopercent nocol ; cards ; run ; B Dal B Dal B Dal... B Dal B Dal B Dal W Dal W Dal... data c ; W Dal input resp $ grp $ antal; W Dal cards ; B Pl B Dal 29 B Pl W Dal 14 B Pl B Pl 20 B Pl W Pl 22... ; B Pl run ; W Pl W Pl proc freq data = c ; W Pl table grp * resp / chisq measures nopercent nocol ;... run ; W Pl W Pl W Pl ; run ; October 2008: Kategoriske data 24
Eksempel i SAS Analyst: Indtast data i regnearket som: resp grp count ---------------- B Dal 29 W Dal 14 B Pl 20 W Pl 22 Vælg Statistics Table Analysis. Put responsvariablen, her resp i column. I Tables vælges både row og col percents. October 2008: Kategoriske data 25
Frequency Row Pct Col Pct B W Total --------- -------- -------- Dal 29 14 43 67.44 32.56 59.18 38.89 --------- -------- -------- Pl 20 22 42 47.62 52.38 40.82 61.11 --------- -------- -------- Total 49 36 85... Statistic Value ASE ------------------------------------------------------ Somers D C R 0.1982 0.1051 Somers D R C 0.2029 0.1074 C R = Column response given Row (67.44 47.62 = 19.82) R C = Row response given Column (59.18 38.89 = 20.29) ASE = Asymtotic Standard Error October 2008: Kategoriske data 26
Odds (for respons) i de to grupper er defineret som: odds 1 = p 1 1 p 1 odds 2 = p 2 1 p 2 Odds er forholdet mellem antal responser og non-responser i hver af grupperne. Odds-ratio, OR, er forholdet mellem odds i de to grupper: OR = p 1 1 p 1 / p2 1 p 2 Hvor mange gange større er forholdet mellem response og non-response i gruppe 1 i forhold til gruppe 2. October 2008: Kategoriske data 27
Estimat for OR: ˆ OR = Resp. Gr. 1 Gr. 2 Ja a b Nej c d a + c b + d / a/(a + c) b/(b + d) c/(a + c) d/(b + d) = a / b c d = ad bc Spredning skal udregnes på den naturlige logaritme: s.e.[ln( ˆ OR)] = 1 a + 1 b + 1 c + 1 d October 2008: Kategoriske data 28
Konfidensinterval skal udregnes for den naturlige logaritme og transformeres tilbage: ln( ˆ OR) ± 1.96 s.e.[ln( ˆ OR)] OR ˆ exp(1.96 } {{ s.e.[ln( OR)]) ˆ } error factor Test: ln( ˆ OR) s.e.[ln(or)] N (0, 1) October 2008: Kategoriske data 29
Relativ risiko. RR response = p 1 p 2 Estimat for RR: ˆ RR response = a / b a + c b + d Spredning skal udregnes på den naturlige logaritme: s.e.[ln( ˆ RR response )] = 1 a 1 a + c + 1 b 1 b + d October 2008: Kategoriske data 30
OBS: RR er ikke symmetrisk: RR response 1 RR non-response OBS: OR er symmetrisk: OR response = 1 OR non-response October 2008: Kategoriske data 31
OR og RR fra SAS output The FREQ Procedure Table of grp by resp grp resp Frequency Row Pct B W Total --------- -------- -------- Dal 29 14 43 67.44 32.56 --------- -------- -------- Pl 20 22 42 47.62 52.38 --------- -------- -------- Total 49 36 85 October 2008: Kategoriske data 32
Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Conf. Limits ----------------------------------------------------- Case-Control (Odds Ratio) 2.2786 0.9456 5.4907 Cohort (Col1 Risk) 1.4163 0.9694 2.0692 Cohort (Col2 Risk) 0.6216 0.3703 1.0433 Sample Size = 85 OR = 2.2786 = (29 22)/(20 14) RR B = 1.4163 = (29/43)/(20/42) RR W = 0.6216 = (14/43)/(22/42) 1/0.6216 = 1.6088 1.4163 October 2008: Kategoriske data 33
OR eller RR Mortalitet efter appendictomi Gruppe Udfald Hospital A Hospital B Død 2 3 Overlever 834 733 836 736 / RR + = 2 3 836 736 = 0.59 OR + = 2 733 834 3 = 0.59 / RR = 834 733 836 736 = 1.00 OR = 834 3 2 733 = 1.71 October 2008: Kategoriske data 34
OR eller RR 1-års mortalitet efter lungecancer: Gruppe Udfald Hospital A Hospital B Død 93 87 Overlever 5 3 98 90 / RR + = 93 87 98 90 = 0.98 OR + = 93 3 5 87 = 0.64 RR = 5 98/ 3 90 = 1.53 OR = 5 87 93 3 = 1.56 October 2008: Kategoriske data 35
Test: p 1 = p 2 Gruppe Respons 1 2 Ja x 1 x 2 Nej n 1 x 1 n 2 x 2 n 1 n 2 ˆp 1 = x 1 /n 1 ˆp 2 = x 2 /n 2 Under nulhypotesen, dvs. hvis p 1 = p 2 = p er sand: ˆp = x 1 + x 2 n 1 + n 2 October 2008: Kategoriske data 36
dvs.: s.e.(ˆp 1 ˆp 2 ) = p(1 p) n 1 + p(1 p) n 2 = ( 1 n 1 + 1 n 2 ) p(1 p) Teststørrelsen bliver derfor: z = ˆp 1 ˆp 2 s.e.(ˆp 1 ˆp 2 ) N (0, 1) October 2008: Kategoriske data 37
Test: OR = 1 eller RR = 1 Samme hypotese som p 1 = p 2! Observeret, O Gruppe 1 2 J a b a + b N c d c + d Forventet, E Gruppe 1 2 (a+b)(a+c) N (c+d)(a+c) N (a+b)(b+d) N (c+d)(b+d) N a + c b + d N a + c b + d χ 2 P = (O E) 2 E = z 2 October 2008: Kategoriske data 38
SAS output fra Proc Freq Statistics for Table of grp by resp Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 3.4195 0.0644 Likelihood Ratio Chi-Square 1 3.4434 0.0635 Continuity Adj. Chi-Square 1 2.6558 0.1032 Mantel-Haenszel Chi-Square 1 3.3793 0.0660 Phi Coefficient 0.2006 Contingency Coefficient 0.1967 Cramer s V 0.2006 October 2008: Kategoriske data 39
Oversigt over 2 2-tabellen Gruppe Respons 1 2 Ja a b a + b Nej c d c + d a + c b + d N Model: ˆp 1 = a/(a + c) ˆp 2 = b/(b + d) a bin(a + c, p 1 ) b bin(b + d, p 2 ) October 2008: Kategoriske data 40
Tre forskelige mål for afhængighed: p 1 p 2 s.e.(p 1 p 2 ) = p1 (1 p 1 ) a + c + p 2(1 p 2 ) b + d OR = p 1/(1 p 1 p 2 /(1 p 2 ) RR = p 1 p 2 s.e.(ln[rr]) = Én nulhypotese H 0 : s.e.(ln[or]) = 1 a + 1 b + 1 c + 1 d 1 a 1 a + c + 1 b 1 b + d p 1 = p 2 p 1 p 2 = 0 OR = 1 RR = 1 Forudsætning: Alle forventede tal > 5. October 2008: Kategoriske data 41
Oversigt over 2 2-tabellen Proc Freq Statistics for Table of grp by resp Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 3.4195 0.0644 Likelihood Ratio Chi-Square 1 3.4434 0.0635 Continuity Adj. Chi-Square 1 2.6558 0.1032 Statistic Value ASE ------------------------------------------------------ Somers D C R 0.1982 0.1051 Somers D R C 0.2029 0.1074 October 2008: Kategoriske data 42
Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Conf. Limits ------------------------------------------------------ Case-Control (Odds Ratio) 2.2786 0.9456 5.4907 Cohort (Col1 Risk) 1.4163 0.9694 2.0692 Cohort (Col2 Risk) 0.6216 0.3703 1.0433 Sample Size = 85 October 2008: Kategoriske data 43
Tynde tabeller Hvis nogen forventede tal er mindre end 5, f.eks. (DGA, tabel 10.14): Obs. (O) Exp. (E) Delinquent Delinquent Spectactles Yes No Total Yes No Yes 1 5 6 3.38 2.62 No 8 2 10 5.62 4.38 Total 9 7 16 9 7 October 2008: Kategoriske data 44
Fisher s eksakte test: Fasthold marginalerne. P-værdien er sandsynligheden for: den observerede tabel samt mere ekstreme tabeller: Ensidet test: Tabeller med mere skæv fordeling mellem grupperne end den observerede, i samme retning væk fra uafhængighed. Tosidet test: Alle tabeller med mindre sandsynlighed end den observerede. October 2008: Kategoriske data 45
Spectactle Juvenile Non- cum. wearers delinquents delinquents Total ssh. ssh. Yes 0 6 6 No 9 1 10 0.00087 0.00087 Yes 1 5 6 No 8 2 10 0.02360 0.02448 Yes 2 4 6 No 7 3 10 0.15734 0.18182 Yes 3 3 6 No 6 4 10 0.36713 0.54895 Yes 4 2 6 No 5 5 10 0.33042 0.87937 Yes 5 1 6 No 4 6 10 0.11014 0.98951 Yes 6 0 6 No 3 7 10 0.01049 1.00000 Total 9 7 16 October 2008: Kategoriske data 46
Eksempel The FREQ Procedure Table of spect by del spect del Frequency Row Pct Col Pct J N Total --------- -------- -------- N 8 2 10 80.00 20.00 88.89 28.57 --------- -------- -------- Y 1 5 6 16.67 83.33 11.11 71.43 --------- -------- -------- Total 9 7 16 October 2008: Kategoriske data 47
Statistics for Table of spect by del Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 6.1122 0.0134 Likelihood Ratio Chi-Square 1 6.5153 0.0107 Continuity Adj. Chi-Square 1 3.8095 0.0510 WARNING: 75% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Fisher s Exact Test ---------------------------------- Cell (1,1) Frequency (F) 8 Left-sided Pr <= F 0.9991 Right-sided Pr >= F 0.0245 Table Probability (P) 0.0236 Two-sided Pr <= P 0.0350 October 2008: Kategoriske data 48
R C-tabeller Caffeine consumption (mg/day) 0 1-150 151-300 >300 Total Married 652 1537 598 242 3029 Divorced 36 46 38 21 141 Single 218 327 106 67 718 906 1910 742 330 3888 October 2008: Kategoriske data 49
Er fordelingen af koffein-konsumption den samme i de forskellige civilstandsgrupper? Er civilstandsfordelingen den samme for de forskellige niveauer af koffein-konsumption? Det er det samme spørgsmål, og det samme som: Er der uafhængighed i tabellen? Er inddelingen af de 3888 kvinder efter de to kriterier uafhængige? October 2008: Kategoriske data 50
R C-tabeller: udregninger χ 2 -test ved sammenligning af O, observerede, og E, forventede v.h.a. Pearsons s χ 2 : χ 2 P = (O E) 2 E χ 2 ((r 1) (c 1)) October 2008: Kategoriske data 51
R C-tabeller: udregninger i SAS data cm ; input civ $ kaf $ antal ; cards ; Married 0 652 DivWid 0 36 Single 0 218 Married 1-150 1537 DivWid 1-150 46 Single 1-150 327 Married 151-300 598 DivWid 151-300 38 Single 151-300 106 Married >300 242 DivWid >300 21 Single >300 67 ; run ; October 2008: Kategoriske data 52
proc freq data = cm ; weight antal ; table kaf * civ / chisq expected norow nocol nopercent ; table kaf * civ / nopercent ; run ; October 2008: Kategoriske data 53
Table of civ by kaf civ kaf Frequency Expected 0 1-150 151-300 >300 Total --------- -------- -------- -------- -------- DivWid 36 46 38 21 141 32.856 69.267 26.909 11.968 --------- -------- -------- -------- -------- Married 652 1537 598 242 3029 705.83 1488 578.07 257.09 --------- -------- -------- -------- -------- Single 218 327 106 67 718 167.31 352.72 137.03 60.941 --------- -------- -------- -------- -------- Total 906 1910 742 330 3888 October 2008: Kategoriske data 54
Statistics for Table of kaf by civ Statistic DF Value Prob ------------------------------------------------------ Chi-Square 6 51.6556 <.0001 Likelihood Ratio Chi-Square 6 50.2965 <.0001 Mantel-Haenszel Chi-Square 1 15.8169 <.0001 Phi Coefficient 0.1153 Contingency Coefficient 0.1145 Cramer s V 0.0815 Sample Size = 3888 October 2008: Kategoriske data 55
Uafhængighedstest hvad kan de bruges til? Man får en P-værdi. Signifikant test: Beskriv den observerede afhængighed teststørrelsen siger ikke noget om hvordan afhængigheden ser ud. Beskriv tabellen med procenter etc. Ikke signifikant test: Teststørrelsen siger ikke nødvendigvis at uafhængigheden er fuldstændig. Beskriv tabellen med procenter etc. October 2008: Kategoriske data 56
Table of civ by kaf civ kaf Frequency Row Pct Col Pct 0 1-150 151-300 >300 Total --------- -------- -------- -------- -------- DivWid 36 46 38 21 141 25.53 32.62 26.95 14.89 3.97 2.41 5.12 6.36 --------- -------- -------- -------- -------- Married 652 1537 598 242 3029 21.53 50.74 19.74 7.99 71.96 80.47 80.59 73.33 --------- -------- -------- -------- -------- Single 218 327 106 67 718 30.36 45.54 14.76 9.33 24.06 17.12 14.29 20.30 --------- -------- -------- -------- -------- Total 906 1910 742 330 3888 October 2008: Kategoriske data 57
Antal fra tabeller 0 500 1500 2500 0 500 1000 1500 Married DivWid Single 0 1 150 151 300 >300 0 200 600 1000 1400 0 200 600 1000 1400 Married DivWid Single 0 1 150 151 300 >300 October 2008: Kategoriske data 58
Procenter fra tabeller 0 20 40 60 80 100 0 20 40 60 80 100 Married DivWid Single 0 1 150 151 300 >300 0 10 20 30 40 50 0 20 40 60 80 Married DivWid Single 0 1 150 151 300 >300 October 2008: Kategoriske data 59
Procenter fra tabeller med SAS goptions hsize=10cm vsize=10cm ; proc gchart data=cm; vbar civ / sumvar=antal subgroup=kaf ; run; October 2008: Kategoriske data 60
proc freq data=cm ; weight antal ; table civ * kaf / out = ud outpct ; run ; proc print data= ud ; run ; civ kaf... PCT_ROW PCT_COL DivWid 0... 25.5319 3.9735 DivWid 1-150... 32.6241 2.4084 DivWid 151-300... 26.9504 5.1213 DivWid >300... 14.8936 6.3636 Married 0... 21.5253 71.9647 Married 1-150... 50.7428 80.4712 Married 151-300... 19.7425 80.5930 Married >300... 7.9894 73.3333 Single 0... 30.3621 24.0618 Single 1-150... 45.5432 17.1204 Single 151-300... 14.7632 14.2857 Single >300... 9.3315 20.3030 proc gchart data=ud; vbar civ / sumvar=pct_row subgroup=kaf; label pct_row="%" ; run; October 2008: Kategoriske data 61
2 k-tabel med ordnede kategorier Skonummer CS < 4 4 4.5 5 5.5 6 Ialt Ja 5 7 6 7 8 10 43 Nej 17 28 36 41 46 140 308 Ialt 22 35 42 48 54 150 351 χ 2 test for uafhængighed: 9.28 med 5 frihedsgrader; P = 0.098. Konklusion: Ingen sammenhæng! October 2008: Kategoriske data 62
Table of sko by cs sko cs Frequency N Y Total --------- -------- -------- 3.5 17 5 22 --------- -------- -------- 4 28 7 35 --------- -------- -------- 4.5 36 6 42 --------- -------- -------- 5 41 7 48 --------- -------- -------- 5.5 46 8 54 --------- -------- -------- 6 140 10 150 --------- -------- -------- Total 308 43 351 Statistic DF Value Prob ---------------------------------------- Chi-Square 5 9.2874 0.0981 October 2008: Kategoriske data 63
Kejsersnit som funktion af skonummer. P(kejsersnit) 0.00 0.05 0.10 0.15 0.20 0.25 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 Skonummer October 2008: Kategoriske data 64
Trend test Regression af p i = P {CS} på skonummer, s i : p i = α + βs i Estimer α og β (afskæring og hældning). Test om hældningen er 0. Kejsersnitseksempel: χ 2 trend = 8.023 P = 0.0046 October 2008: Kategoriske data 65
Trend test SAS proc freq data = a ; table sko * cs / nopercent nocol trend ; run ; Table of sko by cs sko cs Frequency Row Pct N Y Total --------- -------- -------- 3.5 17 5 22 77.27 22.73 --------- -------- -------- 4 28 7 35 80.00 20.00 --------- -------- -------- 4.5 36 6 42 85.71 14.29 --------- -------- -------- 5 41 7 48 October 2008: Kategoriske data 66
85.42 14.58 --------- -------- -------- 5.5 46 8 54 85.19 14.81 --------- -------- -------- 6 140 10 150 93.33 6.67 --------- -------- -------- Total 308 43 351 Statistics for Table of sko by cs Cochran-Armitage Trend Test -------------------------- Statistic (Z) 2.8326 One-sided Pr > Z 0.0023 Two-sided Pr > Z 0.0046 Sample Size = 351 Bemærk at 2.8326 2 = 8.0236. Dette er χ 2 -testet med 1 d.f. October 2008: Kategoriske data 67
Trend test forudsætninger Forudsætningen er at data faktisk er velbeskrevet ved en ret linje. Opdeling af χ 2 -testet i test for linearitet og test for trend: χ 2 total (5) = χ2 lin (4) + χ2 trend (1) χ 2 : 9.29 = 1.27 + 8.02 f: 5 = 4 + 1 p: 0.098 0.868 0.005 Det samlede test skjuler en signifikant trend. October 2008: Kategoriske data 68
Testet for linearitet bidrager med lidt til teststørrelsen, men med mange frihedsgrader. Husk altid at udregne test for linearitet. Det er jo blot simpel subtraktion. October 2008: Kategoriske data 69
Vigtig forudsætning: Observationerne skal være uafhængige. Hvis der er flere observationer på samme objekt er de enkelte observationer ikke uafhængige. Et ofte forekommende tilfælde af dette er: Parrede data: Samme prøve set af to (eller flere) observatører. Samme prøve målt med to forskellige metoder. To personer fra samme matchede sæt. October 2008: Kategoriske data 70
Parrede data To læger skal stille en pos. / neg. diagnose på de samme patienter: Læge 1 Læge 2 Antal ptt. + + a + b + c d Er der overensstemmelse mellem lægernes diagnose? Er sandsynligheden for en positiv diagnose den samme? October 2008: Kategoriske data 71
Opsummering af data Tabel over antal par af resultater (her patienter): Læge 1 + Læge 2 Andel positive diagnoser: a + c N a + b N + a b c d differens: b c N October 2008: Kategoriske data 72
McNemar s test Læge 2 Læge 1 + + a b c d Hvis de to læger har samme sandsynlighed for positiv diagnose må c b. McNemar s test sammenligner b og c: (b c) 2 b + c χ 2 (1) October 2008: Kategoriske data 73
McNemar s test med kontinuitetskorrektion: OBS: ( b c 1) 2 b + c χ 2 (1) Afhænger kun af b og c. (Diskordante observationer, dvs. observationer hvor lægerne er uenige). Test for ens diagnose-sandsynligheder: P 1 {+} = P 2 {+} ikke test for overensstemmelse. October 2008: Kategoriske data 74
Estimation af differens Læge 1 + Læge 2 + a b a + b c d c + d a + c b + d N ˆp 1 = a + c N ˆp 2 = a + b N October 2008: Kategoriske data 75
Differens mellem sandsynligheder for pos. diagnose: ˆp 2 ˆp 1 = a + b N a + c N s.e.( ˆp 2 ˆp 1 ) = 1 b + c N = b c N (b c)2 N Bruges til at konstruerere approximative konfidensintervaller for p 1 p 2. Men det har ikke noget med sammenligning af de to læger at gøre! October 2008: Kategoriske data 76
Odds-ratio for pos. diagnose mellem lægerne Læge 2 Læge 1 + + a b a + b c d c + d a + c b + d N Odds-ratio (OR) mellem læge 1 og 2: OR = p 1/(1 p 1 ) p 2 /(1 p 2 ) = p 1(1 p 2 ) (1 p 1 )p 2 October 2008: Kategoriske data 77
P {+, } = p 1 (1 p 2 ) c/n P {, +} = (1 p 1 )p 2 b/n OR = P {+, } /P {, +} = c/n b/n = c b s.e.[ln(or)] = 1 b + 1 c Bruges til at konstruerere konfidensintervaller for OR. October 2008: Kategoriske data 78
Eksakte grænser Læge 2 Læge 1 + + a b a + b c d c + d a + c b + d N Betinget af uenighed [dvs. enten (+, ) eller (, +)] er c binom(c + b, θ) Det giver muligheder for eksakte grænser for θ. October 2008: Kategoriske data 79
Differens i antal diskordanser (c b): N(p 1 p 2 ) = (c + b) (θ (1 θ)) p 1 p 2 = c + b (2θ 1) N Forhold mellem antal diskordanser (c/b): OR = p 1(1 p 2 ) (1 p 1 )p 2 = θ 1 θ Eksakte grænser for θ kan umiddelbart oversættes til eksakte grænser for p 1 p 2 hhv. OR. October 2008: Kategoriske data 80
Eksempel: Dyrkning af tuberkelbaciller. Spytprøver fra 50 tuberkulosepatienter dyrkes i substrat A hhv. B. En positiv prøve vil sige at man får vækst af tuberkelbaciller: A B Antal ptt. + + 20 + 12 + 2 16 50 Er substraterne lige effektive, dvs. har de samme sporingssandsynlighed? October 2008: Kategoriske data 81
Tuberkelbaciller (fortsat) Substrat A + Substrat B + 20 2 22 12 16 18 32 18 50 October 2008: Kategoriske data 82
Sporingssandsynlighed for A: p A = 32 50 = 64% 0.64 0.36 95% c.i.: 0.64 ± 1.96 50 = (0.507; 0.773) Sporingssandsynlighed for B: p B = 22 50 = 44% 0.44 0.56 95% c.i.: 0.44 ± 1.96 50 = (0.304; 0.576) October 2008: Kategoriske data 83
Differens mellem sporingssandsynligheder: p A p B = 20% 95% c.i.: 0.20 ± 1.96 1 2 + 12 50 (2 12)2 50 = (0.064; 0.336) McNemar s test: χ 2 (1) = (2 12)2 2 + 12 = 100 14 = 7.14, p = 0.0075 October 2008: Kategoriske data 84
McNemar s test med kontinuitets-korrektion: χ 2 (1) = ( 2 12 1)2 2 + 12 = 81 14 = 5.78, p = 0.0162 October 2008: Kategoriske data 85
McNemars s test i SAS data g ; input A $ B $ antal ; cards ; + + 20 + - 12 - + 2 - + 16 ; run ; proc freq data = g ; weight antal ; table A * b / nopercent agree ; run ; ------------------------------------------------------------ Table of A by B A B Frequency October 2008: Kategoriske data 86
Row Pct Col Pct + - Total --------- -------- -------- + 20 12 32 62.50 37.50 90.91 42.86 --------- -------- -------- - 2 16 18 11.11 88.89 9.09 57.14 --------- -------- -------- Total 22 28 50 Statistics for Table of A by B McNemar s Test ----------------------- Statistic (S) 7.1429 <-- Ingen kontinuitetskorrektion! DF 1 Pr > S 0.0075 Sample Size = 50 October 2008: Kategoriske data 87