Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%. Under denne antagelser er sandsynligheden for at få 10 konsekutive operationer uden komplikationer: (1 0.2) 10 = 0.107 Disse 10.7% er netop p-værdien for nulhypotesen; det er jo sandsynligheden for at få det samme (0) som det observerede eller noget der er mindre (men det er der i dette tilfælde ikke noget der er). Hvis man i stedet for 10 patienter har opereret k, bliver p-værdien (1 0.2) k. Hvis denne denne skal være mindre end 5% skal man blot løse: (1 0.2) k < 0.05 k ln(0.8) < ln(0.05) k > ln(0.05)/ ln(0.8) = 13.42 dvs. man skal have mindst 14 konsekutive operationer uden komplikationer før man kan sige at man har en signifikant lavere komplikationsfrekvens end 20%. Ovenstående er imidlertid ensidet test; vi har implicit antaget at alternativet alene er at den ny behandling vil være bedre end den gamle. Et tosidet test ville svare til at vi skulle bruge 0.025 i stedet for 0.05; dvs. k > ln(0.025)/ ln(0.8) = 16.53 altså mindst 17 patienter opereret konsekutivt uden komplikationer. Dette er også i overensstemmelse med udregningen af 95% konfidensintervallet for komplikationsssandsynligheden jfr. transparenterne: p U = 1 0.025 1/k < 0.20 0.80 < 0.025 1/k ln(0.80) < 1 k ln(0.025) der giver den samme løsning som ovenfor. Opgave 10.3: DGA, s. 273 Der var 2 ud af 73 placebo-randomiserede der blev udskrevet, dvs. 71 der ikke blev, og tilsvarende 20 hhv. 47 ud af de 67 behandlede der blev hhv. ikke blev udskrevet: Gruppe Respons Placebo Prednisolone Udskrevet 2 20 Hospitaliseret 71 47 73 67 χ 2 -tetstet for uafhængighed kan udregnes v.h.a. chisq.test. Af hensyn til udreninge af RR er det vigtigt at man skriver responsvariablen sidst i table-specifikationen: data pred ; input resp $ treat $ no ; cards ; disc pred 20 disc plac 2 hosp pred 47 hosp plac 71 ;
2 OPGAVE 10.3: DGA, S. 273 proc freq data = pred ; weight no ; table treat * resp / chisq measures nopercent expected ; ------ The FREQ Procedure Table of treat by resp treat resp Frequency Expected Row Pct Col Pct disc hosp Total plac 2 71 73 11.471 61.529 2.74 97.26 9.09 60.17 pred 20 47 67 10.529 56.471 29.85 70.15 90.91 39.83 Total 22 118 140 Statistics for Table of treat by resp Statistic DF Value Prob Chi-Square 1 19.3871 <.0001 Likelihood Ratio Chi-Square 1 21.7528 <.0001 Continuity Adj. Chi-Square 1 17.3942 <.0001 Mantel-Haenszel Chi-Square 1 19.2486 <.0001 Phi Coefficient -0.3721 Contingency Coefficient 0.3488 Cramer s V -0.3721 Der er altså en stærkt signifikant forskel på de to behandlinger. Når man skal vurdere hvorvidt det er nødvendigt at bruge Fisher s eksakte test, skal man se om de forventede værdier nogen steder er mindre end 5. De forventede værdier kan man faktisk få ud af proc freq ved anvendelse af expected option til table. Alle de forventede værdier er alle langt større end 5 så der intet til hinder for at bruge det sædvanlige χ 2 -test. (Det der har forvirret forfatterne er selvfølgelig, at et af de observerede tal er mindre end 5). Sikkerhedsintervallerne for udskrivningssandsynlighederne er lidt tossede, idet de er baseret på estimatet plus minus 2 gange spredningen, uanset at de nedre grænser derved falder under 0. For placebogruppen kunne det være relevant at lave et eksakt konfidensinterval som ville blive (0.00333;0.09549): Man ser at udskrivningssandsynlighederne er hhv. 2.7% og 29.9%, dvs. med en forskel på 27.1%. Spredningen på denne forskel finder man under Somer s D C R: Statistic Value ASE Somers D C R -0.2711 0.0591 Somers D R C -0.5108 0.0761 Konfidensintervallet for differensen er således, dvs. 27.11 ± 1.96 5.91 = (15.5%; 38.7%). Odds-ratio og relativ risiko aflæses under Estimates of relative risk: Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------- Case-Control (Odds Ratio) 0.0662 0.0148 0.2965 Cohort (Col1 Risk) 0.0918 0.0223 0.3779 Cohort (Col2 Risk) 1.3865 1.1804 1.6285
Løsninger til øvelser i kategoriske data, oktober 2008 3 Odds-ratio for udskrivning mellem placebo og prednisolone er altså 0.0662 med et 95% konfidensinterval på (0.0148;0.2965). Den omvendte odds-ratio fås ved at tage den inverse, den bliver 15.1 (3.37;67.7). Man kan også få SAS til at ordne den sag: Hvis man sørger for at den første observation i datasættet er med treat=pred (som der er sørget for her), så kan man ved at skrive: proc freq data=pred order=data ;... få tabellerne vendt rigtigt: Table of treat by resp treat resp Frequency Expected Row Pct Col Pct disc hosp Total pred 20 47 67 10.529 56.471 29.85 70.15 90.91 39.83 plac 2 71 73 11.471 61.529 2.74 97.26 9.09 60.17 Total 22 118 140 Statistic Value AS Somers D C R 0.2711 0.0591 Somers D R C 0.5108 0.0761 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------- Case-Control (Odds Ratio) 15.1064 3.3722 67.6714 Cohort (Col1 Risk) 10.8955 2.6462 44.8611 Cohort (Col2 Risk) 0.7213 0.6141 0.8471 Den relative risiko for udskrivning er 10.9 med et 95% c.i. på (2.65;44.7). Den relative risiko for hospitalisering er 0.72 med med et 95% konfidensinterval på (0.61,0.85). De inverse af disse tal, 1.39 (1.18;1.63) dvs. den relative risiko for hospitalisering mellem placebo- og prednisolol-grupperne, afviger betragteligt fra både odds-ratio og relativ risiko for udskrivning. Bemærk at den relative risiko for hospitalisering har et konfidensinterval der er meget snævrere end intervallerne for OR og den relative risiko for udskrivning. Det skyldes i det væsentlige 2-tallet som for OR og RR for udskrivning er afgørende for nøjagtigheden af parameteren. Sammenfattende kan man sige: Andelen af patienter der profiterer fra prednisolone er 27%. Et 95% konfidensintervallet for denne andel er (16%; 39%). Forholdet mellem antallet af patienter der udskrives hhv. hospitaliseres er 15 gange større i prednisolone-gruppen end i placebogruppen. Et konfidensinterval for dette forhold er fra 3 til 68 gange. Den relative risiko (chance) for at blive udskrevet for prednisolone-behandlede i forhold til placebobehandlede er 11. Et 95% konfidensinterval for denne relative risiko er fra 2.6 til 45. Den relative risiko for at blive hospitaliseret for placebo-behandlede i forhold til prednisolonebehandlede er 1.4. Et 95% konfidensinterval for denne relative risiko er fra 1.2 til 1.6. Der signifikant forskel på placebo- og prednisolone-behandling, χ 2 = 17, p=0.0000.
4 OPGAVE 10.4, DGA, S. 274 Opgave 10.4, DGA, s. 274 De to grupper (drenge hhv. piger) skal sammenlignes m.h.t. fordelingen af antal timer i sengen pr. døgn. Den naturlige sammenligning vil basere sig på den kumulative fordeling for hver af de to grupper: data sov ; input timer n sex $ ; cards ; 7 88 D 7.5 109 D 8 210 D 8.5 324 D 9 359 D 9.5 313 D 10 182 D 10.5 85 D 7 92 P 7.5 108 P 8 217 P 8.5 349 P 9 436 P 9.5 334 P 10 198 P 10.5 65 P ; proc freq data = sov ; weight n ; table timer * sex / chisq trend cumcol nopercent norow ; ------ Table of timer by sex timer sex Frequency Col Pct Cumulative Col% D P Total 7 88 92 180 5.27 5.11 5.27 5.11 5.19 7.5 109 108 217 6.53 6.00 11.80 11.12 11.44 8 210 217 427 12.57 12.06 24.37 23.18 23.75 8.5 324 349 673 19.40 19.40 43.77 42.58 43.15 9 359 436 795 21.50 24.24 65.27 66.81 66.07 9.5 313 334 647 18.74 18.57 84.01 85.38 84.72 10 182 198 380 10.90 11.01 94.91 96.39 95.68
Løsninger til øvelser i kategoriske data, oktober 2008 5 10.5 85 65 150 5.09 3.61 100.00 100.00 100.00 Total 1670 1799 3469 Hvis man sammenligner tallene i tabellen under cumulative col %, ser men at der ikke er megen forskel på søvnfordelingen mellem drenge og piger. Man kunne anvende et χ 2 -test for uafhængighed i tabellen: Statistics for Table of timer by sex Statistic DF Value Prob Chi-Square 7 7.8305 0.3478 Likelihood Ratio Chi-Square 7 7.8388 0.3470 Mantel-Haenszel Chi-Square 1 0.0396 0.8424 Phi Coefficient 0.0475 Contingency Coefficient 0.0475 Cramer s V 0.0475 Cochran-Armitage Trend Test -------------------------- Statistic (Z) 0.1989 One-sided Pr > Z 0.4212 Two-sided Pr > Z 0.8423 Sample Size = 3469 der meget overbevisende ikke viser nogen forskel, selv om det er meget store tal det drejer sig om. Nu kunne man tro at man, eftersom en af siderne i tabellen er en ordinal inddeling (tid i sengen), skulle bruge trend-test. Det ville imidlertid svare til at vende årsagsammenhængen; trend test vil svare til at undersøge om sandsynligheden for at være en dreng afhang af hvor lang tid man tilbragte i sengen. Sammenlignet med kejsersnitseksemplet fra forelæsningerne går inddelingen her den anden vej, hvilket gør anvendelsen af trend-testet meningsløst. Alternativt kunne man lave et t-test, hvor man så må lade som om alle personer i samme celle i tabellen have samme værdi for antal timer i sengen. Det svarer blot til at at have timer som responsvariabel i en regressionsanalyse hvor man anvender sex som forklarende variabel. Bemærk at man for at fortælle GLM at hver observation repræsenterer n personer skal bruge sætningen freq n ;, ikke weight n ;, som ville give et andet (og galt) resultat: 62 proc glm data = sov ; 63 class sex ; 64 freq n ; 65 model timer = sex / solution ; 66 ---------------- Standard Parameter Estimate Error t Value Pr > t Intercept 8.847137298 B 0.02043525 432.94 <.0001 sex D 0.005856713 B 0.02945261 0.20 0.8424 sex P 0.000000000 B... Når man skrive /solution får man netop poarmater estiomaterne ud. Forskellen mellem det antal timer drenge og piger tilbringer i sengen er gennemsnitligt 0.005857 timer eller ca. 21 sekunder. Et konfidensinterval for dette middeltal er ( 0.05197196, 0.06368539) timer, dvs. ( 3.1, 3.8) minutter. Af testet ses at der faktisk ikke er nogen forskel på drenge og piger hvad angår den gennemsnitlige tid de tilbringer i sengen. Af tabellen ses desuden at der heller ikke er nogen forskel i fordelingen af den tid de to populationer tilbringer i sengen.