Basal Statistik Kategoriske Data

Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data

Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk Lene Theil Skovgaard http://biostat.ku.dk/~lts/basal/ overheads/kategoriske_data.pdf E 2013 Basal Statistik - Kategoriske data

Kategoriske variable Binær, dikotom To kategorier Ja/Nej Død/Levende Nominal Flere kategorier Selvstændig / Faglært / Ufaglært / Funktionær Blå / Brune / Grå / Grønne Ordinale Ingen < Let < Moderat < Svær 0-10 < 11-30 < 31-50 < 51+ E 2013 Basal Statistik - Kategoriske data 3

Kategoriske variable E 2013 Basal Statistik - Kategoriske data 4

Kategoriske variable Vi ønsker model for xi E 2013 Basal Statistik - Kategoriske data 5

Binomialfordelingen Sandsynligheden for at en tilfældigt valgt person responderer: P(respons)=p P(intet respons)=1-p Personerne er ikke ens Variationen kommer fra den tilfældige udvælgelse af personerne p er ukendt en parameter som karakteriserer populationen Vi observerer: x respondere, n-x respondere ikke E 2013 Basal Statistik - Kategoriske data 6

Binomialfordelingen Summen af uafhængige 0-1 variable med samme sandsandlighed p x = antallet af 1-taller = xi Er binomial fordelt med antalsparameter n og sandsynlighedsparameter p P( X n x n! x!( n ( ) n x x ( ) n x 1 p = p p x = x) = p 1 x)! E 2013 Basal Statistik - Kategoriske data 7

Binomialfordelingen Middelværdi: E(X)=np Spredning: std( X ) = np(1 p) E 2013 Basal Statistik - Kategoriske data 8

Binomialfordeling E 2011 Basal Statistik - Kategoriske data 9

Estimation i binomialfordelingen Parameter: p = sandsynligheden for succes Observation: x ud af n er succeser Estimat: x p ˆ = n p( 1 p) Spredning på estimatet: se( pˆ ) = n Aproksimativt 95% konfidensinterval for p: pˆ ± 1.96 pˆ ( 1 pˆ ) E 2013 Basal Statistik - Kategoriske data 10 n

Eksempel 215 kvinder fra almen praksis 39 har astmatisk sygdom i familien p = sandsynligheden for at en tilfældig kvinde har astma i familien (prævalensen) x 39 Estimat for prævalensen: p ˆ = = = 0. 181 n 215 ( 1 p) p 0.181 0.819 se ( pˆ ) = = = n 215 0.0263 E 2013 Basal Statistik - Kategoriske data 11

Eksempel 95% konfidensinterval pˆ ( 1 pˆ ) pˆ ± 1.96 = 0.181± 1.96 0.0263 = n ( 0.130;0.233) Det vil sige: data er foreneligt med prævalenser i populationen i området 13% til 23% E 2013 Basal Statistik - Kategoriske data 12

Eksempel, eksakt CI Find p, så sandsynligheden for at få noget der er mere ekstremt end det observerede er præcis 2.5% E 2013 Basal Statistik - Kategoriske data 13

Eksakt CI Hvis vi observerer 5 succes ud af 20: Eksakt konfidensinterval: 5 p ˆ = = 20 0.25 Aproximativt konfidensinterval 0.25 ± 1.96 = ( 0.06;0.44) 0.25 0.75 20 E 2013 Basal Statistik - Kategoriske data 14

Eksakt CI, hvis x=0 0 p ˆ = = 0 n Den nedre grænse er nul Den øvre grænse: p vælges således at Altså P( X = 0 ) = 0. 025 ( ) n 1/ n 1 p = 0.025 dvs : p = 1 0.025 Eksempel: observeres 0 ud af 4, så er den øvre grænse 1/ 4 1 0.025 = 0.602 E 2013 Basal Statistik - Kategoriske data 15

Konfidensinterval for p Alternativ formel for konfidensinterval fås ved at beregne error factoren erf = exp 1.96 np 1 p ( ( )) Og derefter grænserne: ( 1 ) erf p + p Virker hvis x>0, hvis x=0 så bruges den eksakte formel p E 2013 Basal Statistik - Kategoriske data 16

Konfidensinterval for p Eksemplet fra før n=20 x=5 ( 20 0.25 0.75) 2. 75 erf = exp 1.96 = Dvs nedre grænse bliver: Den øvre grænse bliver: 0.25 = 0.1081 0.25 + 0.75 2.75 0.25 = 0.4784 0.25 + 0.75/ 2.75 E 2013 Basal Statistik - Kategoriske data 17

Hypotese: p = p0 Vi betragter: Simpelt test x n Hvis hypotesen er sand så: p s e ( x n p ) s e ( x n) 0 0.. 0 =.. = n Teststørrelse: x n p0 z = p 1 p p 0 0 ( ) n ( 1 p ) Hvis hypotesen er sand er z aprox. normeret normalfordelt E 2013 Basal Statistik - Kategoriske data 18 0

Eksempel, test I 39 ud af 215 familier forekom astma Er det foreneligt med en prævalens med 15%? Hypotese: p = 0. 15 z = 39 215 0.15 0.15 0.85 215 = 1.25 Opslag i normalfordelingstabel giver: 2*0.109=0.219 E 2013 Basal Statistik - Kategoriske data 19

Kontinuitetskorrektion Testsandsynligheden approximeres i normalfordelingen ved at tage sandsynligheden fra x og ud Bedre at tage sandsynligheden fra x-½ (eller x+½) E 2013 Basal Statistik - Kategoriske data 20

Kontinuitetskorrektion Den korrigerede teststørrelse bliver: x n p0 1 z = 2n p 1 p 0 ( ) n I astma eksemplet bliver den korrigerede teststørrelse: 39 215 0.15 1 z = 2 215 = 1.19, p = 0.23 0.15 0.85 215 0 E 2013 Basal Statistik - Kategoriske data 21

Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er uafhængige Dvs info om en patient indeholder ikke info om en anden patient Kan være et problem, hvis nogle af personerne er I familie Effekten af afhængighed n bliver overvurderet, dvs p bliver for lille E 2013 Basal Statistik - Kategoriske data 22

Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er repræsentative Personerne skal repræsentere den population man ønsker at udtale sig om Problem hvis udvælgelsen er associeret med udfaldet Effekten af manglende repræsentativt Afhænger af den konkrete situationen E 2013 Basal Statistik - Kategoriske data 23

Eksempel E 2011 Basal Statistik - Kategoriske data 24

Sammenligning af 2 sandsynligheder E 2013 Basal Statistik - Kategoriske data 25

Eksemplet E 2013 Basal Statistik - Kategoriske data 26

Eksemplet Forskellen mellem sandsynlighederne er andelen af patienter der har glæde af behandlingen: pˆ D pˆ = 67% 47% = 20% P ( 1 pˆ ) pˆ ( 1 pˆ ) pˆ..( ˆ ˆ ) D D P P s e pd pp = + = n n 95% CI : 20% ± 1.96 11% = (0%;40%) D P 0.11 E 2013 Basal Statistik - Kategoriske data 27

Eksemplet i SAS data a; input resp $ grp $; datalines; B Dal... B Dal W Dal... W Dal B Pl... B Pl W Pl... W Pl ; run; proc freq data=a; tables grp*resp / measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 28

Eksemplet i SAS data b; input resp $ grp $ antal ; datalines; B Dal 29 W Dal 14 B Pl 20 W Pl 22 ; run; proc freq data=b; weight antal; tables grp*resp/measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 29

Eksemplet Output i SAS: E 2013 Basal Statistik - Kategoriske data 30

Sandsynligheder og odds Formelt defineres odds: Sansynligheden(A) Odds(A) = = Sansynligheden(A ikke sker) Sansynligheden(A) 1- Sansynligheden(A) Man kan regne baglæns sandsynligheden(a) = Odds(A) 1+ Odds(A) E 2013 Basal Statistik - Kategoriske data 31

Sandsynligheder og odds På travbanen: odds for at hesten taber Eksempel Odds=4 Sansynligheden(hesten taber) Odds(heste n taber) = = Sansynligheden(hesten vinder) 4 Formlen giver at sandsynligheden for at hesten taber er 4 = 0,8 1+ 4 E 2013 Basal Statistik - Kategoriske data 32

Sandsynligheder og odds E 2013 Basal Statistik - Kategoriske data 33

Egenskaber ved odds Odds ligger mellem 0 og uendelig Når sandsynligheden er 0,5 så er odds 1 Odds er større end sandsynligheden VIGTIGT: Hvis sandsynligheden er lille (<0,1) så er odds og sandsynligheden næsten den samme E 2013 Basal Statistik - Kategoriske data 34

E 2013 Basal Statistik - Kategoriske data 35 Odds ratio Odds ratio er forholdet mellem odds i to grupper 2 2 1 1 1 1 OR p p p p = bc ad d c b a d c d d c c b a b b a a = = + + + + OR =

Odds ratio Spredningen skal udregnes for den naturlige logaritme: 1 1 1 1 s.e.(log(o R)) = + + + a b c d Konfidensinterval skal udregnes for den naturlige logaritme og transformeres tilbage: log(or) ± 1.96 s.e.(log(or)) OR exp 1.96 144 44 244443 ( s.e. ( log(or) )) error factor E 2013 Basal Statistik - Kategoriske data 36

Relativ risiko Estimeret RR: p RR = 1 p 2 a c RR = a + b c + d Spredningen skal udregnes på den naturlige logaritme: 1 1 1 1 s.e.(log(rr)) = + a a + b c c + d E 2013 Basal Statistik - Kategoriske data 37

Egenskaber ved OR For sjældne outcome er RR og OR næsten ens OR er symmetrisk OR for en begivenhed er 1/OR for at begivenheden ikke sker RR er ikke symmetrisk RR for en begivenhed er ikke 1/RR for at begivenheden ikke sker E 2013 Basal Statistik - Kategoriske data 38

OR og RR i SAS E 2011 Basal Statistik - Kategoriske data 39

OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 40

OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 41

Test Hypotese: OR=1 eller RR=1 eller p = p 1 2 2 χ = 2 (O - E) E Forudsætning: Alle forventede tal >5 E 2013 Basal Statistik - Kategoriske data 42

I SAS tilføjes optionen chisq Test i SAS tables grp*resp/chisq measures nopercent nocol; E 2013 Basal Statistik - Kategoriske data 43

Test i SAS Husk antagelsen om de forventede værdier I SAS tilføjes optionen expected tables grp*resp/expected chisq measures nopercent nocol norow; grp resp Frequency Expected B W Total --------- -------- -------- Dal 29 14 43 24.788 18.212 --------- -------- -------- Pl 20 22 42 24.212 17.788 --------- -------- -------- Total 49 36 85 E 2013 Basal Statistik - Kategoriske data 44

Tynde tabeller Hvis nogen forventede tal er under 5 E 2013 Basal Statistik - Kategoriske data 45

Fishers eksakte test Fasthold marginalerne P værdien er sandsynligheden for Den tabel vi har observeret samt Sandsynligheden for mere ekstreme tabeller E 2013 Basal Statistik - Kategoriske data 46

Fishers eksakte test E 2013 Basal Statistik - Kategoriske data 47

Fisher i SAS Kommer sammen med chi-i-anden testet E 2013 Basal Statistik - Kategoriske data 48

R x C tabeller E 2013 Basal Statistik - Kategoriske data 49

R x C tabeller Er fordelingen af koffein indtag det samme i civilstandsgrupperne Er civilstandsfordelingen den samme for de forskellige niveauer af koffein indtag Er der uafhængighed i tabellen Alle ovenstående spørgsmål er ens E 2013 Basal Statistik - Kategoriske data 50

R x C tabeller Spørgsmålene kan besvares ved at udføre et Chi-i-anden test 2 2 = (O - E) χ E Som følger en Chi-i-anden fordeling med (r-1)(c-1) frihedsgrader Hvis alle forventede værdier er større end 5 E 2013 Basal Statistik - Kategoriske data 51

R x C tabeller i SAS Test udføres helt analogt med 2 x 2 tabeller Eksakt test kan vælges i statistics (option=exact), men pas på det kan tage lang tid. E 2013 Basal Statistik - Kategoriske data 52

R x C tabeller Test for uafhængighed giver en p-værdi Hvis testet er signifikant Beskriv den fundne sammenhæng, p-værdien siger intet om hvordan sammenhængen ser ud Hvis testet ikke er signifikant At sammenhængen ikke er signifikant siger ikke nødvendigvis at uafhængigheden er fuldstændig Beskriv tabellen med procenter E 2013 Basal Statistik - Kategoriske data 53

R x C tabeller E 2013 Basal Statistik - Kategoriske data 54

Antal fra tabellen E 2013 Basal Statistik - Kategoriske data 55

Procenter fra tabellen E 2013 Basal Statistik - Kategoriske data 56

Antal fra tabellen i SAS proc gchart data=cm; vbar civ/ sumvar=antal subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 57

Procenter fra tabellen i SAS proc freq data=cm; weight ANTAL; tables CIV*KAF / NOPERCENT NOROW OUT=UD OUTPCT; run; PROC PRINT data=ud; run; proc gchart data=ud; vbar civ/ sumvar=pct_row subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 58

2 x k med ordnede kategorier Eksempel sammenhængen mellem skostørrelse og kejsersnit Det vil sige ingen sammenhæng E 2013 Basal Statistik - Kategoriske data 59

2 x k med ordnede kategorier Kejsersnit som funktion af skostørrelse E 2013 Basal Statistik - Kategoriske data 60

2 x k med ordnede kategorier Trend test Regression af ssh (p) for kejsersnit på skostørrelse (s): i s i Trend test er testet for β=0 I eksemplet bliver p = α + β 2 χ = 8.023 med 1frihedsgrad; p = 0.0046 E 2013 Basal Statistik - Kategoriske data 61

Trend test i SAS Vi tilføjer optionen trend proc freq data=a; tables sko*cs / nopercent nocol trend; run; E 2013 Basal Statistik - Kategoriske data 62

Trend test i SAS Bemærk at: 2.8326 2 = 8.023 E 2013 Basal Statistik - Kategoriske data 63

Trend test Det er en forudsætning at data ligger på en ret linie Dette kan og bør testes Chi-i-anden testet opdeles i test for linearitet og for test for trend Det samlede test overser en signifikant trend E 2013 Basal Statistik - Kategoriske data 64

Afhængige observationer Det er en vigtig forudsætning at observationerne er uafhængige Hvis flere observationer er på samme objekt er de enkelte observationer ikke uafhængige Parrede data Samme prøve undersøgt af to observatører Samme størrelse målt med forskellige apparater To personer fra samme matchede sæt E 2013 Basal Statistik - Kategoriske data 65

Parrede data To læger stiller samme positive/negative diagnose på de samme patienter Er der overensstemmelse mellem de to læger Er ssh for positiv diagnose den samme for de to læger E 2013 Basal Statistik - Kategoriske data 66

Parrede data Tabel over antal par af resultater (her patienter) Differens mellem andel af positive diagnoser: a + b a + c b c = N N N E 2013 Basal Statistik - Kategoriske data 67

McNemars test Hvis de to læger har samme sandsynlighed for positiv diagnose må c b McNemars test sammenligner c og b: ( b c) b + c 2 χ ~ 2 med 1frihedsgrad E 2013 Basal Statistik - Kategoriske data 68

McNemars test McNemars test med kontinuitetskorrektion: ( b c ) b + c 2 1 2 ~ χ med 1frihedsgrad McNemars test afhænger således kun af de diskordante observationer McNemars test er et test for ens diagnosesandsynligheder IKKE test for overensstemmelse E 2013 Basal Statistik - Kategoriske data 69

McNemars test Estimation af differensen p pˆ ˆ1 2 ( pˆ pˆ ) 1 2 b c = N Konfidensinterval konstrueres ved hjælp af: s.e. = 1 b + c N ( b c) N 2 E 2013 Basal Statistik - Kategoriske data 70

Eksempel: parret data Spytprøver fra 50 tuberkulosepatienter dyrkes i substrat A og B. En positiv prøve vil sige at man får vækst af tuberkelbaciller Er substraterne lige effektive, dvs har de samme sporingssandsynlighed? E 2013 Basal Statistik - Kategoriske data 71

Eksempel: parret data E 2013 Basal Statistik - Kategoriske data 72

Eksempel: parret data Sporingssandsynlighed (med CI) for A: 32 0.64 0.36 ˆ = = 0.64 CI : 0.64 ± 1.96 = 50 50 p A Sporingssandsynlighed (med CI) for B: 22 0.44 0.56 ˆ = = 0.44 CI : 0.44 ± 1.96 = 50 50 p B ( 0.51;0.77 ) ( 0.30;0.58) Helt almindelige binomialsandsynligheder med de almindelige konfidensgrænser E 2013 Basal Statistik - Kategoriske data 73

Eksempel: parret data Differens mellem sporingssandsynligheder: pˆ A pˆ B = 0.20 McNemars test 2 χ ( 2 12) CI : 0.20 ± 1.96 2 2 + 12 ( 2 12) ( 0.06;0.33) E 2013 Basal Statistik - Kategoriske data 74 50 100 = = = 7.14 df = 1 p = 2 + 12 14 2 = 0.0075 McNemars test med kontinuitetes-korektion: 2 χ ( 2 12 1) 2 81 = = = 5.78 df = 1 p 2 + 12 14 = 0.0162

McNemar i SAS proc freq data=a; tables a*b / nopercent agree; run; E 2013 Basal Statistik - Kategoriske data 75