Basal Statistik Kategoriske Data

Transkript

1 Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data

2 Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital Lene Theil Skovgaard overheads/kategoriske_data.pdf E 2013 Basal Statistik - Kategoriske data

3 Kategoriske variable Binær, dikotom To kategorier Ja/Nej Død/Levende Nominal Flere kategorier Selvstændig / Faglært / Ufaglært / Funktionær Blå / Brune / Grå / Grønne Ordinale Ingen < Let < Moderat < Svær 0-10 < < < 51+ E 2013 Basal Statistik - Kategoriske data 3

4 Kategoriske variable E 2013 Basal Statistik - Kategoriske data 4

5 Kategoriske variable Vi ønsker model for xi E 2013 Basal Statistik - Kategoriske data 5

6 Binomialfordelingen Sandsynligheden for at en tilfældigt valgt person responderer: P(respons)=p P(intet respons)=1-p Personerne er ikke ens Variationen kommer fra den tilfældige udvælgelse af personerne p er ukendt en parameter som karakteriserer populationen Vi observerer: x respondere, n-x respondere ikke E 2013 Basal Statistik - Kategoriske data 6

7 Binomialfordelingen Summen af uafhængige 0-1 variable med samme sandsandlighed p x = antallet af 1-taller = xi Er binomial fordelt med antalsparameter n og sandsynlighedsparameter p P( X n x n! x!( n ( ) n x x ( ) n x 1 p = p p x = x) = p 1 x)! E 2013 Basal Statistik - Kategoriske data 7

8 Binomialfordelingen Middelværdi: E(X)=np Spredning: std( X ) = np(1 p) E 2013 Basal Statistik - Kategoriske data 8

9 Binomialfordeling E 2011 Basal Statistik - Kategoriske data 9

10 Estimation i binomialfordelingen Parameter: p = sandsynligheden for succes Observation: x ud af n er succeser Estimat: x p ˆ = n p( 1 p) Spredning på estimatet: se( pˆ ) = n Aproksimativt 95% konfidensinterval for p: pˆ ± 1.96 pˆ ( 1 pˆ ) E 2013 Basal Statistik - Kategoriske data 10 n

11 Eksempel 215 kvinder fra almen praksis 39 har astmatisk sygdom i familien p = sandsynligheden for at en tilfældig kvinde har astma i familien (prævalensen) x 39 Estimat for prævalensen: p ˆ = = = n 215 ( 1 p) p se ( pˆ ) = = = n E 2013 Basal Statistik - Kategoriske data 11

12 Eksempel 95% konfidensinterval pˆ ( 1 pˆ ) pˆ ± 1.96 = 0.181± = n ( 0.130;0.233) Det vil sige: data er foreneligt med prævalenser i populationen i området 13% til 23% E 2013 Basal Statistik - Kategoriske data 12

13 Eksempel, eksakt CI Find p, så sandsynligheden for at få noget der er mere ekstremt end det observerede er præcis 2.5% E 2013 Basal Statistik - Kategoriske data 13

14 Eksakt CI Hvis vi observerer 5 succes ud af 20: Eksakt konfidensinterval: 5 p ˆ = = Aproximativt konfidensinterval 0.25 ± 1.96 = ( 0.06;0.44) E 2013 Basal Statistik - Kategoriske data 14

15 Eksakt CI, hvis x=0 0 p ˆ = = 0 n Den nedre grænse er nul Den øvre grænse: p vælges således at Altså P( X = 0 ) = ( ) n 1/ n 1 p = dvs : p = Eksempel: observeres 0 ud af 4, så er den øvre grænse 1/ = E 2013 Basal Statistik - Kategoriske data 15

16 Konfidensinterval for p Alternativ formel for konfidensinterval fås ved at beregne error factoren erf = exp 1.96 np 1 p ( ( )) Og derefter grænserne: ( 1 ) erf p + p Virker hvis x>0, hvis x=0 så bruges den eksakte formel p E 2013 Basal Statistik - Kategoriske data 16

17 Konfidensinterval for p Eksemplet fra før n=20 x=5 ( ) erf = exp 1.96 = Dvs nedre grænse bliver: Den øvre grænse bliver: 0.25 = = / 2.75 E 2013 Basal Statistik - Kategoriske data 17

18 Hypotese: p = p0 Vi betragter: Simpelt test x n Hvis hypotesen er sand så: p s e ( x n p ) s e ( x n) =.. = n Teststørrelse: x n p0 z = p 1 p p 0 0 ( ) n ( 1 p ) Hvis hypotesen er sand er z aprox. normeret normalfordelt E 2013 Basal Statistik - Kategoriske data 18 0

19 Eksempel, test I 39 ud af 215 familier forekom astma Er det foreneligt med en prævalens med 15%? Hypotese: p = z = = 1.25 Opslag i normalfordelingstabel giver: 2*0.109=0.219 E 2013 Basal Statistik - Kategoriske data 19

20 Kontinuitetskorrektion Testsandsynligheden approximeres i normalfordelingen ved at tage sandsynligheden fra x og ud Bedre at tage sandsynligheden fra x-½ (eller x+½) E 2013 Basal Statistik - Kategoriske data 20

21 Kontinuitetskorrektion Den korrigerede teststørrelse bliver: x n p0 1 z = 2n p 1 p 0 ( ) n I astma eksemplet bliver den korrigerede teststørrelse: z = = 1.19, p = E 2013 Basal Statistik - Kategoriske data 21

22 Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er uafhængige Dvs info om en patient indeholder ikke info om en anden patient Kan være et problem, hvis nogle af personerne er I familie Effekten af afhængighed n bliver overvurderet, dvs p bliver for lille E 2013 Basal Statistik - Kategoriske data 22

23 Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er repræsentative Personerne skal repræsentere den population man ønsker at udtale sig om Problem hvis udvælgelsen er associeret med udfaldet Effekten af manglende repræsentativt Afhænger af den konkrete situationen E 2013 Basal Statistik - Kategoriske data 23

24 Eksempel E 2011 Basal Statistik - Kategoriske data 24

25 Sammenligning af 2 sandsynligheder E 2013 Basal Statistik - Kategoriske data 25

26 Eksemplet E 2013 Basal Statistik - Kategoriske data 26

27 Eksemplet Forskellen mellem sandsynlighederne er andelen af patienter der har glæde af behandlingen: pˆ D pˆ = 67% 47% = 20% P ( 1 pˆ ) pˆ ( 1 pˆ ) pˆ..( ˆ ˆ ) D D P P s e pd pp = + = n n 95% CI : 20% ± % = (0%;40%) D P 0.11 E 2013 Basal Statistik - Kategoriske data 27

28 Eksemplet i SAS data a; input resp $ grp $; datalines; B Dal... B Dal W Dal... W Dal B Pl... B Pl W Pl... W Pl ; run; proc freq data=a; tables grp*resp / measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 28

29 Eksemplet i SAS data b; input resp $ grp $ antal ; datalines; B Dal 29 W Dal 14 B Pl 20 W Pl 22 ; run; proc freq data=b; weight antal; tables grp*resp/measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 29

30 Eksemplet Output i SAS: E 2013 Basal Statistik - Kategoriske data 30

31 Sandsynligheder og odds Formelt defineres odds: Sansynligheden(A) Odds(A) = = Sansynligheden(A ikke sker) Sansynligheden(A) 1- Sansynligheden(A) Man kan regne baglæns sandsynligheden(a) = Odds(A) 1+ Odds(A) E 2013 Basal Statistik - Kategoriske data 31

32 Sandsynligheder og odds På travbanen: odds for at hesten taber Eksempel Odds=4 Sansynligheden(hesten taber) Odds(heste n taber) = = Sansynligheden(hesten vinder) 4 Formlen giver at sandsynligheden for at hesten taber er 4 = 0, E 2013 Basal Statistik - Kategoriske data 32

33 Sandsynligheder og odds E 2013 Basal Statistik - Kategoriske data 33

34 Egenskaber ved odds Odds ligger mellem 0 og uendelig Når sandsynligheden er 0,5 så er odds 1 Odds er større end sandsynligheden VIGTIGT: Hvis sandsynligheden er lille (<0,1) så er odds og sandsynligheden næsten den samme E 2013 Basal Statistik - Kategoriske data 34

35 E 2013 Basal Statistik - Kategoriske data 35 Odds ratio Odds ratio er forholdet mellem odds i to grupper OR p p p p = bc ad d c b a d c d d c c b a b b a a = = OR =

36 Odds ratio Spredningen skal udregnes for den naturlige logaritme: s.e.(log(o R)) = a b c d Konfidensinterval skal udregnes for den naturlige logaritme og transformeres tilbage: log(or) ± 1.96 s.e.(log(or)) OR exp ( s.e. ( log(or) )) error factor E 2013 Basal Statistik - Kategoriske data 36

37 Relativ risiko Estimeret RR: p RR = 1 p 2 a c RR = a + b c + d Spredningen skal udregnes på den naturlige logaritme: s.e.(log(rr)) = + a a + b c c + d E 2013 Basal Statistik - Kategoriske data 37

38 Egenskaber ved OR For sjældne outcome er RR og OR næsten ens OR er symmetrisk OR for en begivenhed er 1/OR for at begivenheden ikke sker RR er ikke symmetrisk RR for en begivenhed er ikke 1/RR for at begivenheden ikke sker E 2013 Basal Statistik - Kategoriske data 38

39 OR og RR i SAS E 2011 Basal Statistik - Kategoriske data 39

40 OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 40

41 OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 41

42 Test Hypotese: OR=1 eller RR=1 eller p = p χ = 2 (O - E) E Forudsætning: Alle forventede tal >5 E 2013 Basal Statistik - Kategoriske data 42

43 I SAS tilføjes optionen chisq Test i SAS tables grp*resp/chisq measures nopercent nocol; E 2013 Basal Statistik - Kategoriske data 43

44 Test i SAS Husk antagelsen om de forventede værdier I SAS tilføjes optionen expected tables grp*resp/expected chisq measures nopercent nocol norow; grp resp Frequency Expected B W Total Dal Pl Total E 2013 Basal Statistik - Kategoriske data 44

45 Tynde tabeller Hvis nogen forventede tal er under 5 E 2013 Basal Statistik - Kategoriske data 45

46 Fishers eksakte test Fasthold marginalerne P værdien er sandsynligheden for Den tabel vi har observeret samt Sandsynligheden for mere ekstreme tabeller E 2013 Basal Statistik - Kategoriske data 46

47 Fishers eksakte test E 2013 Basal Statistik - Kategoriske data 47

48 Fisher i SAS Kommer sammen med chi-i-anden testet E 2013 Basal Statistik - Kategoriske data 48

49 R x C tabeller E 2013 Basal Statistik - Kategoriske data 49

50 R x C tabeller Er fordelingen af koffein indtag det samme i civilstandsgrupperne Er civilstandsfordelingen den samme for de forskellige niveauer af koffein indtag Er der uafhængighed i tabellen Alle ovenstående spørgsmål er ens E 2013 Basal Statistik - Kategoriske data 50

51 R x C tabeller Spørgsmålene kan besvares ved at udføre et Chi-i-anden test 2 2 = (O - E) χ E Som følger en Chi-i-anden fordeling med (r-1)(c-1) frihedsgrader Hvis alle forventede værdier er større end 5 E 2013 Basal Statistik - Kategoriske data 51

52 R x C tabeller i SAS Test udføres helt analogt med 2 x 2 tabeller Eksakt test kan vælges i statistics (option=exact), men pas på det kan tage lang tid. E 2013 Basal Statistik - Kategoriske data 52

53 R x C tabeller Test for uafhængighed giver en p-værdi Hvis testet er signifikant Beskriv den fundne sammenhæng, p-værdien siger intet om hvordan sammenhængen ser ud Hvis testet ikke er signifikant At sammenhængen ikke er signifikant siger ikke nødvendigvis at uafhængigheden er fuldstændig Beskriv tabellen med procenter E 2013 Basal Statistik - Kategoriske data 53

54 R x C tabeller E 2013 Basal Statistik - Kategoriske data 54

55 Antal fra tabellen E 2013 Basal Statistik - Kategoriske data 55

56 Procenter fra tabellen E 2013 Basal Statistik - Kategoriske data 56

57 Antal fra tabellen i SAS proc gchart data=cm; vbar civ/ sumvar=antal subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 57

58 Procenter fra tabellen i SAS proc freq data=cm; weight ANTAL; tables CIV*KAF / NOPERCENT NOROW OUT=UD OUTPCT; run; PROC PRINT data=ud; run; proc gchart data=ud; vbar civ/ sumvar=pct_row subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 58

59 2 x k med ordnede kategorier Eksempel sammenhængen mellem skostørrelse og kejsersnit Det vil sige ingen sammenhæng E 2013 Basal Statistik - Kategoriske data 59

60 2 x k med ordnede kategorier Kejsersnit som funktion af skostørrelse E 2013 Basal Statistik - Kategoriske data 60

61 2 x k med ordnede kategorier Trend test Regression af ssh (p) for kejsersnit på skostørrelse (s): i s i Trend test er testet for β=0 I eksemplet bliver p = α + β 2 χ = med 1frihedsgrad; p = E 2013 Basal Statistik - Kategoriske data 61

62 Trend test i SAS Vi tilføjer optionen trend proc freq data=a; tables sko*cs / nopercent nocol trend; run; E 2013 Basal Statistik - Kategoriske data 62

63 Trend test i SAS Bemærk at: = E 2013 Basal Statistik - Kategoriske data 63

64 Trend test Det er en forudsætning at data ligger på en ret linie Dette kan og bør testes Chi-i-anden testet opdeles i test for linearitet og for test for trend Det samlede test overser en signifikant trend E 2013 Basal Statistik - Kategoriske data 64

65 Afhængige observationer Det er en vigtig forudsætning at observationerne er uafhængige Hvis flere observationer er på samme objekt er de enkelte observationer ikke uafhængige Parrede data Samme prøve undersøgt af to observatører Samme størrelse målt med forskellige apparater To personer fra samme matchede sæt E 2013 Basal Statistik - Kategoriske data 65

66 Parrede data To læger stiller samme positive/negative diagnose på de samme patienter Er der overensstemmelse mellem de to læger Er ssh for positiv diagnose den samme for de to læger E 2013 Basal Statistik - Kategoriske data 66

67 Parrede data Tabel over antal par af resultater (her patienter) Differens mellem andel af positive diagnoser: a + b a + c b c = N N N E 2013 Basal Statistik - Kategoriske data 67

68 McNemars test Hvis de to læger har samme sandsynlighed for positiv diagnose må c b McNemars test sammenligner c og b: ( b c) b + c 2 χ ~ 2 med 1frihedsgrad E 2013 Basal Statistik - Kategoriske data 68

69 McNemars test McNemars test med kontinuitetskorrektion: ( b c ) b + c ~ χ med 1frihedsgrad McNemars test afhænger således kun af de diskordante observationer McNemars test er et test for ens diagnosesandsynligheder IKKE test for overensstemmelse E 2013 Basal Statistik - Kategoriske data 69

70 McNemars test Estimation af differensen p pˆ ˆ1 2 ( pˆ pˆ ) 1 2 b c = N Konfidensinterval konstrueres ved hjælp af: s.e. = 1 b + c N ( b c) N 2 E 2013 Basal Statistik - Kategoriske data 70

71 Eksempel: parret data Spytprøver fra 50 tuberkulosepatienter dyrkes i substrat A og B. En positiv prøve vil sige at man får vækst af tuberkelbaciller Er substraterne lige effektive, dvs har de samme sporingssandsynlighed? E 2013 Basal Statistik - Kategoriske data 71

72 Eksempel: parret data E 2013 Basal Statistik - Kategoriske data 72

73 Eksempel: parret data Sporingssandsynlighed (med CI) for A: ˆ = = 0.64 CI : 0.64 ± 1.96 = p A Sporingssandsynlighed (med CI) for B: ˆ = = 0.44 CI : 0.44 ± 1.96 = p B ( 0.51;0.77 ) ( 0.30;0.58) Helt almindelige binomialsandsynligheder med de almindelige konfidensgrænser E 2013 Basal Statistik - Kategoriske data 73

74 Eksempel: parret data Differens mellem sporingssandsynligheder: pˆ A pˆ B = 0.20 McNemars test 2 χ ( 2 12) CI : 0.20 ± ( 2 12) ( 0.06;0.33) E 2013 Basal Statistik - Kategoriske data = = = 7.14 df = 1 p = = McNemars test med kontinuitetes-korektion: 2 χ ( ) 2 81 = = = 5.78 df = 1 p =

75 McNemar i SAS proc freq data=a; tables a*b / nopercent agree; run; E 2013 Basal Statistik - Kategoriske data 75