Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder Design af studie Eksperimentelt eller observationelt Tværsnits- eller longitudinel undersøgelse Prospektivt eller retrospektivt 1 Observatørvariation Instrumentvariation Målefejl Variationskilder Dag-til-dag variation indenfor individer Biologisk variation mellem individer Tilfældig variation Reliabilitet Validitet 2

Stikprøvestørrelse Hvor mange observationer skal vi bruge? Det kommer an på Forsøgsplanen Hvor store effekter man leder efter Hvor sikker man vil være på at finde dem 3 Repetition: Sammenligning af to grupper To uafhængige stikprøver: x 11,...,x 1n1 og x 21,...,x 2n2 Model: x 11,...,x 1n1 N(µ 1, σ 2 ) og x 21,...,x 2n2 N(µ 2, σ 2 ) dnorm(x) 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 x En normalfordeling i hver gruppe, men middelværdien kan være forskellig 4 Estimation µ 1 og µ 2 angiver populationsmiddelværdier. Disse parametre er ukendte, men på baggrund af data kan vi give et skøn (estimat) over deres værdi: µ 1 = x 1 = (x 11 + + x 1n1 )/n 1, µ 2 = x 2 = (x 21 + + x 2n2 )/n 2 dnorm(x, sd = sqrt(1/20)) 0.0 0.5 1.0 1.5 3 2 1 0 1 2 3 x 5

t-testet Det kan vises at: X 1 N(µ 1, σ 2 /n 1 ) og X 2 N(µ 2, σ 2 /n 2 ) heraf følger X 1 X 2 N(µ 1 µ 2, ( 1 n 1 + 1 n 2 )σ 2 ) Skøn over spredning på gennemsnit: SEDM= s Poolet varians estimat: s 2 = Teststørrelsen n1 1 n 1+n 2 2 s2 1 + n2 1 n 1+n 2 2 s2 2 t = x 1 x 2 SEDM er t-fordelt med n 1 + n 2 2 frihedsgrader. H 0 forkastes når t er større end ca. 1.96 1 n 1 + 1 n 2 6 t-testet: p-værdien dt(t, 38) 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 t Hvis der ingen forskel er, så er der lille sandsynlighed for at komme ud i halerne. Hvis der er forskel så flyttes centrum i fordelingen. 7 Type I og Type II fejl Et hypotesetest kan give forkert udslag på to måder: Type I fejl: Forkaste nulhypotesen selv om den er sand Type II fejl: Acceptere nulhypotesen selv om den er forkert Sandsynlighed for fejl: α resp. β α: ssh for type I fejl, Signifikansniveau (0.05, fx.) β: ssh for type II fejl 1 β: Styrke - sandsynlighed for at finde forskellen Bemærk. Styrken afhænger af hvor stor den faktiske forskel er. Hvis forskellen er stor, er der kun en ringe risiko for at vi ikke finder den. 8

En typisk styrkefunktion 9 Hvor mange observationer skal man bruge? Optimalt når n 1 = n 2 = n t = x 1 x 2 SEDM, SEDM = s 2 n Vi ønsker at finde en sand forskel på = µ 2 µ 1 >0 ( klinisk relevant forskel ), t SEDM når n vokser så falder SEDM og dermed vokser t Naivt gæt: n skal vælges så SEDM = /2 (dvs t 2)? Men den observerede forskel ( x 2 x 1 ) vil ikke blive præcis. Forskellen bliver kun signifikant hvis den er større end. Vi ville kun finde forskellen med 50% sandsynlighed. Vi skal have endnu flere observationer 10 Styrke, princip t 0.0 0.1 0.2 0.3 0.4 2 0 2 4 6 delta/sedm Middelværdien af teststørrelsen er /SEDM når n vokser stiger middelværdien 11

Beregning af n (NB: Disse beregningsformler antager at spredningen er kendt. Pas på med meget små n) Eksempel: Find n så P(Forkast) = 0.90 (dvs ønsket styrke er 90%) P(t > 1.96) = P(t 1.96 SEDM ) t SEDM > 1.96 SEDM ) = 1 P(t SEDM N(0, 1) dvs P(t > 1.96) = 1 Φ(1.96 (Φ er fordelingsfunktionen for N(0,1)-fordelingen) n skal være så stor at: Φ(1.96 SEDM ) SEDM ) = 1 0.90 1.96 SEDM = Φ 1 (0.1) dvs n skal være så stor at SEDM opfylder: SEDM= /(1.96 Φ 1 (0.1)) = /(1.96 + 1.28) = /3.24 SEDM < 12 Illustration t 0.0 0.1 0.2 0.3 0.4 2 0 2 4 6 delta/sedm Middelværdien for teststørrelsen skal altså være 3.24 for at vi er 90% sikre på at forkaste hypotesen. 13 Beregning af n - fortsat Nu kan vi finde n. Vi løser ligningen 2 SEDM = σ n = /[1.96 Φ 1 (0.1)] hvilket giver n = 2 [1.96 Φ 1 (0.1)] 2 (σ/) 2 for tosidet test på signifikansniveau α = 0.05, med styrke 1 β = 0.90 (Fraktiler i normalfordelingen z p = Φ 1 (p), z 0.975 = 1.96, osv.) Formlen kan skrives n = 2 (z 0.975 z 0.1 ) 2 (σ/) 2 = 2 (z 0.975 + z 0.9 ) 2 (σ/) 2 Generel formel for vilkårlige α og β: n = 2 (z 1 α/2 + z 1 β ) 2 (σ/) 2 = 2 f(α, β) (σ/) 2 næste side 14

En nyttig tabel β α 0.05 0.1 0.2 0.5 0.1 10.82 8.56 6.18 2.71 0.05 12.99 10.51 7.85 3.84 0.02 15.77 13.02 10.04 5.41 0.01 17.81 14.88 11.68 6.63 f(α, β) = (z 1 α/2 + z 1 β ) 2 15 Eksempel Antag vil finde finde en forskel på 5 ( = 5) Vi være 90% procent sikre på at finde forskellen (1 β = 0.90) når vi tester på et 5% s niveau (α = 0.05) Spredning inden for grupper er 10 (σ = 10) Indsæt i formel n = 2 f(0.05, 0.1) (σ/) 2 = 2 10.51 (10/5) 2 = 84.1 Det vil sige 85 i hver gruppe. 16 I SAS Analyst Statistics Sample Size Two-Sample t-test I vinduet specificeres herefter: Calculate: N per group (alternativt kan styrken bestemmes for fast N) Group 1 mean: 0, Group 2 mean: 5 (eller 95 og 100, kun forskellen betyder noget) Standard deviation: 10, Alpha: 0.05 Power: From: 0.8 To: 0.95 By: 0.05 Tails: 2-sided 17

Output Two-Sample t-test Group 1 Mean = 0 Group 2 Mean = 5 Standard Deviation = 10 Alpha = 0.05 2-Sided Test Power N per Group 0.800 64 0.850 73 0.900 86 0.950 105 Bemærk at det nødvendige antal observationer (n) vokser som funktion af den ønskede styrke. For Power= 90% ses n=86. Før fik vi 85? Forskellen skyldes den at vores formel ser bort fra estimationsusikkerheden for spredningen σ. Herved bliver n lidt for lille. 18 Skal specificere Opsummering Klinisk relevant forskel Standardafvigelsen s Signifikansniveau α (ofte 5%) Styrke 1 β (ofte 80% eller 90%) Hvordan findes s? Lignende undersøgelser Pilotforsøg Start forsøget og se på de første observationer Specificer standardiseret forskel /σ 19 Eksempel Påvirker mælkeindtaget børns højde? 5-års børn i to grupper: Ekstra mælk i et år Kontrolgruppe Børn på 5 år vokser ca. 6 cm/år med en SD på 2 cm. Vil kunne opdage en forskel på 0.5 cm. Signifikansniveau 1%, styrke 90%. n = 2 (2cm/0.5cm) 2 f(0.01, 0.1) = 2 4 2 14.88 = 476 pr. gruppe 20

Parret t-test Niveauet i to grupper sammenlignes ved at teste om differenserne indenfor par (D i = X 1i X 2i ) har middelværdi 0. Teststørrelsen er t = d STD(d)/ n STD(d) er spredningen blandt de n differenser n kan beregnes ved n = (z 1 α/2 + z 1 β ) 2 (σ/) 2 men bemærk at n angiver antallet af par. 21 Magisk formel n ved sammenligning af hyppigheder p 1 hyppighed i gruppe 1 p 2 hyppighed i gruppe 2 p = (p 1 + p 2 )/2 n antal i hver gruppe p(1 p) n = 2 f(α, β) (p 2 p 1 ) 2 Baseret på normalfordelingsapproksimation, og p 1 ikke alt for langt fra p 2. Pas især på hvis n beregnes til at være så lille at der er forventede antal under 5. (se Note vedr. SAS side 24) 22 To måder til afvænning af rygere Nyt tyggegummi Sædv. kontrolgruppe Eksempel Normalt holder 15% op efter 6 måneder. Håber på at komme op på 30%. Ønsker at kunne finde forskellen med en styrke på 80% ved signifikansniveau 5% Dvs. p 1 = 0.30, p 2 = 0.15, p = 0.225, α = 0.05, β = 0.2 n = dvs. 122 obs. i hver gruppe. 2 0.225 0.775 0.15 2 7.85 = 121.6 23

Note vedr. SAS SAS Analyst har menuer til power-beregninger Mere præcise formler... men kun for kontinuerte data For sammenligning af hyppigheder kan man snyde ved at indsætte p 1 og p 2 som means og bruge p(1 p) som spredning 24 Bogen, s. 456 Nomogram Tegn linje mellem Standardized difference og Power, aflæs N der hvor den midterste linje skæres for det valgte signifikansniveau Kontinuert skema, kan nemt bede om fx. en styrke på 0.85. Nemt at vende om og finde fx. differens for valgt N og power MEN Svært at aflæse nøjagtigt Meget let at løbe sur i hvornår der skal ganges med 2 og om det nu er antal personer eller antal par osv. Foretrækker formler eller computer programmer 25 Strukturerede forsøg Minimere effekt af variationskilder Variation indenfor/mellem personer Sin egen kontrol Store styrkegevinster Men pas på: Kræver tilpassede analysemetoder f.eks parret t-test, flersidede variansanalyser Standardmetoder kan være vildt forkerte 26

Parrede data 1320.5 Two sample: t = = 2.62, 1142 2 /11+1216 2 /11 Paired: t = 1320.5 366.7/ 11 = 11.99 27 Dobbelt bestemmelser 28 Crossover design Ny behandling Sammenligne med placebo/stanard behandling Give personen begge behandlinger Sammenligninger indenfor individer Men der kan være en tidseffekt (spontan bedring) Bytte rundt på rækkefølgen tilfældigt/systematisk 29

Eksempel Patienter med Raynaud s fænomen. Test af Nicardipine (Ca-kanal blokker). Nicardipine i 2 uger. Tælle antal episoder. 1 uges washout Placebo i 2 uger. Tælle antal episoder. eller omvendt 10 personer i hver gruppe. 30 Nicardipine først (1)+(2) Per. 1 Per. 2 (1) (2) 2 N P (P) (N) Gr.I 16 12 4 14 4 26 19 7 22.5 7 8 20 12 14 12 37 44 7 40.5 7 9 25 16 17 16 41 36 5 38.5 5 52 36 16 44 16 10 11 1 10.5 1 11 20 9 15.5 9 30 27 3 28.5 3 Mean 24.0 25.0 1.0 24.5 1.0 SD 15.61 10.84 9.87 12.50 9.87 31 Placebo først (1)+(2) Per. 1 Per. 2 (1) (2) 2 P N (P) (N) Gr.II 18 12 6 15 6 12 4 8 8 8 46 37 9 41.5 9 51 58 7 54.5 7 28 2 26 15 26 29 18 11 23.5 11 51 44 7 47.5 7 46 14 32 30 32 18 30 12 24 12 44 4 40 24 40 Mean 34.3 22.3 12.0 28.3 12.0 SD 14.99 19.14 16.34 15.12 16.34 32

E(Y ) = α i + β b + pr, Underliggende additiv model i: person, b: behandling, pr: periode dvs hvis person nr 3 fik nicardipine i periode 1 er den forventede respons E(Y ) = α 3 + β n + 1 Den forventede periode 2 måling bliver E(Y ) = α 3 + β p + 2 Behandlingseffekten er givet ved β n β p. Hvordan kan vi bestemme den udfra data? 3 sidet variansanalyse, men vi kan klare os med t-test. 33 Estimation af behandlingseffekten D j : måling 1 minus måling 2 i gruppe j = 1, 2 E(D 1 ) = (α i + β n + 1 ) (α i + β p + 2 ) (1) = (β n β p ) + ( 1 2 ) (2) E(D 2 ) = (α i + β p + 1 ) (α i + β n + 2 ) (3) = (β p β n ) + ( 1 2 ) (4) E(D 1 ) E(D 2 ) = 2 (β n β p ) Hvis der ikke er behandlingseffekt er forskellen mellem måling 1 og 2 den samme i de to grupper 34 Sammenligning af grupperne Per. 1 Per. 2 (1) (2) N P (1)+(2) 2 (P) (N) Mean 24.0 25.0 1.0 24.5 1.0 SD 15.61 10.84 9.87 12.50 9.87 P N Mean 34.3 22.3 12.0 28.3 12.0 SD 14.99 19.14 16.34 15.12 16.34 35

Behandlingseffekt Hvis der kun var periodeeffekt skulle (1) (2) blive det samme i begge grupper. Dvs. vi kan teste nulhypotesen ingen behandlingseffekt ved et to-stikprøve t-test på forskellene. Altså: Fælles SD: (10 1) 9.872 + (10 1) 16.34 2 Forskel på gennemsnit 10 + 10 2 = 13.50 d 1 d 2 = 1.0 12.0 = 13.0 ( dvs effekt = 13/2 = 6.5) se( d 1 d 1 2 ) = 13.50 10 + 1 10 = 6.037 t = 13.0 6.037 = 2.154 DF = 18 P = 0.045 36 Periodeeffekt E(Y ) = α i + β b + pr C j : Placebo minus Nicardipine i gruppe j = 1, 2 E(C 1 ) = E( D 1 ) = (α i + β p + 2 ) (α i + β n + 1 ) (5) = (β p β n ) + ( 2 1 ) (6) E(C 2 ) = E(D 2 ) = (α i + β p + 1 ) (α i + β n + 2 ) (7) = (β p β n ) + ( 1 2 ) (8) E(C 1 ) E(C 2 ) = 2 ( 2 1 ) Hvis er ikke er periodeeffekt er forskellen mellem placebo og nicardipine responserne den samme i de to grupper. 37 Periodeeffekt, beregning Hvis der kun var behandlingseffekt skulle (P) (N) blive det samme i begge grupper. Dvs. vi kan teste nulhypotesen ingen behandlingseffekt ved et to-stikprøve t-test på forskellene. Altså: Fælles SD: (10 1) 9.872 + (10 1) 16.34 2 Forskel på gennemsnit 10 + 10 2 = 13.50 ( d 1 ) d 2 = 1.0 12.0 = 11.0 se( d 1 d 1 2 ) = 13.50 10 + 1 10 = 6.037 t = 11.0 6.037 = 1.822 DF = 18 P = 0.085 38

Vekselvirkning Test for behandlings- og periodeeffekter forudsætter at de virker additivt. Hvordan testes for vekselvirkning (fx carryover)? Vi kan beregne effekten af behandling indenfor hver enkelt periode: For periode 1 bliver det i eksemplet 34.3 24.0 = 10.3 færre episoder med Nicardipine end uden. For periode 2 bliver forskellen kun 25.0 22.3 = 2.7. Forskellen på forskellene bliver altså 7.6. Men er det signifikant? 34.3 24.0 (25.0 22.3) = (34.3 + 22.3) (24.0 + 25.0), dvs. vi sammenlignede gennemsnit af summen af de to målinger på hver person. Eller af ((1) + (2))/2, det bliver det samme. 39 Under additivitet er: Vekselvirkning, model for sum E(Y 1 + Y 2 ) = 2α i + β n + β p + 1 + 2 Hvis der er vekselvirkning afhænger behandlingseffekten af rækkefølgen Gr I: E[Y 1 + Y 2 ] = 2α i + β n + β p + 1 + 2 + µ Gr II: E[Y 1 + Y 2 ] = 2α i + β n + β p + 1 + 2 µ er carry-over-effekten. Hvis µ = 0 er der ikke vekselvirkning. Testet udføres som et almindeligt t-test, men det kræver at personniveauerne α i antages normalfordelt. 40 t-test for [(1)+(2)]/2: Vekselvirkning, fortsat Fælles SD: (10 1) 12.52 + (10 1) 15.12 2 Forskel på gennemsnit 10 + 10 2 = 13.872 ā 2 ā 1 = 28.3 24.5 = 3.8 1 se(ā 2 ā 1 ) = 13.872 10 + 1 10 = 6.204 t = 3.8 = 0.613 DF = 18 P = 0.54 6.204 Dvs. vekselvirkningen er ikke signifikant, men bemærk at testet er svagt fordi variationen mellem personer indgår i gennemsnittene. 41