Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Transkript

1 Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

2 Hvad er hypotesetestning? I sundhedsvidenskab:! Hypotesetestning = Test af nulhypotesen Hypotese-testning anvendes til at vurdere, om en observeret forskel mellem to grupper er udtryk for en virkelig forskel eller et tilfældigt fund.! Ved vurdering af en estimeret relativ forskel: Odds ratio, relativ risiko! Ved vurdering af en estimeret absolut forskel: Forskel i middelværdi, risikodifferens Der opereres med to hypoteser! Nulhypotesen: Et postulat om, at der i virkeligheden ikke er forskel på de to grupper. Kan også kaldes hip som hap -hypotesen.! Alternativ-hypotesen (studiets hypotese): Et postulat om, at der i virkeligheden er forskel på de to grupper. Når vi har udregnet vores estimat, er det vort bedste bud på sandheden. Istedet for at bruge estimatet til at teste en alternativ hypotese, som man ikke kender (man kender ikke den præcise forskel), vælger man at teste nulhypotesen (karakteriseret ved at forskellen mellem de to grupper er præcis 0). Hvis det viser sig, at nulhypotesen kan forkastes, svarer det til, at alternativhypotesen antages at være sand. p-værdien udtrykker sandsynligheden (p=probability) for at observere den (numerisk) fundne forskel, eller én der er større, forudsat at nulhypotesen er sand.! p-værdien udtrykkes som en sandsynlighed med værdi mellem 0 og 1, fx 0,03 eller 0,4.! Ofte omskrives det til en procent, dvs. at 0,03 = 3%, 0,4 = 40% Mikrokursus i biostatistik 2

3 Eksempel på stikprøvernes fordeling ved repetitiv sampling, når nulhypotesen er sand: Projekt om kaffe Kurven viser fordelingen af estimaterne, altså vore bedste gæt, på forskel i middelværdi på fødselsvægt mellem de to grupper: kaffedrikkere og ikke kaffedrikkere når nulhypotesen er sand. Hver af kuglerne præsenterer 1% af estimaterne. De danner en normalfordeling omkring den sande forskel, som er 0. Det vidste vi egentlig godt! Men nu til p-værdier p udtrykkes ved hjælp af arealet under den blå kurve, så lad os se nærmere på det 95% af vores estimater indeholder 0 i deres 95% konfidensinterval og bekræfter dermed nulhypotesen. 5% af estimaterne indeholder ikke 0 i deres 95% konfidensinterval, selvom nulhypotesen er sand. 2,5% 2,5% 1 sse 1 sse 1 sse 1 sse 0 1,96 sse ,96 sse Mikrokursus i biostatistik 3

4 Opdeling af arealet under kurven for nulhypotesen Arealet under den blå kurve illustrerer sandsynligheden for udfald i forskellige intervaller, givet nulhypotesen er sand. Hele arealet er 1,00 eller 100% med 50% på hver sin side af 0. Arealet 0 +/- 1,96 sse = 0,95 Hvordan fastsætter vi det resterende areal? 1,00 0,95 = 0,05 eller 5% Det er fordelt på de 2 lige store trekanter, hvor der er 2,5% af arealet (0,025) i hver. 2,5% Lad os nu prøve at bruge disse 3 arealer til at sige noget om sandsynlighed: Når nulhypotesen er sand: -er der 100% sandsynlighed for, at estimaterne vil ligge under den blå kurve. -er der 95% sandsynlighed for, at estimaterne vil ligge indenfor 0 +/- 1,96 sse -er der 5% sandsynlighed for, at estimaterne vil ligge fra 0 +/- 1,96 sse og længere ud, væk fra 0 (altså ude i halerne svarende til det røde område). 2,5% 1 sse 1 sse 1 sse 1 sse 0 1,96 sse ,96 sse Mikrokursus i biostatistik 4

5 Opdeling af arealet under kurven for nulhypotesen Arealet 0 +/- 1 sse = 0,68 Hvordan fastsætter vi det resterende areal? 1,00 0,68 = 0,32 eller 32% Det er fordelt på de 2 lige store trekanter, hvor der er 16% af arealet (0,16) i hver. Lad os prøve at omskrive disse 2 arealer til sandsynligheder: 68% Når nulhypotesen er sand: -er der 68% sandsynlighed for, at estimaterne vil ligge indenfor 0 +/- 1sSE. -er der 32% sandsynlighed for, at estimaterne vil ligge fra 0 +/- 1sSE og længere ud, væk fra 0 (altså de røde områder ud mod halerne). 16% 16% 1 sse Mikrokursus i biostatistik 5 1 sse

6 Opdeling af arealet under kurven for nulhypotesen Arealet 0 +/- 2,58 sse = 0,99 Hvordan fastsætter vi det resterende areal? 1,00 0,99 = 0,01 eller 1% Det er fordelt på de 2 lige store trekanter, hvor der er 0,5% af arealet (0,005) i hver. Lad os prøve at omskrive disse 2 arealer til sandsynligheder: 99% Når nulhypotesen er sand: - er der 99% sandsynlighed for, at estimaterne vil ligge indenfor 0 +/- 2,58 sse. -er der 1% sandsynlighed for, at estimaterne vil ligge fra 0 +/- 2,58 sse og længere ud, væk fra 0 (altså helt ud i den sidste del af halerne). 0,5% 0,5% 1 sse 0 2,58 sse 1 sse 1 sse 1 sse 1 sse 0 1 sse 0 + 2,58 sse Mikrokursus i biostatistik 6

7 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder Vi udfører studiet med 200 kvinder i hver gruppe og udregner en forskel på middelværdi i de to grupper på 100 g. STANDARD ERROR = 51 g! bruges som bedste gæt på sse.!!,96 sse = 100 g, som vi kan hhv. lægge til og trække fra 0- værdien, Så har vi markeret 95% af arealet. Hvad er p-værdien til de 100 g? Lige præcis 0,05 eller 5%! Hvorfor nu det?! HUSK: p-værdien udtrykker sandsynligheden for at observere den (numerisk) fundne forskel,ellerén,dererstørre, forudsat at nulhypotesen er sand. Den blå fordeling er nulhypotesen! Det areal, som ligger fra vores estimerede forskel og længere ud, væk fra 0, markerer vi med rødt.! Det repræsenterer sandsynligheden for at observere en forskel på 100 g eller én, der er større, samtidigt med at nulhypotesen er sand.! Da vi ser på numerisk forskel, skal vi også have den trekant med, der repræsenterer sandsynligheden for at få en forskel på -100 g eller endnu mere, samtidigt med at nulhypotesen er sand. 100 p=0,05 2,5% 49 g 51 g 51 g 49 g 0 1,96 sse ,96 sse 2,5% Mikrokursus i biostatistik 7

8 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder Det er altså det røde areal, der repræsenterer sandsynligheden for at observere en numerisk forskel på 100 g eller endnu mere, samtidigt med at nulhypotesen er sand. Hvorledes kommer vi frem til en p-værdi på 0,05? Konklusion:Sandsynligheden for at observere den fundne forskel på 100 g eller en endnu større forskel, samtidigt med at nulhypotesen er sand, er på 5%. Hele arealet er 100% eller 1,00. Det røde areal svarer til: 1,00 arealet 0 +/- 1,96 sse (= 1,00-0,95 = 0,05)! DVS p = 0,05 eller 5% 2,5% 49 g 51 g 51 g 49 g ,96 sse ,96 sse 2,5% p=0, Mikrokursus i biostatistik 8

9 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder Vi udfører igen studiet (n=2x200) og udregner en forskel på middelværdi i de to grupper på 50 g. STANDARD ERROR = 50 g! bruges som bedste gæt på sse. hvad er p-værdien? Udregnes således:! 1,00 - arealet 0 +/- 1 sse! ( = 1,00 0,68 = 0,32)! p = 0,32 eller 32%. 68% Konklusion:Sandsynligheden for at observere den fundne forskel på 50 g eller en endnu større forskel, samtidigt med at nulhypotesen er sand, er på 32%. 16% 16% 50 p=0,32 50 g 0 50 g Mikrokursus i biostatistik 9

10 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder Vi udfører studiet (n=2x200) og udregner en forskel på middelværdi i de to grupper på 129 g. STANDARD ERROR = 50 g! bruges som bedste gæt på sse. Hvad er p-værdien? Udregnes således:! 1,00 - arealet 0 +/- 2,58sSE! ( = 1,00 0,99 = 0,01)! p = 0,01 eller 1%. 99% Konklusion:Sandsynligheden for at observere den fundne forskel på 129 g eller en endnu større forskel, samtidigt med at nulhypotesen er sand, er på 1%. 0,5% 50 g 0 2,58 sse = -129g 50 g 50 g 50 g 50 g g 0,5% 0 + 2,58 sse = 129 g p=0, Mikrokursus i biostatistik 10

11 De samme eksempler, når vi øger stikprøvestørrelsen Vi øger studiets størrelse(n=2x500) og forestiller os, at vi får de samme resultater: 50 g, 100 g og 129 g. STANDARD ERROR = 30 g! bruges som bedste gæt på sse. Hvor har vi nu p-værdierne (sådan cirka)?! 50 g har stadigvæk ikke en p- værdi under 5%. (p > 0,05)! Grænsen er her 30 x 1,96 = 59 g! 100 g og 129 g er begge høj signifikante med p-værdier under 0,01 (p< 0,01). 99% Konklusion: Når stikprøvestørrelsen øges, mindskes Standard Error, og sandsynligheden for, at de samme observerede forskelle kan forkaste nulhypotesen, er langt større. 0,5% 30 g 0 2,58 sse = -77g 30 g 30 g 30 g 30 g ,58 sse = 77 g Mikrokursus i biostatistik g

12 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder??? Hvorfor kan man ikke bare tage p-værdien til en forskel på ex.100 g og være ligeglade med alt det, der er større end 100 g??? Forestil jer, hvor mange stikprøver der vil få estimatet præcis 100 g? Umiddelbart meget få, vil man tænke... Men i teorien slet ingen, - de vil alle være lidt større eller mindre, hvis man opgiver resultatet tilstrækkeligt nøjagtigt. Derimod kan et interval mellem 2 værdier sagtens definere et areal under kurven: Ex: Hvor mange % af stikprøverne får en forskel i middelværdi på mellem 51 og 100 g? Forskel på Præcis 51 g Forskel på præcis 100 g 49 g 51 g 51 g 49 g 0 1,96 sse ,96 sse Mikrokursus i biostatistik 12

13 Eksempler på estimater udregnet fra en enkelt stikprøve på 2x200 kvinder Man bruger derfor det fundne estimat som grænseværdi for starten på det areal, der svarer til p-værdien. Arealet svarer til den fundne forskel eller en der er større. Vores estimat repræsenterer således den familie af estimater, hvorom det gælder, at de andre er endnu mere usandsynlige i tilfælde af en sand nulhypotese Men såfremt det var et af disse estimater, vi havde fundet i stedet, ville vi have fået en endnu mindre p-værdi. Det vil være ulogisk at bruge det areal, der svarer til den fundne forskel eller en, der er mindre, fordi dette areal altid vil indeholde nul. Nul = nulhypotesen, som vi jo er i færd med at gøre et ærligt forsøg på at at falsificere. Men hvad svarer det areal til på figuren med en funden forskel på 100 g??? O,95 eller 95%... 2,5% 49 g 51 g 51 g 49 g ,96 sse ,96 sse p=0,05 2,5% Mikrokursus i biostatistik 13

14 Sammenhæng mellem konfidensintervaller og p-værdier I konfidensintervallet repræsenteres nul-værdien af!0 ved absolutte forskelle Forskel i middelværdi på fødselsvægt!1 ved relative forskelle Odds ratio eller relativ risiko Hvis denne nulværdi ikke er indeholdt i et 80% konfidensinterval, er p < 0,2 Hvis denne nulværdi ikke er indeholdt i et 90% konfidensinterval, er p < 0,1. Hvis denne nul-værdi ikke er indeholdt i et 95% konfidensinterval, er p < 0,05. Hvis denne nulværdi ikke er indeholdt i et 99% konfidensinterval, er p < 0,01. ETC, ETC Mikrokursus i biostatistik 14

15 Statistisk signifikans og klinisk relevans I sundhedsvidenskab er der konsensus om, at ved en p-værdi under 0,05 betragtes den observerede forskel som statistisk signifikant: VI TROR PÅ, AT FORSKELLEN IKKE SKYLDES TILFÆLDIGHEDER!!!!! Principielt kunne grænseværdien for statistisk signifikans lige så godt være en anden. Et statistisk signifikant resultat er ikke nødvendigvis det samme som et klinisk relevant resultat:! Man kan i store undersøgelser få statistisk signifikans (fx. p = 0,01) ved en lille odds-ratio (fx. 1,2 eller 1,3). Er det klinisk relevant? Hvis rygning øger risikoen for akut myokardieinfarkt med 30% (OR=1,3) er risikoforøgelsen i sig selv ikke særlig alarmerende, men den har alligevel klinisk relevans, fordi det er et hyppigt og alvorligt problem for samfundet. Hvis en speciel familiær konstellation øger risikoen for selvmord med 20%, kan man godt sætte spørgsmålstegn ved den kliniske relevans. Dels er selvmord sjældent, dels kan man sandsynligvis ikke ændre på den pågældende risikofaktor Mikrokursus i biostatistik 15

16 Styrkeberegninger og mere p-værdi Mikrokursus i biostatistik 16

17 En anden måde at forstå p-værdien på. Vi har lavet en undersøgelse, hvor vi prøver at påvise en forskel mellem to grupper, fx i risiko for at få et bestemt udfald. Man kan forestille sig, at vores undersøgelse er et forsøg på at udføre en diagnostisk test på en såkaldt hip som hap -verden:! Såfremt vores hip som hap -verden bliver syg, sker ting systematisk, dvs. at der er en forskel i risiko i de to grupper.! Så længe denne hip som hap -verden er rask, sker ting bare usystematisk. Det vil også sige, at når vores hip som hap -verden er rask, er der ingen forskel i risiko mellem de to grupper I kan sikkert godt regne ud, at denne hip som hap -verden er nulhypotesen Lad os opstille en tabel over resultaterne af vores diagnostiske test: Mikrokursus i biostatistik 17

18 Diagnostisk test på en hip som hap -verden. Sandheden ude i vores hip som hap -verden Der er en sand forskel i risiko i de 2 grupper, dvs. vores hip som hap -verden er blevet syg Der er ikke en sand forskel i risiko i de 2 grupper, dvs. vores hip som hap -verden er rask Vi finder en forskel i risiko i de 2 grupper Korrekt diagnose = SAND POSITIV Forkert diagnose = FALSK POSITIV 1 - β = styrke TYPE 1 fejl (risikoen for denne Konklusion fejl = p-værdien ) fra vores undersøgelse Vi finder ikke ikke en forskel i risiko i de 2 grupper Forkert diagnose = FALSK NEGATIV Korrekt diagnose = SAND NEGATIV TYPE 2 fejl (risiko for at lave denne fejl = β ) Mikrokursus i biostatistik 18

19 Der vil være to mulige udfald for vores diagnostiske test:! Vi finder en forskel mellem de to grupper. Testen er positiv.! Vi finder ikke en forskel mellem de to grupper. Testen er negativ.! Vi håber selvfølgelig, at resultatet af vores test er sand-positivt eller sand-negativt, og at vi har undgået at drage fejlagtige konklusioner i form af falsk-positive eller falsk-negative fortolkninger. Statistikere er så fantasifulde, at de har kaldt falsk-positiv fejlen for en TYPE 1 FEJL. Men det interessante er her, at når forfattere opgiver resultaterne fra deres undersøgelser, opgiver de altid risikoen for, at de har begået en sådan TYPE 1 FEJL = p-værdien.! P-værdien er nemlig sandsynligheden for den falsk-positive konklusion: At konkludere, at der er forskel mellem de to grupper, når der i virkeligheden ikke er det. Falsk-negativ fejlen kalder statistikerne for en TYPE 2 FEJL.! Størrelsen på den kan udregnes og kaldes β. Det interessante er, at går man op i cellen med de sandt positive, svarer den til (1 - β).! Dette tal er sandsynligheden for, at forfatterne konkluderer, at der er en forskel, når dette også er sandt.! Sandsynligheden for at drage en sand positiv konklusion, når man bør gøre det, kaldes studiets styrke eller power.! Således kan man sidestille styrken i et videnskabeligt studie med sensitiviteten i en diagnostisk test Mikrokursus i biostatistik 19

20 Overvejelser omkring styrken af et studie En styrkeberegning er en beregningsmetode til at vurdere, hvor godt et redskab en planlagt undersøgelse er til at finde den forskel, man leder efter: Det er ikke realistisk at finde en amøbe ved hjælp af en teaterkikkert! - Det er derimod realistisk at finde primaballarinaen Styrken = studiets statistiske styrke.! Defineres som sandsynligheden for at forkaste nulhypotesen i en signifikanstest, hvis den er forkert. Styrken kan også opfattes som sensitiviteten og skal helst være 80%.! Det vil sige, at der så kun er 20% s risiko for, at man med det valgte design (dvs antagelse om varians, forskellen mellem grupper og antal deltagere m.v.) ikke kan påvise en eksisterende forskel. Der er stærk tradition for at sætte risikoen for at begå en type 1 fejl (risiko for falsk positive fund) til 5% (evt. 1%).! Hvis der var mere elastik her, kunne man ligesom når man ændrer en grænseværdi i en diagnostisk test nemt opnå en højere styrke. Men nej Mikrokursus i biostatistik 20

21 Overvejelser omkring styrken af et studie Styrken afhænger således af:! Hvor stor en forskel leder man efter? En stor forskel er lettere at finde end en lille forskel Når man udfører sin styrkeberegning, kender man selvfølgelig ikke resultatet af studiet. Derfor indgår typisk en klinisk relevant værdi som stand-in for det kommende resultat, eller man udfører et pilotstudie. Kaffe og fødselsvægt: Vi sætter forskellen til 100 g. Det finder vi klinisk relevant. Endvidere ved vi fra tidligere studier, at forskellen nok er af den størrelsesorden.! Hvilken STANDARD ERROR kan vi forvente få? Afhænger af: Hvor stor variation vil der være i data? Fastsættes ud fra andre studier af fødselsvægt. Vi kan eventuel prøve at mindske variationen ved at udelukke kvinder, der tidligere har født for tidligt eller har født små børn. Hvor stor er sample size? Her har vi den største mulighed for at påvirke for vores styrke. Faktisk kan man ændre sample size, så man får den ønskede styrke. I praksis er der dog ofte en øvre grænse Mikrokursus i biostatistik 21

22 Eksempler på styrkeberegninger Bodils randomiserede undersøgelse: Det er realistisk at forestille sig en gennemsnitlig forskel i fødselsvægt på 100g. Ønsker man en teststyrke på 90% for at identificere en sådan forskel (eller en større) på 5% signifikansniveau (tosidigt) og med sammenligning af A versus b, skal der mindst 300 gravide i hver gruppe, når fødselsvægtens standard deviation sættes til 500 g. For at imødegå ikke komplet compliance foreslås 500 kvinder randomiseret til hver gruppe. Kommentarer:! Man har indstillet undersøgelsesredskabet på at finde en forskel på 100 g. Det kan være både +100 g eller 100 g.! Man accepterer en risiko på 5% for at konkludere, at der er en effekt af coffein på fødselsvægt, selvom der i virkeligheden ikke er nogen effekt.! Man accepterer en risiko på 10% for at overse, at der er en sand effekt af coffein på fødselsvægt Mikrokursus i biostatistik 22

23 Eksempler på styrkeberegninger Det svenske kaffe-studie: A post hoc power analysis showed that the study had 80 percent statistical power (at a 5 percent two-sided significance level) to detect the following differences between intake groups 0-99 mg per day and >300 mg per day: 169 g i birth weight, 3.6 days in gestational age, and 3.6 percent difference i birth weight ratio. Kommentarer:! Deres undersøgelsesredskab havde en styrke på 80% til at finde en forskel på 169 g i fødselsvægt mellem de følgende to grupper: Coffein sv.t. 2½ kop brygget kaffe eller derover/dag sammenlignet med coffein sv.t. 2 kopper te eller derunder/dag.! Forskellen kunne både være +169 g eller 169 g.! Man accepterede en risiko på 5% for at konkludere, at der var en effekt af coffein på fødselsvægt, selvom der i virkeligheden ikke var nogen effekt.! Man accepterede en risiko på 20% for at overse, at der var en sand effekt af coffein på fødselsvægt.! Hvad kan man kritisere? Den forskel, deres studie havde en anstændig styrke til at påvise, var urealistisk. Hvis de havde været mere beskedne og ledt efter en forskel på ex. 100 g, ville de sikkert have haft meget lav styrke Mikrokursus i biostatistik 23

24 SLUT! Mikrokursus i biostatistik 24