Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Transkript

1 Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

2 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering af troværdighed af indsamlede data.!af epidemiologer!af klinikere (fx jordemødre)!og af mange andre.. Ikke bare et redskab for sundhedsvidenskab, men også for andre videnskaber, der gør brug af kvantitativ metode Mikrokursus i biostatistik 2

3 Hvorfor er der brug for statistik? Data/observationer er underlagt tilfældig variation. Behov for at kvantificere*, hvor meget skyldes tilfældig og hvor meget skyldes systematisk (=ikke tilfældig) variation. Behov for at resumere mange enkelte observationer i nogle få tal. Det vil sige beskrive de centrale tendenser. *beskrive med tal Mikrokursus i biostatistik 3

4 Forskellige typer statistik Deskriptiv statistik, hvor vi beskriver vores datasæt Udregning af middelværdi (=gennemsnit) i datasættet Analytisk statistik, hvor vi prøver at kvantificere den tilfældig variation, som vores datasæt er underlagt. - Vi analyserer variationen i datasættet. Hvor sikker kan du være på, at den middelværdi, du har målt, repræsenterer den virkelige middelværdi Mikrokursus i biostatistik 4

5 Forskellig brug af statistik Samfundsvidenskab:! Bruger oftest kun deskriptiv statistik! Den fastsatte værdi står alene Opinionsundersøgelser, spørgeskemaundersøgelser 28% ønsker mulighed for frit valg af forløsningsmetode! Naturvidenskab:! Man går som hovedregel videre:! Den fastsatte værdi bruges til at komme med et gæt på den tilsvarende, men ukendte, værdi i populationen. Den gennemsnitlige fødselsvægt for maj måned i Nordjyllands Amt brugt som gæt på den gennemsnitlige fødselsvægt i Danmark.! Når vores fundne værdi anvendes som gæt, kaldes den et estimat.! - og den ukendte, sande værdi, vi ønsker at sige noget om, kaldes en parameter Husk: Kun Vor Herre kender den eksakte værdi på en parameter Mikrokursus i biostatistik 5

6 Deskriptiv statistik Hyppigt anvendte deskriptive mål:! Middelværdi, fx fødselsvægt! Forskel i middelværdi, fx fødselsvægt rygere/ikke rygere! Prævalens: Hvor mange har en givet sygdom / karakeristikum på et givet tidspunkt? Hyppigheden af gravide rygere i 1. trimester.! Incidens: Hvor mange får en givet sygdom / karakteristikum indenfor en fastsat periode? Nye tilfælde af rubella i Nordjylland pr år! Relativ risiko eller odds ratio: Sammenligning af to risici (fx 2 odds eller 2 incidenser). Hvor meget større er din risiko for at få en episiotomi, hvis du bor på Sjælland i forhold til, hvis du bor i Jylland? Mikrokursus i biostatistik 6

7 Deskriptiv statistik Ved beregning af middelværdi vil en beskrivelse af de enkelte værdiers afvigelse fra middelværdien være relevant: Gennemsnitlig fødselsvægt hos 2031 primiparae i 40. uge er 3560 g. -Men hvor meget varierer de enkelte fødselsvægte omkring denne middelværdi? Søjlediagram over de 2031 fødsler: Hver søjles højde angiver antallet af fødsler i et vist interval Ex: Søjlen mærket 4600 g = 20 fødsler mellem 4500 og 4700 g Værdierne spreder fra 2100 til 4900g Hvordan kan vi udtrykke denne spredning? Dette kan gøres ved standard deviation = SD barnets vægt Mikrokursus i biostatistik 7

8 Hvad er Standard Deviation (SD) SD udregnes ved en formel, som I ikke skal bekymre jer om. Men forestil jer alligevel:! Observationerne varierer fra middelværdien 3560g i forskellig grad: fx 3210g afviger med -350g, 2780g med 780g, 4410g med 850g osv.! Disse afvigelser (= deviations) gøres op for samtlige observationer.! Herefter kvadreres de (ex 350 2, 780 2, osv), så de alle bliver positive! Så lægges de sammen (ex osv).! Til slut divideres den samlede sum med antallet af observationer.! Nu har man variansen.! derefter Standard deviation = kvadratroden af variansen.! Standard deviation = SD Mikrokursus i biostatistik 8

9 Normalfordelte data Hvis vi ser på vores stikprøve af fødselsvægte, er fordelingen flot klokkeformet og symmetrisk. En sådan fordeling af data kaldes en normalfordeling Den følger en kurve, som kan beskrives ved en formel, hvori middelværdi og spredning indgår. Formlen er skrækkeligt indviklet Men vhja. formlen kan man beskrive, hvordan data er fordelt barnets vægt Mikrokursus i biostatistik 9

10 Fordeling af data i en normalfordeling Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 68.3% = ca. 2/3 Middelværdien +/- 1 SD omfatter 2/3 af samtlige observationer. M M 1 SD M + 1 SD Mikrokursus i biostatistik 10

11 Hvor mange observationer ligger indenfor middelværdi +/- 2 SD? Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 95,45% = ca. 95% Middelværdien +/- 2 SD Er meget tæt på at omfatte 95% af samtlige observationer. 1 SD 1 SD 1 SD 1 SD M 2 SD M M 2 SD Mikrokursus i biostatistik 11

12 Hvordan fanger vi lige præcis 95% af observationerne? Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 95%!! Middelværdien +/- 1,96 SD omfatter 95% af samtlige observationer. 2.50% 2.50% M M 1,96 SD M 1,96 SD Mikrokursus i biostatistik 12

13 SD kan også udregnes for andre fordelinger, fx en rektangulær fordeling, men giver så ikke samme mening som for en normalfordeling! Mikrokursus i biostatistik 13

14 Fra deskriptiv til analytisk statistik Hidtil har vi beskrevet vores stikprøve med middelværdi og standarddeviation. Nu vil vi bruge informationen fra stikprøven til at sige noget om hele populationen (fx alle fødsler i DK).! Det vil sige, at stikprøvens middelværdi og standarddeviation bliver til estimater på populationens sande middelværdi og standarddeviation. Population Stikprøve Stikprøve Når vi går fra stikprøve til hele populationen, går vi også væk fra at kunne udregne noget med en absolut sikkerhed til kun at kunne udregne noget med en vis (stor eller lille) sikkerhed Mikrokursus i biostatistik 14

15 Hvorfor analytisk statistik? Naturvidenskabelig seriøsitet er synonymt med inddragelse af statistisk usikkerhed ved vurdering af resultatet. Ved publicering af en fundet forskel vil der blive afkrævet oplysninger om:! Hvor stor kan man regne med, at den fundne forskel er?! Hvor sikker kan man være på, at den fundne forskel er sand? Mikrokursus i biostatistik 15

16 Forskellige typer analytisk statistik Mål for usikkerhed på estimatet! Estimate betyder egentlig noget i retning af bedste gæt.! Ved hjælp af statistik prøver man at kvantificere, hvor sikkert dette bedste gæt er i forhold til at sige noget om den tilsvarende parameter, dvs. den sande værdi (som ingen reelt kender). Konfidensintervaller: gennemsnitlig fødselsvægt 3570g (95% CI: 3310g 3830g). Hypotesetestning! Man prøver at vurdere om en funden forskel mellem to grupper er tilfældig eller sand. P-værdi: Fordoblet risiko for makrosomi ved diabetes (p = 0,02). Lad os starte med konfidensintervallerne Mikrokursus i biostatistik 16

17 Vi tager en stikprøve igen! Stikprøve på 100 fødsler Vi fandt et gennemsnit på 3490g. Vi vil gerne udtale os om det sande gennemsnit i den population, vi har taget stikprøven fra. Derfor bliver vores gennemsnit i den enkelte stikprøve nu til et estimat barnets vægt Fordeling af gennemsnit fra uendelig mange stikprøver på 100 fødsler Gennemsnit er her 3490 g 5400 Vi vil gerne sige noget om usikkerheden på dette estimat. Dette gøres ved at forestille sig, hvor meget vores estimat på gennemsnittet vil variere, hvis vi udtager utallige tilsvarende stikprøver på 100 fødsler og hver gang udregner et nyt gennemsnit. Forestil jer fx værdier som 3420g, 3510g eller 3640g. De ligger alle tæt på hinanden barnets vægt I praksis foretager vi ikke repetitiv sampling. Med matematiske beviser er man nået frem til at håndtere det ved skrivebordet = SAMPLING THEORY Mikrokursus i biostatistik 17

18 Lad os se nærmere på fordelingen af alle vores stikprøvers middelværdi! Den vigtigste erkendelse i SAMPLING THEORY er, at denne fordeling er normalfordelt, hvis stikprøverne blot er rimeligt store (80-100) dvs. også selv om fordelingen i populationen IKKE er normalfordelt. Figuren illustrerer, hvordan alle disse stikprøver på 100 fødsler med hvert sit gennemsnit har bidraget til fordelingen Man skal forestille sig, at hver stikprøves gennemsnit har en afvigelse (samplingsfejl) fra det sande, men ukendte gennemsnit. Gennemsnitlig fødselsvægt i et sample på 100 fødsler Mikrokursus i biostatistik 18

19 STANDARD ERROR er et mål for samplingsfejl! Fra tidligere ved vi, at en normalfordeling beskrives ved en standard deviation - således også for den normalfordeling, som estimaterne (vore bedste gæt) udgør ved uendelig mange samplinger. Standard deviationen på estimaterne ved uendelige mange samplinger = Den sande STANDARD ERROR (SE) Mikrokursus i biostatistik 19

20 Tilbage til estimatet på middelværdien på fødselsvægten! Estimaterne danner en normalfordeling omkring den sande, ukendte middelværdi (SM). Der hører til den sande middelværdi en sand Standard Error (sse), som I kan se på x-aksen. Hver kugle repræsenterer 1% af estimaterne, så der er 100 kugler i alt. 95% af estimaterne/kuglerne vil ligge indenfor sand middelværdi +/- 1,96 sse 2,5% 2,5% SM 1,96 sse 1 sse 1 sse 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 20

21 Estimaterne danner en normalfordeling omkring den sande, ukendte middelværdi (SM). Der hører til den sande middelværdi en sand Standard Error (sse), som I kan se på x-aksen. Hver kugle repræsenterer 1% af estimaterne, så der er 100 kugler i alt. 95% af estimaterne/kuglerne vil ligge indenfor sand middelværdi +/- 1,96 sse 2,5% For hver kugle/estimat kan du udregne en estimeret Standard error (SE) ved denne formel: SE = 2,5% SD n Hvad skal vi bruge den til???? SM 1,96 sse 1 sse 1 sse 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 21

22 Vi skal bruge Standard Error (SE) til at udregne et 95% konfidensinterval! Et 95% konfidensinterval udregnes ved formlen: Estimatet på middelværdi +/- 1,96 SE Gennemsnit på fødselsvægt i et sample på 100 fødsler = 3510g SD = 450g SD SE = n SE = 45g 3510g +/- 1,96 x 45 = /- 87g = 3423g til 3597g = 95% konfidensinterval Men hvad fortæller et 95% konfidensinterval os? Mikrokursus i biostatistik 22

23 95% KONFIDENSINTERVAL: Estimatet på middelværdi +/- 1,96 SE svarer til det interval, hvor det i 95% af tilfældene vil gælde, at den sande værdi er indeholdt. Der er altså en risiko på 5% for, at vi sidder med et interval, der har ramt ved siden af den sande middelværdi. 95% af estimaterne ville ligge her Det kan illustreres ved, at vi forestiller os, at vi udregner et konfidensinterval for alle vores kugler. Hvordan det? 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 23

24 Lad os kigge på 3 kugler/estimater 95% af estimaterne ville ligge her Der er vist tre eksempler på estimater med 95% konfidensintervaller: 1 og 2 indeholder den sande, ukendte værdi i deres interval. 3 indeholder ikke den sande værdi. 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 24

25 Lad os kigge på 3 kugler/estimater Der er vist tre eksempler på estimater med 95% konfidensintervaller: 1 og 2 indeholder den sande, ukendte værdi i deres interval. 3 indeholder ikke den sande værdi. Det kan indses, at de kugler /estimater, der ligger indenfor den sande middelværdi +/- 1,96sSE også vil have konfidensintervaller, der indeholder den sande, men ukendte middelværdi. Det er i alt 95% af kuglerne/estimaterne Ved 5% af kuglerne rammer konfidensintervallerne ved siden af den sande middelværdi. 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 25

26 Anden illustration, hvis den forrige var for langhåret! Dette konfidensinterval indeholder ikke den sande værdi Dette konfidensinterval indeholder ikke den sande værdi 3700 g 3600 g 3800 g Den sande gennemsnitlige fødselsvægt er her 3700 gram, svarende til den lodrette streg. Vi sampler 40 gange og udregner hver gang et nyt 95% konfidensinterval. Så vil 1 ud af 20 konfidensintervaller ikke indeholde den sande værdi!! Husk dette, når I læser en artikel Mikrokursus i biostatistik 26

27 Hvad sker der, hvis vi øger stikprøvestørrelsen? Fordeling over middelværdier på fødselsvægt ved stikprøvestørrelse på 400 Fordeling over middelværdier på fødselsvægt ved stikprøvestørrelse på 100 Fra 100 til 400 SD = SE n Når man øger stikprøvestørrelsen, vil middelværdierne på estimaterne sprede mindre, dvs. SE bliver mindre. - Man får en mindre samplingsfejl Mikrokursus i biostatistik 27

28 OPSUMMERING, KONFIDENSINTERVALLER Vi er nødt til at regne med, at vores resultat er påvirket af tilfældigheder. Denne usikkerhed prøver vi at udtrykke ved at opgive resultatet som et interval. Et bredt konfidensinterval indikerer lav præcision, medens et smalt konfidensinterval indikerer høj præcision. Et 95% konfidensinterval (sikkerhedsinterval) udtrykker det interval, hvor om det gælder:! At gentages dataindsamlingen 100 gange, hvor der hver gang beregnes et nyt konfidensinterval, vil dette interval i 95 ud af de 100 gange indeholde den sande, men ukendte, værdi.! Det vil sige man kan regne med, at 1 ud af 20 konfidensintervaller er misvisende, det vil sige indeholder ikke den sande, men ukendte, værdi Mikrokursus i biostatistik 28

29 Hvad er sandsynligheden for,at man i et 95% konfidensinterval har ramt den sande værdi? Forestil jer en cowboy med bind for øjnene. Han har 100 af de der lassoer med sten i enden (konfidensintervaller) at kaste efter en hest (=sandheden). Vi ved, at ud fra tilfældighedsprincippet vil 95 af lassoerne ramme hesten, medens 5 vil ramme ved siden af. Når han kaster den første lasso, er der 95% sandsynlighed for at han vil ramme. Dette er at ligestille med vores beregning af et konfidensinterval på et estimat i vores stikprøve: Vi kaster altid kun den første lasso, de andre eksisterer kun matematisk. Vi kan derfor tillade os at sige, at der er 95% sandsynlighed for, at vi rammer den sande værdi. Nærbillede af lassoen Sandheden 1SE O,96SE 1SE O,96SE Mikrokursus i biostatistik 29

30 Hvad fortæller et konfidensinterval på +/- 1 Standard Error? De røde kugler repræsenterer estimater, der nu er påhæftet korte konfidensintervaller på +/- 1 SE (68% konfidensinterval) De kugler/estimater, der ligger indenfor den sande middelværdi +/- 1 SE vil også i konfidensintervaller på +/1 SE indeholde den sande, men ukendte middelværdi. Det er i alt 68% af kuglerne/estimaterne Konklusion: At gentages dataindsamlingen 100 gange, hvor der hver gang beregnes et nyt 68% konfidensinterval, vil dette interval i 68 ud af de 100 gange indeholde den sande, men ukendte, værdi. 16% Ved 32% af kuglerne rammer de korte konfidensintervaller ved siden af den sande middelværdi. 16% 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! Mikrokursus i biostatistik 30

31 Hvad er sandsynligheden for,at man i et konfidensinterval på +/- 1 SE har ramt den sande værdi? Forestil jer igen en cowboy med 100 lassoer, som nu er blevet kortet ned til +/- 1 Standard Error. Han kaster igen efter hesten (=sandheden) og har stadigvæk bind for øjnene. Vi ved, at ud fra tilfældighedsprincippet vil 68 af lassoerne ramme hesten, medens 32 vil ramme ved siden af. Når han kaster den første lasso, er der 68% sandsynlighed for at han vil ramme. Dette er at ligestille med vores beregning af et konfidensinterval på et estimat i vores stikprøve: Vi kaster altid kun den første lasso, de andre eksisterer kun matematisk. Der er derfor 68% sandsynlighed for, at vi rammer den sande værdi med dette afkortede konfidensinterval. Sandheden Nærbillede af lassoen 1SE 1SE Mikrokursus i biostatistik 31

32 Kan vi komme tættere på, hvor vi har den sande værdi i et 95% konfidensinterval? Sandsynligheden for at ramme den sande værdi med en +/-1,96 SE-lasso var 95%. Sandsynligheden for at ramme den sande værdi med en +/- 1 SE-lasso var 68%. Hvor stor er sandsynligheden for, at den sande værdi ligger i de yderste SE er i 2 SE-lassoen? Nærbillede af lassoen O,96SE 1SE 1SE O,96SE Vi skiller den ad! Inderste 2 SE Yderste 2 SE Alle 4 SE = ca. 95% Inderste 2 SE = 68% Yderste 2 SE = 95% - 68% = 27% Sandsynligheden for at den sande værdi ligger i de to yderste SE= 27%. Hvor meget højere er sandsynligheden for, at den sande værdi ligger i de inderste 2 SE i forhold til sandsynligheden for, at den ligger i de to yderste SE? = 68 % / 27% = 2,5 gange højere. Altså er sandsynligheden for, at den sande værdi ligger i de inderste 2 SE over dobbelt så stor som sandsynligheden for, at den ligger i de to yderste SE. HUSK DET NÅR I VURDERER ET KONFIDENSINTERVAL!! Sandsynligheden er ikke ens overalt i intervallet, men højest i nærheden af jeres punktestimat. Den er faktisk normalfordelt omkring jeres punktestimat Mikrokursus i biostatistik 32