Basal statistik. 11.september 2007

Basal statistik 11.september 2007

Statistisk inferens Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: L.T.Skovgaard@biostat.ku.dk http://staff.pubhealth.ku.dk/~lts/basal07_2

Inferens, september 2007 1 Sandsynlighed: Talværdi, der udtrykker usikkerhed omkring et udfald/hændelse p 1 2 : stor usikkerhed, møntkast p 0 eller 1: lille usikkerhed sandsynlighed for at vinde i lotto / overleve næste dag Frekvensfortolkning: Den enkelte hændelse har kun 2 muligheder - enten indtræffer den eller også gør den ikke. Hvis der er (mange) gentagelser, kan man studere frekvensen (hyppigheden) af hændelsen, og grænseværdien for denne kaldes sandsynligheden.

Inferens, september 2007 2 Det simpleste eksempel: Møntkast Store Tals Lov prop.of.heads 0.0 0.2 0.4 0.6 0 50 100 150 200 250 300 tosses Når vi udfører eksperimentet mange gange, vil frekvensen stabilisere sig omkring sandsynligheden for plat/krone

Inferens, september 2007 3 Hvordan bestemmer/definerer vi sandsynligheder? Logik En terning har 6 sider, som ender opad med lige stor sandsynlighed, nemlig 1 6 sandsynlighed= gunstige/ mulige Erfaring Hvis vinden kommer fra øst om sommeren, bliver det med stor sandsynlighed (sædvanligvis) varmt frekvensfortolkningen Subjektivt Fornemmelser, hensigter, vurderinger

Inferens, september 2007 4 Frekvensfortolkningen: Dette matematiske begreb involverer uafhængige og identiske gentagelser af samme eksperiment. Hvad betyder det? Hvis de virkelig var identiske, ville de vel give det samme? De skal være identiske mht. de betingelser, som vi ved (eller mener at vide) har indflydelse på resultatet Vi har ingen mulighed for at skelne mellem dem, de er ombyttelige (interchangeable)

Inferens, september 2007 5 Eksempel: Børnefødsler To mulige udfald: Bliver det en dreng eller en pige? Hvad er gentagelserne her? Søskende... Ofte, betyder identiske gentagelser i praksis situationer, der ser ens ud Her: fødsler blandt andre kvinder Det antages, at alle kvinder har den samme sandsynlighed p for at få en dreng (resp. pige), eller vi kan i hvert fald ikke på forhånd sige, hvem der skulle have større eller mindre sandsynlighed...

Inferens, september 2007 6 Hvad er sandsynligheden for at have fødselsdag juleaften? Hvad er sandsynligheden for at to tilfældigt valgte individer har fødselsdag samme dag? Hvad er sandsynligheden for at to personer på dette kursus har fødselsdag på samme dag?

Inferens, september 2007 7 Sandsynlighed for sammenfald af fødselsdage: 2 personer: 1-364 365 3 personer: 1-364 365 363 365 : N personer: 1-364 365 363 365 (365 N+1) 365

Inferens, september 2007 8 Sandsynligheder opfører sig som frekvenser: Farveblindhed? nej ja Total Piger 119 1 120 Drenge 144 6 150 Total 263 7 270 Relativ frekvens af farveblindhed: r(b) = 7 270 = 0.026 Betinget frekvens af farveblindhed, givet at man er dreng: r(b A) = r(a B)/r(A) = 6 270 /150 270 = 6 150 = 0.04 Er farveblindhed uafhængigt af køn? Er r(b A) r(b)?

Inferens, september 2007 9 De vigtigste regneregler for sandsynligheder: sandsynligheder ligger mellem 0 og 1 og summerer til 1 Fællesmængde A B (både A og B) P(A B) =?? Hvis A og B er uafhængige: P(A B) = P(A) P(B) Betinget sandsynlighed (ssh. for B forudsat A): P(B A) = hvis A og B er uafhængige: P(A B) P(A) P(B A) = P(B)

Inferens, september 2007 10 Eksempler 1. I en kasse ligger kugler nummereret 1-9, en af hver. Hvis man trækker en kugle tilfældigt, hvad er så sandsynligheden for, at den har et nummer større end 5? 2. Forestil dig, at du har kastet en mønt 20 gange og har fået 19 kroner og en plat. Hvad er sandsynligheden for at få krone i næste kast? 3. Hvad er sandsynligheden for, at det næste barn født på Rigshospitalet er en dreng?

Inferens, september 2007 11 Eksempler, fortsat 4. Hvad er sandsynligheden for, at du får en overordnet stilling inden for de næste 10 år? 5. Et par blå og et par sorte sokker ligger enkeltvis sammenrodet i en skuffe. Hvis du tilfældigt tager to sokker op, hvad er så sandsynligheden for, at de har samme farve?

Inferens, september 2007 12 Eksempel på diskret fordeling: Binomialfordelingen N uafhængige 0/1-forsøg (Bernoulliforsøg) U i, alle med P(U i = 1) = p (f.eks. p = 0.51 for drengefødsel) X = U 1 + + U N = U i, antal succes er (=antal 1-taller) Fordeling af X kaldes Binomialfordelingen og skrives X Bin(N, p) Punktsandsynlighederne kan beregnes ved kombinatorik, P(X = x) = ( ) N x p x (1 p) N x Binomialkoefficienten ( N x) angiver antallet af måder hvorpå man kan vælge x ud af N ( N ) x = N! x!(n x)!

Inferens, september 2007 13 Eksempel: 3-barns familier 3 Bernoullivariable for hver mor, U m1, U m2, U m3 : 1, hvis fødsel i for mor m resulterer i en dreng U mi = 0, hvis det bliver en pige Sandsynlighed for drengefødsel: p X m = U m1 + U m2 + U m3, antal drenge for den i te mor Hvilke kombinationsmuligheder er der?

Inferens, september 2007 14 X m antal drenge antal piger sandsynlighed 0 0 3 (1 p) 3 1 1 2 3 p (1 p) 2 2 2 1 3 p 2 (1 p) 3 3 0 p 3

x x x 0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50 dbinom(x, 50, 0.2) 0.00 0.06 0.12 dbinom(x, 50, 0.5) 0.00 0.06 dbinom(x, 50, 0.8) 0.00 0.06 0.12 x x x 0 5 10 15 20 0 5 10 15 20 0 5 10 15 20 dbinom(x, 20, 0.2) 0.00 0.10 0.20 dbinom(x, 20, 0.5) 0.00 0.10 dbinom(x, 20, 0.8) 0.00 0.10 0.20 x x x 0 1 2 3 4 0 1 2 3 4 0 1 2 3 4 dbinom(x, 4, 0.2) 0.0 0.2 0.4 dbinom(x, 4, 0.5) 0.05 0.20 0.35 dbinom(x, 4, 0.8) 0.0 0.2 0.4 Inferens, september 2007 15

Inferens, september 2007 16 Fordelinger for kvantitative (kontinuerte) variable. Hvad betyder sandsynligheder i forbindelse med f.eks. systolisk blodtryk? Her har hver enkelt værdi (f.eks. 122.858...) sandsynlighed 0 for at indtræffe (fordi der i princippet er uendelig mange mulige udfald). I stedet for punktsandsynligheder taler vi så om sandynlighedstætheder

Inferens, september 2007 17 Sandynlighedstæthed (eller bare tæthed) Sandsynligheden for et interval = arealet under kurven Hvis tætheden er stor, ligger observationerne tæt i dette område

Inferens, september 2007 18 Tæthed for (standard) normalfordeling dnorm(x) 0.0 0.1 0.2 0.3 0.4 f(x) = 1 2π e 1 2 x2 middelværdi 0, varians 1 3 2 1 0 1 2 3 x

Inferens, september 2007 19 Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable kommer efterhånden til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med. Standard programmel er udviklet for normalfordelingen.

Inferens, september 2007 20

Inferens, september 2007 21 Central grænseværdisætning. Histogram of igm Histogram of boot.igm.snit4 Histogram of boot.igm.snit16 Frequency 0 50 100 150 Frequency 0 500 1000 1500 2000 Frequency 0 500 1000 1500 0.0 1.0 2.0 3.0 0.0 1.0 2.0 3.0 0.0 1.0 2.0 3.0 igm boot.igm.snit4 boot.igm.snit16 Histogram of boot.igm.snit16 Histogram of boot.igm.snit64 Histogram of boot.igm.snit298 Frequency 0 500 1000 1500 Frequency 0 500 1500 2500 Frequency 0 500 1000 1500 0.6 1.0 1.4 0.6 1.0 1.4 0.6 1.0 1.4 boot.igm.snit16 boot.igm.snit64 boot.igm.snit298

Inferens, september 2007 22 Central grænseværdisætning: Jo flere observationer, der indgår i gennemsnittet des mere normalfordelt ser det ud des mindre spredning har fordelingen Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n

Inferens, september 2007 23 χ 2 -fordelingen Familie af fordelinger, afhængig af frihedsgrader (her: 1, 2, 3, 4). noget med sum af kvadrerede normalfordelinger 0 2 4 6 8 10 dchisq(x, 1) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x

Inferens, september 2007 24 t-fordelingen (Student fordelingen) afhængig af frihedsgrader (her: 5, 10, 100). Mange frihedsgrader: Fordelingen ligner normalfordeling Få frihedsgrader: Tungere haler. dt(x, 100) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x

Inferens, september 2007 25 Statistisk model: Specifikation af fordelingsklasse: Familie af fordelinger/tætheder, specificeret ved parametre, f.eks. middelværdi og spredning i normalfordeling. mulige effekter/sammenhænge (stigning i blodtryk pr. år) En sandsynlighedsmodel kan bruges til at simulere (generere fiktive data).

Inferens, september 2007 26 Statistisk analyse er det omvendte: Hvis vi allerede har data, hvad kan vi så sige om den sandsynlighedsmekanisme (f.eks. de ukendte parametre), der har frembragt dem?

Inferens, september 2007 27 Statistisk analyse Modelkontrol: Er forudsætningerne opfyldt? Estimation: Hvilke parameterværdier passer bedst med observationerne? Og hvor sikkert er de bestemt? Modelreduktion (Hypotesetest): Er simplere beskrivelser tilladelige?

Inferens, september 2007 28 Normalfordelingsmodel for en gruppe X 1,...,X n uafhængige N(µ, σ 2 ) Parametre: middelværdi µ spredning (SD) σ Density 0.0 0.1 0.2 0.3 0.4 20 25 30 35 40 x

Inferens, september 2007 29 Normalfordelingsmodel for to grupper X 11,...,X 1n1 N(µ 1, σ 2 ) X 21,...,X 2n2 N(µ 2, σ 2 ) Parametre: middelværdier µ 1, µ 2 spredninger (SD) σ 1, σ 2 eller fælles σ Density 0.00 0.05 0.10 0.15 0.20 Af interesse: µ 1 µ 2 20 25 30 35 40 x

Inferens, september 2007 30 Lineær regressionsmodel Y i N(α + βx i, σ 2 ) Parametre: for linien α, β spredning (SD) σ omkring linien y 5 10 15 20 25 30 35 0 2 4 6 8 10 x

Inferens, september 2007 31 Binomial model Y Bin(N, p) Parametre: p probability 0.00 0.05 0.10 0.15 0 5 10 15 20 x

Inferens, september 2007 32 Estimation: Hvilke modelparametre passer med data? Principper: Maximum likelihood Likelihood: Tæthedens værdi for det observerede, opfattet som funktion af de ukendte parametre Mindste kvadraters metode Normalfordeling: Parametre µ og σ estimeres ved henholdsvis x og s. Binomialfordeling: p estimeres som y/n (antal succes er divideret med totalantal)

Inferens, september 2007 33 Observeret størrelse Data relativ frekvens empirisk fordeling estimat (skøn) gennemsnit Teoretisk størrelse Population sandsynlighed teoretisk fordeling parameter middelværdi Estimater skal angives med tilhørende usikkerheder! gerne i form af et konfidensinterval

Inferens, september 2007 34 Usikkerhed på gennemsnit For uafhængige variable gælder: V (x 1 + x 2 ) = V (x 1 ) + V (x 2 ) Hvis x i erne er uafhængige med samme middelværdi og varians σ 2, er V ( x i ) = V (x i ) = nσ 2 V ( x) = σ 2 /n Standard error of the mean SD bruges til beskrivelser SEM bruges til sammenligninger SEM = SD( x) = SD(x) n

Inferens, september 2007 35 Konfidensinterval= sikkerhedsinterval: Interval, der fanger den ukendte parameter med 95% sandsynlighed. Hvor kan vi tro på at faktisk middelværdi µ ligger? For hvilke µ 0 forkastes hypotesen µ = µ 0? (Approksimativt) 95% konfidensinterval for middelværdi x ± 2 SEM Eksakt for normalfordelingen.

Inferens, september 2007 36 Eksempel: Se-albumin (fra sidste gang) Her havde vi 87 observationer: x 1,, x 87 med x = 34.46 g/l, SD(x) = 5.84 g/l SEM(x) = SD(x)/ 87 = 0.626 g/l 95% konfidensinterval for middel Se-albumin: 34.46 ± 2 0.626 = (33.21, 35.71) g/l Det betyder, at man kan acceptere hypoteser om middelværdien på mellem 33.21 og 35.71 Omvendt kan man næsten udelukke at middelværdien er over 35.71 eller under 33.21.

Inferens, september 2007 37 Test: Passer en model bedre til data end en anden? Kunne en eller flere parametre i en model være en kendt værdi (ofte 0)? Modelreduktion: Model (nul)hypotese (H 0 ). (kan den forenklede model tænkes at være den rigtige?) Teststørrelse: En størrelse, der måler diskrepans mellem observation og hypotese. Eksempelvis: Faldet i likelihood, når vi går fra model til hypotese Undersøg om teststørrelsen er mere ekstrem end hvad der kan forventes ved tilfældighedernes spil.

Inferens, september 2007 38 Eksempel: Se-albumin igen Vi vil teste om middelværdien kan være 37 g/l Det er oplagt at vurdere, om X er tæt på 37, altså om X 37 er tæt på 0, målt i forhold til dens usikkerhed. Under H 0 gælder: X N(37, σ 2 /n) X 37 σ2 /n N(0, 1) Vi kender ikke σ, men vi har et estimat: s=sd(x)=5.84 g/l Men denne upræcished betyder, at fordelingen får tungere haler: T = X µ s2 /n = X µ SEM t(n 1)

Inferens, september 2007 39 Her finder vi teststørrelsen: t = 34.46 37 0.626 = 4.06 Passer værdien -4.06 godt med en t-fordeling med 85 frihedsgrader? Nej, den ligger for langt ude i halen af fordelingen! P-værdien kan udregnes til P = 0.00011

Inferens, september 2007 40 P-værdi: Sandsynlighed for dette eller værre under nulhypotesen Værre betyder noget, der passer endnu dårligere med nulhypotesen. dnorm(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x Hvis der er en lille sandsynlighed for noget, der er værre end det vi har, så må det være ret slemt.

Inferens, september 2007 41 Hvis P-værdien er under 0.05, siger man at testet er signifikant på 5% niveau. Man forkaster hypotesen. Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men der er tale om et arbitrært valg. Man bør derfor angive selve P-værdien, og allervigtigst: Angiv estimat med konfidensinterval! Her blev det udregnet til (33.21, 35.71), så vi kunne med det samme have set, at 37 ikke var en rimelig værdi for middelværdien

Inferens, september 2007 42 Signifikansniveauet α angiver den risiko, man er villig til at løbe, for at forkaste en sand hypotese, også kaldet fejl af type I. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II Vi vil gerne have, at α er lille. forkast fejl af type I

Inferens, september 2007 43 1-β kaldes styrken. Den angiver sandsynligheden for at forkaste en falsk hypotese, dvs. typisk at finde en forskel. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II forkast fejl af type I Vi vil gerne have, at styrken er stor, altså at β (risikoen for type 2 fejl) er lille, men hvad betyder det, at H 0 er falsk? Hvor falsk er den?

Inferens, september 2007 44 Styrken er en funktion af den sande forskel: Hvis forskellen er xx, hvad er så sandsynligheden for at opdage det på et 5% niveau?? 10, 16, 25 in each group power 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 size of difference Styrken udregnes før undersøgelsen påbegyndes, for at dimensionere denne Når observationerne er samlet ind, præsenteres i stedet konfidensintervaller

Inferens, september 2007 45 Et eksempel i detaljer: Binomialfordelingen Påstand: Præparatet M virker mod migræne. Inden præparatet markedsføres, skal denne påstand prøves om muligt verificeres eller afkræftes. Logisk set er der 3 muligheder: 1. Præparatet M har en positiv effekt folk foretrækker M for T=traditionel/placebo 2. Præparatet har en negativ effekt folk foretrækker T for M 3. Præparatet M har ingen (eller kun meget ringe) virkning folk er ligeglade med hvad de får

Inferens, september 2007 46 Undersøgelsen: Randomiseret, dobbeltblind cross-over trial, hvor 8 patienter får M resp. T i 2 adskilte perioder Hvorfor randomiseret? Hvis alle patienter fik præparaterne i samme rækkefølge, f.eks. T efterfulgt af M, kunne man forveksle evt. forskelle med f.eks. årstidsvariation, spontan bedring mv. Hvorfor blindet? Fordi patientens egen forventning har en indvirkning på udfaldet (placeboeffekt) og fordi lægens viden eller forventning kan smitte til patienten.

Inferens, september 2007 47 Hvilken størrelse skal observeres? X: Antal (af de 8), der foretrækker M for T Undersøgelsens (hypotetiske) udfald: n = 8, x = 7 Ukendt parameter: p = sandsynligheden for at en tilfældigt udvalgt patient foretrækker M for T. Vores bedste gæt på p (estimatet) er nu (naturligvis) andelen af patienter, der foretrækker M, altså ˆp = x n = 7 8

Inferens, september 2007 48 Umiddelbart ser det jo ud til, at M har en positiv effekt! Hvorfor?? Fordi, hvis det ikke virkede (p = 1 2 ), ville vi næppe finde så mange, der foretrak M for T. Men: Det er jo små tal, så kunne det ikke blot være sket ved en tilfældighed?

Inferens, september 2007 49 Vi opstiller (nul)hypotesen: H 0 : p = 1 2 (M virker ikke) mod alternativet: H A : p > 1 2 (M virker positivt) Hvis vi kan afkræfte hypotesen H 0, har vi sandsynliggjort, at medicinen har en effekt. Fremgangsmåde: Vi forestiller os, at H 0 er sand og ser om det fører til noget, der ligner en modstrid (dvs. noget som er meget/ekstremt usandsynligt).

Inferens, september 2007 50 Hvis H 0 er sand, hvilke X er vil vi da forvente at observere? Formentlig nogle omkring 4 (= 8 2 ). Fordelingen af X under H 0 : X Bin(n = 8, p = 0.5) dbinom(x, 8, 0.5) 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 x Har vi observeret noget ekstremt? P(X 7 H 0 ) = 0.035

Inferens, september 2007 51 Hvis H 0 er sand, har vi observeret noget langt ude i halen, som man kun tilfældigvis vil observere i 3.5% af tilfældene. Dette tyder på,at H 0 ikke er sand (og at H A altså er mere rimelig). Vi kalder P(X 7 H 0 ) for halesandsynligheden eller P-værdien, og skriver P=0.035 eller P=3.5%. Når denne er tilstrækkelig lille, forkaster vi H 0. Men hvad betyder tilstrækkelig lille?? P<5%? P<1%? Man vælger et signifikansniveau, betegnet α, og forkaster så H 0, når P< α.

Inferens, september 2007 52 Ensidigt vs. tosidigt test I det foregående har vi lavet et ensidigt test, idet H A : p >0.5 Det anses ikke for god tone! Der skal være gode argumenter for at udføre en ensidigt test! Man skal kunne garantere, at den modsatrettede effekt ikke kan forekomme. Hvis alternativet i stedet var H A :p 0.5, ville observationerne x=0 og x=1 være ligeså ekstreme, så P-værdien ville blive fordoblet til 7% og dermed lede til en accept af hypotesen.

Inferens, september 2007 53 Summa summarum: Bin(n=8,p=0.5) passer ikke helt godt med vores observation, x=7. Hvilken binomialfordeling passer bedst? Maximum likelihood estimat: Den værdi af parameteren p, der gør pinden P(X=7) størst mulig. Her bliver det: ˆp = 7 8 = 0.875 Konfidensinterval/sikkerhedsinterval: Hvilke andre p-parametre passer også nogenlunde godt? Det gør de værdier, der ikke ville blive forkastet ved test.

Inferens, september 2007 54 Konfidensinterval for parameteren p Vi finder her (ved at slå op i Geigy s tabeller) et 95% (tosidigt) konfidensinterval til (0.474,0.997). mere om det under kategoriske data Hvis signifikansniveauet er α, bliver konfidensgraden 1-α. Meget ofte er signifikansniveauet 5% og konfidensgraden dermed 95%. men det er der ikke noget helligt i!!

Inferens, september 2007 55 Hvis undersøgelsen havde inkluderet 100 personer (n=100), så skulle vi arbejde i fordelingen Bin(100, 0.5), som har udseendet: dbinom(x, 100, 0.5) 0.00 0.02 0.04 0.06 0.08 0 20 40 60 80 100 x Det ville være yderst besværligt, og i stedet bruger man en normalfordelingsapproksimation Bin(n, p) N(np, np(1 p))

Inferens, september 2007 56 Vi skal se på hypotesen H 0 : p = p 0 = 1 2 ved at betragte størrelsen u = X np 0 np0 (1 p 0 ) N(0, 1) Hvis vi observerer x = 65 præferencer for M, får vi u = 65 50 5 = 3 eller med den såkaldte kontinuitetskorrektion: u = 65 50 1 2 5 = 2.9

Inferens, september 2007 57 Ved opslag i en normalfordelingstabel giver u = 2.9 en P-værdi på 0.0037 0.4%. 65 preferencer er således ekstremt meget under hypotesen H 0 : p = p 0 = 1 2, som derfor må forkastes.

Inferens, september 2007 58 For de lidt nørdede er der et nemt alternativ til tabelopslag, nemlig Programmet R, der er freeware, lige til at downloade. Se f.eks. http://mirrors.dotsrc.org/cran/ > u<-2.5+(0:5)/10 > cbind(u,2*(1-pnorm(u))) u [1,] 2.5 0.012419331 [2,] 2.6 0.009322376 [3,] 2.7 0.006933948 [4,] 2.8 0.005110261 [5,] 2.9 0.003731627 [6,] 3.0 0.002699796