Basal statistik. 6. februar 2007

Basal statistik 6. februar 2007 Statistisk inferens Sandsynligheder Fordelinger Modeller Statistisk analyse Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: L.T.Skovgaard@biostat.ku.dk http://staff.pubhealth.ku.dk/~lts/basal07_1

Inferens, februar 2007 1 Sandsynlighed: Talværdi, der udtrykker usikkerhed omkring et udfald/hændelse p 1 2 : stor usikkerhed, møntkast p 0 eller 1: lille usikkerhed sandsynlighed for at vinde i lotto / overleve næste dag Frekvensfortolkning: Den enkelte hændelse har kun 2 muligheder - enten indtræffer den eller også gør den ikke. Hvis der er (mange) gentagelser, kan man studere frekvensen (hyppigheden) af hændelsen, og grænseværdien for denne kaldes sandsynligheden. Inferens, februar 2007 2 Det simpleste eksempel: Møntkast Store Tals Lov prop.of.heads 0.0 0.2 0.4 0.6 0 50 100 150 200 250 300 tosses Når vi udfører eksperimentet mange gange, vil frekvensen stabilisere sig omkring sandsynligheden for plat/krone Inferens, februar 2007 3 Hvordan bestemmer/definerer vi sandsynligheder? Logik En terning har 6 sider, som ender opad med lige stor sandsynlighed, nemlig 1 6 sandsynlighed= gunstige/ mulige Erfaring Hvis vinden kommer fra øst om sommeren, bliver det med stor sandsynlighed (sædvanligvis) varmt frekvensfortolkningen Subjektivt Fornemmelser, hensigter, vurderinger

Inferens, februar 2007 4 Frekvensfortolkningen: Dette matematiske begreb involverer uafhængige og identiske gentagelser af samme eksperiment. Hvad betyder det? Hvis de virkelig var identiske, ville de vel give det samme? De skal være identiske mht. de betingelser, som vi ved (eller mener at vide) har indflydelse på resultatet Vi har ingen mulighed for at skelne mellem dem, de er ombyttelige (interchangeable) Inferens, februar 2007 5 Eksempel: Børnefødsler To mulige udfald: Bliver det en dreng eller en pige? Hvad er gentagelserne her? Søskende... Ofte, betyder identiske gentagelser i praksis situationer, der ser ens ud Her: fødsler blandt andre kvinder Det antages, at alle kvinder har den samme sandsynlighed p for at få en dreng (resp. pige), eller vi kan i hvert fald ikke på forhånd sige, hvem der skulle have større eller mindre sandsynlighed... Inferens, februar 2007 6 Hvad er sandsynligheden for at have fødselsdag juleaften? Hvad er sandsynligheden for at to tilfældigt valgte individer har fødselsdag samme dag? Hvad er sandsynligheden for at to personer på dette kursus har fødselsdag på samme dag?

Inferens, februar 2007 7 Sandsynlighed for sammenfald af fødselsdage: 2 personer: 1-364 365 3 personer: 1-364 365 363 365 : N personer: 1-364 365 363 365 (365 N+1) 365 Inferens, februar 2007 8 Sandsynligheder opfører sig som frekvenser: Farveblindhed? nej ja Total Piger 119 1 120 Drenge 144 6 150 Total 263 7 270 Relativ frekvens af farveblindhed: r(b) = 7 270 = 0.026 Betinget frekvens af farveblindhed, givet at man er dreng: r(b A) = r(a B)/r(A) = 6 270 /150 270 = 6 150 = 0.04 Er farveblindhed uafhængigt af køn? Er r(b A) r(b)? Inferens, februar 2007 9 De vigtigste regneregler for sandsynligheder: sandsynligheder ligger mellem 0 og 1 og summerer til 1 Fællesmængde A B (både A og B) P(A B) =?? Hvis A og B er uafhængige: P(A B) = P(A) P(B) Betinget sandsynlighed (ssh. for B forudsat A): P(B A) = hvis A og B er uafhængige: P(A B) P(A) P(B A) = P(B)

Inferens, februar 2007 10 Eksempler 1. I en kasse ligger kugler nummereret 1-9, en af hver. Hvis man trækker en kugle tilfældigt, hvad er så sandsynligheden for, at den har et nummer større end 5? 2. Forestil dig, at du har kastet en mønt 20 gange og har fået 19 kroner og en plat. Hvad er sandsynligheden for at få krone i næste kast? 3. Hvad er sandsynligheden for, at det næste barn født på Rigshospitalet er en dreng? Inferens, februar 2007 11 Eksempler, fortsat 4. Hvad er sandsynligheden for, at du får en overordnet stilling inden for de næste 10 år? 5. Et par blå og et par sorte sokker ligger enkeltvis sammenrodet i en skuffe. Hvis du tilfældigt tager to sokker op, hvad er så sandsynligheden for, at de har samme farve? Inferens, februar 2007 12 Eksempel på diskret fordeling: Binomialfordelingen N uafhængige 0/1-forsøg (Bernoulliforsøg) U i, alle med P(U i = 1) = p (f.eks. p = 0.51 for drengefødsel) X = U 1 + + U N = U i, antal succes er (=antal 1-taller) Fordeling af X kaldes Binomialfordelingen og skrives X Bin(N, p) Punktsandsynlighederne kan beregnes ved kombinatorik, P(X = ) = ( ) N p (1 p) N Binomialkoefficienten ( N ) angiver antallet af måder hvorpå man kan vælge ud af N ( N ) = N!!(N )!

Inferens, februar 2007 13 Eksempel: 3-barns familier 3 Bernoullivariable for hver mor, U m1, U m2, U m3 : 1, hvis fødsel i for mor m resulterer i en dreng U mi = 0, hvis det bliver en pige Sandsynlighed for drengefødsel: p X m = U m1 + U m2 + U m3, antal drenge for den i te mor Hvilke kombinationsmuligheder er der? Inferens, februar 2007 14 X m antal drenge antal piger sandsynlighed 0 0 3 (1 p) 3 1 1 2 3 p (1 p) 2 2 2 1 3 p 2 (1 p) 3 3 0 p 3 dbinom(, 50, 0.2) 0.00 0.14 0 10 20 30 40 50 dbinom(, 50, 0.5) 0.00 0.10 0 10 20 30 40 50 dbinom(, 50, 0.8) 0.00 0.14 0 10 20 30 40 50 dbinom(, 20, 0.2) 0.00 0.20 0 5 10 15 20 dbinom(, 20, 0.5) 0.00 0 5 10 15 20 dbinom(, 20, 0.8) 0.00 0.20 0 5 10 15 20 dbinom(, 10, 0.2) 0.00 0.30 0 2 4 6 8 10 dbinom(, 10, 0.5) 0.00 0.25 0 2 4 6 8 10 dbinom(, 10, 0.8) 0.00 0.30 0 2 4 6 8 10 dbinom(, 4, 0.2) 0.0 0.3 0 1 2 3 4 dbinom(, 4, 0.5) 0.05 0.35 0 1 2 3 4 dbinom(, 4, 0.8) 0.0 0.3 0 1 2 3 4 Inferens, februar 2007 15

Inferens, februar 2007 16 Fordelinger for kvantitative (kontinuerte) variable. Hvad betyder sandsynligheder i forbindelse med f.eks. systolisk blodtryk? Her har hver enkelt værdi (f.eks. 122.858...) sandsynlighed 0 for at indtræffe (fordi der i princippet er uendelig mange mulige udfald). I stedet for punktsandsynligheder taler vi så om sandynlighedstætheder Inferens, februar 2007 17 Sandynlighedstæthed (eller bare tæthed) Sandsynligheden for et interval = arealet under kurven Inferens, februar 2007 18 Tæthed for (standard) normalfordeling dnorm() 0.0 0.1 0.2 0.3 0.4 f() = 1 2π e 1 2 2 middelværdi 0, varians 1 3 2 1 0 1 2 3

Inferens, februar 2007 19 Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable kommer efterhånden til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med. Standard programmel er udviklet for normalfordelingen. Inferens, februar 2007 20 Inferens, februar 2007 21 Central grænseværdisætning.

Inferens, februar 2007 22 χ 2 -fordelingen Familie af fordelinger, afhængig af frihedsgrader (her: 1, 2, 3, 4). noget med sum af kvadrerede normalfordelinger 0 2 4 6 8 10 dchisq(, 1) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 Inferens, februar 2007 23 t-fordelingen (Student fordelingen) afhængig af frihedsgrader (her: 5, 10, 100). Mange frihedsgrader: Fordelingen ligner normalfordeling Få frihedsgrader: Tungere haler. dt(, 100) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Inferens, februar 2007 24 Statistisk model: Specifikation af fordelingsklasse: Familie af fordelinger/tætheder, specificeret ved parametre, f.eks. middelværdi og spredning i normalfordeling. mulige effekter/sammenhænge En sandsynlighedsmodel kan bruges til at simulere (generere fiktive data). Statistisk analyse er det omvendte: Hvis vi allerede har data, hvad kan vi så sige om den sandsynlighedsmekanisme, der har frembragt dem?

Inferens, februar 2007 25 Statistisk analyse Estimation: Hvilke parameterværdier passer bedst med observationerne? Og hvor sikkert er de bestemt? Modelkontrol: Er forudsætningerne opfyldt? Modelreduktion (Hypotesetest): Er simplere beskrivelser tilladelige? Inferens, februar 2007 26 Normalfordelingsmodel for en gruppe X 1,...,X n uafhængige N(µ, σ 2 ) Parametre: middelværdi µ spredning (SD) σ Density 0.0 0.1 0.2 0.3 0.4 20 25 30 35 40 Inferens, februar 2007 27 Normalfordelingsmodel for to grupper X 11,...,X 1n1 N(µ 1, σ 2 ) X 21,...,X 2n2 N(µ 2, σ 2 ) Parametre: middelværdier µ 1, µ 2 spredninger (SD) σ 1, σ 2 (σ) Density 0.00 0.05 0.10 0.15 0.20 20 25 30 35 40

Inferens, februar 2007 28 Lineær regressionsmodel Y i N(α + β i, σ 2 ) Parametre: for linien α, β spredning (SD) σ y 5 10 15 20 25 30 35 0 2 4 6 8 10 Inferens, februar 2007 29 Binomial model Y Bin(N, p) Parametre: p probability 0.00 0.05 0.10 0.15 0 5 10 15 20 Inferens, februar 2007 30 Estimation: Hvilke modelparametre passer med data? Principper: Maimum likelihood Likelihood: Tæthedens værdi for det observerede, opfattet som funktion af de ukendte parametre Mindste kvadraters metode Normalfordeling: Parametre µ og σ estimeres ved henholdsvis og s. Binomialfordeling: p estimeres som y/n (antal succes er divideret med totalantal)

Inferens, februar 2007 31 Observeret størrelse Data relativ frekvens empirisk fordeling estimat (skøn) gennemsnit Teoretisk størrelse Population sandsynlighed teoretisk fordeling parameter middelværdi Estimater skal angives med tilhørende usikkerheder! Inferens, februar 2007 32 Usikkerhed på gennemsnit For uafhængige variable gælder: V ( 1 + 2 ) = V ( 1 ) + V ( 2 ) Hvis i erne er uafhængige med samme middelværdi og varians σ 2, er V ( i ) = V ( i ) = nσ 2 V ( ) = σ 2 /n Standard error of the mean SD bruges til beskrivelser SEM bruges til sammenligninger SEM = SD( ) = SD() n Inferens, februar 2007 33 Konfidensinterval= sikkerhedsinterval: Interval, der fanger den ukendte parameter med 95% sandsynlighed. Hvor kan vi tro på at faktisk middelværdi µ ligger? For hvilke µ 0 forkastes hypotesen µ = µ 0? (Approksimativt) 95% konfidensinterval for middelværdi ± 2 SEM Eksakt for normalfordelingen.

Inferens, februar 2007 34 Eksempel: Se-albumin I eksemplet fra tidligere havde vi 87 observationer: 1,, 87 med = 34.46 g/l, SD() = 5.84 g/l SEM() = SD()/ 87 = 0.626 g/l 95% konfidensinterval for middel Se-albumin: 34.46 ± 2 0.626 = (33.71, 36.21) g/l Det betyder, at man kan acceptere hypoteser om middelværdien på mellem 33.71 og 36.21 Omvendt kan man næsten udelukke at middelværdien er over 36.21 eller under 33.71. Inferens, februar 2007 35 Test: Passer en model bedre til data end en anden? Kunne en eller flere parametre i en model være en kendt værdi (ofte 0)? Modelreduktion: Model (nul)hypotese (H 0 ). (kan den forenklede model tænkes at være den rigtige?) Teststørrelse: En størrelse, der måler diskrepans mellem observation og hypotese. Eksempelvis: Faldet i likelihood, når vi går fra model til hypotese Undersøg om teststørrelsen er mere ekstrem end hvad der kan forventes ved tilfældighedernes spil. Inferens, februar 2007 36 Eksempel: Se-albumin igen Vi vil teste om middelværdien kan være 37 g/l Det er oplagt at vurdere, om X er tæt på 37, altså om X 37 er tæt på 0, målt i forhold til dens usikkerhed. Under H 0 gælder: X N(37, σ 2 /n) X 37 N(0, 1) σ2 /n Vi kender ikke σ, men vi har et estimat: s=sd()=5.84 g/l Men denne upræcished betyder, at fordelingen får tungere haler: T = X µ s2 /n = X µ t(n 1) SEM

Inferens, februar 2007 37 Her finder vi teststørrelsen: t = 34.46 37 0.626 = 4.06 Passer værdien -4.06 godt med en t-fordeling med 85 frihedsgrader? Nej, den ligger for langt ude i halen af fordelingen! Inferens, februar 2007 38 P-værdi: Sandsynlighed for dette eller værre under nulhypotesen Værre betyder noget, der passer endnu dårligere med nulhypotesen. dnorm() 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Hvis der er en lille sandsynlighed for noget, der er værre end det vi har, så må det være ret slemt. Inferens, februar 2007 39 Hvis P-værdien er under 0.05, siger man at testet er signifikant på 5% niveau. Man forkaster hypotesen. Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men der er tale om et em arbitrært valg. Man bør derfor angive selve P-værdien, og allervigtigst: Angiv estimat med konfidensinterval!

Inferens, februar 2007 40 Signifikansniveauet α angiver den risiko, man er villig til at løbe, for at forkaste en sand hypotese, også kaldet fejl af type I. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II Vi vil gerne have, at α er lille. forkast fejl af type I Inferens, februar 2007 41 1-β kaldes styrken. Den angiver sandsynligheden for at forkaste en falsk hypotese, dvs. typisk at finde en forskel. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II forkast fejl af type I Vi vil gerne have, at β (risikoen for type 2 fejl) er lille, men hvad betyder det, at H 0 er falsk? Hvor falsk er den? Inferens, februar 2007 42 Styrken er en funktion af den sande forskel: Hvis forskellen er, hvad er så sandsynligheden for at opdage det på et 5% niveau?? 10, 16, 25 in each group power 0.0 0.2 0.4 0.6 0.8 1.0 Styrken udregnes for at dimensionere undersøgelser Når observationerne er samlet ind, præsenteres i stedet konfidensintervaller 4 2 0 2 4 size of difference

Inferens, februar 2007 43 Et eksempel mere: Binomialfordelingen Påstand: Præparatet M virker mod migræne. Inden præparatet markedsføres, skal denne påstand prøves om muligt verificeres eller afkræftes. Logisk set er der 3 muligheder: 1. Præparatet M har en positiv effekt folk foretrækker M for T=traditionel/placebo 2. Præparatet har en negativ effekt folk foretrækker T for M 3. Præparatet M har ingen (eller kun meget ringe) virkning folk er ligeglade med hvad de får Inferens, februar 2007 44 Undersøgelsen: Randomiseret, dobbeltblind cross-over trial, hvor 8 patienter får M og T i 2 perioder Hvorfor randomiseret? Hvis alle patienter fik præparaterne i samme rækkefølge, f.eks. T efterfulgt af M, kunne man forveksle evt. forskelle med f.eks. årstidsvariation, spontan bedring mv. Hvorfor blindet? Fordi patientens egen forventning har en indvirkning på udfaldet (placeboeffekt) og fordi lægens viden eller forventning kan smitte til patienten. Inferens, februar 2007 45 Hvilken størrelse skal observeres? X: Antal (af de 8), der foretrækker M for T Undersøgelsens udfald: n = 8, = 7 Ukendt parameter: p = sandsynligheden for at en tilfældigt udvalgt patient foretrækker M for T. Vores bedste gæt på p (estimatet) er nu (naturligvis) andelen af patienter, der foretrækker M, altså ˆp = n = 7 8

Inferens, februar 2007 46 Umiddelbart ser det jo ud til, at M har en positiv effekt! Hvorfor?? Fordi, hvis det ikke virkede, ville vi næppe finde så mange, der foretrak M for T. Men: Det er jo små tal, så kunne det ikke blot være sket ved en tilfældighed? Inferens, februar 2007 47 Vi opstiller (nul)hypotesen: H 0 : p = 1 2 (M virker ikke) mod alternativet: H A : p > 1 2 (M virker positivt) Hvis vi kan afkræfte hypotesen H 0, har vi sandsynliggjort, at medicinen har en effekt. Fremgangsmåde: Vi forestiller os, at H 0 er sand og ser om det fører til noget, der ligner en modstrid (dvs. noget som er meget/ekstremt usandsynligt). Inferens, februar 2007 48 Hvis H 0 er sand, hvilke X er vil vi da forvente at observere? Formentlig nogle omkring 4 (= 8 2 ). Fordelingen af X under H 0 : X Bin(n = 8, p = 0.5) dbinom(, 8, 0.5) 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 Har vi observeret noget ekstremt? P(X 7 H 0 ) = 0.035

Inferens, februar 2007 49 Hvis H 0 er sand, har vi observeret noget langt ude i halen, som man kun tilfældigvis vil observere i 3.5% af tilfældene. Dette tyder på,at H 0 ikke er sand (og at H A altså er mere rimelig). Vi kalder P(X 7 H 0 ) for halesandsynligheden eller P-værdien, og skriver P=0.035 eller P=3.5%. Når denne er tilstrækkelig lille, forkaster vi H 0. Men hvad betyder tilstrækkelig lille?? P<5%? P<1%? Man vælger et signifikansniveau, betegnet α, og forkaster så H 0, når P< α. Inferens, februar 2007 50 Ensidigt vs. tosidigt test I det foregående har vi lavet et ensidigt test, idet H A : p >0.5 Hvis H A :p 0.5 ville observationerne =0 og =1 være ligeså ekstreme, så P-værdien ville blive fordoblet til 7% og dermed lede til et accept af hypotesen. Der skal være gode argumenter for at udføre en ensidigt test! Man skal kunne garantere, at den modsatrettede effekt ikke kan forekomme. Inferens, februar 2007 51 Summa summarum: Bin(n=8,p=0.5) passer ikke helt godt med vores observation, =7. Hvilken binomialfordeling passer bedst? Maimum likelihood estimat: Den værdi af parameteren p, der gør pinden P(X=7) størst mulig. Her bliver det: ˆp = 7 8 = 0.875 Konfidensinterval/sikkerhedsinterval: Hvilke andre p-parametre passer også nogenlunde godt? Det gør de værdier, der ikke ville blive forkastet ved test.

Inferens, februar 2007 52 Konfidensinterval for p Vi finder her (ved at slå op i Geigy s tabeller) et 95% (tosidigt) konfidensinterval til (0.474,0.997). mere om det under kategoriske data Hvis signifikansniveauet er α, bliver konfidensgraden 1-α. Inferens, februar 2007 53 Hvis undersøgelsen havde inkluderet 100 personer (n=100), så skulle vi arbejde i fordelingen Bin(100, 0.5), som har udseendet: dbinom(, 100, 0.5) 0.00 0.02 0.04 0.06 0.08 0 20 40 60 80 100 Det ville være yderst besværligt, og i stedet bruger man en normalfordelingsapproksimation Bin(n, p) N(np, np(1 p)) Inferens, februar 2007 54 Vi skal se på hypotesen H 0 : p = p 0 = 1 2 ved at betragte størrelsen u = X np 0 N(0, 1) np0 (1 p 0 ) Hvis vi observerer = 65 præferencer for M, får vi u = 65 50 5 = 3 eller med den såkaldte kontinuitetskorrektion: u = 65 50 1 2 5 = 2.9

Inferens, februar 2007 55 Ved opslag i en normalfordelingstabel giver u = 2.9 en P-værdi på 0.0037 0.4%. 65 preferencer er således ekstremt meget under hypotesen H 0 : p = p 0 = 1 2, som derfor må forkastes. Inferens, februar 2007 56 Et nemt alternativ til tabelopslag: Programmet R: freeware, lige til at downloade, se f.eks. http://mirrors.dotsrc.org/cran/ > u<-2.5+(0:5)/10 > cbind(u,2*(1-pnorm(u))) u [1,] 2.5 0.012419331 [2,] 2.6 0.009322376 [3,] 2.7 0.006933948 [4,] 2.8 0.005110261 [5,] 2.9 0.003731627 [6,] 3.0 0.002699796