Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1
Population og stikprøve 2
Stikprøvevariation Hvad er danskernes gennemsnitshøjde? N = 10 X 1 = 169 cm X 2 = 183 cm X 3 = 171 cm X 4 = 113 cm X 5 = 174 cm 3
Hvorfor er et estimates præcision vigtig? Sammenhængen mellem fødselsvægt og fostrets alder (i uger). ^β = 116. Estimater er de (biologisk/fysisk/...) relevante parametre. 4
Hvad sker der, hvis vi gentager forsøget? 5
Histogram af middelværdier 6
Hvad gør man i praksis? Hvis man nu kendte den data-genererende proces... Hvis X stokastisk var. med E(X) = μ og V(X) = σ 2 så vil a + bx have E(X) = a + bμ, og V(X) = b 2 σ 2 Hvis har middelværdi og spredning X 1,, X N μ 1,, μ N σ 1,, σ N E( i X i ) = i μ i V( i X i ) = i σ 2 i (hvis uafh.) 7
Den centrale grænseværdisætning Hvis X 1,, X N er ua hængige og identisk fordelte med samme middelværdi μ og spredning σ så vil der gælde for gennemsnittet, X = 1 N N i=1 X i, og at σ X N(μ, 2 ) N Approksimationen bliver bedre jo større N. 8
9
Måleusikkerhed Hvis den data-genererende proces er observation = μ sand værdi + ε støj E(ε) = 0 V(ε) = σ 2 τ hvor og så vil (for fast grænse ) X μ τ τ X μ τ Men CLT giver, at X μ N(0, σ 2 /N) 10
Egenskaber ved normalfordelingen 11
Intervaller For X N(μ, σ 2 ) vil P( X μ 2σ) 0.95 så P( 2σ X μ 2σ) P( X 2σ μ X + 2σ) P(X + 2σ μ X 2σ) P(X 2σ μ X + 2σ) = 0.95 12
Kon densintervaller Konfidensinterval for en parameter μ: 13
Kon densintervaller Hvis vi hver gang vi udfører et eksperiment hævder, at den ukendte parameter ligger i det beregnede 95% interval, så tager vi kun fejl i 5% af tilfældene. Et konfidensinterval er altid for en parameter. Kan gøre intervallerne bredere for at være mere sikre (men også mere upræcise). 14
Simulerede kon densintervaller 15
Fortolkning af kon densintervaller Jeg er 95% sikker på, at intervallet fra [165 ; 175] indeholder den sande gennemsnitlige højde for danskere. I virkeligheden: enten 0% eller 100%, men vi ved ikke hvilken. De 95% henviser derfor til den generelle procedure med at lave konfidensintervaller. 16
Nulhypotesen og kon densintervaller Når man tester en nulhypotese, netop de værdier, der ikke bliver forkastet. H 0 : μ = μ 0 så er 95% konfidensintervallet De værdier for nulhypotesen, som data ikke er i modstrid med. 17
Binomialfordelingen 18
19
Binomialfordelingen Antagelser om en binomialfordelt variabel N ua hængige forsøg To mulige udfald: succces og fiasko Samme successandsynlighed, θ, i hvert forsøg F S S S S F F S F S S S S S F F S F F F Estimat: ^y = # Gunstige # Mulige 20
Binomialfordelingen Antagelser om en binomialfordelt variabel N ua hængige forsøg To mulige udfald: succces og fiasko Samme successandsynlighed, θ, i hvert forsøg 0 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 0 0 0 Estimat: # Gunstige ^θ = = # Mulige i y i N 21
Approksimativt KI for binomialfordelingen For binomialfordelt variabel er ^σ 2 = ^θ(1 ^θ) så et 95% KI for θ er ca. [^θ 1.96 ^σ ; ^θ + 1.96 ^σ ] N N 22
Generel formel Et 95% konfidensinterval for en parameter μ har generelt formen [^μ 1.96 SE(^μ); ^μ + 1.96 SE(^μ)] Standardfejlen - standard error - er spredningen på estimatet. For horoskopdata: så og N = 87, Y = 27 ^θ = 0.32 0.32 ± 1.96 0.32 (1 0.32) = [0.22; 0.42] 84 23
Udvidelser 24
Lineær regression Antag Y 1,, Y N følger en regressionsmodel Y i = α + βx i + ε i, hvor er kendte og. x 1,, x N ε i N(0, σ 2 ) LS giver estimaterne ^β = i (x i x)(y i ȳ) i (x i x) 2, og ^α = ȳ ^β x Disse estimater er normalfordelte (lineære funktioner af data)! 25
Varianser ifm lineær regression ^α og ^β har varianser V(^α) = σ 2 i x 2 i σ og V( ^β) 2 = N i (x i x) 2 i (x i x) 2 σ 2 estimeres ved ^σ 2 = 1 N 2 i 2 (y i (^α + ^βxi )) residual Så følger KI direkte. 26
Fødselsdata lm(weight ~ age, data=birthweight) %>% tidy() ## # A tibble: 2 x 5 ## term estimate std.error statistic p.value ## <chr> <dbl> <dbl> <dbl> <dbl> ## 1 (Intercept) -1485. 853. -1.74 0.0955 ## 2 age 116. 22.1 5.23 0.0000304 95% KI for β : 116 ± 1.96 22.1 = [72.7; 159.3] 27
Kon densintervaller og prædiktionsintervaller Et konfidensinterval siger noget om realistiske værdier for en parameter. Et prædiktionsinterval siger noget om realistiske værdier for en enkelt observation. 28