Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37

Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling: F p [f 1,f 2 ] = 1 F 1 p [f 2,f 1 ], Nanostatistik: Konfidensinterval p. 2/37

Fraktilpåmindelse Når f 1 og f 2 er så store at tabellen ikke slår til kan man benytte følgende grove approksimation for 95% fraktilen F 0.95 [f 1,f 2 ] f 2 f 2 1 + 1.64 f 2 2 (f 1 + 2) f 1 (f 2 4) (f 2 2) f 2 2 (f 2 1) 2, og følgende grove approksimation for 97.5% fraktilen F 0.975 [f 1,f 2 ] f 2 f 2 1 + 1.96 f 2 2 (f 1 + 2) f 1 (f 2 4) (f 2 2) f 2 2 (f 2 1) 2. Et eksempel på denne approksimation er som følger: f 1 = 42, f 2 = 34, F 0.975 [42,34] = 1.94, approksimation: 1.91, f 1 = 34, f 2 = 42, F 0.975 [34,42] = 1.89, approksimation: 1.85, Nanostatistik: Konfidensinterval p. 3/37

Repetition To normalfordelinger, teste ens middelværdi: skriv på tavlen Nanostatistik: Konfidensinterval p. 4/37

Tyngdeaccelerationen i Ribe Experiment: n = 10 uafhængige målinger af tyngdeaccelerationen i Ribe gav 9.98 9.95 9.88 9.81 9.83 9.84 9.92 9.84 9.67 9.81 Gennemsnittet er x = 9.853, som er vores estimat af tyngdeaccelerationen Skal jeg nu tro at tyngdeaccelerationen er 9.853m/s 2 i Ribe? Nej: gentager jeg forsøget får jeg en anden værdi end 9.853m/s 2 Alternativt: istedet for kun at angive et estimat kan vi angive et interval af trolige værdier baseret på data Nanostatistik: Konfidensinterval p. 5/37

Interval for middelværdi X 1,...,X n uafhængige, X i N(µ, 1), ˆµ = X N(µ, 1 n ) Intuitivt: Se på interval af formen [ x κ, x + κ], længde = 2κ R-plot med µ 0 = 0: X N(0, 1 n ) Hvad skal κ være? Hvor ofte ligger 0 i intervallet? Hvordan kommer n ind i det? Svar: P(0 [ X κ, X + κ]) = P( X 0 < κ) = P( N(0, n 1 ) < κ) = P( N(0, 1) < κ n) = 2Φ( κ n) Nanostatistik: Konfidensinterval p. 6/37

N(µ, σ 2 ): interval K(x) for µ Ex: X 1,...,X n uafhængige, X i N(µ,σ 2 ), ˆµ = X N(µ, σ2 n ) K(x) = [ x 1.96 σ n, x + 1.96 σ n ] κ = 1.96 σ n P µ0 (K(X) µ 0 ) = P µ0 ( X 1.96 σ n µ 0 X + 1.96 σ n ) ( = P µ0 µ 0 1.96 σ X µ 0 + 1.96 σ ) n n = P µ0 ( n X µ 0 σ ) 1.96 = P( N(0,1) < 1.96) = 0.95 Nanostatistik: Konfidensinterval p. 7/37

Konfidensinterval, K(x) Konfidensinterval intuitivt: de værdier af parameteren θ, der er næsten lige så gode som ˆθ" til at beskrive data 95% konfidensinterval (matematisk) Et interval K(data) med den egenskab at i 95% af tilfældene vil den sande parameterværdi være indeholdt i intervallet Resultat: Et 95% konfidensinterval kan fås ved at tage de parameterværdier θ 0 for hvilke data x fører til en accept af hypotesen θ = θ 0 ved et test på niveau 5% (95% 100-95=5%) Nanostatistik: Konfidensinterval p. 8/37

Konfidensinterval, K(x) P θ0 (interval(x) θ 0 ) = P θ0 (accept af hypotesen θ = θ 0 ) = 1 P θ0 (X forkastelsesområdet) = 1 α = 1 0.05 = 0.95 (α = 0.05) Nanostatistik: Konfidensinterval p. 9/37

Konfidensinterval for middelværdi µ Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) X = n 1 n i=1 X i, s 2 = n 1 1 n i=1 (X i X) 2 σ 2 kendt: Φ(u 0.975 ) = 0.975, Teststørrelse: Z = n X µ 0 σ N(0, 1) Accept: z u 0.975 Forkast: z u 0.975 { 95% konfidensinterval µ 0 } n x µ 0 σ u 0.975 } σ = {µ 0 x µ 0 u 0.975 n ] σ = [ x u 0.975 n σ, x + u 0.975 n (1 α) konfidensinterval: skift u 0.975 ud med u 1 α/2 Nanostatistik: Konfidensinterval p. 10/37

σ 2 ukendt Når σ 2 er ukendt bruger vi: s 2 = 1 n 1 n i=1 (X i X) 2, F t[n 1] (t 0.975 [n 1]) = 0.975, Teststørrelse: T = n X µ 0 s t[n 1] Accept: t t 0.975 [n 1] Forkast: t t 0.975 [n 1] { 95% konfidensinterval µ 0 } n x µ 0 s t 0.975 [n 1] } {µ 0 x µ 0 t 0.975 [n 1] n σ = = [ ] x t 0.975 [n 1] s n, x + t 0.975 [n 1] s n (1 α) konfidensinterval: skift t 0.975 [n 1] ud med t 1 α/2 [n 1] Nanostatistik: Konfidensinterval p. 11/37

Simon Newcomb: lysets hastighed Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26... 28 27 39 23 n = 64, x = 64 1 x i = 1776, x = 1776 64 = 27.75, s 2 = 1 64 63 1 (x i x) 2 = 25.84, t 0.975 (63) = 2.00 [ ] 25.84 25.84 95% konfidensinterval = 27.75 2.00,27.75 + 2.00 64 64 = [26.48, 29.02] Som ikke indeholder den rigtige lyshastighed 33.02: meget uheldig, eller systematiske fejl i måleopstilling Nanostatistik: Konfidensinterval p. 12/37

Konfidensinterval for varians σ 2 Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Variansestimat: s 2 = n 1 1 n i=1 (X i X) 2 Hypotese: σ 2 = σ0 2, Alternativ: σ2 σ0 2 Teststørrelse: V = (n 1) s2 σ 0 χ 2 [n 1] Hvis V/(n 1) ligger omkring 1 tror vi på at den sande varians er σ 0. Hvis V/(n 1) er meget stor eller meget lille tror vi ikke på det p-fraktil i χ 2 [f]-fordeling: χ 2 p[f]. Test på niveau 5% Accept: χ 2 0.025 [n 1] v χ2 0.975 [n 1] Forkast: v χ 2 0.025 [n 1] eller v χ2 0.975 [n 1] Nanostatistik: Konfidensinterval p. 13/37

Konfidensinterval for varians σ 2 p-værdi = { 2F χ2 [n 1](v) v < 1 2{1 F χ2 [n 1](v)} v > 1 95% { konfidensinterval } σ 0 χ 2 s2 0.025 [n 1] (n 1) χ 2 σ0 2 0.975 { [n 1] = σ 0 χ 2 0.025 [n 1] σ2 0 n 1 s2 χ 2 0.975 [n 1] σ2 0 [ ] = s 2 (n 1) χ 2 [n 1], s 2 (n 1) 0.975 χ 2 0.025 [n 1] n 1 1 α konfidensinterval: skift 0.025 og 0.975 ud med α/2 og 1 α/2 } Nanostatistik: Konfidensinterval p. 14/37

Lysets hastighed 28 22 36 26... 28 27 39 23 n = 64, s 2 = 25.84, χ 2 0.025 [n 1] = 42.95, χ2 0.025 [n 1] = 86.83 95% [ konfidensinterval = 63 25.84 86.83, 63 25.84 ] 42.95 = [18.75, 37.90] Nanostatistik: Konfidensinterval p. 15/37

Konfidensinterval for ss p Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = p 0 Alternativ: p p 0 Exact { p-værdi: 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 95% konfidensinterval: øvre grænse p up : 2F binom(n,p up )(x ) = 5% Besværligt! Nanostatistik: Konfidensinterval p. 16/37

Konfidensinterval for ss p Model: X 1,...,X n uafhængige P(X i = 1) = p, P(X i = 0) = 1 p Bruge normalfordelingsapproximation Test på niveau 5%: Teststørrelse: Z = n X p 0 p0 (1 p 0 ) Acceptområde: z u 0.975 { 95% konfidensinterval p 0 } n x p 0 u 0.975 p0 (1 p 0 ) = [a b,a + b] a = x+u2 0.975/(2n) 1+u 2 0.975 /n, b = a 2 x 2 (1 + u 2 0.975 /n) 1 (1 α) konfidensinterval: skift u 0.975 ud med u 1 α/2 Nanostatistik: Konfidensinterval p. 17/37

Konfidensinterval for ss p n x p p(1 p) = u x 2 2xp + p 2 = p(1 p) u2 n p 2 (1 + u2 n p = ) p(2x + u2 n ) + x2 = 0 2x + u2 n ± (2x + u2 n )2 4x 2 (1 + u2 n ) 2(1 + u2 n ) = a ± b Nanostatistik: Konfidensinterval p. 18/37

Konfidensinterval for ss p Ex: n = 20, x = 10, x = 0.5 a = 0.5+1.962 /40 1+1.96 2 /20 = 0.5 b = 0.5 2 0.5 2 /(1 + 1.96 2 /20) = 0.2007 95% konfidensinterval (approksimativ): [0.5 0.2007, 0.5 + 0.2007] = [0.30, 0.70] 2P(binom(20, 0.70) 10) = 0.096, 2P(binom(20, 0.728) 10) = 0.050 2P(binom(20, 0.30) 10) = 0.096, 2P(binom(20, 0.272) 10) = 0.050 Stadig besværligt! Nanostatistik: Konfidensinterval p. 19/37

Differens mellem to middelværdier X 1,...,X n uafhængige, X i N(µ + δ,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ,σ 2 ) Teste: δ = δ 0 X = 1 n n i=1 X i, 1 m Ȳ = m s 2 = 1 n+m 2 (n 1)s 2 x+(m 1)s 2 y n+m 2 i=1 Y i { n i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} = Teststørrelse: T = X Ȳ δ 0 t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], Nanostatistik: Konfidensinterval p. 20/37

Differens mellem to middelværdier { } x ȳ δ 95% konfidensinterval δ 0 0 t s2 0.975[n + m 2] ( 1 + 1 ) n m { } = δ 0 x ȳ δ 0 t 0.975 [n + m 2] s 2 ( 1n + 1m ) = [ x ȳ t 0.975 [n + m 2] s 2 ( n 1 + m 1 ), ] x ȳ + t 0.975 [n + m 2] s 2 ( 1n + 1m ) (1 α) konfidensinterval: skift t 0.975 [n + m 2] ud med t 1 α/2 [n + m 2] Nanostatistik: Konfidensinterval p. 21/37

Differens mellem to middelværdier Forskellige varianser σ 2 x σ 2 y: Skift s 2 ( 1 n + 1 m ) ud med s2 x n + s2 y m og skift frihedsgraderne n + m 2 ud med f =... Nanostatistik: Konfidensinterval p. 22/37

Michelsons lysmålinger Michelson målte lyshastigheden 100 gange i 1879 og 23 gange i 1882. Data er (fratrukket 299000 km/s, sande lyshastighed er 710.5 på denne skala) 1879: 826 716 876 1046... 926 776 786 846 1882: 883 816 778 796... 797 851 809 723 Vis qq-plot Konfidensinterval for forskellen mellem de to år: n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 s 2 = 99 6242.7+22 11473.5 100+23 2 = 7193.7, [ ] 72.18 1.98 7193.7( 1 100 + 1 23 ),72.18 1.98 7193.7( 1 100 + 1 23 ) = [33.34, 111.02] Nanostatistik: Konfidensinterval p. 23/37

Approksimative konfidensintervaller Parameter: θ, Hypotese: θ = θ 0, Estimat: ˆθ Hvis, under hypotesen, ˆθ N(θ 0,τ 2 ), hvor τ 2 ikke afhænger af θ 0, så vil [ˆθ τu0.975, ˆθ + τu 0.975 ] være et 95% konfidensinterval: { θ 0 ˆθ θ 0 τ u 0.975 } Hvis, τ 2 = 1 n σ(θ 0) 2 vil [ˆθ σ(ˆθ) n u 0.975, ˆθ + σ(ˆθ) n u 0.975 ] være et approksimativt 95% konfidensinterval Nanostatistik: Konfidensinterval p. 24/37

Approksimative konfidensintervaller Hvis ˆθ kun er approksimativt normalfordelt ˆθ N(θ, n 1σ(θ)2 ) Kan vi stadig bruge [ˆθ σ(ˆθ) n u 0.975, ˆθ ] + σ(ˆθ) n u 0.975 som et approksimativt 95% konfidensinterval Ex: X binomial(n,p), ˆp = X n N ( p, n 1 p(1 p)) 95% [ approksimativt konfidensinterval ] ˆp(1 ˆp) ˆp(1 ˆp) ˆp n 1.96, ˆp + n 1.96 = Ex: [ n = 20, x = 10, ˆp = 0.5 0.5(1 0.5) 0.5 20 1.96, 0.5 + ] 0.5(1 0.5) 20 1.96 = [0.28, 0.72] Nanostatistik: Konfidensinterval p. 25/37

CLT for gennemsnit Centrale grænseværdisætning = CLT X 1,X 2,...,X n uafhængige, E(X i ) = θ, V (X i ) = σ 2 n X θ σ N(0, 1), X = 1 n n i=1 X i eller X N ) (θ, σ2 n Nanostatistik: Konfidensinterval p. 26/37

CLT for funktion af gennemsnit h( X) = h( X θ + θ) = h(θ) + h (θ)( X θ) + Rest h(θ) + h (θ)( X θ) = h(θ) + σh (θ) n [ n X θ σ ] eller n h( X) h(θ) σh (θ) h( X) N n X θ σ (h(θ), σ2 h (θ) 2 ) n N(0,1) Nanostatistik: Konfidensinterval p. 27/37

Konfidensinterval for h(θ) Parameter ϕ = h(θ), ) ˆϕ N (ϕ, σ2 h (θ) 2 n Estimat: ˆϕ = h(ˆθ) = h( X) Approksimativt 95% konfidensinterval for ϕ: [ h(ˆθ) σ h (ˆθ) n ] u 0.975, h(ˆθ) + σ h (ˆθ) u 0.975 n Nanostatistik: Konfidensinterval p. 28/37

Propagation of error Det vigtige i ovenstående beregninger for h( X) er variansangivelsen: V {h( X)} = V {h( X θ + θ)} = V {h(θ) + h (θ)( X θ) + Rest} V {h(θ) + h (θ)( X θ)} = h (θ) 2 V { X θ} = h (θ) 2σ2 n Fejlen ved denne variansapproksimation er af størrelsesorden 1 n 2 Nanostatistik: Konfidensinterval p. 29/37

Konfidensinterval for log odds Lad X = B 1 + + B n være binomialforfordelt: X binomial(n,p) Vi har: ˆp = X, E(ˆp) = p, V (ˆp) = n 1 p(1 p) ( ) Betragt nu parameteren θ = log p 1 p, log odds ( ) ( ) Skøn over θ: ˆθ = log ˆp 1 ˆp = log X 1 X Funktion h( X), h(z) = log ( ) z 1 z h (z) = z 1 + 1 z 1 = 1 z(1 z) V { ( )} X log 1 X ( ) 1 2 p(1 p) p(1 p) n = 1 np(1 p) Nanostatistik: Konfidensinterval p. 30/37

Konfidensinterval for log odds Approksimativt 95% konfidensinterval for θ [ ] 1 ˆθ u 0.975, ˆθ 1 + u 0.975 nˆp(1 ˆp) nˆp(1 ˆp) Ex: n = 20, x = 10, ˆp = 0.5, ˆθ = log( 0.5 1 0.5 ) = 0 95% approksimativt konfidensinterval: [ 0 1 20 0.5 0.5 1.96, 0 + ] 1 1.96 20 0.5 0.5 = [ 0.88, 0.88] [ ( ) 0.293 = log, log 1 0.293 ( )] 0.707 1 0.707 Nanostatistik: Konfidensinterval p. 31/37

Propagation of error h( X, Ȳ ) (X 1,Y 1 )...,(X n,y n ) uafhængige E(X i ) = µ X, E(Y i ) = µ Y, V (X i ) = σ 2 X, E(Y i) = σ 2 Y, Cov(X i,y i ) = σ X,Y h : R 2 R, h x = h x (µ X,µ Y ), h y = h y (µ X,µ Y ) h( X,Ȳ ) = h(µ X,µ Y ) + h x ( X µ X ) + h y (Ȳ µ Y ) + Rest Vores approksimation bliver nu V {h( X,Ȳ )} V {h x( X µ X ) + h y (Ȳ µ Y )} = h 2 xv ( X) + h 2 yv (Ȳ ) + 2h xh y Cov( X,Ȳ ) = 1 { h 2 n x σx 2 + h 2 yσy 2 } + 2h x h y σ X,Y Nanostatistik: Konfidensinterval p. 32/37

Produkt af to binomialfordelte µ X = p, µ Y = q, σ 2 X = p(1 p), σ2 Y = q(1 q), σ X,Y = 0 h(x,y) = xy, h x = q, h y = p V ( XȲ ) 1 n = 1 n [ h 2 x σ 2 X + h 2 yσ 2 Y [ q 2 p(1 p) + p 2 q(1 q) ] ] Den sande varians er: V ( XȲ ) = 1 [ n q 2 p(1 p) + p 2 q(1 q) ] + 1 p(1 p)q(1 q) n 2 = 1 [ n q 2 p(1 p) + p 2 q(1 q) ]{ } 1 + 1 1 n n = 10, p = q = 0.5 1 + 1 10 q 1 q + p 1 p 1 1+1 = 1 + 0.05 Nanostatistik: Konfidensinterval p. 33/37

Propagation of error h( X, Ỹ ) Generelt, hvor X og Ỹ har lille varians får vi: h( X,Ỹ ) = h(µ X,µ Y ) + h x ( X µ X ) + h y (Ỹ µ Y ) + Rest og V {h( X,Ỹ )} V {h x( X µ X ) + h y (Ỹ µ Y )} = h 2 xv ( X) + h 2 yv (Ỹ ) + 2h xh y Cov( X,Ỹ ) Nanostatistik: Konfidensinterval p. 34/37

Konfidensinterval for log odds ratio X binomial(n,p), Y binomial(m,q), uafhængige V ( X) = p(1 p) n, V (ȳ) = p(1 p) m, Cov( X,Ȳ ) = 0 ( ) θ = log p 1 p 1 q q = g(p) g(q), g(z) = log( 1 z z ) µ X = p, σx 2 = p(1 p), µ Y = q, σy 2 = q(1 q) h(x,y) = g(x) g(y), h x = 1 p(1 p), h y = 1 q(1 q) 1 V (ˆθ) np(1 p) + 1 mq(1 q) Approksimativt 95% konfidensinterval for θ [ˆθ 1 nˆp(1 ˆp) + 1 mˆq(1 ˆq) u 0.975, ˆθ ] + 1 nˆp(1 ˆp) + 1 mˆq(1 ˆq) u 0.975 Nanostatistik: Konfidensinterval p. 35/37

Konfidensinterval for log odds ratio Ex: n = 230, x = 69, ˆp = 0.30, m = 540, y = 216, ˆq = 0.40 ˆθ = log( 0.3 0.6 0.7 0.4 ) = 0.44 Approksimativt [ 95% konfidensinterval for θ 1 0.44 230 0.3 0.7 + 1 540 0.4 0.6 1.96, ] 1 0.44 + 230 0.3 0.7 + 1 540 0.4 0.6 1.96 = [ 0.77, 0.11] Nanostatistik: Konfidensinterval p. 36/37

Log odds ratio: fede unge Ex: n = 11527, x = 795, ˆp = 0.069, m = 13000, y = 871, ˆq = 0.067 ˆθ = log( 0.069 0.933 0.931 0.067 ) = 0.031 Approksimativt [ 95% konfidensinterval for θ 1 0.031 11527 0.069 0.931 + 1 13000 0.067 0.933 1.96, ] 1 0.031 + 11527 0.069 0.931 + 1 13000 0.067 0.933 1.96 = [ 0.020, 0.082] Nanostatistik: Konfidensinterval p. 37/37