Nanostatistik: Konfidensinterval

Relaterede dokumenter
StatDataN: Plot af data

Nanostatistik: Test af hypotese

StatDataN: Test af hypotese

Nanostatistik: Opgavebesvarelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Statistik og Sandsynlighedsregning 2

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Estimation og konfidensintervaller

Eksamen i Statistik for biokemikere. Blok

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Nanostatistik: Opgaver

Susanne Ditlevsen Institut for Matematiske Fag susanne

Konfidensintervaller og Hypotesetest

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kvantitative Metoder 1 - Efterår Dagens program

Løsning eksamen d. 15. december 2008

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår 2007

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

1 Hb SS Hb Sβ Hb SC = , (s = )

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Opgaver til kapitel 3

Nanostatistik: Lineær regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Preben Blæsild og Jens Ledet Jensen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Lidt om fordelinger, afledt af normalfordelingen

Hvorfor er normalfordelingen så normal?

StatDataN: Middelværdi og varians

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Højde af kvinder 2 / 18

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Statistiske modeller

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Note om Monte Carlo metoden

Løsning til eksamen d.27 Maj 2010

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Løsning til eksaminen d. 14. december 2009

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Elementær sandsynlighedsregning

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Modul 12: Regression og korrelation

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Vejledende besvarelser til opgaver i kapitel 14

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Vejledende løsninger kapitel 8 opgaver

Module 4: Ensidig variansanalyse

Statistiske principper

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Estimation og usikkerhed

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Nanostatistik: Lineær regression

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Nanostatistik: Stokastisk variabel

Løsning til eksaminen d. 29. maj 2009

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Sandsynlighed og Statistik

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Transkript:

Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37

Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling: F p [f 1,f 2 ] = 1 F 1 p [f 2,f 1 ], Nanostatistik: Konfidensinterval p. 2/37

Fraktilpåmindelse Når f 1 og f 2 er så store at tabellen ikke slår til kan man benytte følgende grove approksimation for 95% fraktilen F 0.95 [f 1,f 2 ] f 2 f 2 1 + 1.64 f 2 2 (f 1 + 2) f 1 (f 2 4) (f 2 2) f 2 2 (f 2 1) 2, og følgende grove approksimation for 97.5% fraktilen F 0.975 [f 1,f 2 ] f 2 f 2 1 + 1.96 f 2 2 (f 1 + 2) f 1 (f 2 4) (f 2 2) f 2 2 (f 2 1) 2. Et eksempel på denne approksimation er som følger: f 1 = 42, f 2 = 34, F 0.975 [42,34] = 1.94, approksimation: 1.91, f 1 = 34, f 2 = 42, F 0.975 [34,42] = 1.89, approksimation: 1.85, Nanostatistik: Konfidensinterval p. 3/37

Repetition To normalfordelinger, teste ens middelværdi: skriv på tavlen Nanostatistik: Konfidensinterval p. 4/37

Tyngdeaccelerationen i Ribe Experiment: n = 10 uafhængige målinger af tyngdeaccelerationen i Ribe gav 9.98 9.95 9.88 9.81 9.83 9.84 9.92 9.84 9.67 9.81 Gennemsnittet er x = 9.853, som er vores estimat af tyngdeaccelerationen Skal jeg nu tro at tyngdeaccelerationen er 9.853m/s 2 i Ribe? Nej: gentager jeg forsøget får jeg en anden værdi end 9.853m/s 2 Alternativt: istedet for kun at angive et estimat kan vi angive et interval af trolige værdier baseret på data Nanostatistik: Konfidensinterval p. 5/37

Interval for middelværdi X 1,...,X n uafhængige, X i N(µ, 1), ˆµ = X N(µ, 1 n ) Intuitivt: Se på interval af formen [ x κ, x + κ], længde = 2κ R-plot med µ 0 = 0: X N(0, 1 n ) Hvad skal κ være? Hvor ofte ligger 0 i intervallet? Hvordan kommer n ind i det? Svar: P(0 [ X κ, X + κ]) = P( X 0 < κ) = P( N(0, n 1 ) < κ) = P( N(0, 1) < κ n) = 2Φ( κ n) Nanostatistik: Konfidensinterval p. 6/37

N(µ, σ 2 ): interval K(x) for µ Ex: X 1,...,X n uafhængige, X i N(µ,σ 2 ), ˆµ = X N(µ, σ2 n ) K(x) = [ x 1.96 σ n, x + 1.96 σ n ] κ = 1.96 σ n P µ0 (K(X) µ 0 ) = P µ0 ( X 1.96 σ n µ 0 X + 1.96 σ n ) ( = P µ0 µ 0 1.96 σ X µ 0 + 1.96 σ ) n n = P µ0 ( n X µ 0 σ ) 1.96 = P( N(0,1) < 1.96) = 0.95 Nanostatistik: Konfidensinterval p. 7/37

Konfidensinterval, K(x) Konfidensinterval intuitivt: de værdier af parameteren θ, der er næsten lige så gode som ˆθ" til at beskrive data 95% konfidensinterval (matematisk) Et interval K(data) med den egenskab at i 95% af tilfældene vil den sande parameterværdi være indeholdt i intervallet Resultat: Et 95% konfidensinterval kan fås ved at tage de parameterværdier θ 0 for hvilke data x fører til en accept af hypotesen θ = θ 0 ved et test på niveau 5% (95% 100-95=5%) Nanostatistik: Konfidensinterval p. 8/37

Konfidensinterval, K(x) P θ0 (interval(x) θ 0 ) = P θ0 (accept af hypotesen θ = θ 0 ) = 1 P θ0 (X forkastelsesområdet) = 1 α = 1 0.05 = 0.95 (α = 0.05) Nanostatistik: Konfidensinterval p. 9/37

Konfidensinterval for middelværdi µ Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) X = n 1 n i=1 X i, s 2 = n 1 1 n i=1 (X i X) 2 σ 2 kendt: Φ(u 0.975 ) = 0.975, Teststørrelse: Z = n X µ 0 σ N(0, 1) Accept: z u 0.975 Forkast: z u 0.975 { 95% konfidensinterval µ 0 } n x µ 0 σ u 0.975 } σ = {µ 0 x µ 0 u 0.975 n ] σ = [ x u 0.975 n σ, x + u 0.975 n (1 α) konfidensinterval: skift u 0.975 ud med u 1 α/2 Nanostatistik: Konfidensinterval p. 10/37

σ 2 ukendt Når σ 2 er ukendt bruger vi: s 2 = 1 n 1 n i=1 (X i X) 2, F t[n 1] (t 0.975 [n 1]) = 0.975, Teststørrelse: T = n X µ 0 s t[n 1] Accept: t t 0.975 [n 1] Forkast: t t 0.975 [n 1] { 95% konfidensinterval µ 0 } n x µ 0 s t 0.975 [n 1] } {µ 0 x µ 0 t 0.975 [n 1] n σ = = [ ] x t 0.975 [n 1] s n, x + t 0.975 [n 1] s n (1 α) konfidensinterval: skift t 0.975 [n 1] ud med t 1 α/2 [n 1] Nanostatistik: Konfidensinterval p. 11/37

Simon Newcomb: lysets hastighed Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26... 28 27 39 23 n = 64, x = 64 1 x i = 1776, x = 1776 64 = 27.75, s 2 = 1 64 63 1 (x i x) 2 = 25.84, t 0.975 (63) = 2.00 [ ] 25.84 25.84 95% konfidensinterval = 27.75 2.00,27.75 + 2.00 64 64 = [26.48, 29.02] Som ikke indeholder den rigtige lyshastighed 33.02: meget uheldig, eller systematiske fejl i måleopstilling Nanostatistik: Konfidensinterval p. 12/37

Konfidensinterval for varians σ 2 Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Variansestimat: s 2 = n 1 1 n i=1 (X i X) 2 Hypotese: σ 2 = σ0 2, Alternativ: σ2 σ0 2 Teststørrelse: V = (n 1) s2 σ 0 χ 2 [n 1] Hvis V/(n 1) ligger omkring 1 tror vi på at den sande varians er σ 0. Hvis V/(n 1) er meget stor eller meget lille tror vi ikke på det p-fraktil i χ 2 [f]-fordeling: χ 2 p[f]. Test på niveau 5% Accept: χ 2 0.025 [n 1] v χ2 0.975 [n 1] Forkast: v χ 2 0.025 [n 1] eller v χ2 0.975 [n 1] Nanostatistik: Konfidensinterval p. 13/37

Konfidensinterval for varians σ 2 p-værdi = { 2F χ2 [n 1](v) v < 1 2{1 F χ2 [n 1](v)} v > 1 95% { konfidensinterval } σ 0 χ 2 s2 0.025 [n 1] (n 1) χ 2 σ0 2 0.975 { [n 1] = σ 0 χ 2 0.025 [n 1] σ2 0 n 1 s2 χ 2 0.975 [n 1] σ2 0 [ ] = s 2 (n 1) χ 2 [n 1], s 2 (n 1) 0.975 χ 2 0.025 [n 1] n 1 1 α konfidensinterval: skift 0.025 og 0.975 ud med α/2 og 1 α/2 } Nanostatistik: Konfidensinterval p. 14/37

Lysets hastighed 28 22 36 26... 28 27 39 23 n = 64, s 2 = 25.84, χ 2 0.025 [n 1] = 42.95, χ2 0.025 [n 1] = 86.83 95% [ konfidensinterval = 63 25.84 86.83, 63 25.84 ] 42.95 = [18.75, 37.90] Nanostatistik: Konfidensinterval p. 15/37

Konfidensinterval for ss p Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = p 0 Alternativ: p p 0 Exact { p-værdi: 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 95% konfidensinterval: øvre grænse p up : 2F binom(n,p up )(x ) = 5% Besværligt! Nanostatistik: Konfidensinterval p. 16/37

Konfidensinterval for ss p Model: X 1,...,X n uafhængige P(X i = 1) = p, P(X i = 0) = 1 p Bruge normalfordelingsapproximation Test på niveau 5%: Teststørrelse: Z = n X p 0 p0 (1 p 0 ) Acceptområde: z u 0.975 { 95% konfidensinterval p 0 } n x p 0 u 0.975 p0 (1 p 0 ) = [a b,a + b] a = x+u2 0.975/(2n) 1+u 2 0.975 /n, b = a 2 x 2 (1 + u 2 0.975 /n) 1 (1 α) konfidensinterval: skift u 0.975 ud med u 1 α/2 Nanostatistik: Konfidensinterval p. 17/37

Konfidensinterval for ss p n x p p(1 p) = u x 2 2xp + p 2 = p(1 p) u2 n p 2 (1 + u2 n p = ) p(2x + u2 n ) + x2 = 0 2x + u2 n ± (2x + u2 n )2 4x 2 (1 + u2 n ) 2(1 + u2 n ) = a ± b Nanostatistik: Konfidensinterval p. 18/37

Konfidensinterval for ss p Ex: n = 20, x = 10, x = 0.5 a = 0.5+1.962 /40 1+1.96 2 /20 = 0.5 b = 0.5 2 0.5 2 /(1 + 1.96 2 /20) = 0.2007 95% konfidensinterval (approksimativ): [0.5 0.2007, 0.5 + 0.2007] = [0.30, 0.70] 2P(binom(20, 0.70) 10) = 0.096, 2P(binom(20, 0.728) 10) = 0.050 2P(binom(20, 0.30) 10) = 0.096, 2P(binom(20, 0.272) 10) = 0.050 Stadig besværligt! Nanostatistik: Konfidensinterval p. 19/37

Differens mellem to middelværdier X 1,...,X n uafhængige, X i N(µ + δ,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ,σ 2 ) Teste: δ = δ 0 X = 1 n n i=1 X i, 1 m Ȳ = m s 2 = 1 n+m 2 (n 1)s 2 x+(m 1)s 2 y n+m 2 i=1 Y i { n i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} = Teststørrelse: T = X Ȳ δ 0 t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], Nanostatistik: Konfidensinterval p. 20/37

Differens mellem to middelværdier { } x ȳ δ 95% konfidensinterval δ 0 0 t s2 0.975[n + m 2] ( 1 + 1 ) n m { } = δ 0 x ȳ δ 0 t 0.975 [n + m 2] s 2 ( 1n + 1m ) = [ x ȳ t 0.975 [n + m 2] s 2 ( n 1 + m 1 ), ] x ȳ + t 0.975 [n + m 2] s 2 ( 1n + 1m ) (1 α) konfidensinterval: skift t 0.975 [n + m 2] ud med t 1 α/2 [n + m 2] Nanostatistik: Konfidensinterval p. 21/37

Differens mellem to middelværdier Forskellige varianser σ 2 x σ 2 y: Skift s 2 ( 1 n + 1 m ) ud med s2 x n + s2 y m og skift frihedsgraderne n + m 2 ud med f =... Nanostatistik: Konfidensinterval p. 22/37

Michelsons lysmålinger Michelson målte lyshastigheden 100 gange i 1879 og 23 gange i 1882. Data er (fratrukket 299000 km/s, sande lyshastighed er 710.5 på denne skala) 1879: 826 716 876 1046... 926 776 786 846 1882: 883 816 778 796... 797 851 809 723 Vis qq-plot Konfidensinterval for forskellen mellem de to år: n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 s 2 = 99 6242.7+22 11473.5 100+23 2 = 7193.7, [ ] 72.18 1.98 7193.7( 1 100 + 1 23 ),72.18 1.98 7193.7( 1 100 + 1 23 ) = [33.34, 111.02] Nanostatistik: Konfidensinterval p. 23/37

Approksimative konfidensintervaller Parameter: θ, Hypotese: θ = θ 0, Estimat: ˆθ Hvis, under hypotesen, ˆθ N(θ 0,τ 2 ), hvor τ 2 ikke afhænger af θ 0, så vil [ˆθ τu0.975, ˆθ + τu 0.975 ] være et 95% konfidensinterval: { θ 0 ˆθ θ 0 τ u 0.975 } Hvis, τ 2 = 1 n σ(θ 0) 2 vil [ˆθ σ(ˆθ) n u 0.975, ˆθ + σ(ˆθ) n u 0.975 ] være et approksimativt 95% konfidensinterval Nanostatistik: Konfidensinterval p. 24/37

Approksimative konfidensintervaller Hvis ˆθ kun er approksimativt normalfordelt ˆθ N(θ, n 1σ(θ)2 ) Kan vi stadig bruge [ˆθ σ(ˆθ) n u 0.975, ˆθ ] + σ(ˆθ) n u 0.975 som et approksimativt 95% konfidensinterval Ex: X binomial(n,p), ˆp = X n N ( p, n 1 p(1 p)) 95% [ approksimativt konfidensinterval ] ˆp(1 ˆp) ˆp(1 ˆp) ˆp n 1.96, ˆp + n 1.96 = Ex: [ n = 20, x = 10, ˆp = 0.5 0.5(1 0.5) 0.5 20 1.96, 0.5 + ] 0.5(1 0.5) 20 1.96 = [0.28, 0.72] Nanostatistik: Konfidensinterval p. 25/37

CLT for gennemsnit Centrale grænseværdisætning = CLT X 1,X 2,...,X n uafhængige, E(X i ) = θ, V (X i ) = σ 2 n X θ σ N(0, 1), X = 1 n n i=1 X i eller X N ) (θ, σ2 n Nanostatistik: Konfidensinterval p. 26/37

CLT for funktion af gennemsnit h( X) = h( X θ + θ) = h(θ) + h (θ)( X θ) + Rest h(θ) + h (θ)( X θ) = h(θ) + σh (θ) n [ n X θ σ ] eller n h( X) h(θ) σh (θ) h( X) N n X θ σ (h(θ), σ2 h (θ) 2 ) n N(0,1) Nanostatistik: Konfidensinterval p. 27/37

Konfidensinterval for h(θ) Parameter ϕ = h(θ), ) ˆϕ N (ϕ, σ2 h (θ) 2 n Estimat: ˆϕ = h(ˆθ) = h( X) Approksimativt 95% konfidensinterval for ϕ: [ h(ˆθ) σ h (ˆθ) n ] u 0.975, h(ˆθ) + σ h (ˆθ) u 0.975 n Nanostatistik: Konfidensinterval p. 28/37

Propagation of error Det vigtige i ovenstående beregninger for h( X) er variansangivelsen: V {h( X)} = V {h( X θ + θ)} = V {h(θ) + h (θ)( X θ) + Rest} V {h(θ) + h (θ)( X θ)} = h (θ) 2 V { X θ} = h (θ) 2σ2 n Fejlen ved denne variansapproksimation er af størrelsesorden 1 n 2 Nanostatistik: Konfidensinterval p. 29/37

Konfidensinterval for log odds Lad X = B 1 + + B n være binomialforfordelt: X binomial(n,p) Vi har: ˆp = X, E(ˆp) = p, V (ˆp) = n 1 p(1 p) ( ) Betragt nu parameteren θ = log p 1 p, log odds ( ) ( ) Skøn over θ: ˆθ = log ˆp 1 ˆp = log X 1 X Funktion h( X), h(z) = log ( ) z 1 z h (z) = z 1 + 1 z 1 = 1 z(1 z) V { ( )} X log 1 X ( ) 1 2 p(1 p) p(1 p) n = 1 np(1 p) Nanostatistik: Konfidensinterval p. 30/37

Konfidensinterval for log odds Approksimativt 95% konfidensinterval for θ [ ] 1 ˆθ u 0.975, ˆθ 1 + u 0.975 nˆp(1 ˆp) nˆp(1 ˆp) Ex: n = 20, x = 10, ˆp = 0.5, ˆθ = log( 0.5 1 0.5 ) = 0 95% approksimativt konfidensinterval: [ 0 1 20 0.5 0.5 1.96, 0 + ] 1 1.96 20 0.5 0.5 = [ 0.88, 0.88] [ ( ) 0.293 = log, log 1 0.293 ( )] 0.707 1 0.707 Nanostatistik: Konfidensinterval p. 31/37

Propagation of error h( X, Ȳ ) (X 1,Y 1 )...,(X n,y n ) uafhængige E(X i ) = µ X, E(Y i ) = µ Y, V (X i ) = σ 2 X, E(Y i) = σ 2 Y, Cov(X i,y i ) = σ X,Y h : R 2 R, h x = h x (µ X,µ Y ), h y = h y (µ X,µ Y ) h( X,Ȳ ) = h(µ X,µ Y ) + h x ( X µ X ) + h y (Ȳ µ Y ) + Rest Vores approksimation bliver nu V {h( X,Ȳ )} V {h x( X µ X ) + h y (Ȳ µ Y )} = h 2 xv ( X) + h 2 yv (Ȳ ) + 2h xh y Cov( X,Ȳ ) = 1 { h 2 n x σx 2 + h 2 yσy 2 } + 2h x h y σ X,Y Nanostatistik: Konfidensinterval p. 32/37

Produkt af to binomialfordelte µ X = p, µ Y = q, σ 2 X = p(1 p), σ2 Y = q(1 q), σ X,Y = 0 h(x,y) = xy, h x = q, h y = p V ( XȲ ) 1 n = 1 n [ h 2 x σ 2 X + h 2 yσ 2 Y [ q 2 p(1 p) + p 2 q(1 q) ] ] Den sande varians er: V ( XȲ ) = 1 [ n q 2 p(1 p) + p 2 q(1 q) ] + 1 p(1 p)q(1 q) n 2 = 1 [ n q 2 p(1 p) + p 2 q(1 q) ]{ } 1 + 1 1 n n = 10, p = q = 0.5 1 + 1 10 q 1 q + p 1 p 1 1+1 = 1 + 0.05 Nanostatistik: Konfidensinterval p. 33/37

Propagation of error h( X, Ỹ ) Generelt, hvor X og Ỹ har lille varians får vi: h( X,Ỹ ) = h(µ X,µ Y ) + h x ( X µ X ) + h y (Ỹ µ Y ) + Rest og V {h( X,Ỹ )} V {h x( X µ X ) + h y (Ỹ µ Y )} = h 2 xv ( X) + h 2 yv (Ỹ ) + 2h xh y Cov( X,Ỹ ) Nanostatistik: Konfidensinterval p. 34/37

Konfidensinterval for log odds ratio X binomial(n,p), Y binomial(m,q), uafhængige V ( X) = p(1 p) n, V (ȳ) = p(1 p) m, Cov( X,Ȳ ) = 0 ( ) θ = log p 1 p 1 q q = g(p) g(q), g(z) = log( 1 z z ) µ X = p, σx 2 = p(1 p), µ Y = q, σy 2 = q(1 q) h(x,y) = g(x) g(y), h x = 1 p(1 p), h y = 1 q(1 q) 1 V (ˆθ) np(1 p) + 1 mq(1 q) Approksimativt 95% konfidensinterval for θ [ˆθ 1 nˆp(1 ˆp) + 1 mˆq(1 ˆq) u 0.975, ˆθ ] + 1 nˆp(1 ˆp) + 1 mˆq(1 ˆq) u 0.975 Nanostatistik: Konfidensinterval p. 35/37

Konfidensinterval for log odds ratio Ex: n = 230, x = 69, ˆp = 0.30, m = 540, y = 216, ˆq = 0.40 ˆθ = log( 0.3 0.6 0.7 0.4 ) = 0.44 Approksimativt [ 95% konfidensinterval for θ 1 0.44 230 0.3 0.7 + 1 540 0.4 0.6 1.96, ] 1 0.44 + 230 0.3 0.7 + 1 540 0.4 0.6 1.96 = [ 0.77, 0.11] Nanostatistik: Konfidensinterval p. 36/37

Log odds ratio: fede unge Ex: n = 11527, x = 795, ˆp = 0.069, m = 13000, y = 871, ˆq = 0.067 ˆθ = log( 0.069 0.933 0.931 0.067 ) = 0.031 Approksimativt [ 95% konfidensinterval for θ 1 0.031 11527 0.069 0.931 + 1 13000 0.067 0.933 1.96, ] 1 0.031 + 11527 0.069 0.931 + 1 13000 0.067 0.933 1.96 = [ 0.020, 0.082] Nanostatistik: Konfidensinterval p. 37/37