Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Relaterede dokumenter
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Tema. Dagens tema: Indfør centrale statistiske begreber.

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Note om Monte Carlo metoden

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Kvantitative Metoder 1 - Forår 2007

Nanostatistik: Konfidensinterval

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

1 Hb SS Hb Sβ Hb SC = , (s = )

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Nanostatistik: Opgavebesvarelser

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Løsning eksamen d. 15. december 2008

Estimation og usikkerhed

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Sandsynlighed og Statistik

Elementær sandsynlighedsregning

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Module 4: Ensidig variansanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Forelæsning 11: Kapitel 11: Regressionsanalyse

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kvantitative Metoder 1 - Forår 2007

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Elementær sandsynlighedsregning

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Estimation og konfidensintervaller

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Løsning til eksaminen d. 29. maj 2009

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kvantitative Metoder 1 - Forår 2007

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistiske modeller

Produkt og marked - matematiske og statistiske metoder

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Definition. Definitioner

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Konfidensintervaller og Hypotesetest

(studienummer) (underskrift) (bord nr)

Eksamen i Statistik for biokemikere. Blok

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Nanostatistik: Opgaver

Simpel Lineær Regression: Model

Perspektiver i Matematik-Økonomi: Linær regression

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Normalfordelingen og Stikprøvefordelinger

Transkript:

Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren ønsker resultatet med en nøjagtighed på ±3mm. Eksempel: Lægemiddelstyrelsen kræver, at et lægemiddelselskab estimerer sandsynlighed θ for bivirkninger af en medicin med en nøjagtighed på ± 0.01% Problem: Hvordan fortolker og håndterer vi disse specifikationer i praksis, hvor alle målinger er behæftet med en (stokastisk) usikkerhed? 1 / 42 2 / 42 Specifikationer af nøjagtighed under hensyntagen til tilfældighed I praksis beregner landmåleren et estimat ˆλ på basis af et antal målinger l 1,..., l n, f.eks. ˆλ = 1 n n i=1 I praksis er målingerne behæftede med målefejl e i, l i = λ + e i Vi opfatter hver e i som en realisation af en stokastisk variabel E i og lader L i = λ + E i angive de tilsvarende stokastiske udfald af målingerne. Dermed (med lidt misbrug af notation) kan vi også anskue ˆλ = 1 n L i n i=1 l i Vi kan nu omformulere entreprenørens specifikation: fejlen ˆλ λ skal være mindre end 3mm med en meget stor sandsynlighed - f.eks. 99.9%. Dvs. forestiller man sig, at længdebestemmelsen blev gentaget et stort antal (hypotetiske) gange, så må fejlen kun overstige 3mm i 0.1% af gentagelserne. Dette giver naturligvis ikke en absolut sikkerhed for længdebestemmelsen i et konkret tilfælde! - men det vil sjældent gå galt... som en stokastisk variabel. 3 / 42 4 / 42

Lidt beregninger med middelværdi og varians Hvis X er en stokastisk variabel med middelværdi og varians EX = µ VarX = σ 2 Landmålerens opgave er nu at beregne sandsynligheden for, at ˆλ λ 3 og tjekke, at denne sandsynlighed er lille nok Dvs. han har brug for at kende sandsynlighedsfordelingen af ˆλ - anskuet som en stokastisk variabel. så gælder for et reelt tal a, EaX = aex Var(aX ) = a 2 VarX Hvis X 1,..., X n er stokastiske variable med middelværdier µ i og varianser σi 2 gælder E i X i = i µ i Hvis X i erne yderligere er uafhængige: Var i X i = i σ 2 i 5 / 42 6 / 42 Normalfordelte stokastiske variable Centrale grænseværdi-sætning Hvis X i erne er normalfordelte så er ax i og X = i også normalfordelte (middelværdi og varians for X bestemmes jf forrige slide) X i Hvis X i erne er uafhængige og identisk fordelte med fælles middelværdi µ og varians σ 2, så gælder for gennemsnittet at eller ækvivalent, X = 1 n X 1 n (X nµ) N(0, σ 2 ) X N(µ, σ2 n ) n( X µ) N(0, σ 2 ) Approksimationerne bliver bedre jo større n! 7 / 42 8 / 42

Tilbage til landmåleren Antag fejlene E i er uafhængige med middelværdi nul (dvs ingen systematisk målefejl) og kendt varians σ 2 Dermed bliver målingerne L 1,..., L n uafhængige med middelværdi λ og varians σ 2. Bemærk: ˆλ λ 3 3 ˆλ λ 3 Han/hun kan nu benytte CLT hvorved ˆλ λ N(0, σ 2 /n) Ukendt σ 2 Hvis σ 2 er ukendt kan estimatet anvendes i stedet s 2 = 1 n 1 (L i ˆλ) 2 Tilfører ekstra approksimation til resultaterne (udover evt. brug af CLT). i Dvs. skal blot udregne sandsynligheden for, at en normalfordelt stokastisk variabel med middelværdi 0 og varians σ 2 /n ligger mellem 3 og 3 (Excel, Maple, TI-89,...) 9 / 42 10 / 42 Kvantificering af estimations-usikkerhed Variansen af ˆλ er σ 2 /n. Jo mindre varians des mindre er den forventede værdi af fejlen ˆλ λ. I praksis benyttes ofte standardafvigelsen sd = Varˆλ = σ n som et mål for usikkerheden. Intervaller og sandsynligheder Hidtil: sandsynlighed for at estimationsfejl mindre end givet øvre grænse. Nu: givet sandsynlighed, f.eks. 95%, hvad er så den øvre grænse? For en normalfordelt stokastisk variabel X med middelværdi µ og varians σ 2 gælder: sandsynlighed for at er X µ kσ 95%(k = 1.96) 95.4%(k = 2) 99.7%(k = 3) 99.99%(k = 4) Bemærk, at vi direkte kan omsætte k til sandsynligheder, hvis vi bruger standardafgivelse σ som enhed. 11 / 42 12 / 42

Konfidensinterval Konfidensinterval fortsat Med f.eks. k = 1.96 er der 95% sandsynlighed for X µ 1.96σ 1.96σ X µ 1.96σ Dette giver anledning til to forskellige intervaller: a) (for X ) µ 1.96σ X µ + 1.96 b) (for µ) X 1.96σ µ X + 1.96σ Bemærk: intervallet svarende til (b) er stokastisk - kaldes et 95% konfidensinterval for µ (baseret på data X ) Antag X 1,..., X n uafhængige og identisk fordelte med fælles middelværdi µ og varians σ 2. Da er gennemsnit X approksimativt N(µ, σ 2 /n) og vi benytter X som estimat for µ. Jf forrige slide definerer et 95% konfidensinterval for µ. X 1.96 σ n µ X + 1.96 σ n 13 / 42 14 / 42 Simulationsstudie 100 simulerede 95% konfidensintervaller baseret på X gennemsnit af 100 normalfordelte variable med middelværdi 3 og varians 2 konfidens interval 2.4 2.6 2.8 3.0 3.2 3.4 3.6 0 20 40 60 80 100 eksperiment nr. Konfidensintervallerne indeholder sande middelværdi µ = 3 i ca. 95% af tilfældende. Praktisk brug af konfidensinterval Hvis vi hver gang vi udfører et eksperiment hævder, at den ukendte middelværdi ligger i det beregnede 95% interval, så tager vi kun fejl i 5% af tilfældende Hvis vi vil have større sikkerhed kan vi i beregningen af konfidensintervallet erstatte 1.96σ/ n med 3σ/ n eller 4σ/ n - giver 99.7% eller 99.99% intervaller. Da tager vi kun fejl i 0.3% eller 0.01% af tilfældene. Men intervallerne bliver da naturligvis bredere, så vores udsagn bliver mere udvandede 15 / 42 16 / 42

Den lidt tricky skelnen Den 95% sandsynlighed vedrører et fremtidigt ikke endnu gennemførte eksperiment Hvis vi f.eks. observerer en stikprøve 2.3 2.3 0.1 3.1 0.9 0.1 2.1 2.4 3.9 0.0 fra 10 stokastisk variable med σ = 2 er det konkrete udfald af konfidensintervallet [1.7 2 10 ; 1.7 + 2 10 ] = [1.1; 2.3] Dette interval er naturligvis ikke stokastisk, og det giver derfor ikke mening at tillægge en 95% sandsynlighed til dette interval (sandsynligheden er enten 0 eller 100% men vi ved ikke hvilken) Stokastiske intervaller er erfaringsmæssigt lidt vanskelige for studerende. Måske nemmere at udnytte at X 1.96 σ n µ X + 1.96 σ n X µ 1.96 σ n Dvs. med 95% sandsynlighed ligger estimationsfejlen i det ikke-stokastiske interval ±1.96σ/ n Vanskeligt, og måske heller ikke nødvendigt, at få studerende til at fange denne pointe 17 / 42 18 / 42 Ukendt varians Vi har jf CLT Z = X µ σ/ N(0, 1) n Dvs. Z er (approksimativt) en pivot-størrelse: fordelingen af Z afhænger hverken af µ eller σ. Konfidensinterval for sandsynlighedsparameteren i en binomial fordeling Antag Y er binomialfordelt med kendt antalsparameter n og ukendt sandsynlighedsparameter θ. Hvis σ erstattes af et estimat ˆσ gælder i almindelighed stadig Da estimerer vi θ ved andelen ˆθ = Y /n. X µ ˆσ/ n N(0, 1) Mht konfidensinterval er der ikke noget nyt under solen da hvorved [ X 1.96 ˆσ n ; X 1.96 ˆσ n ] Y = I 1 + + I n er et approksimativt 95% interval. Dvs. hvis variansen er ukendt, kan vi i almindelighed blot erstatte den ukendte varians med et estimat, når vi udregner et 95% konfidensinterval. 19 / 42 hvor I i erne er uafhængige binære variable med sandsynlighed P(I i = 1) = θ. Dvs ˆθ = Y /n er gennemsnittet Ī = 1 n i I i 20 / 42

Hvis n ikke er for lille kan vi jf CLT (og slide 19) bruge at Hvornår er n stor nok? Fordeling af ˆθ for forskellige værdier af n og θ: hvor er et estimat af ˆθ θ ˆσ/ N(0, 1) n ˆσ 2 = ˆθ(1 ˆθ) σ 2 = VarI i = θ(1 θ) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 θ = 0.1 n = 5 θ = 0.1 n = 10 θ = 0.1 n = 30 0.0 0.1 0.2 0.3 0.4 0.00 0.05 0.10 0.15 0.20 Derved bliver [ˆθ 1.96 ˆσ n ; ˆθ + 1.96 ˆσ n ] et (approksimativt) 95% konfidensinterval for θ 0.00 0.10 0.20 0.30 θ = 0.4 n = 5 θ = 0.4 n = 10 θ = 0.4 n = 30 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.05 0.10 0.15 21 / 42 22 / 42 Generelt set-up Lineær regression θ parameter i en parametrisk statistisk model. Hvis ˆθ er (approksimativt) normalfordelt med middelværdi θ og spredning sd(ˆθ) så er ˆθ ± 1.96sd(ˆθ) et (approksimativt) 95% konfidensinterval for θ. (analogt med ˆµ = X og sd(ˆµ) = σ/ n) Antag Y 1,..., Y n følger en regressionsmodel Y i = α + βx i + E i hvor x 1,..., x n er kendte og E i er uafhængige normalfordelte med middelværdi 0 og varians σ 2 Da er mindste kvadraters metode estimaterne i ˆβ = Y ix i nȳ x i (x i x ) 2 ˆα = Ȳ ˆβ x Disse estimater er normalfordelte! (lineære funktioner af data) 23 / 42 24 / 42

Konfidensintervaller for α og β Konfidensinterval for µ i = EY i ˆα og ˆβ har varianser Varˆα = σ 2 i x 2 i n i (x i x ) 2 Var ˆβ = σ 2 i (x i x ) 2 µ i estimeres ved ˆµ i = ˆα + ˆβx i Variansen for ˆµ i : σ 2 estimeres ved 1 n 2 (Y i ˆµ i ) 2 hvor ˆµ i = ˆα + ˆβx i er estimatet af µ i = E[Y i ] i hvor Varˆµ i = Varˆα + x 2 i Var ˆβ + 2x i Cov(ˆα, ˆβ) (1) Cov(ˆα, ˆβ) = σ 2 x i (x i x ) 2 Dermed lige ud af landevejen at konstruere 95% konfidensintervaller for α og β vha generel opskrift: estimat plus/minus 1.96 standardafvigelsen af estimatet Igen kan generel opskrift benyttes: estimat plus/minus 1.96 standardafvigelsen af estimatet. 25 / 42 26 / 42 Prædiktionsinterval for ny observation y 5 10 15 20 25 30 35 Antag, at vi har estimeret en regressionslinje baseret på en stikprøve (y 1, x 1 ),..., (y n, x n ). Lad Y n+1 være en uobserveret variabel som vi gerne vil forudsige på baggrund af den observerede værdi x n+1 af den tilhørende forklarende variabel. Vores bedste bud på Y n+1 er ˆµ n+1 = ˆα + ˆβx n+1 Usikkerhed på prædiktion af Y n+1 vha ˆµ n+1 kvantificeres vha prædiktionsinterval 2 4 6 8 10 x 27 / 42 28 / 42

Der gælder Y n+1 ˆµ n+1 = Y n+1 µ n+1 + µ n+1 ˆµ n+1 = E n+1 + µ n+1 ˆµ n+1 Her er E n+1 normalfordelt med middelværdi 0 og varians σ 2 og uafhængig af estimationsfejlen µ n+1 ˆµ n+1, som er normalfordelt med middelværdi nul og varians Varˆµ n+1 beregnet tidligere. Dermed er Y n+1 ˆµ n+1 normalfordelt med middelværdi nul og varians ω 2 = σ 2 + Varˆµ n+1. Dvs med 95% sandsynlighed gælder 1.96ω Y n+1 ˆµ n+1 1.96ω ˆµ n+1 1.96ω Y n+1 ˆµ n+1 +1.96ω Dette interval er altid bredere end konfidensintervallet for µ n+1 da det både afspejler usikkerheden vedr. estimationen af µ n+1 samt variationen af Y n+1 omkring µ n+1 y 5 10 15 20 25 30 35 2 4 6 8 10 29 / 42 x 30 / 42 Eksempel > fit=lm(y~x) > summary(fit) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.0933 0.7791 2.687 0.0276 * x 2.9977 0.1256 23.873 1.01e-08 *** --- 95% konfidensinterval for β: 2.99 ± 1.96 0.1256 = [2.74; 3.24] Yderligere emner (til selvstudium) brug af eksakt fordeling af ˆθ? konfidensinterval og transformation transformation for θ δ-metoden konfidensinterval for σ 2 teoretisk middelværdi og varians opgaver Specielt kan vi bemærke, at konfidensintervallet ikke indeholder nul. Dvs. vi kan afvise at β = 0 og Y i afhænger dermed signifikant af x i. 31 / 42 32 / 42

Opsummering For en ukendt parameter θ er et α-konfidensinterval et stokastisk interval som med sandsynlighed α indeholder θ Sandsynligheden refererer til et endnu ikke gennemført eksperiment Andelen af fremtidige eksperimenter hvor θ er indeholdt i konfidensintervallet knyttet til eksperimentet er ca. α. I almindelighed udregnes konfidensintervallet som ˆθ ± ksd(ˆθ) hvor k = 1.96, 3, 4 svarer til α = 95%, 99.7%, 99.99%. For et konkret datasæt er konfidensintervallet ikke stokastisk - vi kan ikke tillægge sandsynlighed til et konkret udregnet konfidensinterval Eksakt fordeling af ˆθ Forskellen ˆθ θ er fordelt som hvis fordeling let kan tabelleres. Y n θ Problem: fordelingen afhænger af ukendte θ - vi kan ikke finde nedre og øvre grænser, der ikke afhænger af θ. Derimod er ˆθ θ ˆσ/ N(0, 1) n som med 95% ssh sandsynlighed ligger indenfor grænserne 1.96 og 1.96, der ikke afhænger af θ. 33 / 42 Dermed bliver normalfordelingsapproksimationen for ˆθ θ en bekvem genvej til at etablere et konfidensinterval 34 / 42 Konfidensinterval og transformation Anvendelse for binomial fordeling Antag [L, U] er et α konfidensinterval for θ (f.eks. α = 95%) Lad η = g(θ) hvor g er en injektiv transformation Da er [g(l); g(u)] (eller [g(u); g(l)]) et α konfidensinterval for η For sandsynlighedsparameteren θ i en binomialfordeling benyttede vi estimatet ˆθ = Y n og konfidensintervallet ˆθ ± 1.96sd(ˆθ) hvor vi estimerede sd(ˆθ) ved ˆθ(1 ˆθ)/n. Problem: dette interval er ikke nødvendigvis indeholdt i [0, 1]! 35 / 42 36 / 42

Logit-transformation Løsning: parameteren η = g(θ) = log ( θ ) 1 θ har variationsområde ], [ når θ varierer i ]0, 1[ (og omvendt!) Vi kan danne konfidensinterval for η og dernæst transformere tilbage vha den inverse transformation θ = g 1 (η) = exp(η) 1 + exp(η) Vores estimat for η er ˆη = g(ˆθ) og variansen approksimeres ved (δ-metoden) Varˆη (g (θ)) 2 Varˆθ = Konfidensintervallet for η bliver 1 ˆη ± 1.96 nθ(1 θ) 1 nθ(1 θ) og konfidensintervallet for θ bliver ( ) )] [g 1 1 ˆη 1.96 ; g 1 1 (ˆη + 1.96 nθ(1 θ) nθ(1 θ) som med garanti er indeholdt i [0, 1]! 37 / 42 38 / 42 δ-metoden Lad X = g(y ) hvor Y er en stokastisk variabel med middelværdi µ og varians σ 2 og g er differentiabel. Da gælder (lineær approksimation) X g(µ) + g (µ)(y µ) VarX (g (µ)) 2 VarY (igen vha. regneregler for middelværdi og varians) 39 / 42 Konfidensinterval for varians For en lineær regressionsmodel med normalfordelte observationer, kan man vise, at (n 2) ˆσ2 σ 2 er χ 2 (n 2) fordelt (og dermed en pivot-størrelse). Dermed gælder med 95% sandsynlighed, at χ 2 0.025(n 2) (n 2) ˆσ2 σ 2 χ2 0.975(n 2) hvor χ 2 p(n 2) angiver p-fraktilen for en χ 2 (n 2)-fordeling (0 p 1). Dette giver konfidensintervallet [ ] ˆσ 2 n 2 n 2 χ 2 0.975 (n 2); ˆσ2 (n 2) for σ 2. χ 2 0.0.025 Dette er at foretrække fremfor at bruge approksimativ 40 / 42

Opgaver 1. Check resultaterne på slide 8 når er erstattet med = og X i erne antages at være normalfordelte. 2. (vedr. slide 9) Hvad gør landmåleren hvis sandsynligheden ikke er under 99.9%? 3. Check (jf slide 21) at 3.1 VarI i = θ(1 θ) 3.2 ˆθ(1 ˆθ) = 1 (I i n Ī ) 2 Dvs variansestimatet er (n 1)/n gange det sædvanlige variansestimat s 2 = 1 (I i Ī ) 2 n 1 4. Antag θ = 0.1. Hvor stor skal n være, for at bredden på konfidensintervallet bliver mindre end 0.02? i i 4. Mindste kvadraters estimaterne af α og β kan udregnes som [ˆαˆβ] = (X T X ) 1 X T Y hvor X er n 2 matricen med søjler (1, 1,..., 1) T og (x 1,..., x n ) T og Y = (Y 1,..., Y n ) T. Brug dette til at udregne kovariansmatricen for (ˆα, ˆβ) T Bemærk: kovarians-matricen Σ for en stokastisk vektor Z har indgange Σ ij = Cov(Z i, Z j ). Hvis A er en matrix af passende dimension, så har AZ kovariansmatrix AΣA T. 5. Vis (1) på slide 26 ved at bruge resultatet og vinket fra forrige opgave. 6. (slide 35) Vis at [g(l); g(u)] er et α konfidensinterval for η når g er voksende 7. Check resultaterne på slide 37-39 41 / 42 42 / 42