Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Relaterede dokumenter
Den lineære normale model

Den lineære normale model

Områdeestimation. Kapitel 7

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Klassisk Taylors formel

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Trykfejlsliste - alle fejl Introduktion til matematisk statistik

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Trykfejlsliste - alle fejl Asymptotisk teori

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik 1TS 2003 Obligatorisk opgave 1

Asymptotisk testteori

Test af statistiske hypoteser

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Modelselektion Permeabilitet Permeabilitet Permeabilitet

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Estimation. Kapitel 4

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Nanostatistik: Konfidensinterval

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Statistik 1TS 2005 Obligatorisk opgave 1

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Statistik og Sandsynlighedsregning 2

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

EKSAMEN Flerdimensional Analyse Sommer sider

Sandsynlighedsregning Oversigt over begreber og fordelinger

8 Regulære flader i R 3

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Den generelle lineære model

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Differentialregning i R k

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Antag at. 1) f : R k R m er differentiabel i x, 2) g : R m R p er differentiabel i y = f(x), . p.1/18

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Estimation og konfidensintervaller

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Susanne Ditlevsen Institut for Matematiske Fag susanne

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

Sandsynlighed og Statistik

Del II. Den lineære normale model

Kvantitative metoder 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Sandsynlighedsteori

Reeksamen 2014/2015 Mål- og integralteori

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Integration m.h.t. mål med tæthed

Kvantitative metoder 2

Løsning eksamen d. 15. december 2008

Integration m.h.t. mål med tæthed

Lidt om fordelinger, afledt af normalfordelingen

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 4: Ensidig variansanalyse

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statistiske Modeller 1: Kontingenstabeller i SAS

Flerdimensionale transformationer

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Tema. Dagens tema: Indfør centrale statistiske begreber.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Lineær Algebra - Beviser

Module 12: Mere om variansanalyse

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Eksamen i Statistik for biokemikere. Blok

standard normalfordelingen på R 2.

Løsning til eksaminen d. 29. maj 2009

1 Hb SS Hb Sβ Hb SC = , (s = )

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Anvendt Statistik Lektion 8. Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Perspektiver i Matematik-Økonomi: Linær regression

Det asymptotiske scenarie

Lokal estimationsteori

Uge 10 Teoretisk Statistik 1. marts 2004

Transkript:

Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30

Konfidensområde En områdestimator C : X P(Θ) er et (1 α)-konfidensområde hvis P θ (θ C(X)) }{{} dækningsgrad 1 α for alle θ Θ For et givet α ønsker vi C(x) så lille som muligt. Derfor foretrækkes lighedstegn.. p.2/30

Generel konstruktion Find en kombinant R : Θ X Y. Find for hvert θ et konkordansområde A(θ) Y så ) P θ (R(θ, X) A(θ) = 1 α Lad C(x) = {θ Θ R(θ, x) A(θ)} Virker fordi: θ C(x) R(θ, x) A(θ). p.3/30

Konstruktion med pivot En kombinant R : Θ X Y er en pivot hvis fordelingen af R(θ, X) under P θ er den samme for alle θ. Helt præcist, hvis afhænger af B Y med ikke af θ. ) P θ (R(θ, X) B I så fald kan konkordansområdet for R(θ, X) vælges så det ikke varierer med θ. Vi søger en mængde A så ) P θ (R(θ, X) A = 1 α for alle θ. Sæt C(x) = {θ Θ R(θ, x) A}. p.4/30

Asymptotisk konstruktion Lad Θ R. Hvis ˆθ n er en estimator så ˆθ n as N (θ, 1 ) n σ2 (θ) under P θ så vil n ˆθn θ σ2 (θ) D N(0, 1) Hvis q er 1 α 2 fraktilen i N(0, 1) vil C n = { θ q < n ˆθ } n θ σ2 (θ) < q opfylde at P θ (θ C n ) 1 α for n. p.5/30

Asymptotisk konstruktion Lad Θ R. Hvis ˆθ n er en estimator så ˆθ n as N (θ, 1 ) n σ2 (θ) under P θ så vil n ˆθn θ σ2 (θ) D N(0, 1) Hvis q er 1 α 2 fraktilen i N(0, 1) vil Cn = θ q < n ˆθ n θ σ 2 (ˆθ n ) < q måske opfylde at P θ (θ C n) 1 α for n. p.6/30

Asymptotisk konstruktion Lad Θ R. Hvis ˆθ n er en estimator så ˆθ n as N (θ, 1 ) n σ2 (θ) under P θ så vil n (ˆθ n θ) 2 σ 2 (θ) D χ 2, df = 1 Hvis z er 1 α fraktilen i χ 2, df = 1, vil C n = { θ n (ˆθ n θ) 2 σ 2 (θ) < z } opfylde at P θ (θ C n ) 1 α for n. p.7/30

Wald områder Lad Θ R k. Hvis ˆθ er en estimator så ˆθ N(θ, Σ(θ)), så er et approksimativt konfidensområde: Wald område: C(X) = { } θ (ˆθ θ) T Σ(θ) 1 (ˆθ θ) < z hvor z er (1 α) fraktilen i χ 2, df = k. Falsk Wald område: C(X) = { } θ (ˆθ θ) T Σ(ˆθ) 1 (ˆθ θ) < z hvor z er (1 α) fraktilen i χ 2, df = k.. p.8/30

Wilks sætning Lad Y 1, Y 2,... være iid. observationer fra en k-dimensional statistisk model. Under regularitetsbetingelser vil 2 log Q(θ, Y 1,...,Y n ) D χ 2, df = k under P θ. Konklusion: Et approximativt konfidensområde er C(X) = {θ 2 log Q(θ, Y 1,...,Y n ) < z} hvor z er (1 α) fraktilen i χ 2, df = k.. p.9/30

Gamma model Lad X 1,...,X n være uafhængige, Γ-fordelte med formparamter λ og skalaparameter β. l X1,...,X n (λ, β) = nλlog β + n log Γ(λ) (λ 1) Dl X1,...,X n (λ, β) = ( D 2 l X1,...,X n (λ, β) = n log β + nψ(λ) i n (λ, β) = nψ (λ) n β nψ (λ) n β n log X i + 1 β i=1 n log X i ; i=1 n β nλ β 1 β 2 nλ β + 2 n 2 β 3 i=1 X i n β nλ β 2 n i=1 X i ) n X i i=1. p.10/30

Eksempel X 1,...,X n iid variable. Γ-fordelte, form λ og skala β. 2 log Q β 1.0 1.5 2.0 2.5 3.0 3.5 4 6 8 10 12 λ. p.11/30

Eksempel X 1,...,X n iid variable. Γ-fordelte, form λ og skala β. 2 log Q Wald β 1.0 1.5 2.0 2.5 3.0 3.5 4 6 8 10 12 λ. p.12/30

Eksempel X 1,...,X n iid variable. Γ-fordelte, form λ og skala β. 2 log Q Wald Falsk Wald β 1.0 1.5 2.0 2.5 3.0 3.5 4 6 8 10 12 λ. p.13/30

Eksempel X 1,...,X n iid variable. Γ-fordelte, form λ og skala β. Faktiske dækningsgrader: n 2 log Q Wald Falsk Wald 10 0.933 0.654 0.634 100 0.950 0.883 0.880 1 000 0.951 0.942 0.944. p.14/30

Konfidensområde for parameterfunktioner X (Ω, F) (X, E) x P θ ν θ Θ θ τ t D(x) R Konfidensbetingelse: P θ (τ(θ) D(X)) 1 α for alle θ. p.15/30

Konfidensområder og test At finde konfidensområde for τ : Θ R er det samme som på én gang at teste alle hypoteser af formen H y : τ(θ) = y Hvis et test af H y fører til kritisk mængde K(y) og acceptmængde A(y) sættes D(x) = {y R x A(y)} Omvendt, hvis D(x) er et konfidensområde, gennemføres et test af H y ved acceptmængden A(y) = {x X y D(x)}. p.16/30

Praktisk konstruktion I praksis konstrueres konfidensområder for τ : Θ R ofte ved en afbildning Z : X R R med en konkordansfortolkning. Find z y så P θ (Z(X, y) < z y ) 1 α hvis τ(θ) = y Der er kun håb om at konstruktionen virker hvis er pivot langs niveaukurver for τ R(x, θ) = Z(x, τ(θ)). p.17/30

Eksempel: IID normalfordelinger Lad X 1,...,X n være uafhængige N(ξ, σ 2 )-fordelte Problem Find et konfidensområde for ξ.. p.18/30

Fordelingsresultater Hvis X 1,...,X n er uafhængige N(ξ, σ 2 )-fordelte er X N(ξ, σ2 n ) SSD χ 2, df = n 1 og skala = σ 2 X og SSD er uafhængige Spaltningssætningen! Hvis U N(0, 1) og V χ 2 med df = k og skala = 1/k er uafhængige, så er U V t, df = k. p.19/30

Eksempel: IID normalfordelinger Lad X 1,...,X n være uafhængige N(ξ, σ 2 )-fordelte Problem Find et konfidensområde for ξ. D 1 (X 1,...,X n ) = ( X z SSD n(n 1), X + z SSD n(n 1) ), hvor z er 97.5% fraktilen for t-fordelingen med n 1 frihedsgrader. p.20/30

Profilkvotientteststørrelsen Lad τ : Θ Ψ være en parameterfunktion. Profillikelihoodfunktionen: L x (ψ) = sup L x (θ) θ:τ(θ)=ψ Maksimering af L x langs niveaukurver for τ. Kvotientteststørrelsen baseret på profillikelihoodfunktionen: Q(ψ, x) = L x (ψ) sup L ψ x (ψ ) = L x (ψ) L x (ˆθ) Find z ψ så P θ ( 2 log Q(ψ, X) < z ψ ) = 1 α når τ(θ) = ψ Kræver partiel pivothed for at give mening.. p.21/30

Wilks sætning Lad Y 1, Y 2,... være iid. observationer fra en k-dimensional statistisk model. Lad τ : Θ Ψ være en surjektiv parameterfunktion, og lad Ψ være m-dimensional. Under regularitetsbetingelser vil under P θ når τ(θ) = ψ. 2 log Q(ψ, Y 1,...,Y n ) D χ 2, df = m. p.22/30

Den lineære normale model Antagelse X er regulært normalfordelt på V med - centrum ξ L - præcision, σ 2 Parametrisering (ξ, σ 2 ) L (0, ). p.23/30

Konfidensområde Problem: Find konfidensområdet for parameterfunktionen (ξ, σ 2 ) ξ (Variansparameteren σ 2 er en støjparameter) Strategi: Find profillikelihoodfunktionen for ξ, L X (ξ). Find kvotientteststørrelsen Q X (ξ) ud fra L X (ξ). Find en afskæring af formen C(X) = {ξ Q X (ξ) > z} Bed til at Q X er pivot.... p.24/30

Profillikelihood Husk at L X (ξ, σ 2 ) = ( ) N/2 1 e X ξ 2 /2σ 2 σ 2 For fast ξ maksimeres dette udtryk af ˆσ 2 (ξ) = X ξ 2 N så profillikelihoodfunktionen er L X (ξ) = ( ) N/2 N X ξ 2 e N/2. p.25/30

Profillikelihoodkvotient Kvotientteststørrelse på denne baggrund: Q X (ξ) = L X (ξ) L X (ˆξ) = ( X p(x) 2 X ξ 2 ) N/2. p.26/30

Afskæringsområde Kvotientteststørrelsen er i (aftagende) bijektiv korrespondence med p(x) ξ 2 /k X p(x) 2 /(N k) Vi kan derfor vælge et afskæringsområde af formen C(X) = { ξ p(x) ξ 2 } /k X p(x) 2 /(N k) < z. p.27/30

Afskæringsområde Hvis (ξ, σ 2 ) er de sande parametre, så er p(x) ξ 2 /k X p(x) 2 /(N k) F -fordelt, df = (k, N k) altså pivot! Vi kan derfor vælge et afskæringsområde af formen C(X) = { ξ p(x) ξ 2 } /k X p(x) 2 /(N k) < z hvor z er 95% fraktilen i F(k, N k)-fordelingen. Bemærk: C(X) er en kugle i L med centrum i p(x).. p.28/30

Matrixformulering V = R N. Sædvanligt indre produkt: x, y = x T y. Underrum givet ved designmatrix L = {Aβ β R k } hvor de k søjler i A er lineært uafhængige N-vektorer. Konfidensområde for β: C(X) = {β R k (β ˆβ) T A T A(β ˆβ) < kz σ } 2 hvor z er 95% fraktilen for en F(k, N k)-fordelingen.. p.29/30

Marginale konfidensintervaller Hvis vi betrager en lineær reel parameterfunktion, β α T β kan vi i princippet finde profillikelihoodfunktion etc. Resultatet bliver et konfidensområde af formen α T ˆβ ± α T (A T A) 1 α z σ 2 hvor z er 95% fraktilen for en F -fordeling med (1, N k) frihedsgrader.. p.30/30