Den lineære normale model

Relaterede dokumenter
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Den generelle lineære model

Asymptotisk testteori

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Løsning eksamen d. 15. december 2008

Module 4: Ensidig variansanalyse

Del II. Den lineære normale model

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Estimation. Kapitel 4

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Test af statistiske hypoteser

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Module 12: Mere om variansanalyse

Lineære normale modeller (4) udkast

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik 1TS 2003 Obligatorisk opgave 1

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Module 3: Statistiske modeller

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Eksamen i Statistik for biokemikere. Blok

Løsning til eksaminen d. 29. maj 2009

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

8 Regulære flader i R 3

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Perspektiver i Matematik-Økonomi: Linær regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Lineær Algebra, TØ, hold MA3

Forelæsning 11: Kapitel 11: Regressionsanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Sandsynlighedsregning Oversigt over begreber og fordelinger

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Modul 12: Regression og korrelation

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Besvarelser til Lineær Algebra med Anvendelser Ordinær Eksamen 2016

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Module 1: Lineære modeller og lineær algebra

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Delprøven uden hjælpemidler

Transkript:

Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af indre produkter på V : x, y σ 2 = x, y σ 2. p.1/21

Den lineære normale model Antagelse X er regulært normalfordelt på V med - centrum ξ L - præcision, σ 2 Parametrisering (ξ, σ 2 ) L (0, ). p.2/21

Maksimaliseringsestimation Maksimaliseringsestimator: ˆξ = p(x) ˆσ2 = hvor p er ortogonalprojektionen ned i L. X p(x) 2 N x PSfrag replacements L p(x) 0. p.3/21

Estimation i praksis Sædvanlig estimator ˆξ = p(x) σ2 = X p(x) 2 N k hvor p er ortogonalprojektionen ned i L. x PSfrag replacements L p(x) 0. p.4/21

Fordelingsresultat ˆξ og ˆσ 2 er uafhængige. ˆξ er regulært normalfordelt på L med - centrum ξ L - præcision: restriktionen af, σ 2 til L. ˆσ 2 er χ 2 -fordelt med formparameter N k skalaparameter σ 2 /N. p.5/21

Matrixformulering V = R N. Sædvanligt indre produkt: x, y = x T y. Underrum givet ved designmatrix L = {Aβ β R k } hvor de k søjler i A er lineært uafhængige N-vektorer. ˆξ = A(A T A) 1 A T X eller ˆβ = (A T A) 1 A T X ˆβ N ( β, σ 2 (A T A) 1). p.6/21

Lineær hypotese En lineær hypotese er af formen H : ξ L hvor L er et lineært underrum af L af dimension m. PSfrag replacements L x p(x) L 0 p (x). p.7/21

Intuitivt test-ide Intuitivt: vi tror på den lineære hypotese hvis X p (X) 2 X p(x) 2 Udmøntning: Udregn F = p(x) p (X) 2 /(k m) X p(x) 2 /(N k) Fortolkning: Små F -værdier får os til at tro på hypotesen Store F -værdier får os til at forkaste hypotesen. p.8/21

Uafhængighed Lemma De tre variable X p(x) p(x) p (X) p (X) er uafhængige, uanset om hypotesen er sand eller ej X p(x) har centrum 0 hvis modellen er sand p(x) p (X) har centrum 0 hvis hypotesen er sand Bevis: Trivielt ud fra spaltningssætningen.. p.9/21

F testet Hvis hypotesen er sand er F -fordelt med df = (k m, N k) F = p(x) p (X) 2 /(k m) X p(x) 2 /(N k) Vi kan bruge 95% fraktilen som grænse mellem stort og småt. F -størrelsen udregnes ofte som ( p(x) 2 p (X) 2) /(k m) F = ( X 2 p(x) 2 ) /(N k). p.10/21

B testet Udregn Fortolkning: B = X p(x) 2 X p (X) 2 Små B-værdier får os til at forkaste hypotesen Store B-værdier får os til at tro på hypotesen Hvis hypotesen er sand er B B-fordelt, df = (N k, k m) Vi kan bruge 5% fraktilen i denne fordeling som grænse mellem stort og småt.. p.11/21

Ækvivalente test Bemærk: B = N k N K + (k m)f så F -test og B-test er ækvivalente.. p.12/21

Kvotienttest L X (ξ, σ 2 ) = ( ) N/2 1 σ 2 e X ξ 2 /2σ 2 Maksimering under modellen: L X (ˆξ, ˆσ 2 ) = ( N X p(x) 2 ) N/2 e N/2 Maksimering under hypotesen: L X (ˆξ, ˆσ2 ) = ( N X p (X) 2 ) N/2 e N/2. p.13/21

Kvotienttest Kvotientteststørrelse: Q = L X(ˆξ, ˆσ2 ) L X (ˆξ, ˆσ 2 ) = ( X p(x) 2 X p (X) 2 ) N/2 = B N/2 Konklusion: Kvotienttest er ækvivalent med B-test.. p.14/21

Konfidensområde Problem: Find konfidensområdet for parameterfunktionen (ξ, σ 2 ) ξ (Variansparameteren σ 2 er en støjparameter) Strategi: Find profillikelihoodfunktionen for ξ, L X (ξ). Find kvotientteststørrelsen Q X (ξ) ud fra L X (ξ). Find en afskæring af formen C(X) = {ξ Q X (ξ) > z} Bed til at Q X er pivot.... p.15/21

Profillikelihood Husk at L X (ξ, σ 2 ) = ( ) N/2 1 e X ξ 2 /2σ 2 σ 2 For fast ξ maksimeres dette udtryk af ˆσ 2 (ξ) = X ξ 2 N så profillikelihoodfunktionen er L X (ξ) = ( ) N/2 N X ξ 2 e N/2. p.16/21

Profillikelihoodkvotient Kvotientteststørrelse på denne baggrund: Q X (ξ) = L X (ξ) L X (ˆξ) = ( X p(x) 2 X ξ 2 ) N/2. p.17/21

Afskæringsområde Kvotientteststørrelsen er i (aftagende) bijektiv korrespondence med p(x) ξ 2 /k X p(x) 2 /(N k) Vi kan derfor vælge et afskæringsområde af formen C(X) = { ξ p(x) ξ 2 } /k X p(x) 2 /(N k) < z. p.18/21

Afskæringsområde Hvis (ξ, σ 2 ) er de sande parametre, så er p(x) ξ 2 /k X p(x) 2 /(N k) F -fordelt, df = (k, N k) altså pivot! Vi kan derfor vælge et afskæringsområde af formen C(X) = { ξ p(x) ξ 2 } /k X p(x) 2 /(N k) < z hvor z er 95% fraktilen i F (k, N k)-fordelingen. Bemærk: C(X) er en kugle i L med centrum i p(x).. p.19/21

Matrixformulering V = R N. Sædvanligt indre produkt: x, y = x T y. Underrum givet ved designmatrix L = {Aβ β R k } hvor de k søjler i A er lineært uafhængige N-vektorer. Konfidensområde for β: C(X) = {β R k (β ˆβ) T A T A(β ˆβ) < kz σ } 2 hvor z er 95% fraktilen for en F (k, N k)-fordelingen.. p.20/21

Marginale konfidensintervaller Hvis vi betrager en lineær reel parameterfunktion, β α T β kan vi i princippet finde profillikelihoodfunktion etc. Resultatet bliver et konfidensområde af formen α T ˆβ ± α T (A T A) 1 α z σ 2 hvor z er 95% fraktilen for en F -fordeling med (1, N k) frihedsgrader.. p.21/21