Kvantitative metoder 2

Relaterede dokumenter
Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Kvantitative metoder 2

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Note om Monte Carlo eksperimenter

Note om Monte Carlo eksperimenter

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kvantitative metoder 2

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Kvantitative metoder 2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Module 4: Ensidig variansanalyse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Vejledende besvarelser til opgaver i kapitel 14

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Note om Monte Carlo metoden

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative metoder 2

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kvantitative Metoder 1 - Efterår Dagens program

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Løsning eksamen d. 15. december 2008

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Kvantitative metoder 2

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Eksamen i Statistik for biokemikere. Blok

Forelæsning 11: Kapitel 11: Regressionsanalyse

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik II 4. Lektion. Logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

1 Regressionsproblemet 2

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Opgaver til kapitel 3

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Forelæsning 9: Inferens for andele (kapitel 10)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Multipel Lineær Regression

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative Metoder 1 - Forår Dagens program

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Simpel Lineær Regression

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kvantitative Metoder 1 - Forår 2007

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Normalfordelingen og Stikprøvefordelinger

Module 12: Mere om variansanalyse

Uge 10 Teoretisk Statistik 1. marts 2004

Transkript:

Opgave fra sidst (Gauss-Markov teoremet) Kvantitative metoder Inferens i den lineære regressionsmodel 7. marts 007 Opgave: Vis at hvis M = I X X X X ( ' ) ' er M idempoten dvs der gælder gælder M = M ' (symmetrisk) M = MM regressionsmodel regressionsmodel

Oversigt: de næste forelæsninger Statistisk inferens: Det dreer sig om at man med udgangspunkt i en statistisk model kan drage konklusioner på grundlag af data. Dette indebærer blandt andet estimation af parametre samt metoder til afprøvning af statistiske hypoteser. Simulationseksperimenter (Note på hemmesiden) Ideen med at lave simulationseksperimenter Opbygning af en simulationsalgoritme Eksempel: Den forventede startløn for en økonom ( β Resultater om OLS med endeligt antal observationer (kap. 4): Normalitetsantagelse (MLR.6). Test af en enkelt lineær restriktion på koefficienter i lineær regressionsmodel. Asymptotiske resultater for OLS: n (kap. 5). Test af flere lineære restriktioner (kap. 4.5 og 5.). Efficiens (kap 5.3 og B&L 9.) regressionsmodel 3 Hvorfor simulationseksperimenter? Ideen med at introducere simulationseksperimenter i Kvantitative metoder og er at kunne illustrere vigtige statistiske begreber Simulationseksperimenter er ikke dækket af Wooldridge, så derfor benyttes en note (se hemmesiden) Konkret kan vi vise at OLS estimatoren har en fordeling Simulationseksperimenter vil også optræde til øvelserne regressionsmodel 4

Monte Carlo eksperimenter: Ideen Monte Carlo eksperimenter: Ideen (fortsat) Simulationer af datasæt fra en fuldt specificeret model: Datagenererende proces (DGP) Eksempel: yi = μ + σε i, ε i ~... iidn(0,) Vi kender de "sande parametre" μ og σ. Genererer et sæt af fx n=00 observationer fra modellen: y, y,..., yn Glemmer at vi kender μ og σ : Anvend estimator ( regneregel ) til at skønne over fx μ ud fra et konkret (men kunstigt) sæt af observationer: Fx gennemsnittet: = n y yi n i = regressionsmodel 5 Kan vi på en nem måde vurdere, om y er en rimelig estimator for μ? Lav ny uafhængig trækning af datasæt genereret af den samme DGP. Beregn værdien af estimatoren for hvert datasæt: y Lav mange uafhængige trækninger ( replikationer ). Se på fordelingen af estimaterne over replikationerne: Beregn fx fordelingens gennemsnit og varians. Parallel til tankeeksperimentet : Vores konkrete faktiske datasæt er blot ét blandt mange potentielle udfald. regressionsmodel 6 3

Monte Carlo eksperimenter: Ideen (fortsat) Monte Carlo eksperimenter: Eksempel Formål med Monte Carlo eksperimenter: Efterprøve analytiske resultater: Fx at OLS er middelret under MLR.-4. Sammenligne forskellige estimatorer eller test, hvor det er besværligt/umuligt analytisk. Vurdere hvor mange observationer der skal til for at man kan bruge asymptotiske resultater i praksis (kap. 5). DJØFs hemmeside www.doef.dk: Veledende startløn for en privatansat, nyuddannet økonom er kr. 9.500 om måneden. Antag: Startlønninger er uafhængige og normalfordelte. Sand middelværdi i lønfordelingen er kr. 9.500. Sand lønfordeling har standardafvigelse på kr..500. Hermed er lønfordelingen fuldt specificeret. Simulere en situation, hvor der indhentes en tilfældig stikprøve af n=00 startlønninger. regressionsmodel 7 regressionsmodel 8 4

Monte Carlo eksperimenter: I praksis Trin : Konstruer et kunstigt datasæt: Opstil en model for den datagenererende proces: y i = μ + σεi, εi ~ N(0,), μ=9,5, σ =,5. Generer et antal, fx n = 00, observationer af ε i fra en tilfældighedsgenerator og beregn fra modellen. Proc IML; antalobs = 00; mu = (antalobs,,9.5); seedvct = (antalobs,,) ; seedvct = 7*seedvct ; e = normal(seedvct) ; y = mu +.5 * e ; y i Monte Carlo eksperimenter: I praksis (fortsat) Trin : Ex. sammenligne to estimatorer: Beregn estimaterne: Find gennemsnit af alle observationer: m = 00 y i = i 00 Find gennemsnit af mindste og største observation: m = (min i=,...,00 y i + max i=,...,00 y i ) mest=sum(y)/antalobs; * estimatet m (gennemsnittet); mest=/*(min(y)+max(y)); * estimatet m (gns. min og max); quit; regressionsmodel 9 regressionsmodel 0 5

Monte Carlo eksperimenter: I praksis (fortsat) Trin 3: Gentag trin og : M=0.000 replikationer: antalrep = 0000; * antal replikationer i simulationen; m = (antalrep,,.); * vektorer til at gemme estimaterne i; m = (antalrep,,.); do = to antalrep; * løkke over simulationer;. <her beregnes estimater for hvert datasæt>. end; Trin 4: Analysér fordelingerne af de to sæt estimater: Histogram Gennemsnit, varians, høere momenter Monte Carlo eksperimenter: Eksempel Brug algoritmen til at analysere m og m som estimatorer for middelværdien i fordelingen af startlønninger. Simulere telefoninterviews med tilfældigt udvalgte, nyuddannede økonomer, som oplyser (?) deres startløn. SAS-programmet MC.sas udfører M=0.000 replikationer. Se på n=00, n=50 og n=0. Link til SAS regressionsmodel regressionsmodel 6

Monte Carlo eksperimenter: Eksempel (fortsat) Monte Carlo eksperimenter: Afrunding Middelværdi og varians af de to estimatorer baseret på M=0.000 simulationer m har lavest varians Varians aftager med n n=00 Middelværdi Varians n=50 Middelværdi Varians n=0 Middelværdi Varians 9,499 0,03 9,499 0,0443 9,498 0,09 m m 9,50 0,089 9,499 0,445 9,489 0,46 Husk: Resultater og konklusioner fra Monte Carlo eksperimenter afhænger potentielt af de valgte parametre og fordelinger. I praktiske anvendelser må man i hvert enkelt tilfælde godtgøre, at den valgte model har relevans for den problemstilling, man ønsker at belyse. regressionsmodel 3 regressionsmodel 4 7

Hypotesetest i den lineære regressionsmodel: Endelige stikprøver (kap. 4) For hypotesetest behøver vi fordelingen af ˆβ. Introducere yderligere antagelse: Normalitet. MLR.6: u er uafhængig af x, x,..., xk og normalfordelt med middelværdi nul og varians σ. Definerer den klassiske lineære model (CLM). Restriktiv antagelse: Argument for: u opsamler alle de mange effekter der er udeladt af modellen: Central grænseværdisætning køres i stilling. Argumenter imod i konkrete problemstillinger: Begrænsede variabler (positive!), andre typer af fordelinger (log-normal, diskrete). Fordeling af OLS estimatoren: Endelig stikprøve Linearitet af ˆβ i u og CLM giver følgende resultat: Theorem 4.: Under CLM antagelserne og betinget på x, x,..., xk gælder at ˆ β ˆ ~ N( β,var( β )) hvor ˆ σ Var( β ) = SST ( R ) Heraf følger: ( ˆ β β ) / standardafv.( ˆ β ) ~ (0,) N regressionsmodel 5 regressionsmodel 6 8

Fordeling af OLS estimatoren: Endelig stikprøve (fortsat) Theorem 4. indeholder den ukendte parameter σ, derfor ikke umiddelbart operationel. Erstattes σ af σˆ kan man vise at der gælder følgende resultat: Theorem 4.: Under CLM antagelserne og betinget på x, x,..., xk gælder at ( ˆ β ˆ β ) / standardfel( β ) ~ tn k hvor k+ er antal regressorer i modellen inkl. konstantled. t-fordelingen går mod N(0,) når antallet af frihedsgrader vokser. Fin approximation hvis større end 0. regressionsmodel 7 Hypotesetest: Restriktion på en enkelt koefficient Betragt en nulhypotese om en regressionskoefficient: H 0 : β = a, hvor a er en konstant. Under nulhypotesen påstår vi altså en bestemt værdi af en parameter i den sande model. Analogt til at specificere en parameter i DGP en for et Monte Carlo eksperiment. Tænk på nulhypotesen som DGP en for et tankeeksperiment: Givet denne værdi af β kender vi fordelingen af ˆ β. Bruge afvigelsen mellem estimatet, ˆ β og den postulerede værdi, a, til at vurdere gyldigheden af nulhypotesen. regressionsmodel 8 9

Hypotesetest: Restriktion på en enkelt koefficient Hypotesetest: Restriktion på en enkelt koefficient t-testet for H 0 : β = a er givet ved ( ˆ β a) / standardfel( ˆ β ) og er fordelt som under nulhypotesen. Alternativhypotesen: Ensidede alternativer: H: β > a eller H: β < a Tosidet alternativ: H : β a Ex. Afkast af uddannelse: Hypotese om tn k Nulhypotese: β = 0 Relevant alternativ: β 0? β > 0? β Klassisk teststrategi: Vælg signifikansniveau: Sandsynlighed for at afvise nulhypotesen, givet at den er sand. Typisk vælges 5 %. Vælg alternativhypotese: Bestemmer den kritiske region, givet signifikansniveauet. Beregn teststatistik. Afvis nulhypotesen hvis testet er i den kritiske region. Afvis ellers ikke. Alternativ: Beregn p-værdi: Marginale signifikansniveau som ville betyde at nulhypotesen netop ville blive afvist. regressionsmodel 9 regressionsmodel 0 0

Hypotesetest: Restriktion på en enkelt koefficient Hypotesetest: Eksempel: Lønrelationen Typiske eksempler: a=0: Standard signifikanstest. a= eller a=-: Test af homogenitet eller proportionalitet. Konfidensinterval: Givet signifikansniveau, α, fx 5 %. Så er 00- α % konfidensintervallet givet ved: [ ˆ β ˆ ˆ ˆ tn k ( α / )standardfel( β ), β + tn k ( α / )standardfel( β )] Konstrueres intervallet således vil det i 00- α % af udfaldene rumme den sande værdi. Nulhypoteser om værdier udenfor vil således blive afvist. Skitsér på tavlen. Afhængig variabel: log(timeløn) Regressor uddaar erfaring konstant Antal observationer R Model () 0,045 (0,0035) _ 4,3500 (0,040) 046 0,40 Model () 0,0485 (0,003) 0,039 (0,000) 4,05 (0,044) 046 0,75 Kilde: Output fra SAS-programmet lon_udd.sas regressionsmodel regressionsmodel

Generel lineær restriktion Generel lineær restriktion (fortsat) Nulhypotese på linearkombination af koefficienter: H 0 :β = β H 0 : β + β = 4 H: 0 β+ β= β3 Involverer flere koefficienter, men stadig kun en restriktion (et lighedstegn). Ex. Produktionsfunktion af Cobb-Douglas typen med arbedskraft (L), kapital (K) og uobserverbare faktorer (U): α β Yi = ALi Ki Ui I log-transformerede størrelser: yi = a+ αli + β ki + ui Test antagelse om konstant skalaafkast: H : α + β = 0 Hypotesen er af formen: Linearkombination af koefficienterne er lig med konstant. Estimere ˆα + βˆ, men hvad med std.fel( ˆ α + ˆ β )? Omparameterisere modellen: yi = a+ αli + βki + ui = a+ ( α + β) li + β( ki li) + ui OLS af yi på en konstant, li og log af kapital-arbedskraftsforholdet, ki li I reparameterisering er hypotesen direkte en restriktion på koefficienten til l : Kald den fx i λ = α + β Test restriktionen vha. t-stat. på ˆ λ Hvis CLM opfyldt så eksakt t-fordelt. regressionsmodel 3 regressionsmodel 4

Næste gang Aflevering af obligatorisk opgave Test af flere restriktioner W. kap. 4.5 Asymptotiske resultater W. kap 5.-5.3 og B&L kap 9. Konsistens Efficiens regressionsmodel 5 3