Note om Monte Carlo eksperimenter

Relaterede dokumenter
Note om Monte Carlo eksperimenter

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Kvantitative metoder 2

Kvantitative metoder 2

Kvantitative metoder 2

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kvantitative Metoder 1 - Forår 2007

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Note om Monte Carlo metoden

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

En Introduktion til SAS. Kapitel 5.

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Opgaver til kapitel 3

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative metoder 2

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri 1 Efterår 2006 Ugeseddel 11

Normalfordelingen og Stikprøvefordelinger

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Kvantitative Metoder 1 - Forår 2007

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Vejledende besvarelser til opgaver i kapitel 14

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Module 4: Ensidig variansanalyse

Løsning eksamen d. 15. december 2008

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Simpel Lineær Regression

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

ØVELSE 3A. I SAS kan man både bruge {}, [] og () som paranteser til index.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Estimation og usikkerhed

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Økonometri 1 Forår 2006 Ugeseddel 11

Kvantitative Metoder 1 - Efterår Dagens program

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik for Biokemikere Projekt

Modelkontrol i Faktor Modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative metoder 2

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Uge 10 Teoretisk Statistik 1. marts 2004

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Statistik i GeoGebra

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Om hypoteseprøvning (1)

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Hvorfor er normalfordelingen så normal?

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

MPH specialmodul Epidemiologi og Biostatistik

Statistiske modeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kvantitative Metoder 1 - Forår Dagens program

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Transkript:

Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 22. februar 2005 Denne note er skrevet til kurset Økonometri 1 på 2. årsprøve af polit-studiet. Formålet med noten er at forklare ideen med at lave simulationseksperimenter, også kaldet Monte Carlo eksperimenter. Simulationseksperimenter er velegnede til at illustrere centrale statistiske og økonometriske begreber. Metoden har desuden vist sig utroligt nyttig indenfor stort set alle grene af økonometrien til at efterprøve egenskaberne for estimatorer og test. I noten lægges specielt vægt på, hvordan et Monte Carlo eksperiment laves i praksis. Derfor er der medtaget et gennemgående eksempel, som detaljeret beskriver, hvordan et eksperiment kan konstrueres og udføres i SAS. 1. Hvad er et Monte Carlo eksperiment? Et Monte Carlo eksperiment er baseret på simulationer af en konkret statistisk model. Ved at simulere et udfald (en replikation ) fra modellen bestående af et bestemt antal (fx n = 100 ) observationer opnår man et kunstigt datasæt. På grundlag af datasættet kan man så beregne de størrelser, der har interesse for eksperimentet. Det kunne fx være OLS-estimatet af en koefficient i en lineær regressionsmodel. Simulerer man et (stort) antal udfald (fx M = 10.000 ) fås en fordeling af parameterestimater set over de kunstige datasæt ( replikationerne ). Man kan fx beskrive fordelingen ved at tegne et histogram og beregne dens gennemsnit og varians. Monte Carlo eksperimentet er helt parallelt til det tankeeksperiment, der ligger til grund for både statistik og økonometri, jf afsnit 2.5 og 3.3 i Wooldridge (2003). Man forestiller sig, at de faktisk observerede data, man er i færd med at analysere, blot er ét blandt mange hypotetiske udfald. Under ganske bestemte forudsætninger kan vi så udlede resultater fx for OLS-estimatorens egenskaber set 1

over disse hypotetiske udfald og bruge disse statistiske egenskaber til at vurdere de konkrete estimaterne med. Et (vigtigt) eksempel: Under Gauss-Markov antagelserne vil OLS være den bedste lineære og middelrette estimator, hvilket betyder at set over et antal hypotetiske udfald vil middelværdien af OLS-estimaterne ramme den sande værdi af parametrene. De vil tilmed gøre det med den mindste varians af alle tænkelige lineære og middelrette estimatorer. Ideen med Monte Carlo eksperimentet er at erstatte de hypotetiske udfald med konkrete men kunstige replikationer. Det kræver at man er villig til at specificere den statistiske model der genererer de kunstige datasæt, helt ned til at vælge konkrete værdier af modellens parametre (fx β 0 = 7 og β 1 = 0.25 i en simpel lineær regressionsmodel) og bestemme fordelingen af de stokastiske variabler i modellen (fx at fejlleddet u i fremkommer som uafhængige og identiske trækninger fra en standardiseret normalfordeling). Monte Carlo eksperimentets resultat vil i almindelighed afhænge af de parameterværdier og fordelinger man vælger. I nogle tilfælde kan man dog opnå resultater, der er invariante i forhold til visse aspekter af den valgte model. 1 For at illustrere ideen vil vi se på et gennemgående eksempel. Antag at man ønsker at bestemme den forventede startløn for en nyuddannet økonom. Man ringer derfor rundt til n = 100 tilfældigt udvalgte nyuddannede økonomer (som er i beskæftigelse) og spørger til deres startløn. Derefter beregnes den gennemsnitlige startløn i stikprøven som et estimat for middelværdien i fordelingen af startlønninger. Vi er interesseret i at vide, om gennemsnittet er en god eller dårlig estimator i en given model. Eller formuleret på en anden måde: Hvis man tilfældigvis havde kontaktet n = 100 andre nyuddannede økonomer og herved fået et andet gennemsnit, hvor forskelligt må man forvente at de to estimater vil være og hvor tæt kan man antage, at gennemsnitslønnen i den faktisk indhentede stikprøve ligger på den sande (men ukendte) middelværdi i fordelingen af startlønninger. For at besvare dette er man interesseret i at kende fordelingen af estimatoren (eller i hvert fald dens middelværdi og varians), set over alle de stikprøver, man potentielt kunne have fået. Normalt vil det være krævende og omkostningsfyldt at begynde at indsamle nye data. I praksis vil man som regel afholde sig fra det. Fordelen ved at lave simulationseksperimenter er, at det er let og (stort set) gratis at få fat i nye kunstige datasæt. Men man skal altså være villig til at levere en fuld 1 Fx vil resultaterne ofte være uafhængige af fejlleddets varians, som i givet fald blot kan normaliseres til 1. 2

specifikation af den model, der genererer startlønninger, den såkaldte datagenererende proces (DGP). I eksemplet vil vi arbejde med en antagelse om, at startlønningerne stammer fra uafhængige og identisk fordelte trækninger fra en normalfordeling. På DJØFs hjemmeside www.djoef.dk oplyses det, at den anbefalede startløn for en privatansat, nyuddannet økonom er kr. 29.500 om måneden. Vi vil antage at det er den sande middelværdi i lønfordelingen. Vi antager desuden at den sande lønfordeling har en standardafvigelse på kr. 1.500. Hermed er lønfordelingen fuldt specificeret. Opgave: Er antagelserne om lønfordelingen i eksemplet realistiske? Hvilke andre fordelinger kunne du foreslå som model for lønfordelingen? Opgave: Hvad er - under disse antagelser - sandsynligheden for, at en tilfældigt udvalgt nyuddannet økonom har en startløn på mere end kr. 32.500? Man kan også forestille sig, at man overvejer at estimere den forventede startløn på en alternativ måde (f.eks. som medianlønnen eller som gennemsnittet af den største og mindste startløn i stikprøven). 2 Man er så interesseret i at vide, hvilken af de foreslåede estimatorer, der er den mest præcise (fx hvilken der har den mindste varians). Ved at simulere estimatorerne kan man sammenligne deres fordelinger i Monte Carlo eksperimentet og herved se, hvilken som har den mindste varians. Et andet formål med at lave simulationer kan være at undersøge, hvor mange observationer hvor stort n - man skal bruge for at få et rimeligt præcist estimat. Endelig kan man være interesseret i at undersøge, hvad der sker med fordelingen af estimaterne, hvis f.eks. Gauss-Markov antagelserne ikke er opfyldt. I nogle tilfælde kan man nå frem til analytiske svar på disse spørgsmål. Det vil fx være muligt i den relativt simple problemstilling, vi har skitseret her. Fordelingen af et stikprøvegennemsnit er gennemgået i afsnit 6.2 af Teoretisk statistik for økonomer (sætning 6.1 og 6.2) og vi vil sammenligne vores simulationsresultater med de analytiske resultater senere i noten. Men ofte er man interesseret i at få en ide om, hvordan fordelingen af estimaterne ser ud i mere komplicerede 2 Overvej under hvilke antagelser om fordelingen af startlønninger, at medianen vil være en rimelig estimator i dette eksempel. 3

sammenhænge, hvor de simple forudsætninger ikke holder og det derfor kan være vanskeligt at opnå analytiske resultater. Simulationseksperimenter vil ofte være et værdifuldt værktøj til at belyse dette. Igen er det vigtigt at understrege, at man kun kan lave simulationer, hvis man er villig til at specificere den model, der genererer de kunstige data (DGP en) og at resultaterne almindeligvis vil afhænge heraf. Man må derfor godtgøre, at den valgte DGP er relevant for den problemstilling, man ønsker at belyse. 2. Hvordan laves et Monte Carlo eksperiment i praksis? I dette afsnit gennemgås, hvordan et simulationseksperiment laves. Antag, at vi ønsker at simulere fordelingen af en bestemt estimator baseret på n observationer, givet ved { y1, y2,..., y n }. Vi må først specificere modellen, der genererer disse data. Den model vi arbejder med skal være fuldt parameteriseret. Det betyder som nævnt, at man både skal antage hvilken fordeling observationerne stammer fra (f.eks. normalfordelingen) og den eksakte værdi af parametrene (f.eks. middelværdi og varians). I løneksemplet vil vi som nævnt antage, at startlønningerne er uafhængige og normalfordelte 2 omkring en kendt middelværdi µ med en kendt varians σ. Vi kan så skrive (1) y = µ + σε i = 1,..., n, i i hvor ε i er standardiseret normalfordelte uafhængige variable ( iidn (0,1)). Trin 1: Konstruér de "kunstige" data I dette trin konstrueres et datasæt fx for n = 100 personer. I tilfældet med startlønningerne vil vi antage, at den månedlige startløn y i er givet (i 1.000 kr.) ved model (1) og at parameterværdierne er µ = 29,5, σ =1,5 4

Vi kan nu generere fiktive startlønninger ved at trække 100 tilfældige tal fra en standardiseret normalfordeling: e1, e2,..., e 100. I praksis bruger man pseudo-tilfældige trækninger fra en computerbaseret generator af tilfældige tal 3 konstrueres som y i og startlønnen for den fiktive person nummer i = 28,5 + 1,5e. SAS koden: Simulationseksperimenter kan laves i de fleste statistikprogrammer. Det afgørende er, at programmet kan lave en løkke og generere tilfældige tal. 4 I dette kursus benyttes SAS og simulationen udføres ved hjælp af proceduren Proc IML. 5 Inden for denne procedure er man i stand til at lave matrixregning samt at lave løkke omkring et sæt af beregninger. i I det første trin skal data dannes. Før data dannes er det en fordel at lave en variabel, som angiver, hvor mange observationer, n, vi vil lave i hvert af de kunstige datasæt (kaldet antalobs i SASkoden). De tilfældige tal genereres her med SAS-funktionen NORMAL. Når man laver tilfældige tal er det ofte en fordel at kunne rekonstruere præcis samme udfald ved en senere lejlighed. Det opnår man ved at give SAS-funktionen et såkaldt seed (et frø ). I praksis danner man først en vektor af et-taller med samme dimension som den ønskede vektor af tilfældige tal. I eksemplet er det en vektor med n elementer. Dernæst vælger man en seed i form af et heltal og ganger tallet på hele vektoren. 6 I nedenstående programstump er 117 valgt som seed. 3 At tallene er pseudo-tilfældige betyder, at de i virkeligheden produceres af en deterministisk computeralgoritme, men på en måde så de approximerer tilfældige trækninger godt nok til vores (og de fleste andre) formål. 4 SAS giver mulighed for at trække pseudo-tilfældige tal fra en række forskellige fordelinger, fx normal-, t-, F- og uniformt fordelte trækninger. 5 En kort beskrivelse af Proc IML findes i en note på øvelseshjemmesiden. Mere udførlig hjælp findes i SAS Help under Help on SAS Software products. 6 Reelt har kun det første element i vektoren nogen betydning. Det fastlægger hele sekvensen af tilfældige tal inden for et givet kald af IML. Også når vi senere kører programsekvensen flere gange indenfor samme IML kald har seed en kun betydning første gang. Ønsker man ingen seed kan man angive 0. SAS vælger så selv hvor sekvensen af tilfældige tal skal starte, hvilket varierer hver gang programmet køres. 5

SAS koden til at konstruere ét fiktivt datasæt på 100 observationer kan se således ud: Proc IML; antalobs = 100; * antal observationer i datasættet; mu = j(antalobs,1,29.5) ; * middelværdivektor (samme værdi for alle obs) ; seedvct = j(antalobs,1,1) ; * Samme dimension som vektor af tilfældige tal ; seedvct = 117*seedvct ; * Seedværdien er sat til 117. * Laver en vektor af uafhængige standard normal fordelte variabler ; e = normal(seedvct) ; * Dimension af e bestemmes af seedvct ; * vektor af kunstige løndata fra den ønskede fordeling ; y = mu + 1.5 * e ; quit; Trin 2: Beregn estimaterne I dette trin udregnes de relevante estimater på grundlag af det aktuelle datasæt, { y1, y2,..., y n }. I eksemplet med startlønninger var den parameter, vi er interesseret i, middelværdien µ. Vi sammenligner to estimatorer nemlig gennemsnittet m 1 og gennemsnittet af den største og mindste observation m 2 : 100 1 m1 = yi 100 i= 1 1 m2 = min 1,,,100 ( y ) + max 1,,,100 ( y ) 2 ( i= i i= i ) I SAS-koden betegnes de henholdsvis m1est og m2est. SAS-koden til udregning af estimaterne: m1est=sum(y)/antalobs; * estimatet m1 (gennemsnittet); m2est=1/2*(min(y)+max(y)); * estimatet m2 (gns. min og max); 6

Trin 3: Gentag trin 1 og 2 Ideen med trin 3 er, at man nu har mulighed for at trække et nyt datasæt (en ny replikation) og estimere parametrene på baggrund heraf. Dette gøres ved at gentage trin 1 og 2. Estimaterne fra hver replikation gemmes efterhånden som eksperimentet skrider frem i form af bogføringsvektorer. Det ønskede antal replikationer afhænger af det specifikke eksperiment. Generelt vil man gerne have så mange replikationer som muligt, da det øger præcisionen i bestemmelsen af fordelingen af estimatorerne. Omkostningen ved et meget højt antal replikationer er, at det kan tage lang tid at udføre eksperimentet (dette afhænger også af computeren). I mange tilfælde vil M=10.000 være et rimeligt antal. SAS-kode: I dette trin skal man lave en løkke, som udfører et sæt af beregninger, gemmer resultatet og gentager beregningnerne det ønskede antal gange. Her skal vi altså i hvert trin generere et datasæt og estimere parametrene ligesom i trin 1 og 2 og gentager det i alt 10.000 gange. Løkken startes ved at skrive: do j=1 to antalrep; og afsluttes ved at skrive: end;. Løkken løber nu over indekset j, og de kommandoer, som står mellem do og end; udføres antalrep gange. I begyndelsen af programmet er antalrep sat lig med 10.000. Derefter skal man sørge for, at man for hver replikation får gemt sine estimater. Dette kan gøres ved, at man i starten af sit program opretter vektorer til estimaterne. Dimensionen af disse skal svare til antallet af simulationer. I dette tilfælde laves to vektorer m1 og m2, som hver har dimensionen 10.000 1. 7 Estimaterne indlæses direkte i matricer, der så i sidste ende rummer resultater for alle M replikationer.. 7 Hvis man arbejder med meget høje antal replikationer og/eller har brug for at gemme mange estimater for hver replikation kan det af hensyn til computerens kapacitet være nødvendigt at beregne fx gennemsnit og varians af estimaterne løbende i stedet for at gemme hele sekvensen i en vektor. 7

SAS-kode til løkke over antal replikationer: antalrep = 10000; *initialiser vektorer; * antal replikationer i simulationen; m1 = j(antalrep,1,.); * vektorer til at gemme estimaterne i; m2 = j(antalrep,1,.); do j=1 to antalrep ; * løkke over simulationer;.. * estimaterne gemmes i de to bogføringsvektorer for hver replikation ; m1[j,1]=m1est ; * m1 ; m2[j,1]=m2est ; * m2 ;. end; Trin 4: Analyse af estimater baseret på simulerede data Efter at have udført trin 1-3 vil man have et antal "realisationer" af estimatorerne. Ud fra disse kan man så undersøge deres fordeling og fx udregne middelværdi og varians på estimatet. SAS-kode: For at analysere estimaterne er det lettest at lave vektorerne med estimater om til et SAS datasæt. Dette kan gøres ved at bruge kommandoen create som laver et nyt datasæt ud fra m1 og m2 vektorerne (som først sættes sammen til matricen dd ) dd=m1 m2; create hist from dd ; append from dd; * datamatricen med de to estimater; * udskriver matricen til et datasæt; Dernæst kan estimaterne analyseres ved at benytte Proc Univariate. Figurne nedenfor viser histogrammer af de to sæt af estimater for n=100 observationer og M=10.000 replikationer. Begge estimater er centerede omkring den sande værdi 28,5. Det ses også, at fordelingen af estimaterne ligner en normalfordeling. 8

9

De beregnede middelværdier og varianser for de to fordelinger er angivet i tabellen nedenfor. For at undersøge hvad der sker med estimaterne, hvis vi har et datasæt med færre observationer, gentages simulationseksperimentet, hvor vi kun har hhv. 50 individer og 10 individer i hvert datasæt. Det sker i praksis ved at antalobs ændres til 50 og dernæst til 10. I tabellen nedenfor er middelværdi og varians for fordelingerne af de to estimater angivet. 10

Tabel: Middelværdi og varians af de to estimatorer baseret på M=10.000 simulationer m m 1 2 n=100 Middelværdi 29,4990 29,5015 Varians 0,0223 0,2089 n=50 Middelværdi 29,4993 29,4988 Varians 0,0443 0,2445 n=10 Middelværdi 29,4975 29,4894 Varians 0,2209 0,4116 Sammenligner man middelværdien af estimaterne, kan man se, at for begge estimater (og for alle værdier af n ) er middelværdien tæt på den "sande" middelværdi, som er 29,5. Dette stemmer overens med, at begge estimatorer er middelrette, dvs. uanset n vil estimatorerne have middelværdi lig den sande parameterværdi. Vil man yderligere forbedre simulationseksperimentet, fx bestemmelsen af middelværdien, skal man sætte antallet af replikationer op. Hvis man sammenligner variansen af de to estimatorer i tabellen, kan man se, at variansen er størst for m 2. Opgave: Kunne vi på forhånd have sagt noget om, hvilken af de to estimatorer, der har den mindste varians?[hint: Kan vi bruge Gauss-Markov teoremet til sammenligningen?] Det fremgår også af tabellen, at variansen af estimaterne stiger, når n falder. Opgave: For estimatoren m 1 kan den teoretiske varians udregnes ud fra afsnit 6.2 i Teoretisk statistik for økonomer. Beregn den teoretiske varians for hver værdi af n og sammenlign med simulationsresultaterne. 11

3. Afrunding Vi har skitseret ideen med at anvende simulationseksperimenter i Økonometri 1. De opfylder en række formål, fx at efterprøve teoretiske resultater, hvor disse kan udledes analytisk, og helt erstatte analytiske resultater, hvor disse er vanskelige eller umulige at opnå. Vi vil se eksempler på begge typer af analyser i forelæsningerne og i øvelsesopgaverne. Noten giver også en skabelon i SAS til at lave egne simulationseksperimenter. SAS-stumperne i noten er samlet til et program, der kan ses i appendix og ligger som fil på hjemmesiden. Bemærk at programmet primært er skrevet med et pædagogisk formål og at det ikke nødvendigvis er særligt kompakt eller efficient i sin opbygning. 4. Supplerende litteratur Vil man læse mere om simulationseksperimenter vil et godt sted at starte være: J. Johnston og J. DiNardo: Econometric Methods, 4. udgave, afsnit 11.1. En mere avanceret kilde er D.F. Hendry: Monte Carlo experimentation in econometrics, i Z. Griliches og M. Intriligator: Handbook of econometrics, kapitel 16. 12

Appendix: SAS-program Det samlede program til at lave simulationseksperimentet beskrevet i noten. Proc IML; antalobs = 100 ; antalrep = 10000; * antal observationer i datasættet; * antal replikationer i simulationen; *initialiser vektorer; m1 = j(antalrep,1,.); * vektorer til at gemme estimaterne i; m2 = j(antalrep,1,.); mu = j(antalobs,1,29.5) ; * middelværdivektor (samme værdi for alle obs) ; seedvct = j(antalobs,1,1) ; * Samme dimension som vektor af tilfældige tal ; seedvct = 117*seedvct ; * Seedværdien er sat til 117 Kun 1. element i vektoren får betydning ; do j=1 to antalrep ; * løkke over replikationer ; * Genererer en trækning af et datasæt på antalobs observationer ; * Laver en vektor af uafhængige standard normal fordelte variabler ; e = normal(seedvct) ; * Dimension af e bestemmes af seedvct ; * Kun 1. element i seedvct har betydning ; * vektor af kunstige løndata fra den ønskede fordeling ; y = mu + 1.5 * e ; m1est=sum(y)/antalobs ; m2est=1/2*(min(y)+max(y)); * estimatet m1 (gennemsnittet); * estimatet m2 (gennemsnit af min og max); * skifter værdi i hver replikation ; * estimaterne gemmes i de to bogføringsvektorer for hver replikation ; m1[j,1]=m1est ; * m1 ; m2[j,1]=m2est ; * m2 ; end; * løkken over replikationer slutter her ; dd=m1 m2; * datamatricen med de to estimater; create hist from dd ; * udskriver matricen til et datasæt hist; append from dd; run; quit; * Her forlades IML modulet. * De beregnede estimater m1 og m2 ligger i datasættet hist ; proc univariate data=hist; * deskriptiv statistik på m1; var col1; title "Histogram over m1 estimatoren"; histogram ; run; proc univariate data=hist; * deskriptiv statistik på m2; var col2; title "histogram over m2 estimatoren"; histogram ; run; 13