Center for Statistik. Multipel regression med laggede responser som forklarende variable
|
|
- Rebecca Søndergaard
- 8 år siden
- Visninger:
Transkript
1 Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der indeholder en observation pr. tidsenhed (f.eks. pr. dag, pr. time eller pr. uge). Ordet observation skal her læses i udvidet betydning, der kan sagtens være tale om, at man til hvert tidspunkt observerer flere forskellige ting, hvoraf en (eller flere) måske vil optræde som stokastiske variable i de modeller man benytter, andre som forklarende variable (eller faktorer) med givne værdier. Statistisk set er det væsentlige træk ved tidsrækker, som adskiller dem fra datasæt af mere traditionel type, at man kun undtagelsesvis kan analysere dem ordentligt ved hjælp af modeller, som antager at observationerne er stokastisk uafhængige. Antag for eksempel at (y t ), t = 1,..., T, er observationer dag for dag over en eller anden periode af temperaturen kl. 12 middag i København. Vi interesserer os for statistiske metoder, der kan bruges til forudsigelse af denne temperatur et døgn frem. Til brug for dette har vi diverse andre variable (x t ), (z t ),... som indeholder oplysninger af meteorologisk karakter eller oplysninger som på anden måde kan indeholde information om temperaturen. Det kunne være skydække, vindstyrke og nedbør (i København eller andre steder), datoens gennemsnitstemperatur over de sidste ti år, eller variable der indgår i en årstidstrend (f.eks. rene svingninger med periode et år). Hvis man i en sådan situtation forsøger sig med en traditionel regressionsmodel af typen y t = γ + βx t + δz t + + σu t, hvor u t erne er uafhængige N(0,1), har man allerede begået to fejl: (1) Hvis modellen skal bruges til forudsigelse, kan det jo ikke nytte noget, at skydække eller vindhastighed på samme dag optræder som forklarende variabel, for så kan vi slet ikke regne forudsigelsen ud dagen før. I en model, som skal bruges til forudsigelse et døgn frem, må der kun indgå forklarende variable på højre side, som stammer fra dagen før (eller endnu tidligere). Altså, hvis f.eks. x t først kan registreres på dag t, y t = γ + βx t 1 + δz t + + σu t. Tilsvarende, hvis vi ville forudsige temperaturen en hel uge frem, måtte vi naturligvis nøjes med at bruge forklarende variable, hvis værdier foreligger en uge før.
2 Bemærk, at nogle af de variable vi har omtalt godt kan indgå med deres samtidige værdier. Det gælder for eksempel datoens gennemsnitstemperatur over en tiårsperiode, og variable som indgår i en periodisk tidstrend. I vores notation underforstås altså, at x t er en variabel som først kan registreres samtidig med responsen, medens, z t kendes på forhånd (eller i hvert fald dagen før). Hvis vi kan få sådan en model til at passe, ligger det lige for at bruge den estimerede middelværdi (altså højre side uden fejlled, med estimatorer indsat) som den bedste forudsigelse af selve observationen. (2) Men det kan vi nok ikke, for det er slet ikke realistisk at forvente, at observationerne i denne model er uafhængige. Tværtimod, al erfaring taler for, at temperaturen en given dag vil være stærkt positivt korreleret med temperaturen dagen før, også selvom de andre meteorologiske variable muligvis vil korrigere for en del af denne afhængighed. Hvis man tegner residualerne som funktion af tiden vil man typisk se, at de zig zagger op og ned langsommere end de burde hvis de var uafhængige. Dette fænomen kaldes autokorrelation (altså selvkorrelation ; temperaturen er korreleret med sig selv i den forstand at temperaturer målt på tidspunkter tæt ved hinanden er (positivt) korrelerede). Men netop denne korrelation betyder jo, at temperaturen i går muligvis er den allervigtigste oplysning vi har til forudsigelse af temperaturen i dag. Man fristes derfor til at inddrage temperaturen i går som forklarende variabel, og skrive y t = γ + αy t 1 + βx t 1 + δz t + + σu t Man kunne endda tage temperaturen to dage før, tre dage før osv. med på højre side. Men nu er vi ude i noget, som i hvert fald ikke er en sædvanlig multipel regressionsmodel. Umiddelbart ser det meget, meget forbudt ud. En modelspecifikation af denne art, hvor de laggede dvs. forsinkede responser optræder som forklarende variable på højre side giver kun mening, hvis den fortolkes rigtigt: Ideen er, at den betingede fordeling af responsen y t, givet de tidligere responser y t 1, y t 2,..., antages at være den normale fordeling med middelværdi γ + αy t 1 + βx t 1 + δz t +... og varians σ 2. Med denne fortolkning viser det sig til gengæld, at man får en model, der i praksis kan håndteres og fortolkes næsten som en multipel regressionsmodel, idet man stort set kan ignorere det faktum at en eller flere af de forklarende variable på højre side er laggede versioner af selve responsvektoren. Den vigtigste begrundelse for dette er, at likelihoodfunktionen ser ud præcis som i en multipel regression. For at indse dette må vi først bemærke, at det er nødvendigt at opfatte den første observation y 1 som givet (ikke stokastisk). Vi har jo ikke en observation af y 0, som gør 2
3 det muligt at lade responsen y 1 indgå i datasættet sammen med alle tilhørende værdier af de forklarende variable. Men y 1 kan bruges som den første værdi af den forklarende variabel, som i ligningen hedder y t 1, dvs. til at forklare y 2, som så bliver den første egentlige respons. Tilsvarende, hvis vi på højre side vil medtage den to gange laggede respons y t 2, så er vi nødt til at opfatte y 1 og y 2 som givne, osv. Dette er sådan set ikke anderledes end i modellen, hvor skydække eller vindhastighed fra dagen før eller to dage før optræder på højre side. Helt generelt er man jo i enhver regressionsmodel tvunget til at se bort fra observationer, for hvilke en eller flere forklarende variable er uoplyste. Efter denne bemærkning kan vi opskrive likelihoodfunktionen ved brug af kædereglen for betingede fordelinger (bedst kendt for sandsynlighedsfunktioner i det diskrete tilfælde, men den gælder uændret for tæthederne i det kontinuerte tilfælde). I ord: Tætheden i det observerede punkt (som er likelihoodfunktionens værdi som funktion af de ukendte parametre) kan opskrives som den marginale tæthed for den første observation, ganget med den betingede tæthed for den anden givet den første, ganget med den betingede tæthed for den tredje givet de to første, ganget med osv. osv., ganget med den betingede tæthed for den sidste givet alle de foregående. I vores model kommer det til at se sådan ud: L(γ, α,..., σ 2 ) = t ( 1 exp (y t (γ + αy t )) 2 2πσ 2 2σ 2 hvor produktet skal tages over de t for hvilke alle variable, inklusive de laggede, er veldefinerede (f.eks. for t = 2,..., T hvis kun de én gang laggede observationer er med på højre side). Rent algebraisk er dette en ganske almindelig multipel regressions likelihood, som kan maksimeres på sædvanlig måde ved mindste kvadraters metode. Så når det gælder beregningen af ML estimatorer og kvotientteststørrelser kan man bruge et standardprogram til håndtering af lineære normalfordelingsmodeller. De laggede versioner af responsvektoren, der optræder som forklarende variable på højre side, skal behandles præcis som om de var egentlige eksterne forklarende variable. Bortset fra, at de altså skal konstrueres først og tildeles passende navne (f.eks. Y1, Y2 osv., hvis responsen hedder Y). Heraf følger ikke at de fordelinger, som man plejer at benytte i forbindelse med multipel regression (T fordelinger i forbindelse med sikkerhedsgrænser, T og F fordelinger i forbindelse med kvotienttest for modelreduktion) kan bruges på samme måde som man er vant til. Men man kan vise, at disse fordelinger under passende realistiske forudsætninger 3 )
4 er gode approksimationer til de faktiske fordelinger af teststørrelserne. Og man kan i øvrigt også give andre gode argumenter for at bruge præcis de samme metoder, som anvendes i multipel regression. Specielt kan testet for α = 0 som jo i dette tilfælde (forudsat at kun et enkelt lag inddrages) kan fortolkes som et test for hypotesen om ingen autokorrelation foretages som et T test på sædvanlig måde. Hvis denne hypotese godkendes, er vi tilbage i en sædvanlig lineær model for uafhængige observationer. Fra et praktisk synspunkt er konklusionen således, at man i modeller til forudsigelse i tidsrækkedata har lov til at tage laggede versioner af responsvektoren med som forklarende variable på højre side. Vi har her forklaret det i tilfælde af lineære normalfordelingsmodeller, men samme argument kan bruges hvis der f.eks. er tale om binære responser, som vi ønsker at forudsige ved hjælp af en logistisk regressionsmodel. Angående fortolkning af parameterestimaterne skal siges, at så længe man tænker på prediktionssituationen, hvor den relevante fordeling af y t er den betingede fordeling, givet alle de foregående observationer, så er fortolkningen stort set som den plejer at være i en multipel regressionsmodel. De beregnede fittede værdier skal forstås som prediktioner af næste observation ud fra alle de foregående, og residualplots o.l. skal fortolkes på samme måde som i en lineær model. Specielt skal residualerne som funktion af tiden ligne en følge af uafhængige normalfordelte variable. Hvis man derimod begynder at interessere sig for den marginale fordeling af y t bliver det mere indviklet. Det er for eksempel ikke trivielt at indse, at denne fordeling faktisk er en normal fordeling og det gælder heller ikke altid. Men det gælder under antagelser, som ligner dem vi vil gøre i det følgende, så lad os som udgangspunkt antage, at y t s marginale fordeling er normal. Betragt ligningen y t = γ + αy t 1 + βx t 1 + δz t + + σu t som var vores oprindelig specifikation af modellen. Denne ligning er faktisk en helt legitim opskrivning af modellen, når man (ud over at u t erne skal være uafhængige N(0,1)) forudsætter at u t er stokastisk uafhængig af de tidligere observationer y t 1, y t 2,.... Man kan bruge ligningen til at simulere tidsrækker af denne type ved hjælp af almindelige uafhængige N(0,1) (simulerede) variable, når blot den første værdi y 1 vælges i henhold til den marginale fordeling, som vil blive udledt i det følgende. Lad ωt 2 = var(y t ) betegne variansen på y t altså den marginale varians, i modsætning til prediktionsvariansen σ 2, som i analysen og fortolkningen af modellen mere eller mindre har overtaget den rolle, som 4
5 variansen spiller i sædvanlige lineære modeller. Ved at tage variansen på begge sider af modelspecifikationen får vi (idet u t jo er stokastisk uafhængig af y t 1, så vi kan benytte additionsreglen for varianser på højre side) ω 2 t = α 2 ω 2 t 1 + σ 2. Ved rekursivt at benytte denne ligning, idet vi ovenfor substituerer α 2 ω 2 t 2 + σ 2 for ω 2 t 1, dernæst α 2 ω 2 t 3 + σ 2 for ω 2 t 2 osv., får vi efter p trin ω 2 t = α 2p ω 2 t p + (1 + α 2 + α α 2p 2 )σ 2 Af denne ligning følger at ω 2 t (1 + α 2 + α α 2p 2 )σ 2. Hvis vi forestiller os, at modellen skal kunne føres vilkårligt langt tilbage i tid (hvilket vel er et rimeligt krav i de fleste anvendelser i stil med den vi har skitseret) må vi åbenbart kræve, at kvotientrækken 1+α 2 +α er konvergent, dvs. at α 2 < 1. Under antagelsen α 2 < 1 fås for p (forudsat at bidraget fra leddet α 2p ω 2 t p forsvinder i grænsen, hvilket gælder under den ret beskedne antagelse at ω 2 t p holder sig begrænset) ω 2 t = (1 + α 2 + α )σ 2 eller, ifølge formlen for summation af en kvotientrække, ω 2 t = σ2 1 α 2. Variansfunktionen bliver således automatisk konstant, når blot det forudsættes at den er begrænset og at modellen kan udvides vilkårligt langt bagud i tid. Den sidste formel viser, hvordan forholdet mellem den marginale varians og prediktionsvariansen afhænger af autoregressionskoefficienten α. Sæt nu µ t = Ey t. Ved at tage middelværdi på begge sider i modelspecifikationen får vi så µ t = γ + αµ t 1 + βx t 1 + δz t +... Hvis vi her på højre side substituerer γ +αµ t 2 +βx t 2 +δz t for µ t 1, derefter i den fremkomne ligning det tilsvarende udtryk for µ t 1 osv., så får vi i grænsen (under et beskedent krav om konvergens, som er opfyldt hvis blot følgerne (µ t ), (x t ) og (z t ) er begrænsede) µ t = γ α p + β α p x t 1 p + δ α p z t p
6 Det betyder at y t s marginale middelværdi har samme form som den betingede middelværdi, blot er de forklarende variable (også det underforståede 1 tal i konstantleddet γ = γ1) erstattet med baglæns glidende gennemsnit af de oprindelige forklarende variable, med koefficienter 1, α, α I eksemplet betyder det, at temperaturen på dag t er påvirket (indirekte via sin afhængighed af y t 1 ) af vindhastigheden på alle tidligere dage, dog (forudsat at α ikke er meget tæt på 1 eller -1) på en sådan måde, at effekten af vindhastigheden for lang tid siden er betydningsløs i forhold til det bidrag der stammer fra vindhastigheden i går. Hvis modellen kun indeholder et konstantled får vi specielt µ t = γ α p = γ 1 α. I dette tilfælde er alle observationerne således identisk fordelte, y t N ( γ 1 α, σ 2 ) 1 α 2. Denne tidsrække kaldes en autoregressiv proces af orden 1 (forkortet AR(1)). Den siges at være stationær, fordi fordelingen (ikke alene de endimensionale marginale fordelinger, men også den simultane fordeling af et helt fragment (y 1,..., y t )) er invariant under translation af tidsskalaen. Tilsvarende er en autoregressiv proces af orden 2 (AR(2)) en stationær tidsrække, givet på formen og så fremdeles. y t = γ + α 1 y t 1 + α 2 y t 2 + σu t Hermed nærmer vi os den traditionelle teori for tidsrækker, som langt hen ad vejen beskæftiger sig med tidsrækker uden egentlig middelværdistruktur. Det er en omfattende og kompliceret teori, som først efter lang tids hårdt arbejde fører frem til modeller af den type vi har omtalt her. 6
I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereTo samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Læs mereØkonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2
Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition
Læs mereStatistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Læs mereUge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereKapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs mereStatikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Læs mereDagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereForelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mereOversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mere! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)
Dagens program Økonometri 1 Specifikation, og dataproblemer 10. april 003 Emnet for denne forelæsning er specifikation (Wooldridge kap. 9.-9.4)! Proxy variable! Målefejl! Manglende observationer! Dataudvælgelse!
Læs mereAnvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Læs mereRettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Læs mereEt eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Læs mere12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereNoter til Specialkursus i videregående statistik
Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Læs mereAgenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Læs mereSimpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Læs merePraktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser
Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag
Læs mereØkonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereDagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Læs mereStatistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Læs mereEn statistikstuderendes bekendelser Søren Wengel Mogensen
Oplysning 23 En statistikstuderendes bekendelser Søren Wengel Mogensen Om at skrive BSc-opgave i anvendt statistik. Der findes matematikere (i hvert fald matematikstuderende), der mener, at den rene matematik
Læs mereLineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable
E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt
Læs mereKvantitative metoder 2
Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereSimpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Læs mereTænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.
Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereØkonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006
Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W
Læs mereKvantitative metoder 2
Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen
Læs mereStatistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning
Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,
Læs mereBilag 7. SFA-modellen
Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereAnvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Læs mereØkonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006
Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske
Læs mereMultipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
Læs mere! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet
Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst
Læs mereLineære normale modeller (4) udkast
E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse
Læs mereTema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Læs mereKvantitative metoder 2
Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007 KM2: F22 1 Program Specifikation og dataproblemer, fortsat (Wooldridge kap. 9): Betydning af målefejl Dataudvælgelse: Manglende observationer
Læs mereMLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Læs mereEstimation af bilkøbsrelationen med nye indkomst- og formueudtryk
Danmarks Statistik MODELGRUPPEN Arbejdspapir* Edith Madsen 21. juli 1997 Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk Resumé: Papiret præsenterer en reestimationen af fcb-relationen.
Læs mereØkonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Læs mereRettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler
Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni 2007 4 timers prøve med hjælpemidler Opgaven består af re delopgaver, som alle skal besvares. De re opgaver indgår med samme vægt. Opgaverne
Læs mereIntroduktion til GLIMMIX
Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.
Læs mereDefinition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereBilag 12 Regressionsanalysens tabeller og forklaringer
Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler
Læs mereØkonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
Læs mereStatistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Læs mereUndervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs
4 I afsnit 3 beskæftigede vi os med 1EC modellen og viste, hvordan den kunne estimereres med FGLS - bla under forudsætning af, at det individspecifikke stokastiske led er ukorreleret med de forklarende
Læs merePoul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k
Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede
Læs mere4 Oversigt over kapitel 4
IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt
Læs mereIndblik i statistik - for samfundsvidenskab
Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik
Læs mereStatistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Læs mereSandsynlighedsregning Oversigt over begreber og fordelinger
Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)
Læs mereSupplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable
IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret
Læs mereStatistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Læs mereStatistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereSkriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Læs mereFor nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.
1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mereGenberegning af costdriveren renseanlæg
Genberegning af costdriveren renseanlæg April 2019 SIDE 2 Omkostningsækvivalenten for renseanlæg 1.1 Indledning Dette metodepapir beskriver, hvordan vi i forhold til OPEX-revisionen i 2017 har genberegnet
Læs mereModul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Læs mere1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata
1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de
Læs mereProjekt 6.1 Rygtespredning - modellering af logistisk vækst
Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Læs mereØkonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1
Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere
Læs mereFagplan for statistik, efteråret 2015
Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat
Læs mereLandmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Læs mereStastistik og Databehandling på en TI-83
Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen (jonas@imf.au.dk). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at
Læs mereStatistik for ankomstprocesser
Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden
Læs mereModul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereKvantitative metoder 2
Kvantitative metoder 2 Specifikation og dataproblemer 30. april 2007 KM2: F21 1 Program for de to næste forelæsninger Emnet er specifikation og dataproblemer (Wooldridge kap. 9) Fejlleddet kan være korreleret
Læs mereSupplerende dokumentation af boligligningerne
Danmarks Statistik MODELGRUPPEN Arbejdspapir* Ralph Bøge Jensen 13. september 2010 Supplerende dokumentation af boligligningerne Resumé: Papiret skal ses som et supplement til den nye Dec09-ADAM dokumentation
Læs mereStatistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Læs mereStatistiske principper
Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereRegneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Læs mereOverheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.
Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.
Læs mere