Perspektiver i Matematik-Økonomi: Linær regression

Transkript

1 Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34

2 Program for i dag 1. Indledning: sammenhæng mellem to variable 2. Lineær sammenhæng: bedste rette linie 3. Hvor meget sammenhæng er der? 4. R-regneprogrammet Perspektiver i Matematik-Økonomi: Linær regression p. 2/34

3 Hvad betyder "sammenhæng"? Eksempel: Iltoptaget i blodet afhænger af pulsen y afhænger af x eller y forklares af x y = funktion(x) Sprogbrug: y er den afhængige variabel og x er den afhængige variabel Perspektiver i Matematik-Økonomi: Linær regression p. 3/34

4 Iltoptagelse Perspektiver i Matematik-Økonomi: Linær regression p. 4/34

5 Samvariation Eksempel: Fødselsvægt og scanningsmål y er ikke direkte en funktion af x, men begge er funktioner af én (elller mange) trejde variabel y = f(z), x = g(z) y = f(g 1 (x)) Perspektiver i Matematik-Økonomi: Linær regression p. 5/34

6 Fødselsvægt Perspektiver i Matematik-Økonomi: Linær regression p. 6/34

7 Falsk sammenhæng Salget af sololie er højt når salget af ispinde er højt I perioden faldt antallet af fødsler samtidig med at antallet af storkepar i Danmark faldt To eksempler (af hvilken type?): Kosmisk stråling Skatttryk og økonomisk vækst Perspektiver i Matematik-Økonomi: Linær regression p. 7/34

8 Kosmisk stråling Perspektiver i Matematik-Økonomi: Linær regression p. 8/34

9 Skat-vækst Figur 1. Økonomisk vækst og skattetryk for hvert af de 15 EU-lande i Økonomisk vækst (%) y = x Skattetryk (samlede skatter og afgifter i % af BNP) Hver af de 15 prikker viser den økonomiske vækst og skattetryk for et EU-land i Eksempelvis havde Danmark et skattetryk på 49,0% og en vækst på 1,0%. Den rette linie i figuren er lavet ved hjælp af den statistiske metode som hedder simpel lineær regression med mindste kvadraters metode. Denne statistiske metode forsøger at beskrive en række datapunkter bedst muligt ved hjælp af en ret linie. Liniens hældning (-0,1433) kan tolkes som et bud på hvilken påvirkning det havde på den økonomiske vækst for et EU-land i 2001 at have ét procentpoint højere skattetryk i Eksemplet 2001 antyder således, at EU-lande i 2001 tabte 0,1433 procentpoint vækst for hver ekstra procentpoint skattetryk. Som tidligere nævnt kan det forventes, at også tilfældigheder og konjunkturer spiller ind på data. Der er således intet overraskende ved, at punkterne i figur 1 ikke placerer sig nøjagtigt langs den rette linie. For bedst muligt at kunne bedømme betydningen af konjunkturer og tilfældigheder bør man se tallenes udvikling over en længere periode. Ligesom man for 2001 kunne udregne hældningen til 0,1433 kan man lave tilsvarende beregninger for hver af de øvrige 31 år. Jeg har ikke fundet væksttal fra før Perspektiver i Matematik-Økonomi: Linær regression p. 9/34

10 Skat-vækst Figur 2. Ændring i økonomisk vækst pr. procentpoint højere skattetryk for de 15 nuværende EU lande Procentpoint vækst Figur 2 tager hældningen fra den bedste rette linie for hvert år og viser udviklingen over tid. Denne figur viser flere interessante ting: For det første svinger kurven omkring et gennemsnit som er betydeligt lavere end nul. Gennemsnittet for hele perioden har været minus 0,074 procentpoint vækstpåvirkning pr. procentpoint ekstra skattetryk svarende til eksempelvis 1,48 procentpoint tabt vækst om året ved 20 procentpoint højere skattetryk. For det andet har ganske mange af de senere år udvist betydelige negative værdier. Hvert eneste af de seneste seks år har udvist værdier i intervallet minus 0,10 til minus 0,15 svarende til mellem to og tre procentpoint tabt vækst om året pr. 20 procentpoint ekstra skattetryk. 14 af de seneste 15 år viser desuden negative værdier. En logisk forklaring på kurvens lavere niveau de senere år kan være, at den internationale konkurrence er vokset. Vi har fået friere bevægelser af kapital, varer, viden, arbejdskraft og personer, hvilket har givet bedre muligheder til den enkelte for at fravælge høje skatter. Den større internationale konkurrence er et resultatet af både politiske beslutninger og en teknologisk udvikling. For det tredje har der været variationer / konjunkturer over årene. Flere gange har der været perioder på op til 5-7 år med et niveau på den ene eller anden side af gennemsnittet for alle 32 år. Denne observation gør, at estimering af middelværdiens spredning kun giver mening ved at regne på data for en lang årrække hvor konjunkturerne kan antages at have ophævet hinanden. Jeg vurderer, at de 32 års observationer i denne sammenhæng er en acceptabel lang tid til beregning af spredningen. Hvis man forudsætter at de 32 tal er 5 Perspektiver i Matematik-Økonomi: Linær regression p. 10/34

11 Jeres egne eksempler Perspektiver i Matematik-Økonomi: Linær regression p. 11/34

12 Statistik 1) Lave model for sammenhængen hvor der tages hensyn til tilfældig variation 2) Beskrive sammenhængen ved hjælp af parametre 3) Lave skøn over værdien af disse parametre I kurset her: Lineær sammenhæng: y = α + βx α: skæring med y-aksen β: hældning Perspektiver i Matematik-Økonomi: Linær regression p. 12/34

13 Hvad skal vi bruge det til? Prediktion: Hvis vi gør sådan og sådan sker der... Hvis vi sænker skatten... Hvis vi sænker dagpengene... Planlægning: Indtægter skal gerne matche udgifter, optimere indtjening Hvor stor skal skatteprocenten være Hvor mange elever skal der være i hver klasse Perspektiver i Matematik-Økonomi: Linær regression p. 13/34

14 Indsamling af data Jeres højde og vægt Kig på data ved hjælp af R-regneprogrammet Perspektiver i Matematik-Økonomi: Linær regression p. 14/34

15 Mindste kvadraters metode Data: punkterne (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) Hvordan finder jeg den bedste rette linie y = α + βx der beskriver punkterne? Ved øjemål? Finde den linie der minimere "afstandene" fra linien til punkterne: traditionelt finder man α og β ved at minimere R(α,β) = [y 1 (α+βx 1 ] 2 +[y 2 (α+βx 2 ] 2 + +[y n (α+βx n ] 2 Vi minimerer summen af de lodrette afstande kvadreret Perspektiver i Matematik-Økonomi: Linær regression p. 15/34

16 ˆα og ˆβ, ˆ: skøn over x = gennemsnit af x-erne = (x 1 + x x n )/n ȳ = gennemsnit af y-erne = (y 1 + y y n )/n SSD x = Sum of Squared Deviations for x = (x 1 x) 2 + (x 2 x) (x n x) 2 SPD xy = Sum of Product of Deviations for x,y = (x 1 x)(y 1 ȳ) + (x 2 x)(y 2 ȳ) + + (x n x)(y n ȳ) ˆβ = SPD xy SSD x, og ˆα = ȳ ˆβ x Perspektiver i Matematik-Økonomi: Linær regression p. 16/34

17 Prediktion udenfor dataområdet Højde-vægt eksemplet: Højderne er i området cm. Den bedste linie har α = 124 og β = 1.09 Højden af et nyfødt barn er cirka 50 cm. Vores gæt på fødselsvægten bliver derfor = 69.5 Perspektiver i Matematik-Økonomi: Linær regression p. 17/34

18 Spredning omkring linien Estimerede varians: s 2 = R(ˆα, ˆβ) n 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 Estimerede spredning: s = s 2 Fortolkning: cirka 30 procent af punkterne har en lodret afstand til linien der er større end s cirka 5 procent af punkterne har en lodret afstand til linien der er større end 2 s R-eksempler Perspektiver i Matematik-Økonomi: Linær regression p. 18/34

19 Tegne før regne Modelantagelse: Punkterne spreder sig omkring en ret linie (lineær sammenhæng mellem x og y): ingen systematiske afvigelser Spredningen omkring linien afhænger ikke af x Første plot: Tegne y op mod x R-eksempel Perspektiver i Matematik-Økonomi: Linær regression p. 19/34

20 Residualplot Beregn: ˆα, ˆβ, og r i = y i ˆα ˆβx i, i = 1,...,n (Ã extcolorredresidualer) ˆµ i = ˆα + ˆβx i Andet plot: Tegne r i op mod ˆµ i Afvigelse 1: systematik Afvigelse 2: trompetform R-eksempler Perspektiver i Matematik-Økonomi: Linær regression p. 20/34

21 Usikkerhed Sande sammenhæng: y = α + βx Estimerede sammenhæng fra data: y = ˆα + ˆβx experiment 1 experiment 2 ˆα 1, ˆβ1 ˆα 2, ˆβ2 Hvor meget skal vi regne med at ˆα, ˆβ afviger fra sande værdier α,β? Perspektiver i Matematik-Økonomi: Linær regression p. 21/34

22 Standardisering af usikkerhed: β Hvor meget afviger ˆβ fra β? s måler hvor meget punkterne afviger fra linien: jo større s er jo dårligere er hældningen bestemt: standardiser ved brug af ˆβ β s SSDx måler hvor meget x-værdierne spreder sig: jo mere spredning jo bedre er hældningen bestemt: standardiser ved brug af t hældning (β) = ˆβ β s SSDx R-eksempler Perspektiver i Matematik-Økonomi: Linær regression p. 22/34

23 Typiske værdier Vi kan nu tale om typiske og atypiske værdier af t hældning (β) uafhængigt af hvor meget punkterne spreder sig omkring linien og hvor meget x-erne spreder sig Værdier i intervallet [-2,2] er typiske! Bemærk 2 t hældning (β) 2 2 ˆβ β s ˆβ SSDx 2 2s β ˆβ + SSDx 2s SSDx Perspektiver i Matematik-Økonomi: Linær regression p. 23/34

24 95% konfidensinterval for β Konfidensinterval for β 2s ˆβ β ˆβ + SSDx 2s SSDx Ved uafhængige gentagelser af hele experimentet vil det konstruerede interval (som afhænger af data i det enkelte experiment) indeholde den sande værdi af β i 95% af tilfældene t [ 2, 2] i cirka 95% af tilfældene R-eksempel Perspektiver i Matematik-Økonomi: Linær regression p. 24/34

25 Standardisering af usikkerhed: α Hvor meget afviger ˆα fra α? Standardisering: t skæring (α) = ˆα α s 1n + x2 SSD x Tager hensyn til hvor langt x-erne ligger fra y-aksen og hvor meget de spreder sig R-eksempler Perspektiver i Matematik-Økonomi: Linær regression p. 25/34

26 Konfidensinterval for α 2 t skæring (α) s + n ˆα α ˆα 2s 1n + 2 SSD x2 x SSD x2 α ˆα + 2s 1n + x x2 SSD x R-eksempel Perspektiver i Matematik-Økonomi: Linær regression p. 26/34

27 Test af faglig teori Lad os lave en meget simpel teori for sammenhængen mellem højde og vægt: Alle personer har en omkreds omkring maven på 100cm. Hvis jeg øger højden med 1cm, og denne placeres ved maven øger jeg vægten med (1kg/l)[1 π(100/(2π) 2 ]/1000 = 0.80kg Hypotese: β = 0.8 Statistik: Er data i overensstemmelse med β = 0.8? Svar: har vi fået en typisk værdi: fint har vi fået en atypisk værdi: forkast hypotesen Perspektiver i Matematik-Økonomi: Linær regression p. 27/34

28 Test Udregn: t hældning (0.8) = ˆβ 0.8 s SSDx Typisk værdi: mellem -2 og 2 Atypisk værdi: mindre end -2 eller større end 2 Fejl af type 1: β = 0.8 er den sande værdi, men alligevel får vi en atypisk værdi af t Sandsynligheden for fejl af type 1 = niveauet for testet R-eksempel Perspektiver i Matematik-Økonomi: Linær regression p. 28/34

29 Statistisk model 1) Middelværdien af y i er α + βx i 2) Variansen på y i er σ 2 3) y i er normalfordelt y i N(α + βx i,σ 2 ) R: vis normalfordelt sample og histogram Perspektiver i Matematik-Økonomi: Linær regression p. 29/34

30 t-fordelingen Normalfordelte observationer: t hældning (β) = ˆβ β s SSDx har en fordeling der kun afhænger af n (afhænger ikke af σ og ikke af x i -erne) Fordelingen kaldes en t-fordeling med n 2 frihedsgrader t skæring (α) har også en t-fordeling med n 2 frihedsgrader Perspektiver i Matematik-Økonomi: Linær regression p. 30/34

31 97.5% fraktilen Hvis vi lader t 97.5 (n 2) være tallet bestemt ved at sandsynligheden for er 5% har vi følgende tabel: t hældning (β) > t 97.5 (n 2) f t 97.5 (f) Perspektiver i Matematik-Økonomi: Linær regression p. 31/34

32 Multipel regression Når man skal vurdere et fosters vægt ud fra ultralydsscanning bruger man typisk to mål: volumen (v) af maven og volumen (w) af hovedet Hvordan skal man kombinere disse i et samlet gæt på vægten? En typisk model vil være på formen y i = α + β 1 v i + β 2 w i + rest Vi har her to forklarende variable istedet for blot én I en generel multipel regressions model har man k forklarende variable, og skriver middelværdien af y i som α + β 1 x 1i + β 2 x 2i + + β k x ki Perspektiver i Matematik-Økonomi: Linær regression p. 32/34

33 Estimation Minimere n i=1 (y i α β 1 x 1i β k x ki ) 2 Matrixregning X = 1 1 x 11 x 1n.. x k1 x kn (ˆα, ˆβ) = yx (XX ) 1 Perspektiver i Matematik-Økonomi: Linær regression p. 33/34

34 Estimation i R lsfit(t(x), y)$coef Eller, for eksempel hvis k = 2 og de forklarende variable ligger i vektorerne X 1 og X 2, så skriv lsfit(cbind(x 1,X 2 ),y)$coef Perspektiver i Matematik-Økonomi: Linær regression p. 34/34