Boligpriseffekten af Den Københavnske Metro Sammenhængen mellem afstand til nærmeste metrostation og boligpris

Transkript

1 D E T S A M F U N D S V I D E N S K A B E L I G E F A K U L T E T Ø k o n o m i s k I n s t i t u t K Ø B E N H A V N S U N I V E R S I T E T Kandidatspeciale Zarah Katharina Saxil Andersen Boligpriseffekten af Den Københavnske Metro Sammenhængen mellem afstand til nærmeste metrostation og boligpris Vejleder: Søren Leth-Petersen Antal ECTS: 30 Afleveret den: 5. maj 2014

2

3 Indhold Executive Summary Forord Indledning Problemformulering Opgaveopbygning Den Københavnske Metro Teori Den Hedoniske Prisfastsættelsesmetode Implicitte Markeder Den Hedoniske Prisfunktion Oentlig Transport og Boligprisen Den Additive Model Splines og Smoothers Cubic Smoothing Splines Opbygningen af Den Additive Model Delkonklusion Databeskrivelse Fejlkilder GIS - Geograske Informationssystem Sortering og Konstruktion af Nye Variable Sortering af Datasættet Konstruktion af Nye Variable Den Generelle Prisudvikling på Boligmarkedet Konstruktionsvariable Rumlige Variable Nabolagsvariable Modelmetode Hypotese Funktionelle Form

4 4 9.3 Metode - Den Hedoniske Model Metode - Den Additive Model Estimationsresultater Resultater - Grundmodel Resultater - Før og Efter Metrostationernes Åbning Resultater - Over eller Under 1000 Meter til Stationen Resultater - Overjordiske Stationer Robusthedsanalyse - Den Hedoniske Prismodel Opsamling - Den Hedoniske Prismodel Resultater - Den Additive Model Robusthedsanalyse - Den Additive Model Opsamling - Den Additive Model Diskussion Konklusion Litteratur Bilag Bilag Bilag Bilag Bilag Bilag Bilag Bilag Bilag Bilag

5 Executive Summary The aim of the thesis is to empirically investigate the price eect on apartments in Copenhagen after the opening of the metro, specically the dependance on distance to the nearest station. The thesis is motivated by the inconclusive results provided by current literature, investigating the same eect on apartments prices in other larger cities. Agostini and Palmucci (2008) proves a decreasing relation between distance and prices, while Chen et al. (1997) proves that the same eect is not present for the houses nearest to the stations, while maintaining similar properties for the remaining houses. The dataset used in the analysis is covering all apartments sold more than once during the period January 2000 to April 2013, in Copenhagen, Frederiksberg excluded. The dataset is separated in two periods, the time before and after the metro station nearest the apartment were opened. The analysis does not account for the announcement- or negative eect caused by the construction sites due to the metro expansion since The analysis includes three groups of variables: Characteristics, Spatial and Neighborhood. Characteristics describes the apartments. It is variables like size in square meters, number of rooms, age of the building, units in the building and oor. Spatial explains distance to the metro station, parks and daycare. Neighborhood includes average income in the apartments and school ranking, based on the average of grade-average for graduates. The analysis is done by setting up two econometric models: A hedonic price eect model based on Rosen's theory from 1974 and an additive model inspired by Hastie and Tibshirani (1990). The hedonic price model ts a function of residential prices, using the natural logarithm to a set of co-variates. The additive model utilizes cubic smoothing splines to include a non-linear eect and give more exibility to the model, to better capture the spatial dependence. The additive model includes two concepts spline functions and smoothers. A spline function is used in the construction of a spline curve, where the spline curve is used to create a smoothing curve. The spline curve is a curve created by a piecewise polynomial, where two or more polynomials are combined to create a curve. The smoother is a technique to summarize the trend for a response variable Y and a function of one or more explanatory variables. Smoothers does not rely on a xed form for the explanatory 5

6 variables, thereby allowing a non-linear relationship. An example smoother is the Moving average-technique. Smoothers are building upon the idea, that a dataset is split into smaller intervals, and each group is then tted based on either average, simple regression or polynomials. An important issue in the analysis is the trade-o between variance and bias, which plays an important role when the dataset is split into smaller intervals. A large interval produces a curve with high degree of smoothing, and estimates with low variance and high bias, because of high degree of smoothing and therefore greater distance between actual curve and smoothing curve. The opposite will happen with small intervals, where the variance is high and the bias small. The additive model, uses a cubic smoothing spline function. A parameter to balance between bias and variance is included in the smoothing function The results from the hedonic model shows a decreasing relation between house prices and meters to a metro station. Apartment sales between 0 and 200 meters to a station, have experienced a high increase in the house prices after the station was opened. It is important to note, that some parts of this relationship can simply be due to lower prices during construction, which the apartments further away has not been suering from, and thereby not from being closer to the metro station. The results from the additive model, shows that the negative externalities by living close to a metro station matters. The model proves an upwards trend from 0 to 300 meters from a metro station, while after 300 meters to the station, the eect on residential price is decreasing if the apartment it placed further away from the metro station. The thesis is structured as follows: The second section gives a short introduction to the Copenhagen metro system. The third section explains the theory behind the hedonic price model and the additive model, and also includes a short model explaining the relation between distance to public transport and house prices. Section four describes the dataset. Section ve explains the computed variables used in the analysis. Section six to eight goes into more details regarding the three types of variables. Section nine describes the practical method for the models. Section ten presents the estimation results and section eleven and twelve sums up the thesis in a discussion and a conclusion. 6

7 Forord På kandidatdelen af økonomistudiet på Københavns Universitet faldt min interesse på boligmarkedet, bl.a. grundet den øgede fokus på boligmarkdet i økonomiske analyser efter nanskrisen. Gennem mit studiejob i Boligøkonomisk Videncenter var jeg bl.a. stødt på analyser af boligmarkedet, der estimerede markedet ved hjælp af hedoniske prisfastsættelsesmetoder. Efter at have studeret den hedoniske metode nærmere, samt øget mit fokus på mediernes interesse for metrobyggeriet som startede i 2011, faldt valget på at studere metrostationerne og deres eekt på boligprisen. Min hypotese var, at boligerne, der lå tættest på de allerede eksisterende metrostationerne, alt andet lige, ville opleve en mindre positiv eekt end dem, der lå nogle meter længere væk, og jeg satte mig derfor for at besvare dette spørgsmål med mit speciale. En stor tak til min vejleder, Søren Leth-Petersen for input og god vejledning. Derudover stor tak til Toke Emil Panduro som har hjulpet mig med datasættet og sparring i forbindelse med den additive metode. En stor tak skal der også lyde til Institut for fødevareog Ressourceøkonomi, for at give mig adgang til datasættet, som er brugt i mit speciale. Tak til Boligøkonomisk Videncenters medarbejder for gode råd og sparring, gennem hele processen. En særlig tak skal der lyde til menneskerne omkring mig og min familie, som har hjulpet mig gennem min studietid og ikke mindst i specialeprocessen. Zarah Katharina Saxil Andersen Maj

8 1 Indledning Den københavnske metro, var da den stod færdig i 2007, en stor forbedring for den oentlig transport i København. Senere er man i 2011 gået i gang med, at udvide systemet med en ekstra linje, hvilket har bragt øget fokus på gevinsten for de boligejere, der bor i nærheden af en af de kommende metrostationer. Tiligere studier af gevinsten af den københavnske metro har vist, at des tættere på metroen boligen var placeret, des højere gevinst ville der være (Kolstrup, 2006). Studier fra litteraturen har dog et mere nuanceret billede af eekten på boligprisen for de boliger, der ligger tæt på en station, bl.a. grundet de positive og negative eksternaliteter, der er forbundet med stationerne. Den hedoniske model af Rosen (1974) er den metode, der i litteraturen oftest benyttes til analyser af, hvordan karakteristikaer knyttet til en bolig bliver værdiansat. Den hedoniske model lider dog af problemer som hetroskedasticitet, rumlig autokorrelation og multikollinearitet. Den rumlige afhængighed i hedoniske modeller, knytter sig særligt til boliger i det samme område. Boligerne vil være tilbøjelige til at være bygget på samme tid, hvilket ofte medfører ens strukturelle karakteristika. Samtidig vil de miljømæssige omgivelser, samt adgangen til oentlig transport, supermarkeder osv. også være forholdsvis identiske, hvilket påvirker de rumlige karakteristika og områdekarakteristikaene. Litteraturen beskriver ere metoder til at korrigere for den rumlige afhængighed, men særligt grundet udvidet computerkraft og udvidet estimeringsprogrammer, er den Additive Model, ofte udvidede til den Generalized Additive Model blevet oftere brugt i analyser af boligmarkedet. Den Additive Model bevarer mange af egenskaberne ved den lineære model, men tillægges en større mængde af eksibilitet ved, at der tillægges enkelte ikke-parametriske led. Den øgede eksibilitet skulle være med til at opfange mere af den rumlige variation. Samtidig medfører indførelsen af smoothing- og splinefunktioner, muligheden for at udspænde en rumlig overade ved hjælp af længde og breddegrader. Formålet med specialet er, at analysere eekten på boligprisen af at bo i nærheden af en metrostation. Her ses på, hvordan eekten varierer i forhold til afstanden mellem boligen og metrostationen. Analysen udføres først ved brug af den hedoniske prisfastsættelsesmetode, og efterfølgende tilføjes en ikke-parametrisk del til den hedoniske model, og denne estimeres i den additive model. Overordnet bygger min hypotese på, at de boliger, der ligger lige op af en metrostation, vil opleve en mindre positiv eekt af en åbning af en station. Dette skyldes bl.a. de 8

9 negative eksternaliteter som øget aktivitet omkring stationen og gener i forbindelse med banelegemet. Dette vil, i stedet for den ofte antagede hypotese om en aftagende eekt som afstanden mellem metrostation og bolig øges, føre til en kurve, hvor eekten først er stigende og derefter knækker og bliver aftagende derefter. 1.1 Problemformulering Specialet er baseret på følgende problemformulering: 1. Hvordan varierer priseekten på boligerne, alt efter afstanden til metrostationen. 2. Kan den additive model, ved at inddrage en ikke-parametrisk del, forbedre resultatet fra den simple OLS regression. 1.2 Opgaveopbygning Specialet er struktureret på følgende vis: Sektion to giver en kort beskrivelse af metrosystemet i København. Sektion tre beskrivelse teorien bag den hedoniske prisfastsættelsesmetode, den additive model, samt en simpel model der beskriver sammenhængen mellem afstand til oentlig transport og boligprisen. Sektion re beskriver datasættet. Sektion fem beskriver sorteringen af datasættet samt beregnede variable brugt i analysen. Sektion seks til otte går i nærmere detajler med tre typer af variable. Sektion ni beskriver den praktiske metode for modellerne. Sektion ti præsenterer estimationsresultaterne og sektion elleve og tolv samler specialets pointer i en diskussion samt en konklusion. 9

10 2 Den Københavnske Metro Da metrosystemet i København spiller en væsentlig rolle i den pågældende analyse, gives her en nærmere beskrivelse af, hvornår arbejdet med metroens første 22 stationer blev påbegyndt, og hvornår de forskellige stationer, der indgår i analysen, havde deres ocielle åbningsdag. Specialet beskæftiger sig ikke med den nyligt påbegyndte udvidelse af den købnehavnske metro, hvor byggepladserne har været etableret siden Folketinget traf tilbage i 1992, en beslutning om, at København skulle have et metrosystem. I 1995 begyndte udvidelsen af det oentlige transportsystem i København. Metrobyggeriet blev udført i etaper, hvor den første del stod færdig i 2002, mens den sidste del blev færdig i Den københavnske metro har i dag 22 metrostationer, hvoraf 9 af dem er underjordiske. I 2018 vil udvidelsen af metrosystemet stå færdigt, og metroen vil da have 35 stationer. Metroens allerede eksisterende system er en stor forbedring af det oentlige transportsystem. Metroen er yderst driftssikker og med daglige afgange og en punktlighed på 98,2 procent, er det et yderst velfungerende transportmiddel, som giver en stor værdi for de borgere, der benytter sig af systemet (Transportministeriet). De første stationer, der blev åbnet i 2002, var: Nørreport, Kongens Nytorv, Christianshavn, Amagerbro, Lergravsparken, Islands Brygge, DR Byen, Sundby, Bella Center, Ørestad og Vestamager. I 2003 åbnede Forum, Frederiksberg, Fasanvej, Lindevang, Flintholm og Vanløse. De sidste fem stationer: Øresund, Amager Strand, Femøren, Kastrup og Lufthavnen åbnede i På kortet nedenfor er vist en oversigt over metrosystemet i dag. Kilde: Transportministeriet 10

11 3 Teori I dette afsnit beskrives modellerne, som senere benyttes i den empiriske analyse. Først forklares den hedoniske prisfastsættelsesmetode, som benyttes til en simpel parameterestimation. Den hedoniske prisfastsættelsesmetode tager udgangspunkt i teorien beskrevet af Rosen (1974). Den hedoniske prisfastsættelsesmetode er den mest udbredte inden for litteratur, som har beskæftiget sig med estimation af priseekten på en bolig placeret tæt på oentlige transportmuligheder, og derfor benyttes den også i denne opgave. Udover en præsentation af den hedoniske teoriramme forklares også en mindre model med udgangspunkt i teori beskrevet af Alonso (1964). Denne model viser sammenhængen mellem pris på boligen og afstand til oentlige transportmidler, her metroen. Som den sidste del af teoriafsnittet beskrives teorien bag den additive model, og hvordan den kan bruges i analysen. I den forbindelse beskrives splines og smoothingfunktioner, og hvilken rolle de spiller i en den additiv model. 3.1 Den Hedoniske Prisfastsættelsesmetode En analyse af boligmarkedet er en kompliceret opgave. I en analyse vil man ofte have kendskab til indkomsten blandt potentielle købere og et forholdsvist godt kendskab til, hvad der bliver brugt af midler på godet bolig. Til gengæld er der mangelfulde observationer forbundet med prisen på karakteristikaene ved en bolig, hvilket hænger sammen med den dierentierede værdisætning, der eksisterer hos de forskellige typer af agenter. Boligen er ofte den største investering, der foretages i livet, og udgør ofte en stor del af en forbrugers samlede formue. Samtidig bruger mange størstedelen af indkomsten på bolig hver måned. Dette gør boligmarkedet til en interessant størrelse at analysere, da det har en stor indydelse på den økonomiske velstand. På baggrund af den store interesse i at analysere boligmarkedet, er der lavet modeller, som prøver at tage højde for, at godet bolig er sammensat af mange forskellige karakteristika, som alle kan prisfastsættes. Udover den særlige sammensætning af en boligs pris i forhold til værdien på karakteristikaene, er en boligs pris ofte tæt korreleret med boligens placering. To boliger kan af udformning være fuldstændige identiske, men de vil aldrig have præcis den samme placering, hvilket betyder, at alle boliger vil være forskellige. Dette understreger et væsentligt problem forbundet med modellering af boligmarkedet: Der eksisterer en stor mængde af 11

12 heterogenitet, grundet store forskelle på boliger. Grundet disse særlige forhold på boligmarkedet benyttes ofte den hedoniske prisfastsættelsesmetode til at værdiansætte en bolig's pris. Der tages i beskrivelsen af den hedoniske prisfastsættelsesmetode udgangspunkt i teorien fremstillet af Rosen (1974). Baseret på den hedoniske hypotese om, at goder er værdiansat på baggrund af de nyttebærende attributter eller karakteristika, fremstiller Rosen (1974) en model med produktdierentiering Implicitte Markeder En vigtig faktor i den hedoniske model er implicitte markeder, da de hedoniske priser er deneret som den implicitte pris af de enkelte attributter forbundet med ejendommen. Notationen for implicitte markeder betegner processen af produktion, udveksling og forbrug af goder, der hovedsagligt handles i bundter. Det eksplicitte marked med observerede priser og transaktioner er for bundterne som et samlet gode (Sheppard, 1999). På det eksplicitte marked eksisterer der ere implicitte markeder for alle enhederne i bundterne, som har en væsentlig rolle, når bundterne ikke er homogene, men varierer grundet variationen af indholdet i bundterne. Boliger er et forholdsvist hetrogent gode, men handles på det samme marked. Dette skyldes, at elementerne i bundtet bolig ofte er identiske, dog med variation i kvaliteten og kvantitet. I den hedoniske tilgang antages det, at selvom det overordnede gode er forskelligt, vil komponenterne i godet bolig, være forholdsvis homogene og således have en ens prisstruktur (Sheppard, 1999). Den implicitte prisfunktion er således et udtryk for den marginale pris på et karakteristika, som bliver afsløret indirekte ved køb af en bolig Den Hedoniske Prisfunktion Den hedoniske model forudsætter, at køber og sælger på baggrund af boligens karakteristika, vil nå frem til en pris, der afspejler den implicitte pris, som køber og sælger tilsammen sætter på de forskellige karakteristika, som boligen og dens beliggenhed har. Købere vil på sådan et marked lede efter den bolig, hvis kombination af karakteristika har den største værdi for dem, mens de samtidig ønsker at betale så lidt som muligt for boligen. Omvendt vil sælger lede efter en køber, der værdsætter netop den kombination af karakteristika, som de udbyder for dermed at opnå den højest mulige salgspris, for den bolig de ønsker at sælge (Panduro og Veie, 2013). En given bolig er således beskrevet 12

13 ved en vektor z, som indeholder alle karakteristika beskrevet ved z 1,, z n : z = (z 1, z 2,..., z n ) (1) Boligens pris vil ofte afhænge af forskellige typer af karakteristika, som kan samles i nogle overordnede grupper: De strukturelle karakteristika, der er knyttet til boligens størrelse, antal værelser og alder på boligen. Omgivelseskarakteristikaene, der er knyttet til støj, grønne områder og adgang til oentlig transport og til sidste nabolagskarakteristika forbundet med nærliggende skolers standard, forekomsten af kriminalitet og mulighed for indkøb. Disse forskellige værdier af z og n, kan samles i et udtryk for ligevægtsprisen på det pågældende gode. p = p(z) = p(z 1, z 2,..., z n ) (2) Udtrykket i 2 beskriver den hedoniske prisfunktion og er ligevægtsprisen på et givent marked, prisen forbrugeren betaler for en bolig, kan af forbrugeren påvirkes ved, at der vælges alternative karakteristika. Det antages, at forbrugerne kun investerer i ét hus. I tilfælde med ere huse med samme ejer antages, at husene er anskaet til andet formål end helårsbeboelse og således vil indgå separat i en nyttefunktion. Samtidig antages det, at den enkelte husholdning er pristager på markedet. Med udgangspunkt i teorien fremstillet af Rosen (1974) ser nyttefunktionen således ud: U(z 1, z 2,..., z n, x, s) (3) Hvor z i (i = 1,..., n) er karakteristikaene for den enkelte bolig, x er forbruget af andre varer end bolig og s indeholder socioøkonomiske variable. Nyttefunktionen er underlagt en budgetbetingelse: y = P (z) + x (4) Hvor y er forbrugerens normaliserede indkomst. Alle priser og indkomster antages at være normaliseret ved, at dividere med prisen på x, hvor x antages at være et Hicksiansk sammensat gode, dvs. et gode, der er produceret til at repræsentere en større mængde af goder, ofte indeholdende alle andre goder end det, der analyseres. Samtidig antages det, at nyttefunktionen er strengt konkav (Palmquist, 2005). Ved hjælp af Lagrangemetoden kan førsteordensbetingelserne udledes: L = U(z 1, z 2,..., z n, x, s) λ(p (z) + x y) L z i = U z i λ P (z) = 0 U zi = λ p i 13

14 L x = U x λ = 0 U x = λ L λ = (P (z) + x i y) = 0 P (z) + x = y Den marginale substitutionsrate mellem karakteristika ved bolig og andre varer, kan udtrykkes som marginalprisen på en karakteristika (den hedoniske pris af karakteristika i) ved en bolig: U zi U x = λ p i λ = p i (5) I ligningen 5 svarer p i = p (z). I gurerne nedenfor er den hedoniske prisfunktion og den implicitte pris vist( Day, 2001): Figur 1: Den hedoniske prisfunktion Kilde: Day, B. The Theory of Hedonic Markets: Obtaining welfare measures for changes in enviromental quality using hedonic market data,

15 Figur 2: Implicitte pris Kilde: Day, B. The Theory of Hedonic Markets: Obtaining welfare measures for changes in enviromental quality using hedonic market data, 2001 Den hedoniske prisfunktion har først en stejl stigning og således ligger den implicitte pris højt. Man vil således betale mere for at få en bolig med lidt mere af en ønsket karakteristika. Som den hedoniske prisfunktion ader ud, vil den implicitte pris falde, da forbrugeren ikke længere ønsker at betale så meget for det ekstra gode. For at færdiggøre modellen er det relevant at vide, hvor meget en forbruger er villig til at betale for en bolig med en speciel sammensætning af karakteristika. Først skal det dog nævnes, at forbrugerne er bundet af, hvor meget de kan bruge af deres indkomst på bolig. Dette kan udtrykkes som et bud (bid), der er afhængigt af indkomst og forbrug af andre varer, x. θ = y x Ligningen ovenfor repræsenterer Rosens bud function (bidfunktion). Funktionen beskriver den største mængde en husholdning er villig til at betale for en bolig med karakteristikaene z således, at de opnår den ønskede nytte u, med indkomsten y (Day, 2001). Nyttefunktionen kan nu skrives således: Under antagelse af θ = θ(z, u, y, s) U(z 1, z 2,..., z n, y θ, s) = u (6) I guren nedenfor er budfunktionen beskrevet. Således ses, at ved en lav mængde af karakteristikaene, er forbrugeren villig til at betale en højere pris for at få mere af det ønskede karakteristika. Hældningen på budkurven vil være deneret ved Uz i U x, U zi som er marginalnytte på karakteristika ved boligen og U x som er marginalnytten på vare x. 15

16 Figur 3: Budkurve Kilde: Day, B. The Theory of Hedonic Markets: Obtaining welfare measures for changes in enviromental quality using hedonic market data, 2001 Da alle husholdninger er forskellige, vil de således have forskellige budkurver, og ofte også efterspørge forskellige boliger. Hvad der dog vil være gældende for alle husholdninger er, at deres budkurve vil være tangent til den hedoniske prisfunktion og der, hvor kurverne skærer, vil være det mest optimale bud(pris på boligen) på markedet for køber og sælger (Day,2001). Figur 4: Sammenhængen mellem prisfunktionen og budkurven Kilde: Day, B. The Theory of Hedonic Markets: Obtaining welfare measures for changes in enviromental quality using hedonic market data,

17 3.2 Oentlig Transport og Boligprisen En boligs pris er bestemt af karakteristikaene ved boligen og særligt boligens placering. En boligs placering er unik, og udgør en væsentlig del af den pris boligen tillægges. Dette hænger bl.a. sammen med adgangen til oentlige transportmidler og transporttiden. Samtidig afhænger boligens pris også af afstanden til boligejerens arbejdsplads, og ved opførelse af metroen i København k det centrale København, hvor mange arbejdspladser er placeret, endnu en oentlig transportmulighed, som har kunne være med til at mindske transporttiden for arbejdstagere. Alonso (1964 ) og Agostini & Palmucci (2008) opstiller følgende simple model, der viser sammenhængen mellem pris og afstand til en metrostation. max V (m, d, x) (7) m,d,x betinget af Y = x + P (d)m + T (d) Hvor m er boligstørrelse, d er afstand fra bolig til nærmeste metrostation, x beskriver alle resterende goder forbrugeren konsumerer, P (d) er pris per kvadratmeter per bolig, T (d) er transportomkostningerne og Y er indkomsten for den pågældende forbruger. Ved at medtage afstanden i den individuelle nyttefunktion, fanges disnytten, som forbrugeren har ved at nå til nærmeste metrostation (Agostini & Palmucci, 2008). Jævnfør Alonso(1964) antages nytten V at være kontinuert, dobbelt dierentiabel og strengt kvasi-konkav. Nytten er stigende med boligstørrelsen, m og resterende goder, x, og aftagende med afstanden, d. Pris per kvadratmeter, P (d) vil være aftagende med P (d) afstanden d, således at < 0 og transportomkostningerne T (d) er stigende med d T (d) afstanden d, og dermed følger > 0. Ved hjælp af Lagrange metoden beregnes d førsteordensbetingelserne for maksimeringsproblemet. L = V (m, d, x) λ(x + P (d)m + T (d) Y ) L m = V m λ P (d) = 0 V m = λ P d L d = V d λ(p (d)m + T (d)) = 0 V d = λ(p d m + T d ) L x = V x λ = 0 V x = λ 17

18 L λ = (Y x P (d)m T (d)) = 0 Y = x + P dm + T d Ved at indsætte V x = λ i V m = λ P d fås ligevægtsbetingelsen: V x V m = 1 P d Der beskriver, at den marginale mængde forbrugeren er villig til at acceptere, for at substituere forbrug af kvadratmeter m i en given bolig for forbrug af andre goder, x, er lig den relative pris, P (d), som her er afhængig af afstanden til nærmeste metrostation. Ved at indsætte V x = λ i V d = λ(p d m + T d ) fås ligevægtsbetingelsen: P d m = (T d V d V x ) Betingelsen viser, at den marginale betalingsvillighed for en ekstra kvadratmeter i boligen, P d m, ved stigende afstand, d, er aftagende grundet stigende marginale transportomkosntinger, T d, som øger den marginale disnytte. Den simple model viser, at fra et teoretisk udgangspunkt, bør eekten på boligpriserne være aftagende med afstanden til metrostationen (Agostini & Palmucci, 2008). En metrostation kan have to eekter, den kan reducere transporttiden for de borgere, der bor i nærheden af en metrostation, men samtidig kan en metrostation også generere øget mængde af mennesker og højere støjniveau. Disse modsatrettede eekter, kan være med til at skabe en ikke støt aftagende eekt mellem pris og afstand. Grundet muligheden for en ikke lineært aftagende sammenhæng, er det muligt, at der for boliger, der er placeret meget tæt på en metrostation, vil være forbundet en negativ priseekt ved opførelsen af en metrostation (Chen et al., 1997). 3.3 Den Additive Model Den hedoniske model, som i dette speciale er baseret på en simpel regressions model, hvor den ikke lineære sammenhæng er inkorporeret ved hjælpe af logaritmen i den afhængige variabel, er en simpel og klassisk model til analyser af boligpriser. Modellen kan dog med stor fordel udvides til den additive model, der giver et stort potentiale i forhold til estimering af de hedoniske priser, da den tillader mere sostikerede relationer mellem den enkelte faktor og salgsprisen (Chernih & Sherris, 2004). Den additive model bevarer således mange af de gode egenskaber fra den linære model, men tillægges til gengæld en større mængde af eksibilitet. Denne øgede eksibilitet 18

19 integreres bl.a. ved hjælp af splines og smoother, som benyttes i udglatningsfasen i den additive model. De to begreber er centrale for estimeringen af den additive model, og beskrives i de næste afsnit. Grundet den additive models form estimeres denne ved hjælp af en procedure kaldet Backtting algorithm. Denne er også beskrevet i de næste afsnit Splines og Smoothers Kort beskrevet benyttes splinefunktionen til at producere en smoothingkurve på baggrund af en mængde af observationer med spredt variation. Begrebet splines er rent matematisk en funktion brugt i forbindelse med smoothing(udglatning). En splinecurve er en kurve, der stykvis er sammensat af polynomier. To eller ere polynomier forbindes således til en fælles kurve. Der, hvor polynomierne forbindes, kaldes knots. Der ndes ere forskellige metoder til produktion af polynomier, der kan sættes sammen til kurver f.eks.cubic Smoothing Splines og thin-plate Smoothing splines. En smoother er en teknik til at tilpasse et datasæt en bestemt trend. Smoothers er et værkstøj til at summere trenden for en responsvariabel Y som funktion af en eller ere forklarende variable. Det praktiske ved en Smoother er, at den ikke antager nogen bestemt form for de forklarende variable (Hastie & Tibshirami, 1990). De to mest simple smoothing(tilpasnings) teknikker er Moving average smoother og LOESS/LOWESS smoother. Moving average smoother kan også ses som glidende gennemsnitstilpasning. Metoden bygger på, at datasættet deles op i mindre dele, hvorpå der beregnes en gennemsnitsværdi for alle observationerne indeholdt i det givne interval. Derefter rykkes intervallet langsomt fra venstre mod højre og for hver ytning beregnes en ny gennemsnitsværdi. Ved at forbinde alle gennemsnitværdierne, fås den glidende gennemsnitskurve også kaldet moving average smoother. Intervallets størrelse kan variere, dog skal de være ens gennem hele datasættet, samtidig skal der tænkes på, at der hele tiden er en afvejning mellem variation og skævhed. LOESS/LOWESS hvilket svarer til locally (weighted) scatterplot smoothing, ligger i tråd med glidende gennemsnitstilpasning. Her benyttes også intervaller, og intervallet rykkes langsomt mod højre, men i stedet for at beregne en gennemsnitsværdi, benyttes en vægtet lineær regressionsmodel for data i de enkelte opdelte intervaller. Modellen benytter et polynomium af p'te grad. Ved hjælpe af polynomiefunktionen og intervalopdelinger, opbygges en funktion, der beskriver datavariation punkt for punkt (Zuur, 2012). 19

20 Cubic Smoothing Splines og Thin-Plate Smoothing Spline er mere avancerede smoothing metoder. I det næste afsnit beskrives Cubic smoothing splines, da de benyttes i den additive model. Thin -plate smoothing splines, benyttes ikke i modellen, men omtales senere i diskussionen i forhold til forbedring af modellen. Figur 5: Eksempel på cubic spline kurve Kilde: Wood, Generalized Additive Models: an introduction with R, 2006 Figur 5 viser, hvordan en cubic spline er konstrueret. Kurven består af sektioner af cubic polynomier, som er sammensat til en kontinuert kurve. Kurven består af ialt 7 sektioner. Der er 6 forbindelsespunkter(knots) og 2 endepunkter. Den stiplede linje er splinkurven. Hver sektionen har forskellige koecienter, men i forbindelsespunkterne, som her er markeret med en cirkel, vil den matche nabosektionen i værdi og de to første aedte (Wood, 2006). Den lige stiplede linje er tangenten til spline kurven i forbindelsespunkterne Cubic Smoothing Splines Cubic smoothing spline (kubisk udglatning) benytter sig af en mere avanceret form for udglatning af en mængde data. For at beskrive metoden, gives en kort beskrivelse af metoderne, der ligger forud for denne. Den lineære metode bygger på, at datasættet inddeles i intervaller, og derefter beregnes en lineær regressionsmodel på hver segment af data. Disse modeller sættes derefter sammen og danner en samlet kurve. Problemet med denne model er, at den samlede kurve er meget skarp i forbindelsespunkterne. En forbedring af dette sker ved at benytte en kvadratisk spline regression. I stedet for at tilpasse ved hjælp af en lineær regressionsmodel, tilføjes der i den lineære model kvadratiske led for alle de 20

21 forklarende variable. Dette giver en model med mere udglattede forbindelsespunkter. For at forbedre udglatningen i forbindelsespunkterne yderligere, benyttes kubisk regressions spline. Fra den kubiske regessionsspline, hvor der er lagt en restriktion på parameteren β 11, β 1K for at kontrollere for mængden af udglatning, kan der i stedet benyttes en anden metode til at påvirke mængden af udglatning, f.eks. ved at benytte den anden aedte som et ubegrænset optimeringsproblem ( as a penalty) (Zuur, 2012). y X β 2 + λ f (8) Hvor y er en vektor af y i 'er, X er en vektor indeholdende alle de forklarende variable, mens beta er parameterestimatorene og er den euklidiske norm(en funktion, som angiver en bestemt længde til hver vektor). Udtryksmæssigt dækker y X β 2 over følgende (y X β) T (y X β), hvor T betyder transponeret. Ved at benytte Euklidisk norm fås udtrykket, der indgår i modellen, som dækker over summen af de kvadrerede residualer (Zuur, 2012). Parameteren λ er udglatningsparameteren, som skal vælges på passende vis, så der er den rigtige balance (trade-o) mellem de to dele af kriteriet. Det første led, der bestemmer graden af tilpasningen, og det andet led, som er graden af udglatning (Wood, 2003). Trade-oet mellem bias og variance, samt størrelsen på intervallerne datasættet indeles i, er vigtige faktorer i cubic smoothing spline. Et stort interval producerer en kurve med kraftig grad af udglatning, samt estimater med en lav varians, men højt bias, grundet meget udglatning og derfor øget afstand mellem den faktiske kurve og udglatningskurven. Omvendt for et lille interval, hvor kurven er mindre udglattet, variansen er stor og bias lille. For at få balanceret variance og bias, benyttes udglatningsparameteren λ. λ kan ses som et span(mængden af punkter i hvert interval). Små værdier af λ vil producerer mere svingende kurver, mens høje værdier giver mere udglattede kurver. Når λ går mod nul vil bias falde og variansen stige. Går λ mod uendelig, vil bias stige, og variansen falde. Udover at nde den korrekte værdi af parameteren λ, påvirker antallet af intervaller, og således antallet af forbindelsespunkter, også udformningen af kurven. Mange forbindelsespunkter giver en mere eksibel kurve, men for hvert interval beregnes der på et mindre grundlag, hvilket påvirker kvaliteten af de beregnede værdier. At nde det rigtige antal forbindelsespunkter(knots) kan gøres ved brug af avancerede beregningsmetoder. I dette speciale er forsøgt med forskellige valg af forbindelsespunkter, for at kontrollerer robustheden i de fundne resultater. For at vende tilbage til udtrykket beskrevet i ligning 8, beskriver den første del af 21

22 optimeringskriteriet goodness of t, hvor godt kurven er tilpasset de sande værdier. Det andet led beskriver, hvor godt f(x) er udglattet. Des mindre værdi den anden aedte, f, har, des mere udglattet er f(x) (Zuur,2012). En lav (absolut) værdi af f betyder, at f er en lige linje. En høj (absolut) værdi af f betyder, at f ikke er en lige linje. For at opnå et mål for udglatningen langs hele x-aksen tages integralet af f(x). En høj værdi af integralet indikerer, at f(x) ikke er udglattet, mens en lav værdi betyder, at f(x) er udglattet langs x-aksen. Zuur(2012) viser dette således: Figur 6: Udglattet vs. ikke udglattet På baggrund af det ovenstående kan optimeringskriteriet for cubic smoothing spline beskrives således (Zuur, 2012): y X β) 2 + λ f (x) 2 dx (9) Hvor y er en vektor af y i 'er, f er den korresponderende vektor af f(x i )- værdier og er den euklidiske norm(en funktion som angiver en bestemt længde til hver vektor). Parameteren λ er udglatningsparameteren, som skal vælges på passende vis, så der er den rigtige balance (trade-o) mellem de to dele af kriteriet. Det første led, der bestemmer graden af tilpasningen og det andet led, som er graden af udglatning (Wood, 2003). For at kunne minimere ovenstående optimeringskriterie antages for at simplicere beregningsprocessen, at s(x) = n+2 1 γ j B j (x), hvor γ j er en koecient og B er en kubisk b-spline basisfunktion. Samlet udtrykker funktionen den vægtede sum af spline funktioner. For at løse ligning 9 erstattes f med s(x) i integrationen. Ved at denere matricen 22

23 B ved en n (n + 2) og matricen Ω, som indeholder information om krumningen af basis funktionen og er deneret ved (n + 2) (n + 2), fås følgende: B ij = B j (x i ) og Ω ij = B i (x)b j (x)dx Med afsæt i ovenstående og at y X β 2 kan udtrykkes således (y X β) T (y X β), hvor T betyder transponeret, og at funktionen s, med basis udtrykket s(x) = n+2 1 γ j B j (x) dierentieret giver s (x) = γ T B(x) hvor B j (x) = B j (x). Ved at benytte at en scalar er sin egen transponeret kan andet led i 9 skrives: s (x) 2 dx = γ T B i (x)b j (x)γdx = γ T Ωγ samlet er ligning 9 nu udtrykt på følgende form: (y Bγ) T (y Bγ) + λγ T Ωγ Ved at løse problemet i forhold til γ kan estimatet for ˆγ ndes ved at tage den aedte i forhold til γ og derefter sætte det lig nul. y T y 2γ T B T y + B T Bγ T γ + λγ T Ωγ y T y 2γ T B T y + γ T (B T B + λω)γ di. m.h.t. γ γ T (B T B + λω) B T y = 0 ˆγ(B T B + λω) = B T y ˆγ = (B T B + λω) 1 B T y Den sidste linje giver estimatet for en cubic smoothing spline. For at sammenligne med OLS estimatet, som er (x T x) 1 x T y, er den orginale matrix af uafhængige variabel, x i beregning af cubic smoothing spline erstattet med basisfunktionen i matricen, B. Derudover er der til x T x, som er n gange covariance matricen af de uafhængige variable, i cubic smoothing splines beregnet covariansen til matricen indeholdende spline basisfunktioner og tilføjet et ekstra led af covariance, hvilket er afhængigt af formen på funktionen Ω og graden af udglatning bestemt af λ. 23

24 3.3.3 Opbygningen af Den Additive Model I dette afsnit præsenteres den additive model og proceduren Backtting algoritm, som benyttes til estimationen af modellen. Den additive model, eller udvidelsen af denne kaldet generalized additive model, er i de seneste år blevet brugt i forbindelse med at forbedre estimatorerne i analyser af boligmarkedet, bl.a. fordi den tilfører et ekstra element af eksibilitet i forhold til den simple hedoniske model. Den additive model benyttes bl.a. af Chernih & Sherris (2004) til vurdering af luftforurening, støj, afstand til parker og veje samt andre beskrivende lokalområdevariable. Det er med afsæt i Chernih & Sherris's artikel fra 2004 samt en artikel af Panduro & Veie (2013), som beskriver alternativer til standard rumlige økonometriske tilgange til den hedoniske prisfastsættelsesmetode, at der i analysen er brugt en additiv model. Den additive model tillægger lokale regressioner til data med en lav dimensionel projektion, dvs. den additive model benytter en-dimensionelle smoother til at danne en række af ikke-parametriske regressions modeller. Den additive model kan udtrykkes ved følgende formel: L y = β 0 + β i X i + f i (x i ) + ɛ (10) Her kan den linære model ses som et specialtilfælde, hvor f(x i ) = βx i. I udtrykket er β 0 en konstant og, β i, i = 0, n er konstanter. f, er udglattet ved brug af cubic smoothing splines, X er den parametriske del af regressionen, som indeholder alle karakteristika ved boligen med undtagelse af salgsåret, afstanden til metrostationen og længde- og breddegrader og ɛ er fejlledet. f som er leddet, der er blevet tilføjet i forhold til den hedoniske model, giver mulighed for at inkludere arbitrære ikke-lineære funktioner, hvilket gør den additive model mere eksibel. I den hedoniske model estimeres β for x i for at kunne beskrive, hvordan en ændring i x i påvirker den afhængige variabel. I den additive model har funktionen f i den samme funktion, dog udtrykkes disse ikke med et estimat kaldet β som i den hedoniske model, men i stedet som en funktion for den enkelte forklarende variabel, som kan udtrykkes grask. Den additive model kan estimeres på ere forskellige måder alt efter, hvilke smoothing splines der er valgt i opbygningen af modellen. I dette speciale er valgt at benytte en semiparametrisk additiv model, hvor udglatningsfunktionerne er deneret ved cubic spline regressioner. Hvis alle x'erne i f-funktionerne var uafhængige, kunne man simpelt estimere hver enkelt funktionel form ved brug af en ikke-parametrisk regression af y for 24 i=1

25 hvert enkelt af x'erne. Men da x'erne er relateret til hinanden, er det nødvendigt at fjerne eekten fra andre forklarende variable, som er ukendte, før vi begynder estimationen. Dette gøres ved hjælp af backtting. Backtting er en måde til at nde hver enkelt kurve og kontrollere for eekten fra andre variable. For at begynde med et eksempel tages udgangspunkt i en additiv model med to forklarende variable. y = β + f 1 (x i1 ) + f 2 (x i2 ) + ɛ i (11) Antaget at vi kender funktionen for de partielle residualer for f 2, men ikke funktionen for f 1 kan ovenstående ligning omskrives: y f 2 (x i2 ) = β + f 1 (x i1 ) + ɛ i (12) På baggrund af ovenstående vil det være muligt at udglatte f 2 's partielle residualer y f 2 (x i2 ) mod x i1 og få et estimat af β + f 1 (x i1 ). Kender man en funktion, er det muligt at nde de andre. Det er dog sjældent, at man i den virkelige verden kender nogle funktioner, derfor benytter man sig af backtting algoritmen. Algoritmen er bygget op således (Andersen, 2014): 1. Som det først skrives udtrykket op, så de individuelle konstante led elimineres 2. Derefter tages skønnede estimater for hver enkelt funktion i regressionen af y over x'erne Hvor ȳ, x 1 og x 2 er gennemsnitsværdien. y i ȳ = b 1 (x i1 x 1 ) + b 2 (x i2 x 2 ) + ɛ i y 1 = b 1 X i1 + b 2 X i2 + ɛ 3. De skønnede etimater benyttes i step (0) i en iterativ estimationsproces ˆ f (0) 1 = b 1 X i1 ˆ f (0) 2 = b 2 X i2 4. Derefter ndes først de partielle residualer for x 1 og derefter for x 2. Når de partielle residualer tages til x 1 fjernes y linear relation til x 2 mens den bibeholdes mellem y og x 1. Partielle residualer er en naturlig multiple regression analogt til at plotte de obseveret x'er og y'er i en simpel linear regression (Breheny & Burchett, 2013). Ved at lade r være en vektor af residualer for en given modeltilpasning, vil de partielle residualer tilhørende variablen j være deneret således: r j = y X j ˆ β j 25

26 r j = r + x j ˆβj hvor j refererer til andelen af X eller β, der er tilbage efter det j'te element er fjernet. (Breheny & Burchett, 2013). På bagrund af ovenstående kan de partielle residualer for x 1 skrives således: På samme måde beregnes de også for x 2 r 1 = y i b 2 (x i2) r 1 = r + b 1 (x i1) 5. De partielle residualer smoothes og giver estimatet for f på x ik, som kan skrives om til ˆ f (1) k = S K {Y i ˆ f (1) k = smooth[y (1) (k)i ] [ ]} f (1) 1 (x i1 ) + f (1) 2 (x i2 ) Hvor S er en (n n) smoother transformations matric for X i der kun afhænger af kongurationen af X ij for den i'th forklarende variabel. Mere generelt sker følgende: 1. Dener f j = {f j (x ij, f j (x nj )} for alle j 2. initialiser f j = f j (0)j = 1, p 3. kør over j = 1,, p f j = S j ( y k j f k x j ) 4. fortsæt indtil den individuelle funktion ikke ændres. Proceduren til at nde estimaterne af funktionen ved at smoothe de partielle residualer vil forsætte, indtil smoothingfunktionen er stabiliseret fra den ene iteration til den næste iteration. Derefter vil der være estimeret et estimat for S J (x ij ) for hver x j. For at bevise at ovenstående gør sig gældende, benyttes et bevis brugt af Hastie & Tibshirani (1990) og Wood (2006), som viser en additiv model ved brug af cubic smoothing splines. Med udgangspunkt i 26 n i=1 {y i f(x i )} 2 + λ {f (t)} 2 dt (13)

27 Parameteren λ er udglatningsparameteren, som skal vælges på passende vis, så der er den rigtige balance (trade-o) mellem de to dele af kriteriet. Det første led, der bestemmer graden af tilpasningen og det andet led, som er graden af udglatning (Wood, 2003). Med undgangspunkt i afsnittet om cubic splines kan udtrykket {f (t)} 2 dt omskrives til følgende: f 1 (x) 2 dx = γ T Ω 1 γ og hvor Ω ij = f 2 (x) 2 dx = γ T Ω 2 γ B i (x)b j (x)dx således kan udtrykket i 13 skrives på følgende formel: (y f) T (y f) + λγ T Ωγ (14) I afsnittet om cubic splines er vist, at ovenstående ligning har et minimum givet på følgende form: ˆγ = (I + λω) 1 y (15) Med udgangspunkt i at det i afsnit er bevist, at en cubic smoothing splines er den funktion, der minimerer følgende funktion: n {y i f(x i )} 2 + λ {f (x)} 2 dx (16) i=1 Ved at udvide ovenstående ligning fås følgende kriterie: { 2 n P P {f y i f j (x ij )} + λ j j (t) } 2 dt (17) i=1 j=1 over alle p-vektorer af funktionen (f 1,, f p ) der er dierentiable af anden grad. Med udgangspunkt i ovenstående kan det vises, at løsning til ovenstående problem er en p-vektor af cubic splines, som skrives på følgende form: ( ) T ) p p p y f j (y f j + λγj T Ω j γ j (18) j=1 j=1 Dierentiers ovenstående med hensyn til f j fås: j=1 j=1 2(y k f k ) + 2λ j Ω j f j = 0 27

28 det f j, der løser ligningen ovenfor, må opfylde: ˆf j = (I + λ j Ω j ) 1 ( y k j ˆf k ), j = 1,, p (19) (I + λ j Ω j ) 1 er smoother matricen for en cubic smoothing spline. Se evt. afsnit om cubic smoothing splines. Smoothing operatoren S j = (I + λ j Ω j ) 1 kan på matrix notation skrives på følgende måde: I S 1 S 1 f 1 S 1 y S 2 a 2,2 S 2 f 2 S 2 y = = S p s p I S p y Hvilket svarer til estimations matricen. En måde at løse matricen på er ved brug af Gauss-seidel algoritmen, hvilket er ækvivalent til at løse backtting algoritmen (Hastie & Trishiriani, 1990). Da en lineære smoother kan skrives som ˆf j = S j y. Hvilket svarer til en smoother matrix ganget med en vektor af responsefunktioner y. I omvendt rækkefølge kan argumentes for, at funktionen der minimere kriteriet af følgende form: (y f j ) T (y f j ) + f j(s j I)f j (20) j f p er en løsning til estimationsligningen S j = (I + λ j Ω j ) 1. Af vigtige forklarende variable, X, må placering formodes at være helt central for boligens pris, da ingen bolig vil have den samme placering. Som nævnt tidligere må det forventes at der er en stor korrelation mellem boligens placering og dens karakterisktika, således at boliger i det samme område vil være forholdsvise ens. For at kunne skelne boligerne fra hinanden kræver særligt den additive metode en stor grad af variation, da det er nødvendig at have boliger spredt ud over et større område, da klynger af boliger, med samme karakteristika, gør det svært at skelne eekterne fra hinanden. For at illustrerer ovenstående er følgende gur tegnet. 28

29 Figur 7: Illustration af vigtigheden af variation i datasættet Figuren viser boliger spredt i et område i nærheden af en metrostation. Antages det, at alle boligerne ligger 300 meter fra en metrostation, vil hver enkelt bolig udover at ligge i nærheden af en station, også være påvirket af andre lokale faktorer. Ses der kun på afstanden, vil det ikke fanges, om boligen er placeret tæt på den store vej eller det grønne område. Dette vil kunne fanges ved at inddrage den præcise placering af boligen, som i analysen er inkorporeret ved hjælp af længde- og breddegrad, hvilket dermed fanger noget af den rumlige afhængighed, samt inddragelse af variable, der beskriver boligens omkringliggende miljø. Grundet en lille variation i længde -og breddegradskoordinaterne, understreger dette endnu engang nødvendigheden af en stor datamængde. 29

30 Grask kan den hedoniske og additiv model illustreres i følgende diagram: Figur 8: Grask beskrivelse af modellerne I begge modeller angiver krydset placeringen af en metrostation, og ringene omkring krydset de forskellige meterintervaller. I den hedoniske model bliver eekten af metrostationen på boligprisen beskrevet ved et bestemt estimat, som er udtrykt ved en procentvis ændring på responsevariablen, når den forklarende variabel ændres. Estimatet er beregnet for fem forskellige meterintervaller. I den additive model, benyttes også den beregnede afstand til metrostationen. Her er det dog ikke udtrykt ved et estimat af det enkelte interval, men i stedet en funktion, der beskriver, hvordan den forklarende variabel påvirker responsevariabel, når alle andre forklarende variable holdes konstante. Funktionen er grask beskrevet ved den blå funktion i diagrammet, som vil kunne have en vilkårlig form. 30

31 3.4 Delkonklusion Den hedoniske prisfastsættelsesmetode tager højde for de forskellige karakteristika, der er forbundet med et gode, og er god til at analysere godet bolig. Den hedoniske funktion estimerer, hvor meget hvert enkelt karakteristika påvirker prisen på boligen. Den implicitte pris på de enkelte karakteristika vil afspejle, hvor meget køber er villig til at betale for at få en enhed mere af det specikke karateristika. Ved hjælp af den hedoniske prisfastsættelses metode er det således muligt at få belyst, hvad påvirkningen af metrostationen er, og hvor meget boligprisen påvirkes som afstanden til en metrostation varierer. Modellen, der beskriver sammenhængen mellem afstand og pris, giver et klart billede af, at der må forventes, at eksistere en sammenhæng, hvor priseekten vil være aftagende efter afstand. Hvad modellen ikke fanger, er de modsatrettede eekter, der eksisterer ved den lettere adgang til en metrostation, så som et højere støjniveau. Denne negative eekt, kan være medvirkende årsag til, at forholdet mellem pris og afstand ikke er aftagende. Den additive model tilføjer en større grad af eksibilitet til modellen. Ved at benytte en smoothingfunktion på afstandsparameteren, tilføjes den hedoniske model en ikke-parametrisk del, hvilket kan give mulighed for en bedre analyse af betydningen af at bo tæt på en metrostation. 31

32 4 Databeskrivelse Datasættet er et udtræk fra et større datasæt, som er blevet skabt i forbindelse med et projekt, hvor værdisætningen af bykvaliteter blev belyst. Det består i udgangspunktet af lejlighedshandler i Københavns Kommune og 65 variable. Datasættet strækker sig over årene Der er således ikke oplysninger på handelspriser fra før I perioden blev de første metrostationer åbnet, og i 2011 blev placeringen af de nye metrostationer, som kommer ved udbygningen af netværket, oentliggjort. Datasættet indeholder konstruktionsvariable, nabolagsvariable og rumlige variable. Konstruktionsvariablene stammer fra OIS databasen, som er Den Oentlige Informationsserver. OIS databasen samler en række oplysninger vedrørende ejendomme i Danmark. Oplysningerne stammer fra en række landsregistre som Bygnings- og Boligregisteret(BBR), Det Fælleskommunale Ejendomsstamregister( ESR), Planregisteret(PLAN), Statens Salgs- og Vurderingsregister(SVUR) osv. I datasættet er BBR, ESR og SVUR grundlag for konstruktionsvariablene. Bygnings- og Boligregisteret(BBR) blev etableret i Formålet med registeret er ved kommunernes foranstaltning, at tilvejebringe en systematisk registrering af boligog bygningsforholdene til brug for såvel statslige som kommunale myndigheders administration og planlægning (BBR-instruksen). BBR indeholder grunddata, om bygnings- og boligforhold samt tekniske anlæg m.v. og er en entydig registrering af alle bygninger, boligog erhvervsenheder samt de i registeret optagne tekniske anlæg og tekniske enheder m.v. samt de dertil knyttede adressebetegnelser (BBR-instruksen). Det samlede BBR-system består af tre registre: BBR-ændringsregister, BBR- stamregister og BBR-historisk. BBRændringsregister indeholder oplysninger om verserende byggesager, så som tilbygning og nedrivninger. Der indberettes til dette register gennem kommunernes byggesagsbehandling, og registeret indeholder information såsom dateringer, der afspejler byggeprocessen. BBR- stamregister indeholder oplysninger om den aktuelle status for bygningsbestanden og bestanden af boliger og erhvervs- og institutionsenheder. BBR-historisk register indeholder oplysninger om gennemførte ændringer i bygnings-og boligmassen. 32

33 Nedenfor er vist en gur, der viser registeropbygningen i BBR-systemet. Figur 9: BBR-systemet Kilde: BBR-instruksen Udover denne opdeling i registre, eksisterer der også en niveauopdeling i BBR- systemet. For alle bebyggede ejendomme i BBR-registeret er der foretaget en gruppering af oplysningerne på baggrund af, at der er oplysninger, der kan være fælles for en ejendom eller en bygning. Mens der er oplysninger, der kun er relateret til en enkel boligenhed. Oplysninger er således først registreret på ejendomsniveau, derefter på den enkelte bygning og derefter ned på enhedsniveau (den enkelte bolig). Jf. cirkulære af 6. januar 1977 om etablering af bygnings- og boligregistrering er ejednomsniveauet deneret dels som arealer, som i matriklen er anført under et matrikelnummer, eller som er anført under ere matrikelnumre, men skal ses i fællesskab og dels arealer, der tilhører samme ejer og udgør en driftsenhed. Endvidere kan en ejendom også ses, som en bygning opført på lejet grund. Ved en bygning forstås en sammenhængende bebyggelse, som er opført som en selvstændig ejendom, og som i det væsentligste er opført af ensartede materialer og med omtrent samme antal etager. Endvidere skal bebyggelsen have ensartede adgangsforhold. En boligenhed eller erhvervsenhed forstås som et sammenhængende areal i en bygning, hvortil der er selvstændig adgang med tilknyttet adresse( CIR nr 6 af 06/01/1977 Historisk). 33

34 I guren nedenfor er opdelingen af de tre forskellige niveauer vist. Figur 10: Niveauopdelling i BBR Kilde: BBR-instruksen Det fælleskommunale ejendomsstamregister er et landsdækkende register, der indeholder oplysninger om ejerforhold, matrikulære forhold, vurderinger og ejendomsskatter. Det er kommunerne, der har ansvaret for at opdatere datainformationerne i ESR. Det sidste register, der hentes information fra, er Statens salgs- og vurderingsregister SVUR, som er et landsdækkende register, som indeholder vurderingsoplysninger, herunder oplysninger om ejendoms- og grundværdi. Registeret indeholder bl.a. oplysninger om købssummerne på boligenheder. Oplysningerne er baseret på data fra BRR-systemet. SVUR bliver af kommunerne brugt til at beregne ejendomsskatten. Det er SKAT, der har dataansvaret for SVUR, og oplysningerne bliver opdateret gennem oplysninger fra ESR. 4.1 Fejlkilder Hvad der er vigtigt at tage højde for, når man arbejder med data fra BBR- systemet er, at der er forbundet fejlkilder med BBR-data. I 2007 lavede Erhvervs- og bygningsstyrelsen(i dag delt i Erhvervsstyrelsen og Energistyrelsen) et overblik over fejl og mangler i BBRsystemet. Her fastslås det, at der i mange af de mellemstore købstadskommuner, manglede at blive indberettet om arealudvidelser på ejendomme. Samlet vurderede man dengang, at landets samlede areal af fritliggende enfamiliehuse var 5 procent større end 34

35 det areal, der var registreret i BBR, da undersøgelsen blev foretaget. Da det er ejerne af bygningen, der har ansvaret for at anmelde arealudvidelser i deres bolig, og skatten beregnes på baggrund af boligarealet, er der nogle, der har et incitament til at undlade at melde udvidelsen, også selvom man bliver pålagt en bøde, hvis det opdages, så generelt er arealstørrelsen underestimeret. Dog skal det nævnes, at der i undersøgelsen fra 2007 blev fundet, at usikkerheden i København var forholdsvis lille. Udover arealstørrelsen som fejlkilde, forekommer der også fejl på oplysninger om aøb, forsyningsforhold, varmeinstallation, bad-og toiletforhold og tagdækningsmateriale m.v. i 1 10 procent af alle bygninger. Fejlprocenten synes højest for de forhold, der oftest ændres i en bygnings levetid ( Erhvervs- og byggestyrelsen, 2007). Da SVUR og ESR hænger sammen med BBR-registeret, vil de fejl, der eventuelt sker i BBR, kunne påvirke de to andre registre. De konstruktionsvariable, som er hentet fra registrene og indgår i datasættet, er bl.a. antal værelser, størrelse på bolig, alder på boligen og om der er sket ombygninger, antal toiletter og byggematerialet i boligen. 4.2 GIS - Geograske Informationssystem De rumlige variable er lavet i det geograske informationssystem(gis). GIS er et ITværktøj som lagrer, kontrollerer og viser data relateret til en geogrask placering på jorden. GIS er baseret på kendskabet til en placering. Denne placering kan være baseret på længde- og breddegrader, adresse eller postnummer. På baggrund af placering kan man bl.a. beregne de rumlige variable, som beskriver tilgængeligheden til eksternaliteter. I det pågældende datasæt er alle de rummelige variable opgivet i euklidiske afstande, og indeholder bl.a. afstand til metro, motorvej, børneinstitutioner og grønne områder. 35

36 Figur 11: Afstanden mellem bolig og metrostation Kilde: Agostini & Palmucci, 2008 Den euklidiske afstand beregnes ved hjælp af længde- og breddegraderne, placering for den enkelte bolig, og den nærmeste metrostation. Afstanden ndes ved den korteste afstand i fugleugt til den metrostation, der er nærmest den givne bolig. Afstanden d er beregnet som d = ((E 1 E 0 ) 2 + (N 1 N 2 ) 2 ) Udover de nævnt variable baseret på afstande, indeholder datasættet også variable, der fortæller lidt om befolkningen i området bl.a. gennem gennemsnitlige indkomst og afgangselevernes gennemsnitlige karaktergennemsnit for den enkelte skole, som varierer alt efter boligens placering. 36

37 5 Sortering og Konstruktion af Nye Variable De næste afsnit indeholder en beskrivelse af proceduren for sortering af datasættet, oversigt over kontruktion af nye variable, og beskrivende statistik for relevante variable, der benyttes i analysen. 5.1 Sortering af Datasættet Før datasættet benyttes til en nærmer analyse fjernes 3 observationer, som er fejlbehæftede, idet bolighandelen er sat til datoen Da datasættet er produceret før denne dato, og skulle indeholde data fra 2000 til april 2013, fjernes de fejlbehæftede observationer, da der ikke er nogen nærmere forklaring på denne dato, og således ingen mulighed for at nde fejlen og eventuelt foretage en korrektion af datasættet. Datasættet her dermed observationer ialt. 5.2 Konstruktion af Nye Variable Tidligere studier har vist at afstanden til metrostationen har en eekt. I studiet af Agostini og Palmucci (2008), som ser på en metrolinje i Santiago, fanges der i deres analyse 50 til 60 procent af efterspørgslen inden for 500 meter af en station, mens 80 til 90 procent fanges indenfor 1000 meter. Analyser af den danske metro har vist, at boligens værdi øges med 5 7 procent indenfor de nærmeste par hundrede meter omkring metrostationen ( Panduro et. al, 2013). Til belysning af metrostationens eekt i forhold til afstanden i meter, deneres fem meterintervalsparametre. Samtidig antages det, at efter 1000 meter vil eekten af metrostationen være forsvundet. Intervallerne fastlægges til at dække 200 meter hver, så der i hvert intervaller er en rimelig mængde observationer at foretage regressionen over. Intervallerne laves samlet for alle stationerne. Derudover deneres en dummy, der fortæller om stationen ligger over 1000 meter fra stationen. 37

38 Variabel Tabel 1: Denition af afstandsvarible Beskrivelse Dist_0_200 Dummy=1 hvis mellem 0 og 200 meter til nærmeste station, ellers 0 Dist_201_400 Dummy = 1 hvis mellem 201 og 400 meter til nærmeste station, ellers 0 Dist_401_600 Dummy = 1 hvis mellem 401 og 600 meter til nærmeste station, ellers 0 Dist_601_800 Dummy = 1 hvis mellem 601 og 800 meter til nærmeste station, ellers 0 Dist_801_1000 Dummy = 1 hvis mellem 801 og 1000 meter til nærmeste station, ellers 0 Dist_1000 Dummy = 1 hvis over 1000 meter til station, ellers 0 Udover en dummy, der beskriver afstanden, deneres også en områdedummy, der beskriver, hvilken station boligen er placeret tættest på, og en dummy, der beskriver, om stationen er en af de 9 underjordiske stationer. Tabel 2: Denition af placeringsvariable Variabel Beskrivelse Norreport Dummy = 1 hvis Nørreport station, ellers 0 Forum... Dummy = 1 hvis Forum station, ellers 0 over_jord dummy =1 hvis stationen er over jorden, ellers 0 Da det skal vericeres, om boligen er solgt før eller efter, at metrostationen er åbnet, deneres en dummy, der antager værdien 1, hvis boligen er solgt efter 2002, 2003 eller 2007, afhængigt af stationen, ellers antages værdien 0. Tabel 3: Handel sket før eller efter metrostationens opførsel Variabel Beskrivelse metro_efter Dummy = 1 hvis handlet efter at stationen er åbnet, ellers 0 Året, hvor stationen er åbnet, er medtaget, også selvom stationen er åbnet i løbet af året. Det begrundes med, at hvis man ved, at stationen snart åbner, vil prisen allerede der være påvirket ved en eventuel handel. Generelt bør det bemærkes, at det antages, at priseekten på boligen grundet metrostationen først træder i kraft, når metroen er bygget og åbnet. Ofte vil det være tilfældet, at noget af prisstigning allerede kan spores på annonceringstidspunktet. Da annoncering af metrostationer skete før 2000, og datasættet ikke indeholder priser fra før 2000, er det ikke muligt at måle eekten på boligprisen før annonceringen, hvilket 38

39 bl.a. er medvirkende årsag til ovenstående antagelse. Dog skal der i resultaterne tages højde for denne antagelse. Stationerne Vestamager og Ørestad udgår af datasættet og dermed modellen, da deres datagrundlag ikke er stort nok. For Vestamager er der ingen handler før stationen er åbnet, og for Ørestad er der 1. Udover de ovenfor beskrevne dummyvariable deneres også en mængde af tidsdummyer, som er med til at korrigere for den generelle prisudvikling. 5.3 Den Generelle Prisudvikling på Boligmarkedet København oplevede i midten af 2000-erne, at de reele boligpriser steg med en voldsom hastighed. Samtidig vendte udviklingen sig brat og i slutning af 2008 og begyndelsen af 2009 havde mange boligejere lidt store kapitaltab. Det er således vigtigt, at data korrigeres for den generelle prisudvikling, inden der foretages en analyse. En af faktorerne, der altid vil være med til at ændre boligprisen, er ination. Grundet denne faktor kan en boligpris fra en periode ikke i den rene pris sammenlignes med en boligpris fra en anden periode, men der skal korrigeres for den generelle prisudvikling. I guren nedenfor vises den generelle prisudvikling på ejerlejligheder i København i perioden kvartal til kvartal. Figur 12: Prisudviklingen på ejerlejligheder, kvm. priser Kilde: Realkreditsrådets Boligmarkedesstatistik 39

40 Ses der på udviklingen for de enkelte kommuner, der indgår i datasættet, ses at udviklingen generelt har været identisk. Dog med en smule afvigelse for udviklingen i Hellerup. Det bør bemærkes, at de gennemsnitlige kvadratmeterpriser brugt til at vise udviklingen i kommunerne ikke er korrigeret for ination eller ekstreme boligsalg, som kan være med til at påvirke den gennemsnitlige kvadratmeterpris i en given kommune. Tidsdummyerne deneres på både årsbasis og kvartalsbasis. Tabel 4: Denition af tidsdummier Variabel Beskrivelse D_00... Dummy = 1 hvis 2000, ellers 0 D_00Q1... Dummy = 1 hvis handel sket 1 kvartal 2000, ellers 0 40

41 6 Konstruktionsvariable I dette afsnit beskrives konstruktionsvariablene, der allerede eksisterer i datasættet, og som benyttes i regressionsanalysen. Tabel 5: Konstruktionsvariable Variable N Mean Std. min max price logprice 14,180 0,564 11,53 16,78 logarea 4,292 0,360 3,434 5,994 area 78,390 33, age , age_ ,109 0, age_1980_ ,016 0, age_1948_ ,117 0, age_1910_ ,458 0, age_1875_ ,262 0, age_1850_ ,039 0, Barhrooms 1,007 0, Rooms 2,636 1, Toilets 1,048 0, oor 1,987 1, B_units_nr 50,530 51, brick 0,9015 0, roof_tile 0,4287 0, roof_cement 0,0133 0, roof_board 0,1466 0, roof_ber 0,2576 0, I tabel 5 kan ses, at særlig arealet og prisen varierer meget for de forskellige boliger. Derudover er der stor forskel på, om boligen er placeret i en bygning sammen med mange andre boligenheder. 41

42 7 Rumlige Variable De rumlige variable fortælle her noget om afstandene til forskellige faciliteter i nærområdet. Her ses nærmer på afstanden til park, nærmeste metrostation og adgang til daginstitutioner. Tabel 6: Rumlige variable Variable Mean Std. min max Daycare 192, ,419 0, ,9293 park_dist 384, ,034 6, ,517 Near_dist 1619, ,954 42, ,36 For variablen NEAR_DIST, som er afstanden til nærmeste metrostation, har en stor del af observationerne, mere end 1000 meter til nærmeste metrostation. Grundet mange observationer, der har længere end 1000 meter til nærmeste metrostation, vil der være få observationer, der hvor metrostationen gerne skulle have den største eekt, nemlig når der er mindre end 1000 meter til stationen. Samlet er der i datasættet observationer der har 1000 meter eller under til nærmeste metrostation. 8 Nabolagsvariable Nabolagsvariablerne fortæller noget om de mennesker, der bor i området. Dette vil oftes kunne afspejles i boligernes kvalitet, da velhavende borgere efterspørger en anden type boliger end den mindrebemidlede. Her ses nærmer på gennemsnitlig husstandsindkomst og skolernes afgangselevers afsluttende karaktergennemsnit. Tabel 7: Nabolagsvariable Variable Mean Std. min max Sch_grade 5,352 1, ,8 Gns_personi , Hvad der bemærkes her er, at der for nogle skoler eksisterer en værdi på nul. Da ingen skoler i Københavns kommune har et karaktergennemsnit på nul, tages der i analysen højde for, at de observationer, der indeholdt et nul, ikke påvirker parameterestimatet. 42

43 9 Modelmetode Dette afsnit beskriver metoden, der bruges til at analysere, hvordan boligpriserne påvirkes af afstanden til metrostationen. Og modellen, der benyttes til estimationen, præsenteres. 9.1 Hypotese Det antages, at de estimerede meterintervalsværdier er positive, dette bygger på tidligere analyser bl.a. Agostini & Palmucci (2008), Chen et al (1997) og Dewees (1976). Andre har vist, at det kan formodes, at denne positive eekt ikke nødvendigvis er stødt aftagende med afstanden. Således viser Bowes(2001), at eekten for boliger meget tæt på en metrostation, kan være negativ, mens Chen et al. (1997) viser, at man kan forvente, at prisen på boliger, der ligger meget tæt på, har en mindre positiv eekt af metrostationen end dem, der er placeret et par meter væk fra støj og metroindgangen. Det er denne sidste eekt, som den følgende analysen ønsker, at belyse. Figur 13: Sammenhængen mellem prisfunktionen og budkurven Da der i datasættet, der er brugt til analysen, er en stor variation i priserne på de enkelte boliger, og der ved brug af de rene priser vil være en fordelingen med meget få observationer over mod de høje priser, er det hensigtsmæssigt at benytte logaritmen til 43

44 prisen, da denne sikrer, at fordelingen bliver mere symmetrisk, og derfor passer bedre til en OLS estimation. Figur 14: Fordelingen af priser Figur 15: Fordeling af logaritmiske priser 9.2 Funktionelle Form Til brug i den simple model benyttes en semilogaritmisk OLS-model, hvor den beskrivende variabel er logaritmisk, mens de forklarende variable er i absolutte ændringer. Dermed vil regressionen beregne estimater, der viser den relative ændring i den beskrivende variabel givet en absolut ændring i de forklarende variable. Datasættet er et underdatasæt af datasættet brugt i Panduro et. al (2012), der estimerer værdisætningen af bykvaliteter. I rapportens analyse benyttes en semilogaritmisk simpel model, og således benyttes i specialet også samme modeltype. Samtidig benyttes i litteraturen ofte en model med en log-transformeret responsevariabel. Da ere studier i litteraturen bl.a. Cherrih & Sherris (2004) samt Panduro & Veie (2013)foreslår alternativer til den simple model, med en log-transformeret responsevariabel, laves også en analyse, hvor en ikke-parametrisk form på afstandparameteren benyttes, her benyttes en additive model. 44

45 9.3 Metode - Den Hedoniske Model Modeldannelsen bygger som beskrevet i afsnit 3.1 på Rosen(1974). Grundstammen i den model, der benyttes til estimationen, kan beskrives ved hjælp af følgende ligning: logp it = β 0 + β 1 X it + β 2 L it + β 3 Dm ij + D metro j + D T + ɛ it (21) Hvor i referer til en given bolig og t til et bestemt tidspunkt. P it er salgsprisen på en given bolig, X it er en vektor, der består af boligens forskellige karakteristika så som størrelse antal, osv., L it er en vektor, der beskriver nabolaget bl.a. gennemsnitlig indkomst og skolernes karaktergennemsnit ved afgangsprøven og den indeholder også de rumlige variable med undtagelse af afstand til metrostationen, Dm ij er afstanden til en bestemt metro j for en given bolig i, Dj metro er en dummyvariabel der angiver, hvilken metrostation boligen ligger tættest på, D T er en vektor indeholdende tidsdummyer(års- eller kvartalsdummier i estimationen) og ɛ it er fejlledet, som fanger uobserveret variation. For at fange metrostationseekten udvides modellen med en dummyvariabel, der fortæller, om boligen er solgt før eller efter metrostationen er åbnet. Ofte vil der allerede være en eekt, når det annonceres, at der bliver bygget en metrostation, men da data ikke dække over en årrække, hvor denne type af analyse er mulig, ses i stedet på boliger, der er solgt før og efter, at stationen er åbnet. Udvidelsen af modellen ser således ud: logp i t = β 0 + β 1 X it + β 2 L it + β 3 Dm ij + β 4 Dpost ijt Dm ij + D metro j + D T + ɛ it (22) Hvor Dpost ijt er en dummy, der fortæller, om der til tidspunktet t er kommet en metro og hvilken station, det er. Et alternativ til den første model er, at regressere en dierence-in- dierence estimation, hvor der sammenlignes boliger, der ligger langt væk fra metrostationen dvs. mere end 1000 meter med boliger, der ligger indenfor 1000 meter til metrostationen. Her antages det, at boliger, der ligger mere end 1000 meter væk fra station, ikke bliver påvirket af den nye metrostation. Antagelsen er således, at den gennemsnitlige ændring i boligprisen, hvis metrostationen ikke var blevet bygget, ville have været den samme for boliger, der var påvirket og upåvirket af den nye metrostation. logp i t = β 0 + β 1 X it + β 2 L i t + β 3 Dm ij + β 4 Dpost ijt D1000 ijt + D metro j + D T + ɛ it (23) Hvor D1000 ij er en dummy, der er 1, hvis boligerne er under 1000 meter fra en metrostation, ellers 0. 45

46 Udover de tre ovenstående modeller estimeres model 2 også på et underdatasæt, der kun indeholder alle stationerne, der ligger over jorden. Grundmodellen, som er den de resterende modeller regresseres over, er deneret således: logprice = area + age 1980_ age 1948_ age 1910_1948+ age 1875_ age 1850_ brick + roof_tile + roof_cement + roof_board bathrooms+rooms+f loor+b_units_nr+toilets+daycare+sch_grade+gnsp ersoni+ park_dist + Dist 0_200 + Dist 201_400 + Dist 401_600 + Dist 601_800 + Dist 801_1000+ N orreport_l + Kongens_nytorv_L + Christianshavn_L + Lergravsparken_L+ Islandsbrygge_L + DR_byen_L + Bella_center_L + F orum_l + F lintholm_l+ V anlose_l + oresund_l + F emoren_l + Amager S trand_l+ F asanvej_l + F rederiksberg_l + Sundby_L + Lindevangen_L+ D 01 + D 02 + D 03 + D 04 + D 05 + D 06 + D 07 +D 08 + D 09 + D 10 + D 11 + D 12 + D Metode - Den Additive Model Med udgangspunkt i den hedoniske model, udvides denne ved hjælp af smoothing funktioner. Udtrykket for den additive model skrives derfor op på følgende formel: logp i t = β 0 +β 1 X it +β 2 L it +β 3 f(dm ij )+β 4 Dpost ijt f(dm ij )+D metro j +f(d T )+ɛ it (24) I ovenstående ligning er der taget udgangspunkt i model 2 - som er den, der udvides til en additiv model. dm ij er ikke længere meterintervaller som ved den hedoniske model, men derimod en variabel, der beskriver afstanden til nærmeste metrostation. Da variablen er beregnet som afstanden til nærmeste metrostationen undgås, at der er boliger, der kan tælle med ere steder(i tilfælde med kortere end 1000 meter mellem to stationer), når der ses på alle boliger, der ligger inden for 1000 meter. Den hedoniske model 2, bliver til en additiv model ved, at der tilføjes et ikke parametrisk led i form af en smoothingfunktion, udtrykt ved hjælp af cubic smoothing splines. i referer til en given bolig og t til et bestemt tidspunkt. P it er salgsprisen på en given bolig, X it er en vektor, der består af boligens forskellige karakteristika så som størrelse antal osv., L it er en vektor, der beskriver nabolaget bl.a. gennemsnitlig indkomst og skolernes karaktergennemsnit 46

47 ved afgangsprøven og den indeholder også de rumlige variable med undtagelse af afstand til metrostationen, Dj metro er en dummyvariabel der angiver, hvilken metrostation boligen ligger tættest på, D T indeholder årsvariablene, som smoothes ved hjælp af cubic smoothing splines. ɛ it er fejlledet, som fanger uobserveret variation. Den additive udgave af model 2 udvides efterfølgende med to smoothing funktioner, der inddrager længde- og breddegrad. logp i t = β 0 + β 1 X it + β 2 L it + β 3 f(dm ij )+ β 4 Dpost ijt f(dm ij ) + D metro j + f(laengdegrad) + f(breddegrad) +f(d T ) + ɛ it Da længde- og breddegrad længer tæt sammen, ville det være oplagt at analysere dem i den samme smoothingfunktion. Dette er dog ikke gjort her, da der benyttes cubic smoothing splines, og de er en-dimensionelle og derfor ikke kan håndtere to variable i deres smoothingfunktion. For at kunne samle længde- og breddegrad i en fælles smoother, kræver det en smoother af en mere avanceret karakter, det er f.eks. en smoother som thin plate splines, som ikke er valgt at blive benytte i dette speciale. Til gengæld ville det være et oplagt sted at forbedre modellen. Denne problemstilling er diskuteret nærmere i afsnittet, der omhandler dikskussion af de valgte modeller. 47

48 10 Estimationsresultater Ved brug af de opstillede modeller i afsnit 9 ønskes at belyse eekten på boligprisen alt efter afstanden til en metrostation. Ved hjælpe af de denerede modeller forsøgs at belyse hypotesen om, at priseekten ikke nødvendigvis er stødt aftagende med afstanden til en metrostation Resultater - Grundmodel Den første model, der estimeres, er model 1. Resultatet af model 1 ndes i bilag 2. Modellen er estimeret på baggrund af observationer. Størstedelen af estimaterne har det forventede fortegn og er signikante(dog skal der her bemærkes, at der senere ndes hetroskedasticitet, og der kan således ikke stoles på testværdierne). Der er 2 variable, der ikke passer med det forventede resultat. Det er parameteren for antal badeværelser og antal toiletter, der har et negativt fortegn, hvor det ellers kunne forventes, at disse havde en positiv eekt på prisen. Dette kan muligvis skyldes meget få observationer med ere end 1 badeværelse eller toilet. Samtidig vil det for små lejligheder ofte være negativt med ere toiletter, da de vil optage plads, som kunne bruges mere optimalt i en lille lejlighed. Altså vil ere toiletter eller badeværelser, for små lejligheder ofte have en negativ eekt. I forhold til stationsdummyerne tegner der sig en tendens til, at dem, der ligger over jorden, har et negativt fortegn, mens de underjordiske har positivt, dog afviger Lergravsparken og Frederiksberg metrostation. Det kan eventuelt skyldes, at disse to stationer ligger små de sidste underjordiske stationer, og forskellen på de overjordiske og underjordiske eventuelt hænger sammen med, om det er boliger, der ligger tæt på centrum versus boliger, der ligger langt fra centrum. Amager strand har et positivt estimat, dette er dog ikke signikant, og der ses i denne sammenhæng bort fra det. Før de videre regressioner gennemføres undersøges, om modellen lider af hetroskedasticitet.i plottet nedenfor er de standardiserede residualer plottet mod de forudsete estimater. Plottet viser en tendens mod hetroskedasticitet, da spredningen på residualerne er faldende med stigende forudsete estimatorer. Hetroskedastisitet betyder, at standardafvigelserne er hetroskedastiske, hvilket skaber systematisk varians i standardafvigelserne, hvilket medfører, at standardafvigelserne ikke længere kan bruges til at skabe t-statistik og således kan der ikke vurderes på estimaternes signikansniveau. 48

49 Figur 16: Hetroskedasticitet Udover den graske test af hetroskedasticitet, foretages en Breusch-Pagan test. Nulhypotesen i Breusch-Pagan tests er, at datasættet er homoskedastisk. BP = , df = 56, p value < 2.2e 16 Grundet den lave p-værdi afvises nulhypotesen om homoskedasticitet, og det må konkluderes, at modellen lider af hetroskedasticitet. Da modellen lider af hetroskedasticitet, vil der i de videre analyser benyttes robuste standardafvigelser som tager højde for hetroskedasticiteten, således at siginicantsniveauet og standardafvigelserne kan benyttes i analysen. De estimereede parameterværdier er stadigvæk middelrette og konsistente under antagelse af, at MLR 1 4 (Se bilag 3 ) er opfyldt (Wooldridge, 2009). Ved hjælp af graske test vises, at estimatorerne er pålidelige og kan benyttes i analysen. Da vi er bekendt med, at der eksisterer hetroskedasticitet, testes bl.a. den funktionelle form. Dette gøres ved hjælp af en RESET test. Det er i denne sammenhæng vigtig at nævne, at RESET testen er en meget simpel test, der ikke har nogen evner til at nde udeladte variable. Samtidig har testen, i tilfælde hvor den funktionelle form er speciceret korrekt, ingen muligheder for at fortælle om modellen lider af hetroskedasticitet (Wooldridge, 2009, side ). Nulhypotesen for en RESET-test er, at modellen er 49

50 speciceret med den korrekte funktionelle form. Forkastes nulhypotesen, må det antages, at modellen ikke har den korrekte funktionelle form. Testresultatet er som følge: RESET = 48, 7649, df1 = 112, df2 = 47773, p value < 2, 2e 16 Grundet den lave p-værdi forkastes nulhypotesen og modellen må forventes at kunne speciceres bedre. I denne omgang noteres det blot, og formen forbliver den sammme. Kollinearitet og særligt multikollinearitet er en faktor, der kan skabe store problemer for estimationen. Er en eller ere af de forklarende variable korreleret, er det med til at skabe upålidelige regressionskoecienter samtidig med, at det også kan skabe ination i standardfejlene og påvirke p- værdierne. Det er særligt et problem, hvis afstandsvariable er korreleret med andre forklarende variable. For at teste for multikollinearitet benyttes metoden VIF( variation ination factor) som måler, hvor meget variansen er inateret, dvs. et mål for, hvor meget en variabel bidrager til standardfejlene i regressionen. VIF for den k'te forudsete estimat er deneret med følgende udtryk: V IF k = 1 1 R 2 k (25) Hvor R 2 k er R 2 -værdien opnået ved at regressere det k'te forudsete estimat på de resterende forudsete estimatorer (Derek Young, 2014) Resultatet af VIF analysen er præsenteret i tabel 8. En VIF- værdi på 1 betyder, at der ikke er nogen korrelation mellem den k'te forudsete værdi og de resterende forklarende estimater og variansen ikke er påvirket på nogen måde. En VIF på over re bør undersøges nærmere, mens en VIF på ti er tegn på meget kraftig multikollinearitet. 50

51 Tabel 8: VIF- analyse Variabel VIF Variabel VIF area 4, 65 Norreport_L 6, 29 age_1980_1999 1, 49 Kongens_nytorv_L 2, 49 age_1948_1979 4, 04 Christianshavn_L 1, 86 age_1910_1948 8, 6 Lergravsparken_L 2, 44 age_1875_1910 6, 94 Islandsbrygge_L 2, 77 age_1850_1 2, 6 DR_byen_L 1, 41 bathrooms 1, 38 Bella_center_L 1, 44 rooms 3, 47 Forum_L 5, 24 oor 1, 14 Flintholm_L 2, 18 B_units_nr 1, 4 Vanlose_L 3, 59 toilets 1, 63 oresund_l 1, 56 brick 1, 37 Femoren_L 1, 61 roof_tile 1, 89 Amager_Strand_L 1, 49 roof_cement 1, 08 Fasanvej_L 2, 49 roof_board 1, 35 Frederiksberg_L 2, 75 daycare 1, 3 Sundby_L 1, 1 sch_grade 2, 02 Lindevangen_L 2, 73 GnsPersoni 2, 11 Årsdummy < 2 park_dist 1, 32 Dist_0_200 1, 48 Dist_201_400 1, 95 Dist_401_600 1, 53 Dist_601_800 1, 34 Dist_801_1000 1, 36 I tabellen ses, at der er seks variable, der har en VIF, der er større end 4, de fem er dog ikke forklarende variable, der er centrale for undersøgelsen, den sidste variabel area, som har en central betydning i analysen ligger på lige over re, så derfor accepteres det, bl.a. forbi denne variabel er en af de vigtigeste faktorer, for en boligs pris. Da afstandsvariablene, som er dem, der særligt studeres i denne analyse, alle har en VIFværdi på mindre end to antages, at parameterne ikke er påvirket af multikollinaritet i en sådan grad, at der beregnes misvisende estimatorer. Som det sidste undersøges om 51

52 fejlledene følger en normalfordeling med middelværdi på nul. Figur 17: Q-Q Plot Figur 18: Histogram over residualerne Der eksisterer et problem med de lange haler i Q-Q plottet, som understøtter, at det ikke er normalfordelte fejlled. Dog ser histogrammet bedre ud, og det ses, at der er meget få 52

53 observationer, der er skyld i de lange haler. På baggrund af ovenstående analyse af data vurderes, at der godt kan fortsættes med OLS, så længe der ikke beregnes test på baggrund af resultaterne, medmindre der regnes med robuste standardafvigelser, der er korrigeret for hetroskedasticiteten. I den videre analyse er der korrigeret for hetroskedasticiteten. Grundet den stærke rumlige autokorrelation, der eksisterer i de hedoniske modeller, tilføjes senere i en additiv model et ikkeparametrisk led på afstandsparameteren for at se, om dette kan forbedre OLS-regression. Og samtidig estimeres også en additiv model, hvor længde- og breddegrad indrages ved hjælp af et ikke-parametriske led. I tabel 9 vises resultaterne af model 2, som er en dierence-in-dierence for før og efter metrostations åbning. I tabel 12 vises model 3, der er en dierence-in-dierence for over eller under 1000 meter til en metrostation. Model 1 til 3 har alle responsevariablene, år 2000, metrostationen Amagerbro, roof_ber og roof_at samt over 1000 meter til nærmeste metrostation. Den første estimation var baseret på observationer. I de videre modeller er datasættet reduceret til observationer. Dette skyldes, at stationerne Vestamager og Ørestad udgår af datasættet grundet mangel på observationer, når der inddeles på salg før og efter metrostationener er åbnet se bilag 1. 53

54 Tabel 9: Estimation af model 2 Variable Beskrivelse Estimat Std. afvigelse Pr(> t ) Sig. (Intercept) 12,8750 0,0231 < 2.2e-16 *** Kontruktionsvariable area Areal 0,0064 0,0001 < 2.2e-16 *** age_1980_1999 Opført mellem ,0569 0,0114 0,0000 *** age_1948_1979 Opført mellem ,2055 0,0086 < 2.2e-16 *** age_1910_1948 Opført mellem ,1431 0,0082 < 2.2e-16 *** age_1875_1910 Opført mellem ,1180 0,0085 < 2.2e-16 *** age_1850_1 Opført mellem ,0684 0,0121 0,0000 *** bathrooms Antal badeværelser -0,0302 0,0104 0,0036 *** rooms Antal værelser 0,0612 0,0030 < 2.2e-16 *** oor Etage 0,0119 0,0009 < 2.2e-16 *** B_units_nr Antal boligenheder i ejendommen -0,0003 0,0000 < 2.2e-16 *** toilets Antal toiletter -0,0417 0,0111 0,0002 *** brick Bygget af mursten 0,0008 0,0060 0,9004 roof_tile Tegltag 0,0228 0,0036 0,0000 *** roof_cement Cementtag 0,0050 0,0116 0,6645 roof_board Tag med hældning 0,0114 0,0041 0,0057 *** Rumlige- og nabolagsvariable daycare Meter til børnehave/vuggestue 0,0001 0,0000 0, 0000 *** sch_grade AfgangsGns. For nærmeste skole 0,0134 0,0025 0, 0000 *** GnsPersoni Gns. indkomst i lokalområdet 0,0000 0,0000 < 2.2e -16 *** park_dist Afstand til nærmeste park 0,0000 0,0000 0,8067 metro_efter metro_efter -0,0205 0,0075 0,0063 *** Afstandsvariable - Afstand til nærmeste metro Dist_0_200 mellem meter 0,0249 0,0119 0,0368 ** Dist_201_400 mellem meter 0,0655 0,0084 0,0000 *** Dist_401_600 mellem meter 0,0111 0,0103 0,2792 Dist_601_800 mellem meter 0,0036 0,0083 0,6620 Dist_801_1000 mellem meter 0,0092 0,0087 0,

55 Tabel 10: Estimation af model 2 - forsat Variable Beskrivelse Estimat std.afvigelse Pr(> t ) Sig. Stationsdummier - Nærmeste station Norreport_L Nørreport 0,1953 0,0079 < 2.2e-16 *** Kongens_nytorv_L Kongens Nytorv 0,2496 0,0121 < 2.2e-16 *** Christianshavn_L Christianshavn 0,2237 0,0097 < 2.2e-16 *** Lergravsparken_L Lergravsparken -0,0224 0,0072 0,0019 *** Islandsbrygge_L Islandsbrygge 0,1808 0,0104 < 2.2e-16 *** DR_byen_L DR Byen -0,0273 0,0123-2,2231 ** Bella_center_L Bella Center -0,0752 0,0122 0,0000 *** Forum_L Forum 0,1150 0,0083 < 2.2e-16 *** Flintholm_L Flintholm -0,0419 0,0106 0,0001 *** Vanlose_L Vanløse -0,0317 0,0078 0,0001 *** oresund_l Øresund 0,0950 0,0138 0,0000 *** Femoren_L Femøren -0,0515 0,0112 0,0000 *** Amager_Strand_L Amager Strand 0,0057 0,0128 0,6565 Fasanvej_L Fasanvej 0,0542 0,0091 0,0000 *** Frederiksberg_L Frederiksberg -0,0023 0,0085 0,7848 Sundby_L Sundby -0,0128 0,0273 0,6402 Lindevangen_L Lindevangen -0,0062 0,0089 0,4833 Interaktions mellem metrostation og antal meter Dist_0_200:metro_efter 0,0249 0,0143 0,0823 * Dist_201_400:metro_efter -0,0026 0,0089 0,7655 Dist_401_600:metro_efter 0,0451 0,0115 0,0001 *** Dist_601_800:metro_efter 0,0198 0,0098 0,0437 ** Dist_801_1000:metro_efter 0,0170 0,0105 0,1068 Årsdummyer < 2.2e-16 *** R 2 0,74731 Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* 10.2 Resultater - Før og Efter Metrostationernes Åbning Model 2 belyser eekten af et økonomisk afkast på boligen ved metrostationernes åbning. Modellen beregner den procentvise priseekt på boligprisen, efter at metrostationen er blevet opført. Ved måling af priseekten er det dog vigtigt, at der tages højde for, hvornår denne eekt kan måles. Flere studier bl.a. Agostini & Palmussi (2008) peger på, at eekten indtræder i ere omgange. Ved annonceringen af byggeriet, når placeringen af metrostationerne annonceres, omkring den annoncerede åbning, og når stationerne er åbnet. Da datasættet, der analyseres, ikke indeholder bolighandler omkring annonce- 55

56 ringstidspunktet, ses her kun nærmer på tiden omkring selve åbningen, dvs. om boligen er solgt før eller efter det år, hvor stationen er åbnet. I modellen inkluderes en variabel, der tager værdien 1, hvis boligen er solgt efter, at stationen er åbnet, ellers tages værdien 0. Her skal det bemærkes, at en bolig sagtens kan være solgt mere end en gang efter, at stationen er bygget, alternativt også før. Samtidig vil der også indgå boliger, der kun er solgt enten før eller efter åbningsåret. Det optimale havde været, at se på de samme boliger, der er solgt før og efter, dette var ikke muligt, med det eksisterende datasæts størrelse. Det skal bemærkes, at det her antages, at boligerne ikke forandrer sig og heller deres omgivelser. Dette er en grov antagelse, som kan være med til at skabe skævhed i parameterestimaterne, dog opereres med en forholdsvis kort tidsperiode, hvilket kan mindske ændringer i området. Angående boligerne vil den sammensatte mængde, der regresseres på, være forskellig. Dog er der ikke sket større forandringer i boligsælger og købers boligbehov, som ville kunne betyde, at der blev handlet vidt forskellige boliger i de to perioder. Derfor antages, at den samlede mængde af boliger godt kan accepteres at være ens i de to perioder. Variablene i model 2 har samme fortegn som i model 1. Signikansniveauet er forringet i model 2 i forhold til model 1. Variablen metro_efter, der bestemmer om boligen er solgt før eller efter åbningen af metrostationen, har et negativt fortegn, hvor det måtte forventes, at dette var positivt, da den forventede eekt af metrostationen var positiv. Dette er tegn på, at andre faktorer kan have været med til at påvirke prisen. F.eks. kan nogle af de boliger, der ligger i nærheden af en station, også ligge i nærheden af et banelegeme, hvilket kan sænke prisen, grundet en ulempe ved metroen der kommer kørende forbi i baghaven. Kun to af afstandsintervallerne er signikante, og der tegnes ikke et klart mønster af, hvad priseekten på boligerne har været afhængigt af afstanden til metrostationen. Tabel 11: Priseekt fordelt på meterintervaller model , 5* % 0, 2 % 4, 5% *** 2, 0 % ** 1, 7 % Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* Af de resterende forklarende variable ses, at særligt variabel for boliger opført mellem 1948 og 1979 har en meget negativ eekt på prisen. Dette kan hænge sammen med det i dag mindre attraktive 60'er og 70'er byggeri, som derfor også har en lavere pris. Samtidig påvirker særligt antal værelser prisen positivt, mens antal toiletter og badeværelser har en stærk negativ påvirkning på prisen. De rumlige- og nabolagsvariablene har overordnet set 56

57 ikke den store betydning, kun skolegennemsnittet påvirker i en mindre grad boligprisen Resultater - Over eller Under 1000 Meter til Stationen Tabel 12: Estimation af Model 3. Dierence-in- dierence ift. over/under 1000 meter til st. Variable Beskrivelse Estimat Std.afvigelse Pr(> t ) (Intercept) 12,9120 0,0227 < 2.2e-16 *** Konstruktionsvariable area Areal 0,0064 0,0001 < 2.2e-16 *** age_1980_1999 Opført mellem ,0605 0,0114 0,0000 *** age_1948_1979 Opført mellem ,2088 0,0086 < 2.2e -16 *** age_1910_1948 Opført mellem ,1468 0,0082 < 2.2e- 16 *** age_1875_1910 Opført mellem ,1237 0,0084 < 2.2 e-16 *** age_1850_1 Opført mellem ,0662 0,0121 0,0000 *** bathrooms Antal badeværelser -0,0304 0,0104 0,0035 ** rooms Antal værelser 0,0611 0,0030 < 2.2e-16 *** oor Etage 0,0119 0,0009 < 2.2e-16 *** B_units_nr Antal boligenheder i ejendommen -0,0003 0,0000 < 2.2e-16 *** toilets Antal toiletter -0,0396 0,0111 0,0003 *** brick bygget af mursten 0,0020 0,0060 0,7412 roof_tile Tegltag 0,0216 0,0036 0,0000 *** roof_cement Cementtag 0,0042 0,0116 0,7162 roof_board Tag med hældning 0,0133 0,0041 0,0013 ** Rumlige- og nabolagsvariable daycare Meter til børnehave/vuggestue 0,0001 0,0000 0,0000 *** sch_grade AfgangsGns. For nærmeste skole 0,0130 0,0025 0, 0000 *** GnsPersoni Gns. indkomst i lokalområdet 0,0000 0,0000 < 2.2e- 16 *** park_dist Afstand til nærmeste park 0,0000 0,0000 0,8605 Fokus variable D_1000 Over/under 1000 m. -0,0198 0,0055 0,0004 *** D_1000:metro_efter Interaktion -0,0206 0,0057 0,0003 *** metro_efter solgt før/efter metro. åbn. -0,0013 0,0078 0,8707 Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* 57

58 Tabel 13: Estimation af Model 3. Dierence-in- dierence ift. over/under 1000 meter til st. Variable Beskrivelse Estimat Std.afvigelse Pr(> t ) Stationsdummier - Nærmeste station Norreport_L Nørreport 0,1798 0,0073 < 2.2e-16 *** Kongens_nytorv_L Kongens Nytorv 0,2326 0,0115 < 2.2e-16 *** Christianshavn_L Christianshavn 0,2180 0,0097 < 2.2e-16 *** Lergravsparken_L Lergravsparken -0,0289 0,0071 0,0000 *** Islandsbrygge_L Islandsbrygge 0,1614 0,0097 < 2.2e-16 *** DR_byen_L DR Byen -0,0535 0,0112 0,0000 *** Bella_center_L Bella Center -0,0912 0,0118 0,0000 *** Forum_L Forum 0,0996 0,0078 < 2.2e-16 *** Flintholm_L Flintholm -0,0582 0,0102 0,0000 *** Vanlose_L Vanløse -0,0483 0,0072 0,0000 *** oresund_l Øresund 0,0968 0,0137 0,0000 *** Femoren_L Femøren -0,0652 0,0108 0,0000 *** Amager_Strand_L Amager Strand -0,0171 0,0117 0,1451 Fasanvej_L Fasanvej 0,0381 0,0086 0,0000 *** Frederiksberg_L Frederiksberg -0,0190 0,0080 0,0173 * Sundby_L Sundby -0,0241 0,0272 0,3749 Lindevangen_L Lindevangen -0,0238 0,0082 0,0039 ** Årsdummier < 2.2e-16 *** R 2 0,7469 Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* I model 3 antages, at i perioden før metrostationen blev bygget, var alle boliger upåvirket af metrostationen. Efter at stationen er blevet bygget, er boliger, der ligger mindre end 1000 meter påvirket, mens de, der ligger mere end 1000 meter fra stationen, ikke er påvirket af metrostationens opførsel. På baggrund af model 3 undersøges, hvad gevinsten forbundet med metrostationens åbning har været for boliger, der ligger under 1000 meter fra stationen (dummy er lig 0) i forhold til de boliger, der ligger over 1000 meter fra stationen(dummy lig 1). Findes eekten til at være nul, betyder det, at metrostationen ikke har påvirket boligerne, der ligger tæt på. Den estimerede eekt for boligerne, der ligger over 1000 meter fra en metrostationer er på 2, 1 %. Dette betyder, at alle boliger, der ligger inden for de 1000 meter af metrostation sammenlagt vil have oplevet en prisstigning på 2, 1 procent, efter stationen er åbnet i forhold til de boliger, der ligger mere end 1000 meter fra en metrostation. De resterende variables påvirkning på prisen ændres ikke markant i forhold til model 2. 58

59 10.4 Resultater - Overjordiske Stationer Da der i de tre tidligere modeller ser ud til at være en forskel på områdedymmierne, analyseres nærmer, hvad priseekten er for boliger, der ligger tæt på en overjordisk station. Det kan forventes, at der bl.a. er større støjgener og eventuelt også virtuelle ændringer i forhold til stationerne, der ligger over jorden, faktorer der kan have forstyrret resultaterne i model 2. Estimationen udføres som ved model 2, med den undtagelse, at datasættet kun er på stationer over jorden, da det er her man må forvente, at der er den klareste tendens til at se en priseekt, der er lavere meget tæt på og derefter stigende med en faldende tendens, når man kommer lidt længere væk fra stationen. Samtidig skal det dog også nævnes, at de stationer, der ligger over jorden, alle er stationer, der liggere længere væk fra centrum, så analysen kan lige såvel ses som en analyse af boliger, der er placeret længere væk fra centrum. R 2 -værdien på 70, 06 procent, dvs. 70, 06 procent af variationen i datasættet er beskrevet. Dette er en smule lavere end ved de to foregående analyser, hvor omkring 75 procent af variationen var beskrevet. Resultatet af modelkørslen er præsenteret i bilag 4. I forhold til fortegn og signikansniveau er der ikke store forskelle fra de tidligere modeller, dog ændres nogle få variables fortegn. Etagehøjde har fået en negativ betydning, hvilket betyder, at des lavere etage des større priseekt på boligen. Dette er omvendt sammenhæng af, hvad markedet afspejler. Afstanden til park er derimod blevet signikant, og det ndes, at det påvirker i en positiv grad, dog er estimatet tæt på nul. Modellen belyser en interessant sammenhæng mellem afstanden til metrostationen. For de boliger, der ligger meget tæt på, har der været en meget stor prisstigning efter, at stationen er åbnet. Dette kan eventuelt skyldes, at boligens priser har været tvunget ned, mens byggeriet stod på, og således oplever de en stor prisstigning, når byggepladsen pakkes sammen, og stationen åbner. Dette kan være en forklaring på den store ændring og stemmer overens med, hvad der på nuværende tidspunkt observeres for de boliger, der ligger i nærheden af en byggeplads i forbindelse med udvidelsen af metrosystemet. Efter 200 meter ses en tendens til faldende priseekt, hvilket stemmer meget godt overens med teorien og de forventede resultat. Analysen af priseekten er vist i tabel 14. Tabel 14: Priseekt fordelt på meterintervaller model , 8 % *** 4, 5 % ** 4, 6% *** 0, 4 % 2, 6 % * Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* 59

60 10.5 Robusthedsanalyse - Den Hedoniske Prismodel Efter at have estimeret re modeller, for at kunne vericere forskellige aspekter af metrostationernes eekt på boligprisen, udføres robusthedstest for at identicere om modellen rammer tæt på de sande parameterestimater. Som den første test beregnes model 2 med kvartalsdummyer for at se, om dette har en signikant betydning for estimaterne. Inkludering af kvartalsdummyer i modellen ændrer ikke på fortegn eller det overordnede signikansniveau for de estimerede værdier. Da spredning på boligpriserne er høj, og der er få observationer, der ligger i yderpunkterne af fordelingen, benyttes censorering per år på datasættet. Her tages alt der er mindre end den 5% percentil og højere end 95% percentil og sættes til henholdsvis 5% percentilen og 95% percentilen for hvert enkelte år. Ved brug af censorering af datasættet, mindskes variationen i datasættet. Censoreringen medfører til gengæld, at parameterestimaterne bliver mere robuste, biasen(skævheden) forbedres. Censoreringen ændrer ikke på fortegnene for model 2, til gengæld forbedres eekten på boligprisen fordelt for meterintervaller, resultatet er vist i tabel 15. Modellen viser en faldende priseekttendens, som boligen er placeret længere fra stationen. Resultaterne af model 2 med censorering er vist i bilag 5 Tabel 15: Priseekt fordelt på meterintervaller model 2 under cencorering , 6 % *** 2, 2 % *** 2, 9% *** 2, 6 % *** 1, 7 % *** Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* 10.6 Opsamling - Den Hedoniske Prismodel Det oprindelige formål med analysen var, at belyse sammenhæng mellem afstand til metrostationen og prisen på boligen. På baggrund af den hedoniske analyse udført med en simpel OLS-regression ses, at den positive eekt dominerer, da der observeres en positiv aftagende eekt, når boligen er placeret længere væk fra metrostationen. I gurerne nedenfor er vist sammenhængen mellem pris og afstand før og efter metrostations åbning. Mønsteret i de to gurer er ens, med en lidt bløder aftagende eekt frem til 300 meter, hvorefter den aftagende eekt er kraftigere. Samtidig ses, at efter metrostationsåbningen er kurven stejlere. Det vil sige, at den aftagende eekt er kraftigere for hver enkelt meter. En foklaring på, hvorfor den aftagende tendens allerede har været observeret før 60

61 stationerne åbnede, er, at ere steder har der været anlagt stationer i forvejen f.eks. omkring Vanløse og Nørreport. Samtidig er der for udvalgte stationer meget få observationer for de boliger, der ligger tættest på stationerne. I analysen er der også inddraget få rumlige- og nabolags variable, hvilket kan påvirke estimaterne, for yderligere uddybning se diskutionsafsnittet. Figur 19: Prissammenhæng før metrostationens åbning Figur 20: Prissammenhæng efter metrostationens åbning beregningen af gurerne ovenfor er beskrevet nærmere i bilag 6 61

62 10.7 Resultater - Den Additive Model I dette afsnit præsenteres resultaterne af estimationen af den additive model. Den additive model er estimeret med og uden længde- og breddegrader. Som beskrevet i metodeafsnittet, er den additive model blot en udvidelse af den hedoniske model. Meterintervallerne i den hedoniske model er erstattet med et ikke-parametrisk led for afstanden til metrostationerne, som skaber en større grad af eksibilitet i beregningen. Som ved den hedoniske model analyseres den additive model også ved hjælp af en modelkontrol. Figur 21: Modelkontrol - Den Additive model Figurerne overfor beskriver tydeligt problemer med hetroskedasticitet og et klart brud på normalitetsantagelsen. Der ndes ikke en simpel måde at korrigere for hetroskedasticiteten i den additive model. Da den additive model, ved at inddrage nogle få ikke-parametriske led, blot er en 62

63 udvidelse af den simple hedoniske model estimeret i forrige afsnit, sammenholdes den additive models estimater med den simple hedoniske model, hvor der er korrigeret for hetroskedasticitet. Da det primært er relationen omkring afstand og prisen, der er relevant, og det viser sig, at de parametriske led ikke ændres markant, beskriver teksten i dette afsnit forholdet omkring afstandesparameteren, og hvordan denne ændres i forhold til den simple hedoniske model, når den tilføjes en højere grad af eksibilitet i form af en ikke-parametrisk form. De parametriske led, og funktionen for årsvariabel, er beskrevet i bilag 7 og 8. Der ndes ere muligheder for at estimere smoothing-delen af den additive model. I specialet er valgt pakken mgcv fra programmet R. Til at estimere modellen benyttes funktionen GAM, hvor der i stedet for at benytte GAM's standard smoothing funktion, som er thin plate splines, er benyttet en- dimensionelle cubic smoothing splines. Til estimationen af en smoother skal vælges antallet af Knots dvs. forbindelsespunkter. Alt efter antallet af punkter vil graden af udglatning variere. GAM har sin egen funktion til at beregne det mest optimale antal af forbindelsespunkter. Til beregning benyttes et værktøj kaldet Cross- validation, som automatisk vælger mængden af udglatning for den pågældende smoother. Resultaterne der præsenterers her, benytter sig af den indkorporerede funktion. Som robusthedskontrol sættes manuelt antallet af forbindelsespunkter for at identicere, om det påvirker resultaterne. I analysen ses kun nærmere på alle boliger, der er placeret 1000 meter eller mindre fra en metrostation. Alle observationer over 1000 har i datasættet fået værdien 0. Derefter er de resterende værdier fastsat ud fra, at de boliger, der ligger lige oven i stationen, har værdien 1000, og derefter faldende afstand i guren, som man rykker længere væk fra stationen. 63

64 Figur 22: Sammenhæng før/efter metrostationens åbning. Uden længde-og breddegrad Bemærk, at en afstand på 1000 betyder, at man står lige oven i metrostationen Tabel 16: Estimation af smoothingfunktioner før/efter metrostationens åbning. Uden længde- og breddegrad Variable - funktion Frihedsgrader Ref.df F-test p-værdi Sig. s(zero_1000):period e-12 *** s(zero_1000):period < 2e-16 *** s(aar) < 2e-16 *** Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* R 2 værdien for den estimerede model er på 74, 7 procent, hvilket betyder, at 74, 7 procent af datavariationen er beskrevet i modellen. Frihedsgraderne beskriver mængden af udglatning, dermed er kurven for periode 1 udglattet en smule mere end for periode 2. Grask beskriver funktionens( ) forholdet mellem afstanden til metrostationen og prisen på boligerne, når alle andre variable holdes konstante. Således kan der ikke siges 64

65 noget om den præcise eekt på prisen, men guren giver en klar indikation af sammenhængen mellem boligpriseekten og afstanden til stationen, som afstanden mellem bolig og stationen øges. De sorte lodrette streger, som i guren hænger sammen, indikerer, hvor der er observationer. Det er dermed muligt at se, at der er meget få eller ingen observationer for den korteste afstand til metroen. Dette hænger sammen med at den korteste observerede afstand i datasættet er omkring 42 meter. På guren fremgår også et standardsafvigelsesinterval. Det er beregnet som plus/minus to gange standardafvigelsen, således vil et bredt interval indikere beregning på få eller ingen observationer, mens omvendt ved et lille spænd. (se bilag 9 for uddybning af standardafvigelsesberegningen.) Husk når der ses på guren, at 1000 indikerer, at boligen er placeret lige oven i metroen, og som afstanden i guren mindskes, er boligen placeret længere væk. For periode 1 ses at indenfor en afstand på 300 meter fra metrostationen, vil eekten være, at boligens pris stiger, som afstanden mellem station og bolig øges. Da den observerede periode går fra 2000 og frem til åbningen af de første stationer i 2002 og 2003, vil meget af den negative eekt højest sandsynlig skyldes støj og støv fra byggepladsen, som har været etableret på daværende tidspunkt. Samtidig skal det bemærkes, at der i periode 1 kun er medtaget 2 år, da datasættet ikke indeholder data længere tilbage end til 2000, og de første stationer åbnede i Efter de 300 meter til metrostationen er sammenhængen faldende med tendens til udglatning. I periode 2 ses den samme eekt som i periode 1, dog er stigningen og faldet ikke så markant. Kurven i periode 2 svinger lidt mere. På funktionen ses også, at den ikke er udglattet i samme grad. Datagrundlaget for periode 2 er også langt større, så der er ere observationer, som kurven skal tilpasses, hvilket kan give ere krumninger på kurven. Samlet viser kurverne den i specialet antagede hypotese om, at der er knyttet nogle negative eksternaliteter til området omkring metrostationen, som kan medføre lavere priser i området lige omkring en metrostation. 65

66 Figur 23: Sammenhæng før/efter metrostationens åbning. Med længde- og breddegrad Bemærk, at en afstand på 1000 betyder, at man står lige oven i metrostationen. I estimationen (se tabel 17 ), der indrager længde- og breddegrad, ses, at for periode 2 er der kun 3, 489 frihedsgrader. Større værdi af frihedsgraderne indikerer mindre smoothing. Flere intervaller, der estimeres på, giver ere svingninger. Denne lave værdi af frihedsgrader indikerer stor grad af udglatning, højest sandsynligt med en stor grad af overtting, hvilket kan sløre estimaterne. R 2 værdien er på 75, 2 procent, hvilket kun er lidt højere end i tilfældet for den foregående model. Ved at inddrage længde- og breddegrader forventes der en forbedring af estimaterne. Dette skyldes bl.a., at placeringen af boligen, som er helt central, før har ligget i fejlleddet, men nu inddrages, og derfor kan mindske noget af den eksisterende omitted varians bias. Af estimationen ser det dog ikke ud til, at resultaterne forbedres. Dette kan evt. skyldes, at der eksisterere multikollinaritet mellem afstanden og placeringen. Således er der et trade- o mellem mindskelse af omitted varians bias og øget multikollinaritet. 66

67 Tabel 17: Estimation af smoothingfunktioner før/efter metrostationens åbning. Med længde-og breddegrad Variable - funktion Frihedsgrader Ref.df F-test p-værdi Sig. s(zero_1000):period <2e-16 *** s(zero_1000):period e-05 *** s(x) <2e-16 *** s(y) <2e-16 *** s(aar) <2e-16 *** Note: Signikantsniveauer: 0,01***, 0,05** og 0,1* Grask kan de ovenstående diagrammer inddeles i tre dele. Tæt på stationen, som er mellem 0(afstand = 1000)og 300 (afstand = 700) meter, midten 300 ( afstand = 7000) og 600 (afstand = 400) meter og langt væk 600 (afstand = 400)og 1000 (afstand = 0) meter. Opdelinger gør sig gældende i begge perioder. For de boliger, der ligger tæt på metrostationen, er der en tendens til stigende priser, som eekt af, at afstanden mellem boligen og stationen øges. I periode 1 er forholdet langt større end i periode 2. For boliger, der er placeret i midterdelen af diagrammerne, er tendensen faldende, som afstanden mellem boligen og stationen øges. For boligerne der er placeret langt væk fra en metrostationen, skulle eekten nærme sig nul, således at metrostationen ikke påvirker boligens pris. Dette var tilfældet, når længde- og breddegrader ikke var inkluderet. Når de inkluderes ser tendensen derimod ud til at være stigende. Datasættet eller modellen giver ikke nogen klar forklaring på denne udvikling, og små ændringer i modellen påvirker heller ikke resultatet. En mulig forklaring kan evt. kædes sammen med muligheden for overtting, og evt. tilpasning til nogle få observationer. Samtidig kan der også være andre rumlige faktorer, der ikke er medtaget i modellen, som er skyld i udviklingen. For de parametriske estimater, er den eneste ændring, at nogle af de overjordiske stationer, har fået positivt fortegn. 67

68 Figur 24: Grask illustration af overade udspændt mellem længde- og breddegrad 10.8 Robusthedsanalyse - Den Additive Model Som kontrol estimeres den additive model på manuelt fastsatte værdier af smoothing. Det er værdierne for forbindelsespunkter, der sættes til 20, 40, 60, og 100. I alle estimationerne ses umiddelbart ikke nogen ændringer i de parametriske værdier. For smoothingfunktionerne ændres antallet af forbindelsespunkter og dermed frihedsgrader, men signikansniveauet påvirkes ikke. Smoothing funktionen ændres, grundet mængden af udglatning der sker, når værdierne ændres. Ved højere værdi bliver kurven mindre udglattet, og det er svært at spore en klar sammenhæng. Af gurene er det tydeligt at se, at for periode 2 er der langt ere datapunkter end for periode 1. Når mængden af forbindelsespunkter, og dermed intervaller øges, bliver det nærmest umuligt at se et mønster i kurven. 68

Vis mere