Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater og brugbarhed. SPERA Grønnegade 93 8000 Århus C www.spera.dk CVR 33 69 13 35

Præsentation Data til denne analyse er bygget på DANVA s rapport: Vand i tal 2012. Ydermere er der indhentet data fra selskabernes hjemmesider for at vurdere, om disse selskaber er et datterselskab og indgår i en overliggende selskabsstruktur, hvor denne struktur har ét eller flere forsyningsområder. De endelige variable, som er blevet brugt, er følgende: Driftsomkostninger (kr./solgt m ): Denne variabel er baseret på Vand i tal 2012. Ledningsnet (km.): Denne variabel er baseret på Vand i tal 2012. Vand/spild: Er en dummy-variabel, som antager værdien én, hvis et vilkårligt selskab udover at have spildevand som forsyningsområde også har vand. Hvis variablen antager værdien nul, vil selskabet ikke have vand som forsyningsart. Multi: Er en dummy-variabel, som antager værdien en, hvis et tilfældigt selskab har andre forsyningsarter end spildvand og vand. Dette kunne f.eks. være renovation. Hvis dummy variablen antager værdien nul, har selskabet ingen af disse forsyningsarter. Dummyvariablene vedr. forsyningsarter (Vand/spild og Multi) er konstrueret ud fra selskabernes hjemmesider og information omkring selskabernes engagement i de forskellige forsyningsarter. Det bemærkes i forhold til driftsomkostninger, at disse forudsættes korrekt afgrænset og fordelt til spildevand, såfremt der indgår andre selskaber eller forsyningsarter i selskabskonstruktionen. Det bemærkes også, at der kan være en mindre usikkerhed knyttet til, om alle omkostninger fordeles korrekt. Det er dog vurderingen, at de primære usikkerheder ofte knytter sig til opgørelsen af drift henholdsvis anlæg, hvor anlæg er holdt helt ude af denne analyse. Bearbejdning og observationer I Vand i tal 2012 er der data vedrørende 68 spildevandsselskaber. Når der bliver justeret for nulobservationer, er der 55 selskaber tilbage i stikprøven. En nulobservation skal forstås på den måde, at selskabet enten ingen kloakledninger har, eller at der er tomme observationer i de variable, som faktiske driftsomkostninger er udregnet fra. Faktiske driftsomkostninger er udregnet som summen af driftsomkostninger vedrørende transport, rensning og kundehåndtering. Følgende selskaber er derfor fjernet: Afløb Ballerup A/S, Brøndby Forsyning A/S, Frederiksberg Kloak A/S, Glostrup Spildevand A/S, KE Afløb A/S, Lyngby-Tårbæk Spildevand A/S, Nordvand (Gladsaxe Spildevand & Gentofte Spildevand), Vallensbæk Forsyning, Lynettefælleskabet I/S, Møllåværket Renseanlæg Lundtofte, Måløv Rens A/S, Spildevandscenter Avedøre I/S. 2

Regressionsmodellen Ud over de brugte variable findes i blandt DANVA s data mange andre variable, som er blevet forsøgt brugt for at forbedre modellen. Disse har dog enten forværret modellen eller har vist sig ikke at være signifikante. Den endelige regressionsmodel er præsenteret i (1) = + + / + + (1) Det valgte signifikansniveau er sat til 10% for at evaluere de enkelte t-statistikker. er en konstant. er signifikant og negativ. Denne variabel omhandler størrelsen på et selskab. Jo flere kilometer kloakledning et givent selskab har, des færre forventelige faktiske driftsomkostninger vil et selskab have. Det indikerer, at der er findes stordriftsfordele i spildevandsbranchen. er insignifikant. -koefficienten er negativ. Det indikerer, at kombinationen af spildevand og vand vil medføre lavere driftsomkostninger. Det bemærkes dog, at er imidlertid ikke statistisk signifikant. Det kan derfor ikke med statistisk sikkerhed fastslås, at vand som forsyningsart udover spildevand - medfører lavere driftsomkostninger. er på grænsen mellem at være statistisk signifikant og ikke-signifikant 1. Den positive koefficient viser, at selskaber med flere forsyningsarter udover spildevand og vand har højere driftsomkostninger. I nedenstående tabel er outputtet fra regressionsmodellen præsenteret. Tabel 1: Output regressionsanalyse Variabel C Ledningsnet Vand/spild Multi Koefficient 16-0,0019-1,67 1,43 T-statistik 12,58-2,19 1,31 1,67 P-værdi 0 0,03 0,2 0,10 Forklaringsgraden i modellen er på 16,33% (R^2). Dermed kan modellen forklare 16,33% af variationen i de faktiske driftsomkostninger for selskaberne. Hvis andre Forklaringsgraden antager en værdi mellem nul og 100 %. Hvis modellen fik tilføjet flere relevante variable ville forklaringsgraden blive højere. Hvis værdien er 100 % passer den lineære sammenhæng perfekt, og dermed forklarer de uafhængige variable al variation i den afhængige variabel. 1 er signifikant ved et signifikansniveau på 10,2 pct. Da signifikansniveauet kun er 0,2 % point over det tilladte, er variablen inkluderet i analysen, da den anses for at være yderst relevant. 3

Da forklaringsgraden er på 16,33% betyder det dermed at 83,67% af variationen i modellen skal forklares af andre faktorer. Det vil blandt andet indikere, at der kan være et potentiale for flere selskaber i analysen ud fra den fastlagte effektivitetsmodel. Forudsætninger For at validere modellen er følgende forudsætninger blevet testet: F1. Fejlledet har en forventet værdi lig med 0 F2. Homoskedasticitet F3. Ingen multikollinearitet F4. Normalfordelte fejlled F1. Fejlledet har en forventet værdi lig med 0 Dette undersøges ved hjælp af en RESET-TEST. Den undersøger om den lineære sammenhæng som modellen bygger på er korrekt. Dvs. om modellen er korrekt specificeret eller ej. Nedenstående er de enkelte hypoteser præsenteret. H 0 : Modellen er korrekt specificeret H 1 : modellen er forkert specificeret Reset-testen er baseret på en hjælpe-regression, hvor der testes på den afhængige variabel kvadreret. I testen på modellen fremkommer følgende resultat, se tabel 2. Tabel 2: Output RESET- test Værdi P-værdi T-statistik 0,08 0,94 Som det ses på p-værdien er variablen ikke signifikant da værdien på 0,94 er på langt over 0,05 som er grænsen for hvornår, en variabel er signifikant eller ej. Dvs. at vi med 95 % sandsynlighed kan sige at modellen er korrekt specificeret. Dermed er den lineære sammenhæng, som modellen bygger på, korrekt. F2. Homoskedasticitet Udover at teste for korrekt specifikation er modellen blevet testet for homoskedasticitet. Dette er gjort for at validere t-statistikerne. Hvis t-statistikerne ikke er valide, ville det skabe stor usikkerhed om variabel 4

koefficienternes brugbarhed i modellen. Der er lavet en såkaldt Breusch-Pagan test for heteroskedasticitet. Nedenstående er hypoteserne præsenteret. H 0 : Homoskedasticitet (konstant varians i residualet) H 1 : Heteroskedasticitet (ikke-konstant varians) Den p-værdi, der fremkommer ved testen, er på 0,35 som er større end grænseværdien på 0,05. Det betyder, at nul hypotesen ikke kan afvises. Der er dermed 95 % sandsynlighed for at residualerne har konstant varians, og at de estimerede t-statistikker er valide. F3. Ingen multikollinearitet Hvis der er multikollinearitet i modellen, er de uafhængige variable stærkt korrelerede. Dette betyder at man ikke bruge linear regression til at estimere modellen, da estimationen af regressionskoefficienterne bliver usikre. Tabel 3: Korrelations matrice VAND/SPILD MULTI KL VAND/SPILD 1,00 0,42 0,10 MULTI 0,42 1,00-0,12 KL 0,10-0,12 1,00 Multikollinearitet mellem forskellige individuelle koefficienter ville blive repræsenteret med værdien 1 i tabel 3. Da den højeste korrelationskoefficient har værdien 0,42 mellem MULTI og VAND/SPILD kan det konstateres at forudsætningen om ingen multikollinearitet er opfyldt. F4. Normalfordelte fejlled Som det fremgår af nedenstående figur, er fejlleddene generelt normalfordelte. Dette betyder at estimationen af både t-statistikke og koefficienter er korrekt. 5

Figur 1: Normalfordeling af residualer Sammenfatning De fire tests viser at regressionsmodellen både er korrekt specificeret, og at koefficienten for hver enkel variabel er brugbar. Dermed er er modellen ikke udsat for forudsætningsbrud. Det kan dermed forudsættes, at den opstillede effektivitetsmodel og regressionsanalysen beskriver sammenhængen mellem de enkelte variable korrekt. Analysen viser at jo større et ledningsnet, des mindre vil dets driftsomkostninger være. Der er en indikation på at spildevandsselskaber som også har vand som forsyningsarter, har lavere driftsomkostninger. Selskaber med forsyningsarter ud over spildevand og vand har større omkostninger. Regressionsmodellens forklaringsgrad er på 16,33%. Det indikerer, at der for flere selskaber kan være potentialer for effektiviseringer, nemlig de ikke forklarede omkostninger. Flere variable vil øge modellens forklaringskraft og imidlertid også svække den statistiske sikkerhed i effektivitetsmodellen. Det ændrer dog ikke på, at andre faktorer en ledningsnettets længde har betydning for forskelle mellem selskabernes omkostninger, og de estimerede potentialer skal derfor primært ses som indikationer på potentialer. 6