Mikrodata til forskning og analyse potentiale og problemer



Relaterede dokumenter
Kombination af surveys og registre: Muligheder og begrænsninger. Charlotte Nielsen Forskningsservice

Centrale registre relateret til Sundhed i Danmarks Statistik. Jørn K. Petersen Forskningsservice

Adgang til Mikrodata i Danmarks Statistik. Jørn K. Petersen Forskningsservice

Adgang til mikrodata i Danmarks Statistik. Charlotte Leolnar Reif Forskningsservice

Kvalitetsdeklaration: Iværksætterdatabasen - Danmarks Statistik. Seneste opdatering. 08. maj Indholdsfortegnelse

Lange tidsserier af høj kvalitet

Kombination af surveys og registre: Muligheder og begrænsninger. Charlotte Nielsen og Ivan Thaulow, Forskningsservice

Retningslinjer for hjemsendelse af analyseresultater fra Danmarks Statistiks forskerordning

Arbejdsmarkedstilknytning blandt vestlige og ikke-vestlige indvandrere og efterkommere

Introduktion til Danmarks Statistiks Forskningsservice med fokus på datasikkerhed. Leif Jensen Forskningsservice

Adgang til mikrodata i Danmarks Statistik - Datasikkerhed. Forskningsservice

Databrud i RAS Danmarks Statistik

Højkvalitetsdata: Dokumentation, videndeling mv.

Supplerende analyser om arbejdsmarkedstilknytning

Hjemmeservice - En analyse af de beskæftigede

Dokumentation af serviceopgave

Knap unge hverken i job eller uddannelse i mere end 6 måneder

Demografiske udfordringer frem til 2040

Unge uden uddannelse går en usikker fremtid i møde

Integrationen af indvandrere på arbejdsmarkedet sat flere år tilbage

Den samlede model til estimation af lønpræmien er da givet ved:


Statistik til kommunal planlægning. Århus den 20. september 2012

Statistiske informationer

Tilbagetrækningsalder fra arbejdsmarkedet

Erhvervsstatistisk Datavarehus - indhold og forskningspotentiale

Fastlæggelse af indvandringsomfanget i Befolkningsfremskrivning 2016

Et dyrt loft Udbud og efterspørgsel efter ingeniører og konsekvenser af et loft over optaget af internationale studerende

Statistiske informationer

Stort beskæftigelsesfald i ghettoområder under krisen

Ungdomsuddannelse, privatansættelse og løn

ufaglærte unge er hægtet af uddannelsesvognen

Bryder børnene den sociale arv og får en ungdomsuddannelse?

Iværksættere i Business Region Aarhus

Mange unge mænd mistede deres job under krisen

De højtuddannede er kommet bedst igennem krisen

Beskæftigelsen blandt unge faldet med på 2 år

Statistikdokumentation for Generel firmastatistik 2014

Retningslinjer for hjemsendelse af analyseresultater fra Danmarks Statistiks forskerordning

Statistikdokumentation for Flytninger til og fra udlandet 2013

BEREGNING AF SOCIAL VÆRDI. hvilke resultater kan sammenlignes?

1. Introduktion Metode Udviklingen i antal beskæftigede med journalistuddannelse... 3

OPENs retningslinjer for hjemsendelse af analyseresultater fra Sundhedsdatastyrelsens forskermaskine & Danmarks Statistiks forskerordning

Nyt overblik over udenlandsk arbejdskraft i Danmark

Statistikdokumentation for Flytninger til og fra udlandet 2015

Effekt og Analyse Analyseteam

Større dødelighed blandt efterlønsmodtagere

Nøgletalsrapport for

Kombination af surveys og registre: Muligheder og begrænsninger. Leif Jensen Forskningsservice

Statistiske informationer

Hovedresultater fra registeranalyse. Fra uddannelse til første job med handicap. April Gennemført af: Pluss Leadership VIA University College

unge er hverken i job eller i gang med uddannelse

Hjemsendelse af analyseresultater -

Proveniens. Datadokumentation MGR-lite

af Forskningschef Mikkel Baadsgaard 12. december 2011

Velfærdspolitisk Analyse

Retningslinjer for hjemsendelse af analyseresultater fra Danmarks Statistiks forskerordning

Singler i København KØBENHAVNS KOMMUNE

Konjunktur og Arbejdsmarked

Indholdsfortegnelse. Opdateringer af registre i Forskningsservice FRA FORSKNINGSSERVICE

SAS formater i Danmarks Statistik

Faglærte skaber de mest levedygtige virksomheder i Danmark

Statistiske informationer

BEFOLKNINGENS UDDANNELSESMÆSSIGE BAGGRUND I ÅRHUS

ADGANG TIL MIKRODATA TABELLER, DATAKONFIDENTIALITET, MM. JENS CLAUSEN / IFRO / 16. NOV 2017

Kortlægning af ingeniørlederne

Faglærte opretter flest virksomheder og skaber flest job

Indkomstforskelle og vækst

Tabelsæt 1 Datasæt indeholder oplysninger om flytninger i årene

Analyse. Børn fra muslimske friskoler hvordan klarer de sig? 20. september 2016

Ph.d. Ph.d.-uddannelsen i tal udviklingen frem til og med 2013

Befolkning. Familier Indledning. 2. Definition og begreber

Mange unge ledige fra 90 erne er i dag på offentlig forsørgelse

Faktaark: Iværksættere og jobvækst

Hver 10. ung er hverken i job eller under uddannelse

Årgang 1988: Voksen- og efteruddannelse

Bygge- og anlægsbranchen i område Fyn

Prognose for mangel på ingeniører og scient.er. Fremskrivning af udbud og efterspørgsel efter ingeniører og scient.

Statistiske informationer

Hver tredje på kontanthjælp har haft en børne- og ungesag

Statistik til kommunal planlægning. 1.a Nøgletal på kommuner og nøgletal på boligområder v/heidi Lucas Rasmussen og Anita Saaby Rasmussen

Er der tegn på skjult ledighed?

McKinsey-rapport: A Future that Works: the Impact of Automation in Denmark Maj 2017

Elevernes herkomst i grundskolen 2008/2009

De ældres boligforhold 2018

Statistiske informationer

Teknisk dokumentation af data til lønanalyser

Beskæftigelsesindikator

Kvartalsstatistik nr

Afsnit 1 gør status for udvalgte resultatmål pr. Side 2. Afsnit 2 følger udvikling i beskæftigelse, Afsnit 3 præsenterer beskrivende statistik for

Udviklingen i den etniske segregation i Danmark siden 1985 årsager og konsekvenser. Hans Skifter Andersen Adjungeret professor, SBi

Effekter af studiejob, udveksling og projektorienterede forløb

30 pct. af jobbene på arbejdsmarkedet går til studerende

Kvantitative evidensbaserede metoder, hvordan?

N o t a t årige er i mindre grad i beskæftigelse end før den økonomiske krise

Vedrørende: Elevtal pr. 30. september 2011 (skoleåret 2011/2012) Skrevet af: Line Steinmejer Nikolajsen og Mathilde Ledet Molsgaard

Nærværende rapport er en samlet fremstilling af de delnotater, der danner baggrund for den endelige rapport Grønlænderes sociale vilkår på Fyn.

Seks ud af ti i stabil beskæftigelse

Nytilkommet arbejdskraft er koncentreret hos 1 pct. af virksomhederne

Ydelsesstatus over tid for FOA-medlemmer

Transkript:

Danmarks Statistik Forskningsservice 2. august 2004 Mikrodata til forskning og analyse potentiale og problemer Leif Husted, Amterne og Kommunernes Forskningsinstitut Flemming Petersson, Damarks Statistik Jørn Korsbø Petersen, Danmarks Statistik Ole Schnor, Danmarks Statistik 1. Datapotentialet og den eksterne forskerplaceringsordning 2. Personer og familier 3. Beskæftigede, arbejdssteder og firmaer 4. Efterspørgsel efter data til forløbsanalyser 5. Dokumentation 6. Analyser af adfærd i kontinuer tid

1. Datapotentialet og den eksterne forskerplaceringsordning Det er Danmarks Statistiks vision at være blandt de førende i verden, når det gælder den forskningsmæssige udnyttelse af mikrodata, og danske forskere har i dag en unik mulighed for at inddrage Danmarks Statistiks mikrodata i deres forskning. Der er flere årsager til, at visionen synes at være en realitet her i 2004. Remote acces er en stor fordel Rammebevilling 2002-2005 Vækst i antal forskere og projekter Danmarks Statistiks Styrelse tog i december 2002 den beslutning at forskerne kan få remote acces til at foretage analyser på mikrodata. Indtil da var der tale om en on-site ordning, hvor forskerne fysisk skulle befinde sig i Danmarks Statistik, når de skulle bruge vores mikrodata. Ordningen med remote acces betyder, at forskerne nu kan blive siddende i deres eget forskningsmiljø. Det er selvsagt en væsentlig tidsmæssig besparelse for den enkelte forsker. Arbejdet med Danmarks Statistiks mikrodata er dermed blevet en helt naturlig del af mange forskeres dagligdag. Adgang til systemet sker efter en autorisation af den enkelte forskningsinstitution og en godkendelse af det enkelte forskningsprojekt. For regler omkring autorisationer og forhold vedrørende sikkerheden ved remote access henvises til From on-site to remote data access the revolution of the danish system for access to microdata. (Otto Andersen) En rammebevilling i perioden 2002-2005 fra Ministeriet for Videnskab Teknologi og Udvikling sikrer forskerne billige dataudtræk og gratis edbkørsler. Det betyder, at en lang række forskningsprojekter med mindre budgetter også kan realiseres fx phd. projekter. I Danmarks Statistik er der oprettet en særlig Forskningsserviceenhed hvis opgave er at give forskerne den bedst mulige service. Enheden består af 12 personer inkl. 2 personer, der er placeret i vores Århus filial. På den baggrund er antallet af forskere og projekter øget. I 2002 var der i alt 177 aktive forskere og dette antal blev øget til 235 i 2003. Tilsvarende var antallet af aktive projekter i 2003 170 mod 114 i 2002. Væksten fortsætter i 2004 og i 2. kvartal var aktiviteten den højeste nogensinde jf. tabel 1.1. Tabel 1.1. Antal aktive projekter og forskere fordelt på kvartaler. År Kvartal Antal aktive projekter Antal aktive forskere 2002 2003 2004 1 60 91 2 66 108 3 79 115 4 85 127 1 107 153 2 106 136 3 107 144 4 122 164 1 120 159 2 131 173 De seneste år er der således gjort meget for at give de bedst mulige tekniske og økonomiske rammer for forskernes arbejde med mikrodata. 2

Registrene er fundamentet Den væsentligste årsag til forskerordningens store succes må dog tilskrives Danmark Statistiks omfattende samling af statistikregistre. Uden dette fundament ville systemet ikke være muligt. Statistikregistrene bygger på administrative registre og er kendetegnet ved at: - data har høj kvalitet - de omfatter ofte hele populationen - de dækker flere år - de kan linkes via et sæt af nøgler I forskningsmæssig sammenhæng er samlingen af registre en guldgruppe af data, der gør det muligt at følge populationer longitudinalt og det med en lang række baggrundsoplysninger. Figur 1.2 Det statistiske informationssystem. Stort potentiale Nøglerne anonymiseres Som skitseret i figur 1.2 så bindes registrene sammen af en række nøgler for personer, familier, boliger, arbejdssteder og firmaer. Mulighederne for at kombinere oplysningerne er næsten uendelige, hvilket kommer til udtryk i de mange forskelligartede forskningsprojekter indenfor økonomi, sociologi, demografi, epidemiologi mv. Ud over statistikregistrene råder FSE også over lægemiddelregistret, hvilket giver enestående muligheder indenfor den lægevidenskabelige forskning. I de projekter der tager afsæt i forskernes egne surveys, har forskerne mulighed for få tilført baggrundsoplysninger fra guldgruppen af data. For alle projekters vedkommende foretager FSE samkøringen af registrene og eventuelle surveydata. FSE sørger for, at nøgler og variable der kan identificere den enkelte observation enten bliver anonymiseret eller slettet inden data stilles til rådighed for forskeren. Klartekster med navne og adresser ol. vil fx blive slettet og personnumre, CVR-numre og adressekoder bliver anonymiseret så de umuligt kan genkendes. 3

Forskningen afslører svagheder og problemer Datapotentialet er stort, men FSE s og forskernes arbejde afslører også nogle af de problemer der opstår, når de mange statistikregistre skal kombineres. I dette papir vil vi bl.a. pege på nogle af disse problemer. I afsnit 2. ses på personstatistikken og afsnit 3. omhandler erhvervsstatistikken. I afsnit 4. peges på nogle af de problemer som opstår ved forløbsanalyser, afsnit 5. understreger vigtigheden af en sammenhængende dokumentation, mens afsnit 6. ser på mulighederne for at analysere adfærd i kontinuer tid. Projekter i personstatistikken 2. Personer og familier Langt størstedelen af forskningsprojekterne anvender oplysninger fra det personstatistiske område, og flertallet af projekter hører under det samfundsvidenskabelige- og sundhedsvidenskabelige område. Projekterne tager normalt udgangspunkt i en afgrænset population, fx alle beboere på plejehjem. Populationen identificeres typisk på baggrund af personregistrene i Danmarks Statistik, men det forekommer også, at populationen modtages fra en forskningsinstitution fx i form af en survey. Populationen samkøres herefter med registerdata, såsom familieoplysninger, indkomster, socioøkonomisk status, uddannelse mv. Eksempel Et eksempel fra det samfundsvidenskabelige område er projektet Hjemløses vej ud af hjemløshed. Formålet med projektet er at undersøge, hvilke former for indsats, som har forbedret situationen for de hjemløse. Det er derfor vigtigt, at h ave oplysninger om de h jemløse både før og efter den konstaterede hjemløshed. Populationen af hjemløse stammer fra surveydata, som forskningsinstitutionen selv har indsamlet. De hjemløse skal i en længere årrække følges mh t. familieforh old og en omfattende række af baggrundsoplysninger, såsom boligforhold, arbejdsmarkedstilknytning, kriminalitet, indkomster og overførsler, bistand til børn & unge, samt helbredsmæssige oplysninger fra 1980 og frem. Den brede vifte af oplysninger er afgørende for at få et samlet billede af de hjemløses situation både før og efter de blev hjemløse. Personnummer Personnummerskift og forskningsprojekter eksempler og omfang Forskernes behov for at kunne følge personer over længere tid stiller særlige krav til identifikationen af de enkelte personer personnummeret. Sikker identifikation af hver person kræver således at personnummeret ikke ændrer sig over tid. Vi antager normalt, at personnummeret er en entydig og stabil nøgle, som følger en person gennem hele livet, men som det ses nedenfor, er der personer, som skifter personnummer op til flere gange i løbet af deres liv. Dette kan i forbindelse med forskningsprojekter give anledning til særlige problemer, når personer skal følges over tid. Danmarks Statistiks dødelighed og erhvervsundersøgelse illustrerer problemet med en ikke entydig identifikation af personerne - dvs. skift i personnummer. I dødelighed- og erhvervsundersøgelse følges en kohorte af personer i 5 år, fx fra 1. januar 1991 til 31. december 1995 med henblik på måling af forskelle i dødeligheden blandt forskellige erhverv. 4

Populationen udtrækkes fra Befolkningsstatistikregistret og omfatter personer i alderen 20 til 64 den 1. januar 1991. Personerne følges herefter i 5- års perioden med hensyn til udvandring og dødsfald. Det er således kun det personnummer personen havde i starten af perioden, der indgår i undersøgelsen. En korrekt registrering af hændelserne kræver at personerne, der indgår i undersøgelsen, ikke skifter personnummer. Skifter en person personnummer i løbet af perioden og herefter dør eller udvandrer, bliver hændelsen registreret på det nye personnummer. Det betyder, at hændelser, som er centrale for undersøgelsen ikke bliver registreret. Figuren nedenfor illustrerer problemet. Figur 2.1. Illustration af skift i personnummer Alder 64 Person 1 PNR 1 PNR 1 PNR 2 Person 2 PNR 2 Person 2 dør under nyt personnummer PNR 3 Person 2 får nyt personnummer PNR 3 20 1991 1995 Periode I figuren følges to personer illustreret ved hver deres livslinie. Person 1 har i undersøgelsen personnummeret PNR 1, mens person 2 i starten af perioden har personnummer PNR 2. Person 1 ses at være i populationen i hele perioden, dvs. at personen hverken dør eller udvandrer. Person 1 har i øvrigt det samme personnummer (PNR 1) i hele perioden. Person 2 skifter derimod personnummer i løbet af perioden, fra PNR 2 til PNR 3 og dør herefter i undersøgelsesperioden. Dødsfaldet registreres under det nye personnummer PNR 3, der ikke er kendt i undersøgelsen. Oplysningen om dødsfaldet går derfor tabt og Person 2 (der i undersøgelsen kun er identificeret ved PNR 2) vil derfor fejlagtigt - i lighed med person 1 se ud til at have været i populationen i hele perioden Problemet med personnummerskift er af helt generel karakter, når en bestemt population skal følges over en længere periode. 5

Ses på befolkningen med bopæl i Danmark i perioden 1980 til 2002, har 1,27 pct. siden 1968 skiftet personnummer en enkelt gang, jf. tabellen nedenfor. Tabel 2.2. Skift i personnummer siden 1968 for personer med bopæl i landet fra 1980 2002 Antal skift i personnummer Personer Procent 0 7.187.615 98,65 1 92.876 1,27 2 4.875 0,07 3 400 0,01 4+ 100 0,00 Note: Tabellen omfatter alle personer, der har skiftet personnummer siden oprettelsen af CPR i 1968. Hvem skifter personnummer? Opgjort pr. 1. januar 2003 har 56.738 personer af de 98.251 personer, der har skiftet personnummer stadig bopæl i Danmark. I tabellen nedenfor er disse personer fordelt på grupperne Dansk, som er personer, hvor mindst en forældre er født i Danmark, samt gruppen indvandrere og efterkommere. Til sammenligning er den samlede befolkning ligeledes fordelt på de samme grupper.. Tabel 2.3. Fordeling på grupperne dansk og indvandrere/efterkommere for personer med skift i personnummer og hele befolkningen med bopæl i landet 1. januar 2003 Dansk-indvandrere/efterkommmere Personer, som har skiftet personnummer Procent Hele befolkningen Procent Dansk 46.586 82,1 4.952.818 92,0 Indvandrere / efterkommere 10.152 17,9 430.689 8.0 Det fremgår af tabellen, at en relativt stor andel af indvandrere/efterkommere skifter personnummer set i forhold til deres samlede andel af befolkningen. Gruppen af indvandrere/efterkommere repræsenterer således 18 pct. af skiftene i personnummer mens de samlet set kun udgør 8 pct. af befolkningen. I tabellen nedenfor er de 10.152 indvandrere/efterkommere med personnummerskift fordelt efter oprindelsesland. Tabellen viser, at der er en overvægt af personer fra mindre udviklede lande, som har skiftet personnummer, set i forhold til deres samlede andel af gruppen af indvandrere/efterkommere. Oprindelseslande Tabel 2.4. Indvandrere/efterkommere med skift i personnummer fordelt på oprindelsesland Indvandrere/efterkommere, som har skiftet personnummer Procent Alle indvandrere/efterkommere Procent Mere udviklede lande 2.816 27,7 182.001 42,3 Mindre udviklede lande 7.223 71,2 246.412 57,2 Uoplyst 113 1,1 2.276 0,5 Hvorfor skifter personer personnummer? Der er flere årsager til personnummerskift, såsom fejlregistreringer og mangel på dokumentation. Fx i forbindelse med indrejse til landet, hvor personen måske ikke har nogle papirer, og derfor bliver registreret med forkert fødselsdato. Registrering af forkert køn fra fødslen forekommer almindeligvis 6

også i forbindelse med fejlindtastning fra hospitalets side. Derudover får personer, som har fået foretaget en kønsskifteoperation, altid tildelt et nyt personnummer. Ændringer af personnummeret sker ofte i forbindelse med henvendelse til kommunen, fx fordi personen søger pension, og derfor skal dokumentere sin rigtige fødselsdato. Det forekommer også, at det rigtige personnummer først bliver påført personen ved dødsfald. Hvordan løses problemet? Problemet med skift i personnummer er løst i Demografisk Database, der indeholder detaljerede oplysninger om befolkningens demografiske hændelser såsom flytninger, vandringer, civilstandsændringer mv. fra 1980 og frem. Da hver person følges meget detaljeret er det afgørende, at alle personer er identificeret unikt over tid. I stedet for at anvende personnummeret, har man derfor valgt at anvende et løbenummer, unikt for hver person, og som ikke ændrer sig over tid. Uanset hvor mange gange personen skifter personnummer, vil den samme person derfor altid bevare det samme løbenummer. 3. Beskæftigede, arbejdssteder og firmaer. Stor efterspørgsel efter erhvervsdata De projekter der ønsker at inddrage erhvervsstatistiske data i analyserne er voksende og ønskerne til data er tit et stykke fra de muligheder, som den nuværende erhvervsstatistik giver. Der vil typisk være et ønske om økonomiske nøgletal for firmaet (fx omsætning, værditilvækst og investeringer), oplysninger om arbejdssteder (fx branche og antal ansatte), oplysninger om de ansatte (fx løn, erhvervserfaring og uddannelse), oplysninger om ejerforhold (fx som del af en koncern) og muligheden for at følge firmaer, arbejdssteder og beskæftigede over tid. Det drejer sig om informationer på følgende niveauer: 1. De beskæftigede (med henvisning til arbejdssted) 2. Arbejdsstederne (med henvisning til firma) 3. Firmaerne (med evt. henvisning til koncern) 4. Koncernerne (med evt. henvisning til udenlandske selskaber) Der forskes bl.a. i de danske iværksættere Som et eksempel kan nævnes den danske forskningsinstitution Centre for Economic and Business Research (CEBR) som i forskningsprojektet Entrepreneurship, Human Capital, and the Labour Market analyserer den danske iværksætterkultur: The entrepreneur is generally believed to play an important role in the modern economy as an engine of growth and as a creator of innovations. Although detailed descriptive studies of entrepreneurs and their activities are already in place at least in the case of Denmark our understanding of the involved issues is still far from perfect. This research project therefore focuses on the causes and consequences of entrepreneurship in Denmark. Til projektet hentes data i en række databaser i Danmarks Statistik, IDA, Regnskabsstatistikken, Firmastatistikken og Iværksætterdatabasen. Personoplysninger om iværksætteren som fx familiemæssig baggrund, 7

uddannelsesmæssig baggrund og erhvervserfaring er centrale for analysen, men også oplysninger om iværksætterens firma og arbejdssteder er helt afgørende for at få et samlet billede. Det er fx arbejdsstedernes geografiske placering, arbejdsstedernes brancher, firmaets økonomiske resultater og ikke mindst firmaets overlevelse i årerne efter etableringen. Til projektet trækkes derfor data fra niveau 1-3. Ingen oplysninger om koncerner IDA holder styr på beskæftigede og arbejdssteder For koncernniveauet findes ingen systematiske registreringer, som kan stilles til rådighed for forskerne. Men det er et område, der er genstand for stor opmærksomhed i EU-regi, så på længere sigt vil det måske være muligt for forskerne af få koncernniveauet med i deres analyser. I det følgende ses nærmere på datapotentialet for niveau 1-3. Den Integrerede Database for Arbejdsmarkedsforskning (IDA) dækker perioden 1980-2002 og indeholder en lang række person- familie- og arbejdsstedsvariable, ca. 300 variable i alt. Databasen er udviklet til forskningsformål og i næsten alle forskningsprojekter inddrages IDA-variable i større eller mindre omfang. Mange af IDA s personvariable hentes i andre af Danmarks Statistiks personregistre. Derimod er det unikt for IDA, at arbejdsstederne og de beskæftigede kan følges fra 1980 og frem og potentialet for den danske arbejdsmarkedsforskning er stort. Til CEBR s projekt er således leveret oplysninger om IDA s arbejdssteder og de beskæftigede i hele perioden i alle år dvs. 1980-2001. Beskæftigelsen på det enkelte arbejdssted er hvert år opgjort ultimo november. Denne sammenhæng findes i den Registerbaserede Arbejdsstyrkestatistik (RAS), mens arbejdsstedernes identitet dannes i selve IDA. Ændringer i arbejdsstedernes identitet beskrives både i forhold til året før (bevaret, oprettet eller udskilt) og fremad til året efter (bevaret, nedlagt eller opsuget). Der er vedtaget et sæt regler for, hvornår et arbejdssted skifter identitet, og her inddrages oplysninger om ejeren, branchen, arbejdsstyrken og adressen. FIDA er nøglen til firmaniveauet Store ændringer i statistik på firmaniveau Når arbejdsstederne skal knyttes til firmaerne sker det via Firma/IDA-nøglen kaldet FIDA. FIDA s kvalitet og tidsmæssige horisont er dog underlagt de begrænsninger, som statistikkerne på firmaniveauet giver. Således dækker FIDA kun perioden 1995-2001. Før 1995 er der ikke nogen muligheder for at knytte firmaer til arbejdsstederne. For at sikre en korrekt nøgle kræves en omfattende fejlsøgning bl.a. med en manuel kontrol af de største firmaer. Fejlsøgningen er nødvendig, fordi flere af de store koncerner har en kompliceret ejerstruktur med mange juridiske og administrative enheder. Således kan beskæftigelsen i IDA være placeret på en enh ed, mens Firmastatistikken har oplysningerne placeret på en anden af koncernens enheder. Det vil være for tidskrævende at foretage kontrol af samtlige enheder i det to statistikker, og FIDA er derfor ikke en 100 pct. korrekt nøgle. I forskningsprojekter skal der tages højde for denne usikkerhed f.eks. ved at udelade de firmaer, hvor der er et misforhold mellem IDA-beskæftigelse og omsætning i firmastatistikken. Hvor grundlaget for personstatistikken er registre hvis sammenhæng har ligget fast stort set siden starten af 1980 erne, så har statistikker på firmaniveauet været under stor forandring gennem 1990 erne. Det var først med indførelsen af det Centrale Virksomhedsregister (CVR) i 1999 at firmaerne (som juridiske enheder) blev registreret med et entydigt 8

nummer. Før 1999 fandtes flere administrative nummersystemer som gjorde en samordning af erhvervsstatistikkens data vanskelig. Regnskabsstatistikken har, som den centrale økonomiske statistik for virksomheder, skiftet opgørelsesmetoder og har kun været delvis dækkende rent branchemæssigt. Opgørelsesmetoden fik et væsentligt kvalitetsløft i 1995, men det var først fra og med 1999 at den forbedrede statistik dækkede alle betydende brancher (bortset fra landbrug og enkelte serviceerhverv). Den gode branchemæssige dækning i Regnskabsstatistikken gav også muligheden for at give Firmastatistikken et tiltrængt kvalitetsløft fra og med 1999. I perioden 1993-1999 er den gamle firmastatistiks regnskabsoplysninger syntetiske på mikroniveau, dvs. at oplysningerne for det enkelte firma er beregnet med udgangspunkt i firmaets omsætning, samt regnskabsrelationer for strata dannet på grundlag af branchen og antal beskæftigede. Endvidere dækker den gamle firmastatistik 1995-1999 kun de momspligtige brancher. Fra og med 1999 dækker den nye firmastatistik samtlige brancher. Databrud giver forskerne problemer Demografi på firmaniveau mangler Nystartede virksomheder er opgjort siden 1990 At både regnskabsstatistik og firmastatistik findes i flere udgaver, begrænser mulighederne for at få konsistente erhvervsdata over en længere årrække. I forskningsmæssig sammenhæng er det ofte et stort problem, at der kun findes solide data for en kort årrække. Til CEBR er der kun leveret data fra den gamle firmastatistik i perioden 1995-1999. Hertil skal lægges, at der ikke er udviklet en metode der kan fastlægge et firmas identitet over tid. I de ovenfor nævnte erhvervsstatistikker er enheden den juridiske enhed dvs. at et firmas fødsel og død helt afhænger af den administrative registrering der sker af CVR-nr i CVR. Hvis et firma fx skifter ejerform/ejer så oprettes et nyt CVR-nr, og firmaet vil optræde som en hhv. nedlagt enhed og en ny enhed i statistikken. I Erhvervsstatistikken arbejdes i disse år med metoderne for erhvervsdemografi, og det vil med tiden give forskerne helt nye muligheder for at følge firmaer over tid. I Iværksætterdatabasen har man dog siden 1990 opgjort antallet af reelt nystartede virksomheder og deres overlevelse, hvilket kommer forskerne til gode. Antal nye virksomheder er årligt et sted mellem 14.000 og 18.000. Det er denne statistik, der har gjort det muligt at afgrænse iværksætterne til CEBR s projekt. 4. Efterspørgsel efter data til forløbsanalyser Forløbsdata på individniveau De problemstillinger som forskere beskæftiger sig med, stiller ofte specielle krav til data. Det gælder ikke mindst fordi forskningen inden for mange felter, søger at analysere individers adfærd, hvilket kræver adgang til data, hvor individer kan følges over tid. Forskernes efterspørgsel efter data, er derfor meget fokuseret på adgang til individoplysninger for en lang sammenhængende tidsperiode. Derfor er forskerne meget afhængige af, at der er kontinuitet i data. Databrud er derfor et stort problem, set ud fra et forskningsmæssigt perspektiv. Nye og bedre opgørelsesmetoder er selvfølgelig velkomne, men i det omfang konsekvensen er at sammenligneligheden over tid mistes, vil sådanne tiltag vække bekymring i forskerkredse. Også forskere er naturligvis interesserede i at kvaliteten af data forbedres, men især h vis Danmarks Statistik i forbindelse med 9

omlægninger af statistikken, også laver ændringerne på historiske tal, således at databrud undgås. Dette var fx tilfældet, da uddannelsesstatistikken blev revideret for et par år siden. 5. Dokumentation Dokumentation letter arbejdet og forebygger fejltolkninger Dokumentation skal også være tilgængelig for historiske data En af de vigtige ting for forskere, er at der er en udførlig dokumentation af de registeroplysninger, de bruger i deres forskning. Dette skyldes blandt andet, at god dokumentation letter forskningsarbejdet, men den vigtigste årsag er, at en god dokumentation er med til at sikre kvaliteten af forskningen, idet risikoen for fejltolkninger mindskes. Ingen er interesserede i at offentliggøre resultater og komme med politikforslag, der bygger på ubrugelige eller misforståede data. Der findes i dag dokumentation af registeroplysningerne i Danmarks Statistik, men dokumentationen kan stadig forbedres set fra et forskerperspektiv. Der er for det første behov for dokumentation af alle de registre, som forskerne bruger, eller i det mindste de mest brugte. Derudover bør dokumentationen være og konsistent, således at variabelnavnene i de datasæt som udleveres til forskerne svarer til de navne, der bruges i dokumentationen. En stor del af dokumentationen er allerede tilgængelig på Danmarks Statistiks internetside, som løbende opdateres og udbygges. Det største problem er imidlertid, at den eksisterende dokumentation fokuserer på de nyeste data, mens den historiske dokumentation af data er mangelfuld. 6. Analyser af adfærd i kontinuer tid Fokus på dynamiske processer Inden for samfundsvidenskaberne har der i de seneste 15-20 år været fokuseret meget på dynamiske processer, hvor eksempelvis individers bevægelser imellem beskæftigelse, ledighed og aktivering studeres. Sådanne analyser stiller specielle krav til data, idet timingen af begivenheder er af central betydning, ligesom det er vigtigt med nøjagtig information om, hvor lang tid individet befinder sig i forskellige tilstande. Eksempelvis er det efterhånden udbredt at analysere varigheden af arbejdsløshedsperioder og hvilke forhold, der har betydning for om individer er ledige i kortere eller længere perioder. Andre eksempler er analyser af integrationen af indvandrere, hvor der ses på hvor lang tid, der går fra indvandrere kommer til landet og indtil de kommer i beskæftigelse, påbegynder en uddannelse, eller kommer ud af offentlig forsørgelse og analyser af effekten af aktiveringsforanstaltninger. Specielt analyser af effekten af aktiveringsforanstaltninger er et godt eksempel på vigtigheden af at kende den nøjagtige timing af begivenheder. Dette er forsøgt illustreret i figur 6.1, der viser hvordan sandsynligheden for at komme i beskæftigelse kan tænkes at være påvirket dels af hvor lang tid personen har været ledig og dels af at personen deltager i en given aktiveringsforanstaltning. 10

Figur 6.1 Ledighed aktivering Ledighed a b Tid Figuren viser sandsynligheden for at en arbejdsløs person kommer i beskæftigelse på forskellige tidspunkter af et ledighedsforløb, idet tiden vises ud af x-aksen og sandsynligheden for at komme i beskæftigelse på et givet tidspunkt vises op ad y-aksen. I starten af ledigh edsperioden er sandsynligheden for at komme i beskæftigelse høj, men aftager forholdsvis hurtig. Derefter er sandsynligheder næsten konstant indtil kort før tidspunkt a. Her stiger sandsynligheden lidt igen, idet personen ved, at han på tidspunkt a skal deltage i aktivering og derfor har ekstra motivation til selv at finde et job. Denne motivationseffekt er for nylig blevet påvist i analyser på danske registerdata. I tidsrummet fra a til b deltager personen i en aktiveringsforanstaltning og i denne periode er sandsynligheden for at komme i beskæftigelse meget lav. Efter tidspunkt b, stiger sandsynligheden igen. Hvor meget sandsynligheden stiger afhænger af hvor stort udbytte personen har haft af aktiveringsforanstaltningen. Den øverste linie illustrerer effekten af at have deltaget i en effektiv foranstaltning, mens den nederste stiplede linie viser effekten at h ave deltaget i en mindre effektiv foranstaltning. For empirisk at kunne analysere om der faktisk findes en motivationseffekt og analysere hvilke typer foranstaltninger, der er mest effektive, er der behov for data, der indenfor små tidsintervaller angiver, hvilken tilstand, en person befinder sig i og hvor længe personen har været i den pågældende tilstand. I praksis opereres der enten med oplysninger på ugebasis eller oplysninger på månedsbasis. For at gennemføre en analyse som den ovenfor beskrevne, er der som minimum behov for at man for en årrække har oplysninger om ledighed, beskæftigelse, deltagelse i aktiveringsforanstaltninger opdelt på type, for hver eneste uge/måned i perioden. Forskerne må selv udvikle egnede data Det er ikke muligt at købe sig til data, der umiddelbart kan bruges til analyser som overfor beskrevet, idet Danmarks statistik ikke har sådanne data. Til gengæld kan man i Danmarks Statistik købe de grunddata, der skal bruges til selv at konstruere disse data. Dette er dog ikke nogen simpel sag. Forskellige institutioner har, uafhængigt af hinanden, brugt betydelige ressourcer på at konstruere disse forløbsh istorier, h vor en person følges på uge eller 11

månedsbasis. Fælles for de fleste institutioner, er, at de bygger deres algoritmer på diverse oplysninger fra Danmarks statistik, men selve algoritmen og de ad hoc beslutningsregler algoritmerne bygger på er lavet uafhængigt af hinanden. Der er ikke foretaget nogen sammenligninger af de forskellige institutioners algoritmer, så der er ingen samlet viden indenfor området. Dette er naturligvis ressourcespild, idet der foretages en masse dobbeltarbejde, og dertil kommer, at man sandsynligvis kunne have fået et bedre resultat ved at samlet ressourceindsats. En anden uheldig effekt er at analyser foretaget på de forskellige institutioner, ikke er direkte sammenlignelige, idet datagrundlaget ikke er det samme. Prioritering af oplysninger Som sagt konstruerer man i forskellige forskningsmiljøer egne forløbshistorier på uge eller månedsniveau. De vigtigste datakilder i forbindelse med dette arbejde er oplysninger om arbejdsløshed fra enten CRAM eller Den Sammenhængende Social statistik (SSH), oplysninger om pension, orlov, barsel, sygedagpenge og kontanthjælp fra SSH, oplysninger om aktiveringsforanstaltninger fra AMFORA, uddannelsesoplysninger fra BUE, og beskæftigelsesoplysninger fra enten IDA eller CON. Det er klart, at når man kombinere oplysninger fra så mange kilder, vil man ofte komme ud for, at der er oplysninger om flere forskellige aktiviteter i en given uge/måned. Dette kan være OK, og kan i nogle tilfælde også håndteres. Ofte er man dog nødt til at prioritere, hvilken oplysninger, der er vigtigst. I andre tilfælde er oplysningerne modstridende og i disse tilfælde må man vælge, hvilke oplysninger man stoler mest på. Tabel 6.1 Måned 1 2 3 4 5 6 7 8 9 10 11 12 13 Ledigh ed 0 0 0 L L L L 0 0 0 0 0 0 Pension 0 0 0 0 0 0 0 0 0 0 0 0 0 Orlov 0 0 0 0 0 0 0 0 0 0 0 0 0 Barsel 0 0 0 0 0 0 0 0 0 0 0 0 0 Aktiveringstype 1 0 0 0 0 0 A1 A1 A1 A1 A1 A1 0 0 Aktiveringstype 2 0 0 0 0 0 0 0 0 0 0 0 0 0 Uddannelse 0 0 0 0 0 0 0 0 0 0 0 0 0 Beskæftigelse B B B B B 0 0 0 0 B B B B Tilstand B B B L L L L A1 A1 A1 A1 B B Tabel 6.1 viser et eksempel på prioriteringen mellem forskellige oplysninger, hvor de oplysninger, der står øverst i tabellen har højere prioritet end oplysninger længere nede i tabellen, dvs. ledighed har højere prioritet end pension, pension har højere prioritet end orlov osv. Nederst i tabellen ses de tilstande, som algoritmen når frem for hver måned. 12