Teknisk dokumentation af data til lønanalyser



Relaterede dokumenter
Om statistikken Tabel 1. Antallet af ansættelser indenfor IT-området Tabel 2. Lønoversigt IT-området... 5

Notat. Opgørelse af den lokale løndannelse

It-medarbejderstatistik 2016

LØNFORSKELLE MELLEM OFFENTLIG OG PRIVAT SEKTOR

Vedr.: Lønudviklingen i den kommunale og regionale sektor

Forskelle mellem Dansk Arbejdsgiverforenings KonjunkturStatistik og Danmarks Statistiks Lønindeks for den private sektor

Lønstatistik for maj måned 2007 frie grundskoler, efterskoler, husholdnings- og håndarbejdsskoler samt folkeskolen

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

DATA FOR JANUAR 2013 ER NU TILGÆNGELIG I SIRKA

Lønstatistik for maj måned 2010 frie grundskoler, efterskoler samt husholdnings- og håndarbejdsskoler og folkeskolen

Løn. v/jonas Schneider

Lønstatistik for maj måned 2008 frie grundskoler, efterskoler samt husholdnings- og håndarbejdsskoler og folkeskolen

Kommunalt sygefravær svarer til tab af omkring fuldtidsbeskæftigede

Statistikdokumentation for Personale i omsorg og pleje 2016

KØNSOPDELT LØNSTATISTIK 2012

OVERENSKOMSTSTATISTIK I PRÆSTERET TID

Projekt om analyse af forskelle i udmøntning af lokal løn mellem mænd og kvinder indenfor samme personalegruppe fase 1 og 2 FLD data

Lønudviklingen for maj mindre end forventet

Arbejdsmarkedsstatistik

LIGELØNSGUIDE - VEJLEDNING OM KØNSOPDELT LØNSTATISTIK

Bruger ikke-vestlige efterkommerkvinder deres uddannelser? Baggrundsnotat 1: deskriptiv analyse af udvalgte uddannelser

Danmarks Statistik, 22. august 2005 DAK/- Ny national fraværsstatistik i Danmark

KØNSOPDELT LØNSTATISTIK 2013

Om statistikken Tabel 1. Antallet af ansættelser indenfor IT-området Tabel 2. Lønoversigt IT-området... 5

LØN, KØN, UDDANNELSE OG FLEKSIBILITET OFFENTLIGGØRELSE AF LØNKOMMISSIONENS REDEGØRELSE MAJ 2010

Sagsnr.: VP Direkte tlf.nr.: november Til medlemsorganisationerne. Vedr.: Lønudvikling 3.

Supplerende analyser om arbejdsmarkedstilknytning

Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik om forskel på privatansatte kvinder og mænds løn

3. DATA OG METODE. arbejdsmarkedet er forløbet afhængig af den enkeltes uddannelsesbaggrund.

Data for august Data for august 2007 er nu tilgængelige i LOPAKS. 05. november Indhold

LØNFORSKELLE MELLEM KVINDER OG MÆND I KØBENHAVNS KOMMUNE

Vedr.: Reallønsudviklingen for (amts)kommunalt ansatte siden 1987

Aftale om statistikgrundlag for de lokale lønforhandlinger

OAO-Nyhedsbrev om løn januar 2014

Lønstatistik for begyndere. en introduktion

Personaleomsætning september

LIGELØN og LIGESTILLING HVAD GØR VI? DSR, Kreds Midtjylland Torsdag d. 19. maj 2011

Proveniens. Datadokumentation MGR-lite

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

FraværsStatistik dokumentation 12. september 2008

DATA FOR DECEMBER 2012 ER NU TILGÆNGELIG I LOPAKS

LIGESTILLINGSSTATISTIKKEN 2008

Til medlemsorganisationerne. Aktivitetsnr.: VP Direkte tlf.nr.: december 2018

Lønmodeller del 1 Regressioner

Data for maj Data for maj 2008 er nu tilgængelige i LOPAKS. 11. september 2008

DATA FOR NOVEMBER 2016 ER NU TILGÆNGELIGE I SIRKA

Til Danske Fysioterapeuters lønforhandlere samt andre interesserede har Forhandlingsgruppen Off. udarbejdet et notat vedr. lønstatistik.

Lønudviklingen i 3. kvartal 2015

Ensartet lønudvikling for alle sektorer

DATA FOR AUGUST 2016 ER NU TILGÆNGELIGE I SIRKA

Tiltagende lønstigningstakter i den offentlige sektor

Indholdsfortegnelse. Opdateringer af registre i Forskningsservice FRA FORSKNINGSSERVICE

Notat: Personalenormering i Herning Kommunes Dagtilbud

KLYNGEANALYSE. Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere. Viden og Analyse / CCFC

De nye Lønbegreber. Steen Bielefeldt Pedersen Specialkonsulent i Danmarks Statistik. Tabel 1

Hovedresultater fra IDA Lønstatistik 2012

STANDARD FOR ELEKTRONISK STATISTIK INDBERETNING - FRAVÆRSSTATISTIK

Personalesammensætning gør det offentlige løngab større. Af Jossi Steen-Knudsen, Niels Storm Knigge og Bjørn Tølbøll

Notat 19. november Hovedresultater fra IDA Lønstatistik Til: Fra: Lønstatistikudvalget Sekretariatet

DATA FOR FEBRUAR 2009 ER NU TILGÆNGELIGE I LOPAKS

Notat - Arbejdsgivernes lønomkostninger ved fravær efter arbejdsulykke (Arbejdstilsynet

Graviditetsbetinget fravær på arbejdsmarkedet

Vejledning. Vejledning Trio Dannelse og indberetning af månedsløn

Skift i lønudviklingen

METODER OG BEGREBER I FRAVÆRSSTATISTIKKEN.

Mænd dominerer ledelse - både i antal og på løn

De sundhedsøkonomiske udgifter forbundet med arbejdsulykker med hændelsesdag i 2011 (Arbejdstilsynet 2017).

Strukturstatistikkerne for 2007 fra Danmarks Statistik

Vejledning, data til lønforhandling 2013

METODER OG BEGREBER I FRAVÆRSSTATISTIKKEN.

Økonometri 1 Forår 2006 Ugeseddel 11

Noter til privatlønsværn for aftaleperioden 2016 og 2017

Forskelle mellem Dansk Arbejdsgiverforenings KonjunkturStatistik og Danmarks Statistiks Lønindeks for den private sektor

Belønnes studieophold i udlandet på arbejdsmarkedet?

Faktaark om lønkommissionen

Notat

Lønstatistik i IDA og andre organisationer. Sammenligning af lønbegreber og analyse af lønniveau for sammenlignelige grupper

DATA FOR FEBRUAR 2013 ER NU TILGÆNGELIG I SIRKA

OVERENSKOMSTSTATISTIK I PRÆSTERET TID 2010

Jobskabelse Af Rikke Ibsen og Niels Westergård-Nielsen Center for Corporate Performance, Handelshøjskolen i Århus

HOHA er defineret som en positiv mikrobiologisk resultat for Clostridium difficile (PCR eller

Lønudviklingen 3. kvartal 2008

Lønmodeller del 1 Regressioner

Tabel 1. Sygefravær blandt basis- og specialsygeplejersker i kommuner og regioner fordelt på periodelængde Fravær pr ansat i Dagsværk

Lønnen inden for 3F ernes område er ens i de fleste kommuner, men har svært ved at stige

DATA FOR NOVEMBER 2012 ER NU TILGÆNGELIG I LOPAKS

Den månedlige fraværsstatistik

OAO NYHEDSBREV OM LØN MAJ 2012

Side 1 AC FOA FAG OG ARBEJDE

Ligestillingsstatistik. for den kommunale sektor

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997

Ph.d. Ph.d.-uddannelsen i tal udviklingen frem til og med 2013

K Ø B E N H A V N S U N I V E R S I T E T P E R S O N A L E S E K T I O N E N. ScanPas. Omsorgsdage. Decentral vejledning

NYHEDSBREV fraværsstatistikken for 2007 fra FLD

SAS formater i Danmarks Statistik

Livsindkomster Beregnet for grupper inden for den offentlige sektor

INDVANDRERES TILKNYTNING TIL ARBEJDSMARKEDET

Revision af erhvervsuddannelserne i Elevregistret

DATA FOR JANUAR 2009 ER TILGÆNGELIGE I LOPAKS

DATA FOR DECEMBER 2016 ER NU TILGÆNGELIGE I SIRKA

Transkript:

Teknisk dokumentation af data til lønanalyser Af Rikke Ibsen og Niels Westergård-Nielsen Center for Corporate Performance Aarhus School of Business Aarhus Universitet Århus juni 2010

2 Teknisk dokumentation af data til lønanalyser 1 Indledning... 3 2 Validering Lønstatistikkens Serviceregister... 3 2.1 Sektorer...3 2.2 Omsorgsdage i staten...3 2.3 Timefortjeneste...4 2.4 Validering af uddannelse...6 3 Sammenkøring af lønstatistikken med FLD-data og Personalestyrelsens data... 7 3.1 Merge mellem Lønstatistikken og FLD....7 3.1.1 1-1 match på alle nøglevariable... 7 3.1.2 Match på 5-cifret lønklasse... 7 3.1.3 Manglende CPR i FLD... 7 3.1.4 De resterende observationer... 7 3.1.5 Ekstra stk-kode... 8 3.2 Merge af lønstatistikken og Personalestyrelsens data...8

3 Teknisk dokumentation af data til lønanalyser 1 Indledning Datagrundlaget for lønanalyserne i Lønkommisionenes rapport er Lønstatistikkens Serviceregister som er sammenkørt med en række andre registre 1 fra Danmarks Statistik, Det Fælleskommunale Lønkontor (FLD) og Personalestyrelsens løndata. Danmarks Statistiks dokumentation af Lønstatistikkens Serviceregister findes på Danmarks Statistiks hjemmeside og i kapitlet om lønbegreber i Lønkommisionens rapport. Der har dog til brug for lønanalyserne været nødvendigt at foretage yderligere validering og forbedringer af data, og disse er beskrevet i dette notat. Lønanalyserne er baseret på grupper indmeldt af parterne. Disse grupper er afgrænset på stillingskoderne i FLD og Personalestyrelsens data frem for Disco-koder, fordi det er de grupper man forhandler overenskomst for. Lønstatistikkens Serviceregister har kun stillingsoplysninger på Disco-koder, så derfor er Lønstatistikken Serviceregister sammenkørt med data fra FLD og Personalestyrelsens løndata. Denne sammenkøring fører til et bortfald af observationer, som også er beskrevet i dette notat. 2 Validering Lønstatistikkens Serviceregister 2.1 Sektorer Som udgangspunkt, er der ikke problemer med at opdele i de 3 sektorer - privat - stat - amt /region og kommune men opdelingen af amt/region og kommune skal laves særskilt. Til dette formål bruges den såkaldte funktionskode. Funktionskoden er dog missing i en del observationer, og derfor bruges en særlig variabel konstrueret af DST (hvor der manuelt er tildelt funktionskoder) til at eftervalidere opdelingen. Ud over denne validering, bruges månedsdata fra FLD, hvor variablen forhomr (forhandlingsområde), merges på via senr, og dermed yderligere giver mulighed for opdeling på amt/region og kommune. De manuelle funktionskoder findes tilbage til 2003, så derfor er 2002 korrigeret med 2003 data. Ligeledes findes FLD-data tilbage til 2004, så 2002 og 2003 er korrigeret med 2004- data. Observationer, der ikke kan henføres til amt/region eller kommune slettes. 2.2 Omsorgsdage i staten Omsorgsdage i staten er ikke registreret, og derfor er den præsterede timefortjeneste i staten for lav i perioden. Fra 2005 til 2007 gives der 2 omsorgsdage pr. år. pr. barn 0-7 år, og derfor kan der vha. antal børn og deres alder tildeles et antal omsorgsdage til en ansættelse. Der 1 Uddannelsesregistret, Ida (den integrerede arbejdsmarkeds database), sygedagpengeregistret, kursusregistret (som kun er brugt i de gruppevis regressioner).

4 Teknisk dokumentation af data til lønanalyser tildeles omsorgsdage uanset, om de er afholdt eller ej, da vi ikke ved, om omsorgsdagene er afholdt, kun om der er ret til omsorgsdage. I perioden 2002-2004, tildeles omsorgsdage kun for personer, som får børn, mens de er ansat i staten og afholdelsen af omsorgsdage ligger frit indtil barnet er 14 år. Derfor er det ikke muligt at lave en fornuftig korrektion af omsorgsdage før 2005. Hvis der er flere ansættelser i løbet af året, overlappende ansættelser eller ansættelser, som ikke varer hele året, tildeles omsorgdagene så omfanget af ansættelsen er afgørende. Derfor kan en person aldrig have flere omsorgsdage end hvad der svarer til årets samlede ansættelser. Ud over den præsterede timefortjeneste korrigeres fraværet samt alle løndele for den præsterede timefortjeneste. 2.3 Timefortjeneste Der er lavet en validering af timefortjenesten ud over den validering, der er lavet af Danmarks Statistik. Valideringen laves ud fra fortjeneste pr. præsteret time excl. gene og derefter for fortjeneste pr. præsteret time incl gene og til sidst for den standardberegnede timefortjeneste. Der er generelt et problem for den standardberegnede timefortjeneste for de ansættelser, som ikke er helårs. Det skyldes, at perioderegistreringerne ikke er valide i en række tilfælde, og det betyder igen, at timefortjenesterne bliver for lave. Dette problem må antages at være generelt for alle timefortjenester, men problemet er kun muligt at se i data for de lønninger, som er åbenbart for lave. I den offentlige sektor vil der ikke være nogen, som får en løn under mindstelønnen, men da de lave lønninger, der opstår som følge at fejlagtige perioderegistreringer, findes for alle lønkategorier, fjernes de 5% nederste lønninger fordelt på 6-cifret discokode og sektorer (privat, stat, region, kommune). Denne metode er bedre end blot at fjerne lønninger under mindstelønnen, da de nederste lønninger for f.eks. folkeskolelærere er væsentlig højere end mindstelønnen i den kommunale sektor. Ved at fjerne de nederste 5%, skabes en ensartet validering for alle discokoder og sektorer. Da der vil være forskel i antallet af observationer fordelt på discokode, vil der også være tilfælde, hvor der selv efter fjernelse af de nederste 5%, er meget lave lønninger. Det drejer sig om 5121 observationer, hvor timefortjenesten er mindre en 80% af industriens mindsteløn eller mindre end den offentlige mindsteløn (2007-data). De er i 2007 fordelt med 154 observationer i amt/region (0,1% af observationer i amt/region) 2339 observationer i kommunen (0,4% af observationer i kommunen) 33 observationer i staten (0,01% af observationer i staten) 2595 observationer privat (0,2% af observationer i den private sektor) Disse observationer fjernes fra data.

5 Teknisk dokumentation af data til lønanalyser Valideringen består af følgende trin Derefter fjernes de nederste 5% for hver discokode og sektor Derefter fjernes alle observationer, hvor personen er under uddannelse Derefter fjernes observationer med lønninger under 80% af industriens mindsteløn og under den offentlige mindsteløn Efter korrektion for omsorgsdage i staten fjernes outliers i toppen af lønningerne. Valideringen følger DST s valideringsgrænser for årene 2002-2004. Der er forskel på, hvorledes der er valideret i den offentlige sektor i 2007 og årene før. I perioden 2002-2006 er fortjeneste pr. præsteret time uden gene over 1000 kr fjernet fra data. I 2007 er der taget hensyn til disco-koden, da der er er stor forskel på fraværet indenfor forskellige discokoder. DST har lavet en beskrivelse af valideringen for fortjenesten pr. præsteret time uden gene. Ud over valideringen af fortjeneste pr. præsteret time excl. gene, er fortjeneste pr. præsteret incl. gene over 3000 kr fjernet. Valideringen afsluttes med at fjerne observationer, hvor den standardberegnede timeløn i den offentlige sektor overstiger den højeste løn, der kan gives i de 3 offentlige sektorer, samt en fastsat grænse i den private sektor. Grænserne er angivet i tabel 1. Tabel 1: Øvre valideringsgrænser for standardberegnet timefortjeneste Kilde: Kilde: Egne beregninger på Lønstatistikkens Serviceregister Yderligere validering Yderligere validering omfatter begrænsning af populationen til arbejdsstyrken (16-64 år) observationer i det offentlige, som kan henføres til Grønland og Færøerne eller offentlig arbejdsplads udenfor Danmark slettes præster optræder i den private sektor i stedet for staten, så de flyttes til staten undervisning på erhvervsskoler (8346 observationer) og arbejdsmarkedsuddannelser (905 observationer) har ingen sektorkode. De hører til i staten, så de får statens sektorkode. Fra de oprindelige rådata til de fuldt validerede er der følgende andel af observationerne tilbage, som det fremgår af tabel 2.

6 Teknisk dokumentation af data til lønanalyser Tabel 2: Andel af data efter validering Kilde: Egne beregninger på Lønstatistikkens Serviceregister 2.4 Validering af uddannelse Lønstatistikkens Serviceregister har et ubegrænset antal ansættelser på år pr person, men kun én oplysning om uddannelse pr. år. Derfor vil der være personer, som færdiggør en uddannelse i løbet af året, men som i data ikke vil være registreret som havende den pågældende uddannelse i de job, som ligger efter færdiggørelsestidspunktet. Derfor er der lavet en korrektion af uddannelsesvariablen ved hjælp af oplysninger om uddannelse og færdiggørelsestidspunkter fra uddannelsesregistret året før, i året og året efter. Uddannelse er korrigeret i flere trin ved hjælp af uddannelsesregistret Når en uddannelse er afsluttet i løbet af året og ansættelsen ligger efter afslutningstidspunktet får observationen den nye uddannelse Hvis uddannelse er missing i lønstatistikken, men ikke missing i uddannelsesregistret, får observationen uddannelsen fra uddannelsesregistret. Afhængigt af afslutningstidspunktet og ansættelsesperioden giver uddannelse fra 2007 eller 2008. Hvis ansættelsesperioden efter uddannelsestidspunktet er mere end dobbelt så lang som før, og uddannelsen fra uddannelsesregistret er højere end lønstatistikken, gives uddannelsen fra udannelsesregistret. Uddannelser tilrettes via discokoden, da f.eks. en discokode 2, og en person, som afslutter en LVU i ansættelsesperioden får uddannelsen fra uddannelsesregistret. Derimod vil en discokode 9 og en person, som afslutter i ansættelsesperioden ikke få uddannelsen fra uddannelsesregistret, men den uddannelse, den har i lønstatistikken. Og så fremdeles detaljeret på discokoder og ansættelser.

7 Teknisk dokumentation af data til lønanalyser 3 Sammenkøring af lønstatistikken med FLD-data og Personalestyrelsens data 3.1 Merge mellem Lønstatistikken og FLD. De 2 datasæt matches med: - CPR - Brugernummer - Medarbejdernummer - Discokode - Lønklasse - Leverance I lønstatistikken er der 821.434 observationer med sektorkode=3 (Amt/kommune) Det færdige match er på over 99%. Beskrivelse af matchet er gennemgået i det følgende. 3.1.1 1-1 match på alle nøglevariable FLD-data er leveret i 2 omgange: Første levering gav et match på alle nøglevariable for 684.226 observationer, svarende til 83%. De resterende 17% (137.208) observationer kunne ikke genfindes i de leverede FLD-data på CPR-nummer, hvilket betød, at personerne ikke eksisterede i FLD-data. Der blev efterfølgende leveret et nyt datasæt fra FLD, som blev brugt til yderligere match. Match mellem de resterende 17% af observationerne i og de nye FLD-data på alle nøglevariable gav yderligere match for 93.235 observationer. Det bragte 1-1 matches på alle nøglevariable op på 777.461 observationer, svarende til 95%. 3.1.2 Match på 5-cifret lønklasse De sidste 43.973 observationer kan ikke matches 1-1 på alle nøglevariable, så efter at have testet flere muligheder laves et match, hvor lønklassen matches på de første 5 cifre og de andre nøglevariable matches som før. Det giver et macth for 14.754 observationer. Det samlede match er herefter oppe på 792.215 observationer. Samme laves for samtlige data fra FLD (gammel og ny leverance), i stedet for bare den nye leverance, og der kan matches 6339 observationer. Matchet er så 798.554, 97%. 3.1.3 Manglende CPR i FLD. Efter den anden leverance fra FLD, er der stadig 14.157 observationer i lønstatistikken, som ikke kan genfindes i FLD via CPR. Næsten alle disse kan via discokoden identificeres som gymnasielærere mm. som i forbindelse med kommunalreformen er flyttet fra amterne til staten, og derfor ikke burde have sektorkode 3. Disse kan derfor uden problemer fjernes fra populationen. Det betyder, at det samlede antal observationer i lønstatistikken bliver 807.277, og det samlede match med FLD er oppe på 99%. 3.1.4 De resterende observationer Der er nu 6723 observationer i lønstastistikken, som ikke har et match.

8 Teknisk dokumentation af data til lønanalyser Der er en overvægt af discokoder, som ligger inden for sundhed og omsorg og pædagogiske områder, så derfor laves et manuelt match baseret på lønklasser. Som udgangspunkt merges på alle nøglevariable undtagen lønklassen, og derefter laves en manuel kategorisering af lønklasser i sundhedsområdet og det pædagogiske område samt socialrådgivere. Dette manuelle match giver et match for 2780 observationer. De resterende data droppes fra data. 3.1.5 Ekstra stk-kode Der er under matchet opstået redundans, da samme ansættelse i FLD kan have flere stk-koder. Dette er løst ved, at den ekstra stk-kode har fået sin egen variabel, så der ikke er gået information tabt. På denne måde kan stk-koder for grupper med sikkerhed findes i den første eller ekstra stk-kode. 3.2 Merge af lønstatistikken og Personalestyrelsens data For at få personalekategorierne fra personalestyrelsens data merges disse variable på lønstatistikken. Personalestyrelsens data omfatter kun ansættelser i 4. Kvartal, og der merges derfor på ansættelser i lønstatistikken i 4. kvartal. Der er 129.856 statslige ansættelser i lønstatistikken i 2007. Der merges på følgende variable: - Pnr (anonymiseret cpr-nummer) - Medarbejdernummer - Leverance - Pkat_stat (personalekategori) - Stiko_stat (stillingskategori) For at få yderligere match inddrages discokoden, så der merges på: - pnr - medarbejdernummer - leverance - discokode - og ENTEN o pkat_stat ELLER o stiko_stat Af disse får 126.414 obs et merge. 2214 har samme observationer fra personalestyrelsens data på flere ansættelsesforhold. Merget er på 97,3%. 3.442 observationer får ikke et match.