Estimation af Uddannelsesafkast

Estimation af Uddannelsesafkast Morten Roed Sørensen Vejledere: Mette Ejrnæs og Lars Even Rasmussen Opponent: IngerLise Wolf-Jensen Afleveret: 18.maj 1999 Indhold: 1 Indledning 2 Økonometrisk Metode 3 Data 4 Empirisk Analyse 5 Andre Undersøgelser 6 Konklusion 7 Litteraturhenvisninger 8 Appendix A 9 Appendix B 10 Appendix C 11 Appendix D 12 Appendix E

1 Indledning Vigtigheden af at folk får en uddannelse har i mange år været et mantra i Danmark såvel som andre steder. Uddannelsesinvesteringer ses som en afgørende faktor til forklaring af den økonomisk vækst, og dette vil formentlig ikke blive mindre vigtigt i fremtiden. Et tilfredsstillende uddannelsesniveau for befolkningen kan dog ikke nødvendigvis sikres ved blot at øge bevillingerne over finansloven. Det er ligeledes vigtigt at kigge på de individuelle incitamenter for valg af uddannelse. Alt andet lige må det kunne forventes, at personlige investeringer i uddannelse er større, jo mere den ekstra uddannelse trækker lønnen opad. Formålet med dette oplæg er, at estimere hvad fuldførelsen af et års ekstra uddannelse betyder for et individs årlige lønindkomst i Danmark. Specielt vil der blive lagt vægt på de økonometriske problemstillinger, en sådan estimation vil blive mødt med. Af disse kan f.eks. nævnes, at uobserverbare evner komplicerer estimationen, ligesom det relativt konstante individuelle uddannelsesniveau over tid i sammenhæng med korrelation mellem fejlled og forklarende variable nødvendiggør instrument variabel metode. I næste afsnit opstilles modellen, og de økonometriske problemstillinger knyttet til estimationen af uddannelsesafkast beskrives. Specielt vil der blive lagt vægt på gennemgangen af en metode udviklet af Hausman og Taylor [3] til estimation af afkastet. Efter dette følger en beskrivelse af de benyttede data og herefter selve den empiriske analyse. Der rundes af med en sammenligning af de estimerede uddannelsesafkast fra denne og andre undersøgelser foretaget på danske data og endelig en konklusion. 2 Økonometrisk Metode For at estimere et troværdigt uddannelsesafkast er det nødvendigt at benytte nogle mere komplicerede økonometriske metoder end den gængse OLS estimation. Årsagen til dette skyldes, at uobserverbare individuelle evner må forventes at spille en afgørende rolle for individers indkomst. Denne antagelse bringer et panel datasæt over individer på bane som et centralt element i estimationen af uddannelsesafkast. Med paneldata bliver det nemlig muligt at neutralisere de uobserverbare individuelle effekter. Indenfor paneldata findes to grundlæggende modeller - fixed effects modellen og random effects (one-way error component modellen). I fixed effects modellen antages individerne at have et fast 2

individuelt konstantled og ellers samme hældningsparametre og varians. I random effects modellen antages individerne tilgengæld at have samme konstantled og hælningsparametre men også en individ specifik stokastisk komponent. Umiddelbart kan valget af begge modeller teoretisk forsvares, så udslagsgivende for valget bliver, at i random effects modellen kan paremetrene til tidsinvariante variable estimeres i modsætning til i fixed effect modellen. Da uddannelse, som tidligere nævnt, er så godt som tidsinvariant for individerne, nødvendiggør hele problemstillingen, at random effects modellen vælges. Modellen kan derfor skrives som følger: (1) ln(w it ) x it z i v it v it. i it,. i iid(0,1. ) og it iid(0,1 ) hvor x og z er de tidsvarierende hhv. tidsinvarierende variable og w er logaritmen til den årlige lønindkomst. De individ specifikke varianser,, antages at være uafhængigt fordelt med. i middelværdi nul og varians, mens den usystematiske komponent,, ligeledes antages at være 1. it uafhængigt fordelt med middelværdi nul og variansen blokdiagonal, da den individuelle varians har strukturen:. Modellens variansstruktur bliver 1 (2) Mi 1 #I T 1. #ii hvor i er en t gange t vektor af et-taller, og efficient estimation af modellens parametre kræver derfor FGLS estimation. Dette udføres via standard metoden. To hjælperegressioner udføres, within og between estimationen, og residualerne herfra benyttes til at estimere varianstrukturen og transformere modellen, hvorefter almindelig OLS vil frembringe konsistente og efficiente parameter estimater. At denne metode er BLUE, bygger dog på en kraftig antagelse om, at de forklarende variable er ukorrelerede med fejlledet; en antagelse der ikke kan forventes at være opfyldt i dette tilfælde. Hvis. i er et (uobserverbart) mål for evner, må det forventes, at der er korrelation mellem fejlledet og omfanget af udddannelse, og FGLS vil derfor være biased. For at finde ud af om der er korrelation mellem fejlledet og de forklarende variable, kan Hausman- 3

testet benyttes. Dette test udnytter, at withinestimatoren, selv med korrelation, vil være konsistent, mens FGLS estimatoren under sådanne forhold vil være biased. En stor afvigelse mellem de to estimatorer vil derfor tyde på fejlledskorrelation og behov for instrumenter i random effects modellen. Viser Hausman-testet at der er misspecifikation i modellen, er der afgørende forskel på metoden til at finde konsistente estimatorer alt afhængig af, om der er tale om tidsvarierende eller tidsinvarierende variable. For en tidsvarierende forklarende variabel, være korrelerede med fejlleddet, idet within estimatoren blot kan benyttes. For en tidsinvarierende forklarende variabel, fejlleddet,, der er mistænkt for at x it, er det ikke det store problem at få konsistente estimatorer, v it, der er mistænkt for at være korreleret med z i, er det umiddelbart sværere at få konsistente estimatorer, idet nogle brugbare v it instrumenter skal findes. Traditionelt ledes efter variable, der ikke har været inddraget i modellen, men som formodes at være korreleret med variablen den skal erstatte og ikke med fejlleddet. Når eksempelvis uddannelsesniveau instrumenteres er familiebaggrundsvariable som forældres uddannelsesniveau ofte inddraget. Problemet med disse instrumenter - udover det ofte manglende kendskab/adgang til disse variable - er, at også disse variable kan være korreleret med fejlledet. Dette vil jo ske, når individers uobserverbare evner er korreleret med forældrenes uddannelsesniveau, hvilket ikke kan udelukkes a priori. Hausman og Taylor [3] har udviklet en alternativ instrument variabel metode og selv anvendt den ved estimation af uddannelsesafkast. Modellen er som angivet i ligning (1), blot splittes de forklarende variable op i to grupper; x1 it og z1 i er de forklarende variable, der antages ikke at være korreleret med fejlledet, mens x2 it og z2 i er de variable, der forventes at være årsagen til inkonsistensen af FGLS. Som instrument for x2 it og z2 i bruges individ-gennemsnittetene for x1 it variablene,. Hausman-Taylor metoden kræver derfor ikke indførelsen af nye variable i x1 i. modellen, men udnytter derimod informationen fra de tidsvarierende forklarende variable, der ikke er korreleret med fejlledet. Den ene betingelse, for at et instrument er gyldigt, er derfor opfyldt via antagelsen om, idet instrumenterne således per definition ikke er korreleret med fejlleddet. x1 it Den anden betingelse for et instruments gyldighed, dvs. betingelsen om at instrumenterne skal være korreleret med de instrumenterede variable, vil blive godtgjort af selve estimationen af modellens parametre. Et meget upræcist estimat vil nemlig være tegn på ringe korrelation. 4

HT metoden stopper dog ikke ved instrumentvariabel estimationen. Det er nemlig også muligt at teste den nye model for om korrelationen mellem fejlleddet og de forklarende variable er blevet elimineret ved et nyt Hausman-test. Dette er igen muligt, da within-estimationen altid vil sikre, at HT parameterestimaterne kan sammenlignes med et konsistent, omend inefficient, estimat for de tidsvarierende parametre. En lidt mere formel gennemgang vil både tydeliggøre HT metoden og hvordan selve estimationen er grebet an. Først estimeres within transformationen, y it y i. ( x it ) # w fejl,der sikrer et konsistent estimat for parametrene til de tidsvarierende variable, og som benyttes i modellens følgende Hausman-tests. Lad,, og udvid ligningen, jf. appendix A, til følgende: d y i. # ˆ w (3) ˆd z i #. i fejl I fravær af misspecifikation vil OLS på denne ligning være konsistent. Er dette ikke opfyldt, må instrumenter nødvendigvis introduceres, hvis skal estimeres konsistent. Identifikation kræver, at der er mindst lige så mange instrumenter, som der er variable, der skal instrumenteres, dvs. k1g2, hvor k1 og g2 er antallet af x1 hhv. z2 variable. 2SLS estimatoren bliver da: (4) (z #pa #z) 1 #z #pa #d hvor pa er projektionsmatricen for instrumenterne 1 a [x1 i., z1 i ]. I dette første trin af HT metoden er det således lykkedes, hvis antagelserne ellers holder, at estimere nogle konsistente, men inefficiente, parametre til såvel de tidsvarierende som de tidsinvarierende variable. For at teste diverse hypoteser om modellens parametre, og ikke mindst for at udføre et nyt Hausman test for misspecifikation, er det imidlertid nødvendigt at beregne nogle efficiente parameter estimater. Til denne beregning udnyttes, at første trin af HT metoden har givet et konsistent, omend inefficient, skøn for variansstrukturen beregnet ud fra within og between regressionernes residualer, og ud fra kendskab til disse kan en parameter, theta, beregnes ( ( 1 /(1. T #1 )) 0.5 ). OLS på flg. modeltransformation vil da, jf. Hausman og Taylor [3], give asymptotisk efficiente estimater for både og : 1 z1 i inddrages som instrumenter, men sikrer ikke identifikation. Dette kræver mindst lige så mange x1 som z2 variable. 5

(5) P A # (Y it (1 ˆ)#Y i. ) P A # [X it (1 ˆ)#X i. ] P A #ˆZ i fejl Et nyt specifikationstest kan nu udføres på de tidsvarierende parametre, hvor de efficiente parametre estimeret vha. HT-metoden ( estimationen ( ): ˆ W ˆ HT ) sammenlignes med det konsistente estimat fra within (6) ( ˆHT ˆW ) #[var( ˆW ) var( ˆHT )] 1 #(ˆHT ˆW ) $ 2 (k1 g2) Bemærk at specifikationstestet kræver, at der skal være flere x1 end z2 variable; altså flere tidsvarierende instrumenter end tidsinvariante variable der kræver instrumentering. Accepteres hypotesen om at begge estimater er konsistente, er det derved tegn på, at parametervektorerne ˆ HT og ˆ HT er efficiente og unbiased estimatorer for modellens tidsvarierende såvel som tidsinvarierende variable. 3 Data Datagrundlaget for den empiriske analyse er et udtræk fra IDA databasen. Udtrækket indeholder 32410 observationer fordelt på 2786 forskellige individer i perioden fra 1980 til 1994. Panelet er ubalanceret idet antallet af observationer fra hvert individ svinger fra én til 15 observationer. Den afhængige variabel i analysen er logaritmen til den årlige lønindkomst i 1980 priser. Uddannelsesvariablen dækker over årslængden af individers almen- og erhvervsuddannelse, mens erfaringsvariablen i estimationerne enten approximeres ved individernes alder eller der bruges en IDA-variabel for individernes arbejdsmarkedserfaring. Individernes heterogenitet forsøges der at tages højde for ved at inddrage forskellige baggrundsvariable. Der indføres en dummy for personer med direktørstillinger og en dummy for ledende funktionærer, idet disse stillinger kan forventes at få et ekstra afkast uafhængigt af andre ting. Ligeledes indføres dummyier, hvis bopælen er indenfor hovedstadsområdet eller i bykommuner, således at personer med bopæl i landkommuner bliver baseline. Enlige udstyres også med en dummy, da det meget vel er muligt, at disse personers adfærd på arbejdsmarkedet adskiller sig fra gifte personers adfærd. Branchedummyier defineres, og ligesom uddannelsesvariablen er individers tilhørsforhold tilnærmelsesvist at betragte som tidsinvariant. Endelig indgår en variabel, både lineært og kvadreret, der opfanger lændgen af et individs arbejdsløshedsperiode indenfor et givet år. Skalaen går fra nul til hundrede, hvor 6

hundrede svarer til, at personen har været fuldtidsarbejdsløs gennem hele det pågældende år. Udover disse variable, der opfanger individuel heterogenitet, skal der også tages højde for de mere generelle påvirkninger, der forekommer over tid, såsom konjunkturstød og reallønsfremgang. Der kontrolleres for dette ved hjælp af årsdummyier. Det er nødvendigt at 'trimme' data inden selve estimationerne påbegyndes. Grunden til dette er, at fortolkningen af estimaterne kun giver mening, hvis individerne er ens i den forstand, at de alle er fuldt tilknyttet arbejdsmarkedet. Eksempelvis vil en universitetsuddannet 'frivillig' hjemmegående person ikke have nogen lønindkomst, hvilket dog vil være forkert at fortolke som et negativt uddannelsesafkast. Datasættet søges derfor trimmet på forskellige måder således at de tilbageværende personer tilnærmelsesvist kan siges at få en løn der - alt andet lige - svarer til deres oparbejdede kvalifikationer og uobserverbare evner. Først frasorteres alle individer, der direkte er kategoriserede som værende uden for arbejdsmarkedet og desuden selvstændige, da aflønningen af disse formentlig ikke kan beskrives ved denne model. Dette er eksempelvis pensionister, fuldtidsstuderende, orlovsmodtagere, førtidspensionister og efterlønsmodtagere. Alle personer under tyve år frasorteres ligeledes, da deres tilknytning til arbejdsmarkedet ofte vil være af midlertid karakter inden en videregående uddannelse påbegyndes, og lønnen derfor ikke nødvendigvis svarer til deres reelle kvalifikationer og uobserverbare evner. Dernæst udskilles deltidsbeskæftidige for bedst muligt at sikre, at lønindkomsten svarer til samme tidsmæssige arbejdsindsats, hvilket dog stadig efterlader betydelige målefejlsproblemer. Endelig slettes observationerne for de individer, hvis lønindkomst er på under 30000 kroner. Dette gøres, fordi det antages, at personer med så lav en lønindkomst ikke er fuldt tilknyttet arbejdsmarkedet, selvom de ikke benytter en af tilbagetrækningsordningerne på arbejdsmarkedet (eksempelvis hjemmegående personer). Et indtryk af hvordan denne trimning påvirker data, kan fås ved at kigge på udviklingen i gennemsnittene for udvalgte variable i et givet år, jf. tabel 1. Hvert eneste kriterie for trimning af datasættet ses at føre til gennemsnitlig mere individuel erfaring og uddannelse ligesom den årlige lønindkomst stiger betragteligt. Dette er ikke overraskende set i lyset af, at de slettede observationer er personer uden for eller med en løs tilknytning til arbejdsmarkedet. Da disse personer næppe udgør et tilfældigt sample af populationen, må der 7

forventes at være et selektionsproblem. Havde disse personer nemlig været tilknyttet arbejdsmarkedet, var de formentlig blevet ringere aflønnet i forhold til de personer allerede i job - givet samme observerbare karakteristika. Hvis dette er tilfældet, må det forventes, at det estimerede uddannelsesafkast er et øvre skøn. Tabel 1, Gennemsnit for udvalgte variable og antal observationer i datasæt (1990). MÆND: Oprindelig datasæt - personer uden for arb.stk - personer under tyve år - ikke fuldtidsansatte - personer med indkomst<30000 Erfaring, år 11 13 14,1 14,6 15,5 Uddannelse, år 9,6 10,5 10,6 10,7 10,9 Alder, år 40,8 37,5 39,4 39,2 39,4 Årsledigh.gr., pct 7 8,8 9,2 9,8 4,4 lønindkomst, kr. 68332 97448 104453 108874 120496 Antal obs. 1087 743 680 632 566 KVINDER: Erfaring, år 7,4 9,5 10,3 10,7 11,5 Uddannelse, år 9,1 10,5 10,6 10,9 11,1 Alder, år 41,9 36,9 38,6 37,1 37,2 Årsledigh.gr., pct. 7,7 10,3 10,9 13 6,3 lønindkomst, kr. 45712 69956 74564 80951 91961 Antal obs. 1092 705 650 495 428 Trimningen af personer med indkomster under 30000 kroner i årlig indkomst medfører mærkbart lavere årsledighedsgrader for både mænd og kvinder. Dette er, som nævnt, gjort for at slette personer uden reel tilknytning til arbejdsmarkedet, men mere ekstreme observationer - personer hårdt ramt af ledighed - slettes ligeledes. Dette vil også tendere til skabelsen af et selektionsproblem. En sidste bemærkning til tabellen skal knytte sig til antallet af observationer. For mændenes vedkommende slettes 48 procent af observationerne i 1990, mens hele 60 procent slettes for kvindernes vedkommende. Dette skyldes kvindernes relativt lave erhvervsfrekvens, hvilket har den yderligere effekt at deres lønindkomst stiger relativt mest i forhold til mændenes ved trimningen af data. For udviklingen over tid for udvalgte variable henvises til appendix B. Af figuren fremgår det bla. 8

at lønindkomsterne i faste priser har været svagt faldende fra 1980 til 1985 for begge køn, hvorefter de har været stigende resten af den observerede periode med undtagelse af enkelte år. Det gennemsnitlige uddannelsesniveau er steget i perioden fra omkring 9,5 år til over 11 år for begge køns vedkommende. Dette afspejler at de nye, yngre generationer på arbejdsmarkedet har et højere uddannelsesniveau i forhold til de ældre generationer, der har forladt arbejdsmarkedet i perioden. 4 Empirisk Analyse Estimationerne foretages særskilt for kønnene og som udgangspunkt estimeres FGLS for følgende model: ln( årsløn it ) erfaring it # 1 erfaring 2 it # 2 direktør it # 3 (7) ledende funktionær it # 4 København it # 5 by it # 6 enlig it # 7 årsledighedsgrad it # 8 årsledighedsgrad 2 it # 9 konstant # 1 uddannelse # 2 # 3 18 år t # 1 14 hvor variablen dækker over sytten forskellige r. Der eksperimenteres med forskellige specifikationer for begge køn, jf. appendix C og D. Den første estimation for mændenes lønligning er within estimationen, der er konsistent uanset om fejlledet skulle være korreleret med nogle af de forklarende variable. Parameterestimaterne virker rimelige. Et års erfaring resulterer i en fem procent højere løn, men effekten er aftagende jo mere erfaring personen er i besiddelse af. En direktørstilling giver et signifikant bidrag på ca. tolv procent ligesom en bopæl i København har en signifikant positiv effekt. En stigning i årsledighedsgraden på et procent point fører ikke uventet til en signifikant lavere årlig lønindkomst på en procent. Næste estimation er FGLS, der estimerer uddannelsesafkastet til to procent, men Hausmanteststørrelsen, beregnet ved hjælp af ligning (6), afslører, at der er misspecifikation og derfor biased resultater. Dette bringer Hausman-Taylor metoden på banen. I første omgang instrumenteres uddannelse med 9

gennemsnittene for alle de tidsvarierende variable inkluderet i within-estimationen samt med variablene. Hausman-teststørrelsen tyder imidlertidig stadig på misspecifikation, hvilket fører til en ny Hausman-Taylor estimation, hvor erfaringsvariablene tillige er instrumenteret. Da hypotesen om at fejlleddet ikke er korreleret med en af de forklarende variable endnu engang afvises, forsøges endelig også med årsledighedsgraden instrumenteret og udeladelse af de kvadrede størrelser. Heller ikke dette får dog bugt med fejlledskorrelationen. Det bemærkes at specielt estimatet for erfaringsparameteren afviger fra within-estimationen under Hausman-Taylor estimationerne, hvilket tyder på, at individernes erfaring er korreleret med deres fejlled. At instrumenteringen for erfaringsparameteren ikke kan overkomme misspecifikationsproblemerne, kan eventuelt skyldes dårlige instrumenter. Der er herefter estimeret en model hvor IDA's erfaringsvariabel er udskiftet med individernes alder. Det må forventes at alder er korreleret med erfaring, men ikke med fejlleddet, således at risikoen for fejlledskorrelation formindskes. Som det fremgår af sidste kolonne i appendix C, lykkedes det med denne specifikation at få accepteret en model på fem procents signifikans niveau, hvor uddannelsesafkastet er estimeret til 3,1 procent. I denne estimation giver alder et positivt afkast, men det er ikke så højt som det konsistente erfaringsafkast tidligere estimeret, grundet den ikke-perfekte kollinaritet. Som i den første within-estimation giver en direktørstilling, en bopæl i København og en lavere årsledighedsgrad et signifikant positivt bidrag til den årlige lønindkomst. I forhold til den tilsvarende model estimeret med OLS ses det, at når der tages hensyn til panelstrukturen, øges det estimerede uddannelsesafkast, og færre parametre bliver signifikante. Det sidste følger af, at OLS generelt undervurderer standardfejlene, når der er tale om en random effects model. At FGLS fører til et højere estimat for uddannelseafkast end OLS, er måske mere overraskende. Er der positiv korrelation mellem uddannelse og uobserverbare evner, ville OLS overvurdere afkastet, men modeller hvor uddannelseslængden endogeniseres, vil kunne frembringe en negativ korrelation mellem uddannelse og uobserverbare evner, jf. Hausman og Taylor [3]. At OLS undervurderer uddannelsesafkastet, er da også et resultat, både Hausman og Taylor [3] samt Hanus og Lolk [2] finder frem til. Når uddannelsesafkastet forsøges estimeret for kvinder gentages problemerne fra estimationen af det mandlige uddannelsesafkast. Den første within-estimation, der inkluderer IDA's erfaringsvariable opgjort udfra ATP, fører til et lidt højere afkast af erfaring i forhold til mændenes 10

estimation samt et signifikant positivt afkast for en lederstilling, jf appendix D. Hausman-testet i FGLS estimationen fører til en afvisning af hypotesen om, at fejlleddet ikke er korreleret med de forklarende variable, hvorefter der forsøges med Hausman-Taylor metoden. Først instrumenteres uddannelse, hvilket ikke reducerer misspecifikationsproblemet, men når der derefter instrumenteres for både uddannelse og erfaringsvariablene, accepteres modellen lige netop på ti procents signifikansniveau. I denne model er uddannelsesafkastet estimeret til hele 7,4 procent, men estimatet er også meget upræcist. Som hos mændene forsøges det også her at udskifte erfaringsvariablen med alder. Denne model accepteres på fem procents niveau, og uddannelsesafkastet bliver 2,5 procent, hvilket både er mere præcist og mere troværdigt end det foregående estimat. Ligesom ved mændenes estimation undervurderer OLS uddannelsesafkastet. 5 Andre Undersøgelser Sammenlignes denne undersøgelses resultater med andre estimerede uddannelsesafkast fra Danmark, synes der at være en rimelig overensstemmelse, jf. appendix E. Generelt svinger estimaterne en del, men for det meste estimeres mændenes afkast til at være større end kvindernes, hvilket også er fundet i denne undersøgelse. De forskellige undersøgelser har lagt vægt på at estimere uddannelsesafkast for forskellige kategorier, hvilket, set i sammenhæng med varierende datagrundlag og metoder, forklarer de varierende skøn. Det skal bemærkes, at det klart højeste estimat, der stammer fra Buus Kristensens undersøgelse, også er det estimat, der er fremkommet ved brug af den mest afvigende metode. I forhold til de andre undersøgelser er der nemlig ikke brugt nogen individoplysninger, jf. Hanus og Lolk [2]. 6 Konklusion En korrekt estimation af uddannelsesafkast kræver et panel datasæt og specificeringen af en random effects model. Dette skyldes, at uobserverbare individuelle evner må forventes at spille en vigtig rolle i bestemmelsen af individers lønnivaeu, og at uddannelsesniveau er så godt som tidsinvariant for et individ allerede tilknyttet arbejdsmarkedet. Problemet med random effects modellen er imidlertid, at korrelation mellem fejlled og forklarende variable ofte kan forekomme, hvad det også gjorde i denne undersøgelses estimationer. Problemet søgtes løst ved hjælp af den gennemgåede Hausman-Taylor metode men mislykkedes - måske fordi den primære årsag til misspecifikationen var erfaringsvariablen, og at instrumenterne for denne var upræcise. I stedet approximeredes erfaringsvariablen med alder, hvilket øjensynligt eliminerede fejlledskorrelationen, 11

og gjorde instrumentering af uddannelse, eksempelvis via Hausman-Taylor metoden, overflødig. De endelige estimater for uddannelsesafkastet blev 3,1 og 2,5 procent for mænd hhv. kvinder. Dette må betragtes som et øvre skøn pga. tilstedeværelsen af selektionsproblemer. 7 Litteraturhenvisninger [1] Ejrnæs,M. og Rasmussen,L.: Noter til øvelse i paneldata, 1999. [2] Hanus,N. og Lolk,K.: Investering i Human Kapital, speciale nr. A-130, 1998. [3] Hausman,J. og Taylor,W.: Panel Data and Unobservable Individual Effects, Econometrica, vol. 49, No. 6, s. 1377-1398, 1981. [4] Johnston,J. og Dinardo,J.: Econometric Methods, McGraw-Hill, 1997. 12

Appendix A P v og Q v er idempotente matricer. P v omtransformerer en matrice af observationer til en individgennemsnitsmatrice; individgennemsnitsmatricen. Q v omtransformerer til en matrice indeholdende afvigelser fra Da ˆ w ( x it x it ) 1 x itỹit ( x it Q v x it ) 1 x it Q v y it gælder følgende omskrivning: d y i. ˆw P v y it ( x it Q v x it ) [ P v ( x it Q v x it ) 1 x it Q v ] y it 1 x it Q v y it [ P v ( x it Q v x it ) 1 x it Q v ] #[ x it z i. i it ] ( x it Q v x it ) 1 x it Q v x it z i ( x it Q v x it ) 1 x it Q v z i. i (x it Q v x it ) 1 x it Q v. i i. ( x it Q v x it ) 1 x it Q v it z i. i [ P v (x it Q v x it ) 1 x it Q v ] it idet. it Q v z i 0 og Q v. i 0, og hvor sidste led er et usystematisk fejlled givet antagelserne om 13

Appendix B Gennemsnitlig lønindkomst og uddannelseslængde for mænd og kvinder 14

Appendix C Parameterestimater for mænd Within FGLS HT 1) HT 2) HT 3) OLS FGLS Uddannelse - 0,0194 *) (5,55) 0,0439 *) (4,10) 0,0438 *) (4,11) 0,0433 *) (3,80) 0,0131 *) (5,52) 0,0309 *) (8,01) Erfaring 0,0470 *) (13,11) 0,0492 *) (15,33) 0,0495 *) (15,01) 0,0531 *) (14,93) 0,0226 *) (14,67) - - Erf. kvadreret -0,0010 *) (-9,27) -0,0010 *) (-9,80) -0,0010 *) (-9,77) -0,0011 *) (-9,83) - - - Alder - - - - - 0,0059 *) (8,16) 0,0140 *) (16,32) Direktør 0,1185 *) (3,64) 0,1274 *) (4,08) 0,1199 *) (3,74) 0,1186 *) (3,72) 0,1271 *) (3,46) 0,2849 *) (7,55) 0,1397 *) (3,93) Leder 0,0215 (0,93) 0,0267 (1,22) 0,0222 (0,99) 0,0209 (0,93) 0,0287 (1,24) 0,1122 *) (5,26) 0,0302 (1,32) København 0,0879 **) (1,67) 0,0922 *) (2,38) 0,0957 *) (2,21) 0,0992 *) (2,29) 0,1077 *) (2,42) 0,0979 *) (5,61) 0,1033 *) (2,50) Bykommune 0,0032 (0,12) 0,0091 (0,38) 0,0066 (0,27) 0,0073 (0,29) 0,0055 (0,22) 0,0325 **) (1,95) 0,0101 (0,41) Enlig 0,0021 (0,17) 0,0025 (0,20) 0,0015 (0,12) 0,0023 (0,19) -0,0215 **) (-1,65) -0,0043 (-0,31) -0,0176 (-1,36) Årsledh.grad -0,0104 *) (-8,75) -0,0102 (-8,40) -0,0102 *) (-8,39) -0,0101 *) (-8,31) -0,0094 *) (-21,2) -0,0165 *) (-13,26) -0,0113 *) (-9,83) Årsledh.grad kvadreret (0,86) (0,81) (0,81) (0,7923) - 0,0001 *) (3,47) (1,37) Andre variable år Obs. 5656 5656 5656 5656 5656 5656 5656 Individer 727 727 727 727 727 727 727 Hausmanteststørrelse 3 2 9 12,1 32 8 35,9 32 6 72,5 32 4 56 32 8 1,37 Anm.: t-værdier i parentes. Within-estimationen med alder som forklarende variabel er ikke vist i tabellen. 1) Uddannelse instrumenteret, 2) uddannelse, erfaring og erfaring kvadreret instrumenteret, 3) uddannelse, erfaring og årsledighedsgrad instrumenteret, *) signifikant på fem procents niveau, **) signifikant på ti procents niveau. 15

Appendix D Parameterestimater for kvinder Within FGLS HT 1) HT 2) OLS FGLS Uddannelse - 0,0189 *) (6,32) 0,0379 *) (3,09) 0,0743 *) (3,38) 0,0094 *) (4,81) 0,0245 *) (7,75) Erfaring 0,0540 *) (16,6) 0,0554 *) (18,02) 0,0550 *) (17,57) 0,0581 *) (17,47) - - Erf. kvadreret -0,0013 *) (-14,81) -0,0013 *) (-15,06) -0,0013 *) (-15,0) -0,0013 *) (-15,08) - - Alder - - - - 0,0042 *) (6,97) 0,0091 *) (11,91) Direktør 0,1124 *) (4,06) 0,1269 *) (4,92) 0,1201 *) (4,50) 0,1126 *) (4,14) 0,3157 *) (12,27) 0,1673 *) (5,65) Leder 0,0977 *) (4,63) 0,0983 *) (4,87) 0,0976 *) (4,77) 0,0950 *) (4,60) 0,1434 *) (7,41) 0,1249 *) (5,90) København 0,0497 (1,11) 0,0569 (1,62) 0,0563 (1,51) 0,0559 (1,40) 0,0757 *) (4,52) 0,0415 (1,16) Bykommune -0,0129 (-0,41) -0,0092 (-0,33) -0,0100 (-0,35) -0,0110 (-0,3701) 0,0044 (0,26) -0,0139 (-0,44) Enlig -0,0385 (-2,97) -0,0403 *) (-3,21) -0,0404 *) (-3,19) -0,0386 *) (-3,02) -0,1236 *) (-9,78) -0,0798 (-6,28) Årsledh.grad -0,0124 *) (-11,73) -0,0121 *) (-11,23) -0,0121 *) (-11,18) -0,0121 *) (-11,19) -0,0171 *) (-15,27) -0,0131 *) (-9,83) Årsledh.grad kvadreret (0,35) (0,28) (0,26) (0,2530) 0,0001 *) (3,24) (1,37) Andre variable år Obs. 8644 8644 8644 8644 8644 8644 Individer 970 970 970 970 970 970 Hausmanteststørrelse 3 2 9 45,4 32 8 48,2 32 6 2,14 32 8 2,37 Anm.: t-værdier i parentes. Within-estimationen med alder som forklarende variabel er ikke vist i tabellen. 1) Uddannelse instrumenteret, 2) uddannelse, erfaring og erfaring kvadreret instrumenteret, *) signifikant på fem procents niveau, **) signifikant på ti procents niveau. 16

Appendix E Estimerede uddannelsesafkast i denne og andre undersøgelser, procent Mænd Kvinder Denne undersøgelse: 3,1 2,5 Hanus og Lolk (98): Yngste generationer 5,4 2,8 Mellemste generationer 2 3,4 Ældste generationer 2,3 2,3 Smith (89): Funktionærer 4,3 1,2 Faglærte 1,4 Ufaglærte 0 0 Øvrige 2,2 1,4 Buus Kristensen (92): Hovedstaden 8,8 9,3 Provinsen 9,3 9,3 Pedersen, Schmid-Sørensen, Smith, Westergård-Nielsen (88): Privat 4,2 0 Offentlig 6 1,9 Larsen og Smith (88): Samlet, korrigeret for lønkorrektion 2 1,9 Rosholm og Smith (96): Funktionærer, offentlig 4,1 2,7 Funktionærer, privat 4,7 3,5 Ufaglærte, offentlig 0-0,4 Ufaglærte, privat 0,9 0 Anm: Oversigten er fundet i Hanus og Lolk [2]. 17