Økonometri 1 Forår 2003 Ugeseddel 13 Program for øvelserne: Gruppearbejde Opsamling af gruppearbejdet og introduktion af SAS SAS-øvelser i computerkælderen Øvelsesopgave 6: Hvem består første årsprøve på polit.? Denne øvelsesopgave drejer sig om at forklare, hvem der består første årsprøve på polit.-studiet. Til dette formål benyttes information om de studerendes adgangsgivende eksamen, optagelsesår, køn etc. Responsvariablen er altså en binær variabel og i øvelsesopgaven benyttes logit- og probitmodeller til at opstille en model for, hvem der består. Data: Data stammer fra Københavns Universitets studieadministration. Data indeholder information om studerende, som startede på polit.-studiet i perioden fra sommeroptaget i 1997 til vinteroptaget i 2000. I alt indeholder datasættet information fra 1105 studerende. Disse data er stillet til rådighed af lektor Karsten Albæk, som har analyseret, hvem der består første årsprøve på polit.-studiet, se Nationaløkonomisk tidsskrift, 139(2) 2001, s. 208-222, http://www.econ.ku.dk/wpa/ (blå memoserie). En detaljeret beskrivelse af data kan ses i denne publikation. Den afhængige variabel (bestd12) angiver, om den studerende har bestået første årsprøve i løbet af første studieår. De øvrige variable i datasættet er: Startaar: Startår på polit.-studiet Halvaar: 1: vinteroptag, 2: sommeroptag Eksald: Alder på adgangsgivende eksamen Kvotient: Kvotient fra adgangsgivende eksamen. (Kvotient er trunkeret ved 6.9 og 10, dvs. for kvotient <6.9 er kvotient sat lig 6.9 og hvis kvotient >10 er kvotient=10) Kvinde: Dummy for kvinde Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A) MatB: MatM: Sproglig: HF: HHX: HTX: Udland: GIF: Dummy for Matematisk student med matematik på B niveau Dummy for Matematisk student (niveauet for matematik er ikke oplyst) Dummy for Sproglig student Dummy for Højere Forberedelseseksamen Dummy for Højere Handelseksamen Dummy for Højere Teknisk eksamen Dummy for Udenlandsk adgangsgivende eksamen Dummy for Anden studentereksamen 1
Den økonometriske analyse: På baggrund af ovenstående variable ønskes en økonometrisk analyse af, hvem der består polit.- studiet. I denne opgave tager vi udgangspunkt i en logitmodel. Modellens parametre estimeres med maximum likelihood estimation. I denne opgave starter vi med at betragte følgende specifikation af sandsynligheden for at bestå første årsprøve: Model (1): P( y = 1 x) = G( β + β halvaar + β eksald + β kvotient + β kvinde + β matb + + β GIF) hvor exp( z) Gz ( ) = 1 + exp( z) Gruppearbejde (30 min): 0 1 2 3 4 5 12 Hver gruppe vælger en talsmand, som afrapporterer for gruppen i den efterfølgende plenumdiskussion. Én af grupperne vil desuden blive bedt om at lave en kort opsamling (½-1 side) af hele holdets konklusioner. Øvelseslæreren er til stede og kan hjælpe med at afklare spørgsmål undervejs. 1. Diskuter evt. problemer med den valgte specifikation: a. Er variablen kvotient inkluderet på en hensigtsmæssig måde? Har du forslag til alternative specifikationer? b. Er variablen eksald inkluderet på en hensigtsmæssig måde? Alternative forslag? 2. Hvordan udføres et test for, om typen af adgangsgivende eksamen har betydning? Beskriv de enkelte trin i et LR test. 3. Diskuter hvordan parametrene i logitmodellen skal fortolkes. 4. Diskuter forskellen mellem en logit, probit og en lineær sandsynlighedsmodel. 5. Hvis man fra politisk side ønsker at øge andelen, som består første årsprøve, hvilke anbefalinger kan man så give på baggrund af denne type af analyse? SAS øvelse: 1. Indlæsning af data. Data ligger i en fil (uge13.sas7bdat), som kan hentes på hjemmesiden for øvelserne. Lav en deskriptiv analyse af variablene i datasættet ved at anvende proc univariate eller proc freq. Man kan med fordel omdefinere variablen halvaar, således at det er en rigtig dummyvariabel (antager værdier 0 og 1). 2. Estimer modellen (1) ved Maximum likelihood estimation. Følgende programskitse kan være til hjælp: proc logistic data= datanavn descending; model bestd12= ; 2
Optionen Descending angiver, at parametrene henviser til sandsynligheden for, at responsvariablen er lig 1. Udelades optionen, henviser parametrene til sandsynligheden for, at responsvariablen er lig 0. 3. Test vha. et LR test om typen af adgangsgivende eksamen har betydning for, om man består. (Hint: udfør en estimation uden dummyerne for de adgangsgivende eksamener og benyt log likelihood værdien for de to estimationer til at beregne LR testet). Sammenlign med resultaterne når du bruger test optionen i proc reg. Overvej hvad det er for et test, test optionen i proc reg laver. 4. Undersøg om der er en monoton sammenhæng mellem alderen på den adgangsgivende eksamen og sandsynligheden for at bestå. Dette gøres ved at benytte dummyvariable for alderen af den adgangsgivende eksamen (lav en dummy for eksald=>6). Model (2): P( y = 1 x) = G( β + β halvaar + β kvotient + β kvinde + β matb + + β GIF + δ eksald1+ + δ eksald6) exp( z) Gz ( ) = 1 + exp( z) 0 1 3 4 5 12 1 6 5. Undersøg om der er en monoton sammenhæng mellem kvotient og sandsynligheden for at bestå. Vurder også om de øvrige resultater ændrer sig (meget), hvis man bruger en anden specifikation af kvotient end i model (2). 6. Lav et Goodness of fit check af model (2). (Hint benyt OUTPUT OUT til at danne et nyt datasæt med den prædikterede sandsynlighed for at bestå (PREDICTED). Dernæst kan følgende programstump bruges): data fit; set p_bestaa; if p_ssh>0.5 then p_best=1; else p_best=0; proc freq data=fit; tabl e bestd12*p_best; 7. Fortolk resultaterne fra analysen (i model (2)). Dette kan gøres ved at udregne de partielle effekter (se Wooddridge side 556-557). For at udregne disse partielle personer skal man bruge en standard person. Standard personen er udvalgt til at have følgende karakteristika: en mandlig, matematisk student med matematik på A niveau, kvotient på 8.5, eksamensalder nul år, og som er optaget om sommeren (svarende til alle dummy variable er lig 0). Datasættet marginal indeholder en standard personen, og 16 andre personer, hvor de enkelte dummy variable på skift er sat til 1. På baggrund af disse fiktive personer kan de partielle effekter beregnes (husk at partielle effekter af kontinuerte variable beregnes ved formel (17.7) mens for dummy variable anvendes (17.8). Følgende programstump kan anvendes: * Udregning af partielle effekter (spørgsmål 7); * Nyt data med standard personer. 17 forskellige personer lægges til data; data p_effekt; 3
set aarsproeve ind.marginal; * Estimation af model (2) samt prediktion af ssh og lineært index; proc logistic data=p_effekt descending; model bestd12=halvaard kvotient kvinde matb matm sproglig HF HHX HTX udland GIF deksald1 deksald2 deksald3 deksald4 deksald5 deksald6; output out=p_effekter1 predicted=ssh xbeta=xb; * Nyt data kun med standard personer; data standard; set p_effekter1; if bestd12=.; * Udskrivning af ssh og lineære index for standard personer; proc print data=standard; Fortolk parameteren til halvårsvariablen. Forklar det fundne resultat (kan resultatet skyldes udeladte variable?) 8. Argumenter på baggrund af dine analyser for hvordan man ville kunne hæve andelen, som består første årsprøve i løbet af første studieår. 9. Sammenlign resultaterne fra en logit specifikation med en probitmodel og en lineær sandsynlighedsmodel. Estimationen af en probitmodel kan foretages ved at man specificerer link, som sættes til probit (se nedenstående program): proc logistic data=p_bestaa descending; model bestd12=halvaard kvotient kvinde matb matm sproglig HF HHX HTX udland GIF deksald1 deksald2 deksald3 deksald4 deksald5 deksald6/ link=probit; output out=probit predicted=pp_ssh; Den lineære sandsynlighedsmodel estimeres med proc reg. 11. Undersøg også hvordan de prædikterede sandsynligheder ser ud for forskellige værdier af variablen kvotient. Dette kan f.eks. gøres ved at sammenligne de prædikterede sandsynligheder for de tre modeller for en mandlig, matematisk student med matematik på A niveau, eksamensalder et år, og som er optaget om sommeren. Dette gøres ved at udregne de prædikterede sandsynligheder for hver af de tre modeller ved hjælp af optionen OUTPUT og PREDICTED. For at tegne en graf med de tre sandsynligheder kan følgende programstump anvendes: data graf; set samlet; if kvinde=0 and halvaar=2 and eksald=1 and matb=0 and Matm=0 and sproglig=0 and HF=0 and HTX=0 and HHX=0 and HF=0 and udland=0 and GIF=0; 4
proc sort data=graf out=sgraf; by kvotient; proc gplot data=sgraf; plot pl_ssh*kvotient=1 pp_ssh*kvotient=2 lpm_ssh*kvotient=3/overlay; symbol1 interpol=join co=red; symbol2 interpol=join co=blue; symbol3 interpol=join co=green; quit; 5