SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Transkript

1 Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at bestå første årsprøve- Limited Dependent Variable Model (1): P( y=1 x)= G(β 0 + β 1 halvaar + β 2 eksald+ β 3 kvotient + β 4 kvinde+ β 5 matb + + β 12 GIF) hvor G( z)=exp( z)/[1+exp(z)], logit-funktion, hvis værdier tilhører (0,1). Motivationen for den binær respons model: Vi har en latent variabel givet ved y*= β 0 +X β+e, hvor y=1[y*>0] er en indikatorfunktion, lig 1 hvis sand, lig 0 ellers. e er fordelt på en logistisk fordeling 8logit) og symmetrisk omkring nul, dvs. G(z)=1-G(z). Respons-sandsynligheden er givet ved P(y=1 x)=p(y*>0 x)= P(e>-( β 0 +X β) x)=1-g(-(β 0 +X β))= G(β 0 +X β), her indgår de forklarende variabel som et lineær index. Gruppearbejde: 1) Problemer med den valgte specikikation: a. Kvotient er ikke inkluderet på en hensigtmæssig måde. Variablen udtrykker kvotient fra adgangsgivende eksamen. Trunkeret ved 6.9 og 10, dvs. for værdi udenfor intervallet [6.9,10] bliver sat lig rand-værdierne. Variablen er kontinuert fra 6.9 til 10, men diskontinuert i halerne. Vi har et problem med de ekstreme observationer. Forslag til løsning: Brug dummy-variable i stedet. 1. Intervaldummy 2. Dummier for trunkerede værdier : ex. d10=1(kvotient 10) Vi vil overveje om modellen er lineær dvs. sandsynligheden for at bestå øges med det sammen for hver hel karakters øgning i kvotienten, en konstant partiel effekt. b. Eksald er heller ikke inkluderet på en hensigtsmæssig måde. Variablen er alderen på adgangsgivende eksamen, som udtrykkes i hel tallige værdier (diskrete). Det er et problem, at værdier er trunkeret. Vi forventer at alderen på ens eksamen er hverken lineær (evt. aftagende eller stigende i sine parametre) eller monoton. Løsningen på dette problem kunne være at indsætte en dummy for hvert år, som tilllader de forskellige eksald at have uafhængige effekter på sandsynligheden for at bestå. 2) Signifikanstest for type adgangsgivende eksamen: Vi estimere parametrene (β 0,, β 12 ) ved maximum likelihood estimation. Dette består af en givet tilfældig stikprøve af y og x. Vi finder de (β 0,, β 12 ) der maksimere likelihood funktionen svarende til den simultane punktsandsynlighed for y: L(β y,x)=f(y x, β)=g(β 0 +x β 1 ) y i(1- G(β 0 +x β 1 )) 1-y i Det svarer til at maksimere log-likelihoos funtionen log L(β y,x)=σ[y i logg(β 0 +x β 1 )+(1- y)log(1-g(β 0 +x β 1 ))] mht de (k+1) β er. Svarende til likelihoodligningerne løses af iterativ

2 algoritme. Under generelle antagelser er disse β_hater (ML estimatorer) konsistente, asymptotisk normalfordelt og efficient. De forklarende variables samtidig signifikans afgøres ved hjælp af en Likelihood Ratio-test, som defineres ved teststørrelsen 2(logL ur -logl r ). L ur er log-likelihood funktionen for den urestrikterede model og L r er log-likelihood funktion for den restrikterede model. Da likelihoodværdierne er mellem nul og en, vil logl ur logl r 0, altså være negativ. Det er derfor testet ganges med 2. Teststørrelsen er asymptotisk fordelt på Κ 2 (q)-fordelingen, hvor q er antal restriktioner forklarende variable man tester. I dette tilfælde tester vi 8 forklarende variablers signifikans under hypotesen H 0 : β 5 = = β 12 =0, hvor vi sætter alle typer adgangsgivende eksamener lig nul, dvs vi arbejder udfra 8 restriktioner. Nul-hypotesen svarer til, at basisgruppen (Mat A) ikke afvigere fra andre eksamenstyper i dens effekt på sandsynligheden for at bestå. Signifikansen af de enkelte parameterestimater vurderer vi typisk ved et Wald-test. Wald-testet kraver nemlig ikke, at vi estimerer den restrikterede model. LR-testet beregner vi typisk, nar vi tester multiple hypoteser af sarlig interesse. 3)Tolkning af Logit-modellens parametre: Dette er svært. Vi kommer frem til parameter estimaterne ved gøre som vi forklarer under 2). Det interessante er den kvantitative effekt af en (lille) ændring i en af de forklarende variable på sandssynligheden for at bestå. Vi antager at de forklarende variable er i det mindste stykvis kontinuerte: P(y i =1 X)/ x j = G(β 0 + X β )/ x j = g(β 0 + X β )* β j hvor g(.) er tæthedsfunktionen for logit-funktionen. Læg mærke til hvordan den partielle effekt afhænger af x ernes niveau. Derfor er det vigtigt, at sætte X til en benchmark-værdi. I tilfælde hvor X erne ikke er kontinuerte, finder vi den partielle effekt på en anden måde. a) Hvis X er bineær, en dummy som antager værdierne 0 og 1, f.eks. X 9 at have HF som adgangsgivende eksamen versus at være del af basis-gruppen, Studentereksamen med mat A. I den partielle effekt af HF-eksamen er En vigtig pointe er, at X5=X6=...X12=0 for MatA, mens kun en af dem er lig 1 for HF. Herved falder en masse led ud af udtrykket. G(β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + X 4 β 4 + X 5 β 5 ) G(β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + X 4 β 4 + X 5 β 5 + X 9 β 9 )=partielle effekt Med alle andre forhold ens, trækker de to Logit funktioner fra hinanden.

3 b) Hvis X er en diskret, ligesom X 1 som er Start året på polit.-studiet, findes den partielle effekt ved at tage 2 logit funktioner med ens indsatte værdier af de forklarende variable. Tage den ene affunktioner og lægge 1 til en given benchmark værdi af X 1, ligesom og trække den anden funktion fra: G(β 0 + (X 1 +1) β X 12 β 12 ) - G(β 0 + X 1 β X 12 β 12 ) = partielle effekt. I alle tilfælde, kontinuerte såvel som diskrete forklarende variable er det vigtigt at indsætte benchmark værdier af x ernes for at kunne sammenligne partielle effekter af de forskellige x er ceteris paribus. 4) Forskellen mellem logit, probit og lineær sandsynlighedsmodeller: Der er ikke så stor forskel mellem logit og probit funktionen. Deres kumuleret fordelings funktion G(z) er begrænset til værdier mellem 0 og 1. G(Z)->0 for z-> - G(z)->1 for z-> Og G(Z) er strengt voksende Dog vil logit funktionen have højere sandsynlighed end probit funktionen for lave værdier af β 0 + X β og modsat vil probit funktionen have højere sandsynlighed end logit funktionen for højere værdier af β 0 + X β. Den lineære sandsynligheds model kan antage værdier uden for intervallet fra 0 til 1, som ikke er hensigtsmæssigt når man arbejder med sandsynligheder. G(z)=z er ubegrænset Desuden er den lineær i sine parametre, så den tager ikke højde for evt. aftagende/stigende skalaafkast fra de respektive regressore. Da G(z) er strengt voksende vil β erne har samme kvalitativ effekt i logit-, probit- og LP-modellen, dvs. at parametrenes fortegn vil altid være de samme. 5) Hvordan kan man øge sandsynligheden for at bestå første årsprøve, på baggrund af denne type analyse: Vi kan justere de forskellige optagelseskrav. Vi kunne f.eks. øge kravet til kvotienten, gøre bort med vinteroptag, lukke flere kvinder ind på studiet. De individer der besidder de egenskaber der bidrager positivt til sandsynligheden for at bestå 1.årsprøve skal lokkes til studiet. Dette vil alt andet end lige øge sandligheden for at bestå første årsprøve. SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

4 Under estimering af modellen vil vi omdefinere vores variable halvaar, kvotient, og eksald, jvf. Diskussionen under punkt 1 i gruppearbejdet. Vi vil teste signifikansen af diverse valgte variable og undersøge deres specificering under den valgte model (2). Herefter laves en goodness of fit check på modellen og de forklarende variables forskellige partielle effekter på sandsynligheden for at bestå regnes ud. Her tages udgangspunkt i en standard person aka benchmark. Vi slutter af med at samligne resultaterne afhængig af hvilken model der er blevet valgt: Lineær sandsynlighedsmodel, logit eller probit. 1. ved indlæsning af data: omformuleres halvaar til en almindelig dummy variable hvis paramter er letter at fortolke. MEd sommeroptgaet som basis gruppe, skal vinteroptaget antag værdien 1, så er halvaard=2-halvaar 2. Descending-optionen gøre at vores latente variabel defineres således at vi bestemmer sandsynligheden for at bestå og ikke sandsynligheden for ikke at bestå. 3.Vi tester signifikans af de adgangsgivende eksamner x=( MatB,, Gif). Nulhypotesen, Ho: β 5 = = β 12 =0 testes vha teststørrelse er LR = 2(lur-lr). Denne størrelse er asymptotisk chi^2- fordelt med q, som antal restiktioner. Vi er interesseret i det numerisk fald i loglikelihood værdien, altså hvor meget af forklaringsgraden vi mister, når vi pålægger modellen vores restriktioner under Ho. Under proc reg, ville vi bruge F-test under den multiple restriktions tilfælde. Under proc logistic, kan man også udfører en Wald test, som er en transformeret F-test. LR og Wald er mere genrelle i det de kun har asymptotisk validitet. Wald testet frem for LR testet er godt, da man kan nøjes med at estimere modellen 1 gang. I LR skal man som sagt udfører to estimationer, en under Ho og en anden uden. De to test, Wald og LR fører i sidste ende til samme konklusion, selvom deres test-størrelse antager forskellige værdier. Under LR-testet, bruger man værdien der står under intercept covariates til 2logL i de to estimationers output: -2logLur+2logLr= =53 ~chi^2(q=8). Chi^2(8,o.95)=15.5 og da 53>15.5 afvises Ho. Variablen er klart signifikante under et. Samme konklusion opnås under Wald, at den adgangsgivende eksamens betydning kan ikke udlukkes. 4.Model 1 postulere en lineær sammenhæng mellem eksald og y*. At hvert år skal tillægges samme betydning er usandsynligt, så vi omformulere vores variabel eksald til 6 dummier: deksald1, deksald2.. Hvor vi har, for eksald>=6, trunkeret variablen og sat den under deksald6. Dette kunne evt. give os promblemer med at teste netop dennes signifikans. Vi skal undersøge om der er en monotont sammenhæng mellem alderen på den adgangsgivende eksamen og sandsynligheden for at bestå, ved at udfører en ny estimation af vores model, incl. vores nye dummier (eksl. eksald). Hvis der var en monoton sammenhæng vil parameter estimatoren for dummierne være stigende i størrelsen: δ 1 > δ 2 > δ 3 > δ 4 > δ 5 > δ 6. Det ses i output at der er IKKE en monoton sammenhæng, deksald4 har absolut størst effekt og deksald6 har mindst.

5 5. Tilsvarende for kvotient. Kvotient er en trunkeret variabel i dens endepunkter. Man postulerer en lineær sammenhæng mellem dens værdier og den latente variabel y*. Vi undersøger om det er rimeligt af give en stud med 5 i kvotient samme forventet effekt som en stud. Med 7 i kvotient. Dette gøres ved at danne dummierne dkvot7: if kvotient<7 then dkvot=1; else dkvot=0; og tilsvarende for dkvot10. Deres parameter værdier fortolkes som afvigelsen fra den lineære antaget sammenhæng i modellen: y*=beta_o +beta_1*kvotient+alfa_1*dkvot7.vi udfører en t- test på alfa_1 s signifikans, dvs. er afvigelserne i enderne signifikante? Konklusion: ekstemerne afviger ikke signifikant fra endepunkterne. Vi tester også også den postuleret lineære sammenhæng af kvotient med y* ved at indsætte (kvotient)^2 i vores model og teste signifikansen af dens parameter estimat. Her konkluderes at vi ikke kan afvise at vores latente model er lineær mht. variablen kvotient. 6.Vi udfører en form for goodness for fit check ved at udregne hvor stor en procent af vores model er Korrect specificeret. Vi ræsonnerer på følgende måde: G(Xi beta)>0,5 -> vores forudsigelse/prediktion yi=1 G(Xi beta)<=0,5 -> vores forudsigelse/prediktion yi=0. Hvordan er dette korrekt ift. data? Vi kan aflæse fra Frenquency tabellen at antal rigtigt når vi har forudsagt yi=1 er 40.09% og 31.95% når vi har forudsagt y=0. Dvs. vi vores konklusion om en person består eller ej, er rigtig 72.04% af tiden. 7. Partielle effekter udregnes på forskellige måder afhængig af man har en binær, diskret eller kontinuert variable. Dette emne berørte vi oppe under gruppe-arbejdet. Under alle omstændigheder har vi brug for en benchmark person, da de partielle effekter ændres afhænig af hvilken niveau vores variable-værdier er på. Vi søger derfor et gennemsnitsmenneske, for at finde den gennemsnitlig partielle effekt af en lille ændring i en af de forklarende variable. Binær tilfælde: HF er en dummy. Hf s betydning for om man kommer til at bestå udregnes ved P(yi=1 X benchmark,hf ) - P(yi=1 X benchmark )=G( *8.5)-G( * )=0,294 Hvis du er den udspecificeret vedkommende, har du en større sandsynlighed for at bestå hvis du er HF er end hvis der er MatA er. Kontinuært (næsten) tilfælde: Kvotients partielle effekt udregnes jf dp(yi=1 X benchmark )/dx kvotient = g(x*beta_hat )*beta_hat kvotient hvor g(x*beta_hat )=G (-)=e^( X*beta_hat)/(1+ e^( X*beta_hat))^2 de predicteret værdier P(-) og (X*beta_hat) gemmes i output efter estimation. 7) Partielle effekter ved probit/logit og LPM er noglelunde ens for kvotient =8.5. I det hele taget ligner probit og logit sandsynlighedsfordelingen meget hinanden. Der opstår et problem fir LPM i den nedre ende af karakterskalaen, så har den en tendens til at overvurder. Dette løses ved brug af logit. Denne største forskel mellem modellerne er at LPM antager konstant! Marginal effekter for alle variablen. Dette er ret misvisende.

6