Uge 13 referat hold 4

Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer for <6.9 og >10. 2) Den funktionelle form; der er ikke nødvendigvis en lineær sammenhæng mellem kvotienten fra den adgangsgivende eksamen og sandsynligheden for at bestå første årsprøve på normeret tid. Løsningen er her enten at indføre dummyer for eksempelvis 6.9, 7-8, 9-10 og 10+. Her skal man huske ikke at inkludere en dummy for 8-9, da man så ryger i dummyfælden. Alternativt kunne man indføre kvadratiske led for at opfange aftagende hhv. stigende marginale effekter. 1b: Er variablen eksald inkluderet på en hensigtsmæssig måde? Problemet er også her, at der ikke nødvendigvis er en (negativ) lineær sammenhæng mellem eksamensalderen og sandsynligheden for at bestå første årsprøve på normeret tid. Løsningen hedder igen dummyvariable, eksempelvis dummyer for 1, 2, 5 år og en for >6 år. 2: LR-test: har typen af adgangsgivende eksamen betydning? Hypotesen er: H 0 : β 5 =β 6 = =β 12 =0 vs. H 1 : ét af lighedstegnene gælder ikke Først estimeres den urestrikterede model (model (1)), bagefter den restrikterede uden variablerne for den adgangsgivende eksamen. Teststørrelsen er: 2 LR = ln L ( 2ln ) ~ χ, hvor q er antallet af restriktioner, i dette tilfælde 8. 2 restricted L unrestricted q a 3: Hvordan fortolkes parametrene? P( y = 1 x) P( x) = = g( β 0 + xβ ) β j x x j j

I logit er g( x) = exp( x) ( 1 + exp( x) ) 2 Da g( ) er en tæthedsfunktion, vil den partielle effekt have samme fortegn som estimatet: (på symbolsprog:) Hvis ( x) P β 0 > 0 > 0. x j 4. Først skal det nævnes at den lineære model kan antage værdier større end 1 og mindre end 0 hvilket er en svaghed ved denne model. Dette er ikke tilfældet for hverken logit- eller probit-modellen. Sammenhængen mellem estimaterne i de tre forskellige modeller er som følger: Med udgangspunkt i den lineære sandsynlighedsmodel skal estimatet fra logitmodellen divideres med 4 mens estimatet fra probitmodellen skal divideres med 2,5. Dette skyldes at g(0) = 1 for den lineære sandsynlighedsmodel, g(0) = 0,4 for probitmodellen og g(0) = 0,25 for logitmodellen. Nedenfor er kurverne for de tre modeller søgt illustreret: Gz ( ) =Φ( z) G(z) = exp(z)/(1+exp(z)) G(z) = z - 0,5 0,5

5. Som udgangspunkt skal det undersøger hvilke faktorer der øger sandsynligheden for at bestå. Derefter skal man designe optagelseskravene således at de studerende med de højeste gennemsnit kommer ind på polit. SAS 1. Tabel 1: deskriptiv statistik, N=1105 Variable kvotient startaar eksald bestd12 matb matm sproglig HF HHX HTX udland GIF kvinde halvaard Mean Std Dev Minimum Maximum 8.531 1998.030 1.993 0.469 0.101 0.110 0.052 0.084 0.127 0.019 0.027 0.014 0.286 0.167 Tallene siger vist sig selv. 0.835 6.900 1997.000 0.000 10.000 2000.000 29.000

2. Tabel 2 Model 1 estimeret. Afhængig variabel bestd12 Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1-8.7094 0.8046 117.1771 <.0001 halvaard 1-0.4181 0.1909 4.7977 0.0285 eksald 1-0.0771 0.0303 6.4676 0.0110 kvotient 1 1.0733 0.0930 133.1387 <.0001 kvinde 1 0.1769 0.1535 1.3285 0.2491 matb 1-0.8118 0.2390 11.5413 0.0007 matm 1-0.3546 0.2263 2.4567 0.1170 sproglig 1-0.8453 0.3219 6.8941 0.0086 HF 1-1.4857 0.2981 24.8389 <.0001 HHX 1-0.8626 0.2139 16.2656 <.0001 HTX 1-0.2608 0.4978 0.2744 0.6004 udland 1-0.7352 0.4004 3.3718 0.0663 GIF 1-1.9497 0.7089 7.5640 0.0060 Det kan bemærkes at estimatet til kvinde ikke er signifikant forskelligt fra 0. 3. H 0 : β 5 =β 6 = =β 12 =0 vs. H 1 : ét af lighedstegnene gælder ikke LR = a 2 2ln Lrestricted ( 2ln L unrestricted ) ~ χq 2 LR =1318. 244 1265.267 = 52.977 ~ χ, a 8 Det skal sammenlignes med den kritiske værdi i en χ 2 8 (95%) =15,51. Dvs. at vi klart afviser H o mod H 1 : typen af adgangsgivende eksamen har betydning for om man består. Testet, som TEST-optionen i PROC LOGISTIC udfører, er et Wald-test. Wald-testet udføres ved, at den un-restrictede model estimeres, og herefter benyttes Beta-estimaterne og Variansen på Betaestimaterne. 4. Model 2. Afhængig variabel bestd12 Parameter Estimate WaldChi- Square Pr > ChiSq

Intercept -9.7301 (0.8532) halvaard -0.5773 (0.1961) kvotient 1.1348 (0.0957) kvinde 0.2229 (0.1553) matb -0.7661 (0.2426) matm -0.1831 (0.2327) sproglig -0.922 (0.324) HF -1.3719 (0.3016) HHX -0.7586 (0.2183) HTX -0.2713 (0.5083) udland -0.7303 (0.4067) GIF -1.7584 (0.7133) deksald1 0.3844 (0.1962) deksald2 0.5615 (0.215) deksald3 0.4772 (0.2722) deksald4 0.6277 (0.3617) deksald5 0.4162 (0.4813) deksald6-1.0386 (0.4394) Square ChiSq 130.07 <.0001 8.67 0.0032 140.58 <.0001 2.06 0.1513 9.97 0.0016 0.62 0.4312 8.10 0.0044 20.69 <.0001 12.07 0.0005 0.28 0.5936 3.23 0.0725 6.08 0.0137 3.84 0.0501 6.82 0.009 3.07 0.0796 3.01 0.0827 0.75 0.3872 5.59 0.0181 Der er ikke en monoton sammenhæng mellem eksamensalder og sandsynligheden for at bestå: der er positive koefficienter på dummyerne op til og med 5 år, mens dummyen for eksamener ældre end 6 år er negativ. 5. Det tyder på, at sammenhængen mellem kvotient og sandsynligheden er monoton. Forsøger man med at inkludere kvotient kvadreret bliver koefficienten insignifikant. Forsøger man med at inkludere dummier for intervalendepunkterne bliver disse også insignifikante. Dermed er der ikke indikation på, at modellen er fejlspecificeret.

6. goodness of fit Table of bestd12 by p_best bestd12(bestået 12 mdr.) p_best Frequency 0 1 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 443 144 587 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 164 354 518 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 607 498 1105 443 + 354 Goodness of fit: = 72,1% 1105 Modellen rammer altså rigtigt i 72 pct. af tilfældene. 7. partielle effekter Tabel 3 marginale effekter af forskellige karakteristika, (standardpersonen: mand, a-niveau, 0 år gammel eksamen, snit 8.5) Probit halvaard -0,14 kvinde 0,06 matb -0,18 matm -0,05 sproglig -0,21 HF -0,29 HHX -0,18 HTX -0,07 udland -0,17 GIF -0,34 deksald1 0,10 deksald2 0,14 deksald3 0,12 deksald4 0,15 deksald5 0,10 deksald6-0,23 Tallene i tabellen er beregnet som: βˆ + βˆ + βˆ 8.5) G( βˆ + βˆ G( 0 j 2 0 2 8.5) Den kontinuerte variabel kvotient har følgende marginale effekt: ( y = 1 x) P kvotient P( x) = = g kvotient ( β ˆ + xβˆ ) = g(-0.08417) 1,1348 = 0,2496 1,1348 0,28 0 β j = Dvs. at med 9.5 i stedet for 8.5 i snit i den adgangsgivende eksamen, øges sandsynligheden med 28 pct. Alle andre eksamener end matematik a-niveau mindsker sandsynligheden for at bestå.

8. Man skal altså prøve at undgå meget gamle eksamener, vinterstartere, hhx-, hf-, og sproglige studenter Ligesom de udenlandske eksamener også har lavere beståelses-sandsynlighed. Og så skal man lave adgangsbegrænsninger igen det vil mindske frafaldet (men til gengæld også mindske antallet af studerende, og dermed indtægter til polit-studiet.) Disse adgangsbegrænsninger kunne være på adgangsgivende eksamen eller karakterkvotienten. 9. Probit, logit og LPM Tabel 4 Sammenligning af Probit, Logit og LPM Estimater I forhold til LPM probit logit lpm probit logit Intercept -5.7852-9.7301-1.43-2.31-2.43 halvaard -0.3494-0.5773-0.11-0.14-0.14 kvotient 0.6749 1.1348 0.23 0.27 0.28 kvinde 0.1378 0.2229 0.04 0.06 0.06 matb -0.4671-0.7661-0.16-0.19-0.19 matm -0.1126-0.1831-0.04-0.05-0.05 sproglig -0.5373-0.922-0.19-0.21-0.23 HF -0.8183-1.3719-0.25-0.33-0.34 HHX -0.4493-0.7586-0.15-0.18-0.19 HTX -0.1671-0.2713-0.07-0.07-0.07 udland -0.4401-0.7303-0.16-0.18-0.18 GIF -0.9776-1.7584-0.30-0.39-0.44 deksald1 0.2251 0.3844 0.07 0.09 0.10 deksald2 0.3415 0.5615 0.10 0.14 0.14 deksald3 0.2669 0.4772 0.09 0.11 0.12 deksald4 0.3662 0.6277 0.11 0.15 0.16 deksald5 0.2442 0.4162 0.08 0.10 0.10 deksald6-0.5188-1.0386-0.16-0.21-0.26 Det ses af tabellen, at der ikke er den store forskel på estimaterne i de tre estimationsmetoder (logit er delt med 4 og probit er delt med 2.5).

11. Figur 1 Predikteret sandsynlighed for forskellige værdier af kvotient, blå er probit, sort logit, rød LPM Estimated Probability 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 6 7 8 9 10 kvotient Figuren viser sammenhængen mellem kvotienten ved den adgangsgivende eksamen og sandsynligheden for at bestå. Indtil 8.3 og over 9.8 giver den lineære sandsynligheds-model større sandsynlighed for at bestå end logit og probit modellerne. Der er kun marginal forskel på logit og probit.