Uge 13 referat hold 4

Relaterede dokumenter
Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Statistiske Modeller 1: Kontingenstabeller i SAS

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik II 4. Lektion. Logistisk regression

Morten Frydenberg 26. april 2004

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Løsning til opgave i logistisk regression

Morten Frydenberg 14. marts 2006

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Logistisk Regression - fortsat

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Dagens program. Praktisk information:

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Opgavebesvarelse, logistisk regression

Skriftlig eksamen Science statistik- ST501

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Lineær og logistisk regression

Multipel Lineær Regression

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Reeksamen i Statistik for biokemikere. Blok

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Afdeling for Anvendt Matematik og Statistik December 2006

NOTAT EFFEKTEN AF HF. Metode

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Kvantitative metoder 2

Psykisk arbejdsmiljø og stress

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Generelle lineære modeller

Postoperative komplikationer

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Hvor længe venter de studerende inden de begynder uddannelse? Og hvad laver de imens?

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Kvantitative metoder 2

Tema. Dagens tema: Indfør centrale statistiske begreber.

Konfidensintervaller og Hypotesetest

Module 12: Mere om variansanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Simpel og multipel logistisk regression


Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Reestimation af uddannelsessøgende

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri, ugeseddel 8 Hold 1 1/4-2003

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Rettevejledning til Økonomisk Kandidateksamen 2004I, Økonometri 1

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Løsning til eksaminen d. 29. maj 2009

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

En Introduktion til SAS. Kapitel 5.

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Out-of-sample forecast samt reestimation af ADAMs lønligning

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistiske principper

Dansk Erhvervs gymnasieeffekt - sådan gør vi

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Effekten af indvandring på indfødte danskeres løn og beskæftigelse

k normalfordelte observationsrækker (ensidet variansanalyse)

Transkript:

Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer for <6.9 og >10. 2) Den funktionelle form; der er ikke nødvendigvis en lineær sammenhæng mellem kvotienten fra den adgangsgivende eksamen og sandsynligheden for at bestå første årsprøve på normeret tid. Løsningen er her enten at indføre dummyer for eksempelvis 6.9, 7-8, 9-10 og 10+. Her skal man huske ikke at inkludere en dummy for 8-9, da man så ryger i dummyfælden. Alternativt kunne man indføre kvadratiske led for at opfange aftagende hhv. stigende marginale effekter. 1b: Er variablen eksald inkluderet på en hensigtsmæssig måde? Problemet er også her, at der ikke nødvendigvis er en (negativ) lineær sammenhæng mellem eksamensalderen og sandsynligheden for at bestå første årsprøve på normeret tid. Løsningen hedder igen dummyvariable, eksempelvis dummyer for 1, 2, 5 år og en for >6 år. 2: LR-test: har typen af adgangsgivende eksamen betydning? Hypotesen er: H 0 : β 5 =β 6 = =β 12 =0 vs. H 1 : ét af lighedstegnene gælder ikke Først estimeres den urestrikterede model (model (1)), bagefter den restrikterede uden variablerne for den adgangsgivende eksamen. Teststørrelsen er: 2 LR = ln L ( 2ln ) ~ χ, hvor q er antallet af restriktioner, i dette tilfælde 8. 2 restricted L unrestricted q a 3: Hvordan fortolkes parametrene? P( y = 1 x) P( x) = = g( β 0 + xβ ) β j x x j j

I logit er g( x) = exp( x) ( 1 + exp( x) ) 2 Da g( ) er en tæthedsfunktion, vil den partielle effekt have samme fortegn som estimatet: (på symbolsprog:) Hvis ( x) P β 0 > 0 > 0. x j 4. Først skal det nævnes at den lineære model kan antage værdier større end 1 og mindre end 0 hvilket er en svaghed ved denne model. Dette er ikke tilfældet for hverken logit- eller probit-modellen. Sammenhængen mellem estimaterne i de tre forskellige modeller er som følger: Med udgangspunkt i den lineære sandsynlighedsmodel skal estimatet fra logitmodellen divideres med 4 mens estimatet fra probitmodellen skal divideres med 2,5. Dette skyldes at g(0) = 1 for den lineære sandsynlighedsmodel, g(0) = 0,4 for probitmodellen og g(0) = 0,25 for logitmodellen. Nedenfor er kurverne for de tre modeller søgt illustreret: Gz ( ) =Φ( z) G(z) = exp(z)/(1+exp(z)) G(z) = z - 0,5 0,5

5. Som udgangspunkt skal det undersøger hvilke faktorer der øger sandsynligheden for at bestå. Derefter skal man designe optagelseskravene således at de studerende med de højeste gennemsnit kommer ind på polit. SAS 1. Tabel 1: deskriptiv statistik, N=1105 Variable kvotient startaar eksald bestd12 matb matm sproglig HF HHX HTX udland GIF kvinde halvaard Mean Std Dev Minimum Maximum 8.531 1998.030 1.993 0.469 0.101 0.110 0.052 0.084 0.127 0.019 0.027 0.014 0.286 0.167 Tallene siger vist sig selv. 0.835 6.900 1997.000 0.000 10.000 2000.000 29.000

2. Tabel 2 Model 1 estimeret. Afhængig variabel bestd12 Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1-8.7094 0.8046 117.1771 <.0001 halvaard 1-0.4181 0.1909 4.7977 0.0285 eksald 1-0.0771 0.0303 6.4676 0.0110 kvotient 1 1.0733 0.0930 133.1387 <.0001 kvinde 1 0.1769 0.1535 1.3285 0.2491 matb 1-0.8118 0.2390 11.5413 0.0007 matm 1-0.3546 0.2263 2.4567 0.1170 sproglig 1-0.8453 0.3219 6.8941 0.0086 HF 1-1.4857 0.2981 24.8389 <.0001 HHX 1-0.8626 0.2139 16.2656 <.0001 HTX 1-0.2608 0.4978 0.2744 0.6004 udland 1-0.7352 0.4004 3.3718 0.0663 GIF 1-1.9497 0.7089 7.5640 0.0060 Det kan bemærkes at estimatet til kvinde ikke er signifikant forskelligt fra 0. 3. H 0 : β 5 =β 6 = =β 12 =0 vs. H 1 : ét af lighedstegnene gælder ikke LR = a 2 2ln Lrestricted ( 2ln L unrestricted ) ~ χq 2 LR =1318. 244 1265.267 = 52.977 ~ χ, a 8 Det skal sammenlignes med den kritiske værdi i en χ 2 8 (95%) =15,51. Dvs. at vi klart afviser H o mod H 1 : typen af adgangsgivende eksamen har betydning for om man består. Testet, som TEST-optionen i PROC LOGISTIC udfører, er et Wald-test. Wald-testet udføres ved, at den un-restrictede model estimeres, og herefter benyttes Beta-estimaterne og Variansen på Betaestimaterne. 4. Model 2. Afhængig variabel bestd12 Parameter Estimate WaldChi- Square Pr > ChiSq

Intercept -9.7301 (0.8532) halvaard -0.5773 (0.1961) kvotient 1.1348 (0.0957) kvinde 0.2229 (0.1553) matb -0.7661 (0.2426) matm -0.1831 (0.2327) sproglig -0.922 (0.324) HF -1.3719 (0.3016) HHX -0.7586 (0.2183) HTX -0.2713 (0.5083) udland -0.7303 (0.4067) GIF -1.7584 (0.7133) deksald1 0.3844 (0.1962) deksald2 0.5615 (0.215) deksald3 0.4772 (0.2722) deksald4 0.6277 (0.3617) deksald5 0.4162 (0.4813) deksald6-1.0386 (0.4394) Square ChiSq 130.07 <.0001 8.67 0.0032 140.58 <.0001 2.06 0.1513 9.97 0.0016 0.62 0.4312 8.10 0.0044 20.69 <.0001 12.07 0.0005 0.28 0.5936 3.23 0.0725 6.08 0.0137 3.84 0.0501 6.82 0.009 3.07 0.0796 3.01 0.0827 0.75 0.3872 5.59 0.0181 Der er ikke en monoton sammenhæng mellem eksamensalder og sandsynligheden for at bestå: der er positive koefficienter på dummyerne op til og med 5 år, mens dummyen for eksamener ældre end 6 år er negativ. 5. Det tyder på, at sammenhængen mellem kvotient og sandsynligheden er monoton. Forsøger man med at inkludere kvotient kvadreret bliver koefficienten insignifikant. Forsøger man med at inkludere dummier for intervalendepunkterne bliver disse også insignifikante. Dermed er der ikke indikation på, at modellen er fejlspecificeret.

6. goodness of fit Table of bestd12 by p_best bestd12(bestået 12 mdr.) p_best Frequency 0 1 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 443 144 587 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 164 354 518 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 607 498 1105 443 + 354 Goodness of fit: = 72,1% 1105 Modellen rammer altså rigtigt i 72 pct. af tilfældene. 7. partielle effekter Tabel 3 marginale effekter af forskellige karakteristika, (standardpersonen: mand, a-niveau, 0 år gammel eksamen, snit 8.5) Probit halvaard -0,14 kvinde 0,06 matb -0,18 matm -0,05 sproglig -0,21 HF -0,29 HHX -0,18 HTX -0,07 udland -0,17 GIF -0,34 deksald1 0,10 deksald2 0,14 deksald3 0,12 deksald4 0,15 deksald5 0,10 deksald6-0,23 Tallene i tabellen er beregnet som: βˆ + βˆ + βˆ 8.5) G( βˆ + βˆ G( 0 j 2 0 2 8.5) Den kontinuerte variabel kvotient har følgende marginale effekt: ( y = 1 x) P kvotient P( x) = = g kvotient ( β ˆ + xβˆ ) = g(-0.08417) 1,1348 = 0,2496 1,1348 0,28 0 β j = Dvs. at med 9.5 i stedet for 8.5 i snit i den adgangsgivende eksamen, øges sandsynligheden med 28 pct. Alle andre eksamener end matematik a-niveau mindsker sandsynligheden for at bestå.

8. Man skal altså prøve at undgå meget gamle eksamener, vinterstartere, hhx-, hf-, og sproglige studenter Ligesom de udenlandske eksamener også har lavere beståelses-sandsynlighed. Og så skal man lave adgangsbegrænsninger igen det vil mindske frafaldet (men til gengæld også mindske antallet af studerende, og dermed indtægter til polit-studiet.) Disse adgangsbegrænsninger kunne være på adgangsgivende eksamen eller karakterkvotienten. 9. Probit, logit og LPM Tabel 4 Sammenligning af Probit, Logit og LPM Estimater I forhold til LPM probit logit lpm probit logit Intercept -5.7852-9.7301-1.43-2.31-2.43 halvaard -0.3494-0.5773-0.11-0.14-0.14 kvotient 0.6749 1.1348 0.23 0.27 0.28 kvinde 0.1378 0.2229 0.04 0.06 0.06 matb -0.4671-0.7661-0.16-0.19-0.19 matm -0.1126-0.1831-0.04-0.05-0.05 sproglig -0.5373-0.922-0.19-0.21-0.23 HF -0.8183-1.3719-0.25-0.33-0.34 HHX -0.4493-0.7586-0.15-0.18-0.19 HTX -0.1671-0.2713-0.07-0.07-0.07 udland -0.4401-0.7303-0.16-0.18-0.18 GIF -0.9776-1.7584-0.30-0.39-0.44 deksald1 0.2251 0.3844 0.07 0.09 0.10 deksald2 0.3415 0.5615 0.10 0.14 0.14 deksald3 0.2669 0.4772 0.09 0.11 0.12 deksald4 0.3662 0.6277 0.11 0.15 0.16 deksald5 0.2442 0.4162 0.08 0.10 0.10 deksald6-0.5188-1.0386-0.16-0.21-0.26 Det ses af tabellen, at der ikke er den store forskel på estimaterne i de tre estimationsmetoder (logit er delt med 4 og probit er delt med 2.5).

11. Figur 1 Predikteret sandsynlighed for forskellige værdier af kvotient, blå er probit, sort logit, rød LPM Estimated Probability 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 6 7 8 9 10 kvotient Figuren viser sammenhængen mellem kvotienten ved den adgangsgivende eksamen og sandsynligheden for at bestå. Indtil 8.3 og over 9.8 giver den lineære sandsynligheds-model større sandsynlighed for at bestå end logit og probit modellerne. Der er kun marginal forskel på logit og probit.