Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Relaterede dokumenter
Synopsis til eksamen i Statistik

Eksamen i Statistik og skalavalidering

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Statistik & Skalavalidering

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Eksamen i statistik 2009-studieordning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik Lektion 4. Variansanalyse Modelkontrol

Generelle lineære modeller

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Logistisk regression

Multipel Lineær Regression

Eksamen Efterår 2013

1 Hb SS Hb Sβ Hb SC = , (s = )

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik og skalavalidering. Opgave 1

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 4. Lektion. Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Eksamen i Statistik for biokemikere. Blok

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

MPH specialmodul Epidemiologi og Biostatistik

Module 4: Ensidig variansanalyse

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Hver anden vil benytte øget åbningstid i dagtilbud

Morten Frydenberg 26. april 2004

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Morten Frydenberg 14. marts 2006

Lineær og logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Modelkontrol i Faktor Modeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Kapitel 12 Variansanalyse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Løsning eksamen d. 15. december 2008

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Kapitel 12 Variansanalyse

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Kausale modeller. Konstruktion og analyse

Uge 13 referat hold 4

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Psykisk arbejdsmiljø og stress

Statistiske modeller

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Tema. Dagens tema: Indfør centrale statistiske begreber.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Løsning til eksaminen d. 14. december 2009

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Ligelønsanalyse sammenligning af privatansatte kvinder og mænds løn

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kvantitative metoder 2

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Transkript:

D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23 og 29 Antal anslag 23.979 svarende til 9,9 normalsider

Eksamensnummer: 16, 23 og 29 2 Indholdsfortegnelse 1. Introduktion... 3 2. Præsentation af variable... 3 2.1 Motivationsskala... 3 2.2 Eksogene variable... 4 3. Opgave 1... 5 3.1 Tendenser mellem skala, items og eksogene variable... 5 3.2 Differentiel Item Funktion (DIF)... 6 4. Opgave 2... 8 4.1 Marginale sammenhænge... 8 4.2 Generel lineær analyse... 9 4.2.1 Modelsøgning... 9 4.2.2 Modelkontrol... 10 4.3 Separate analyser for kvinder og mænd... 12 4.4 Tolkning af de endelige modeller... 14 5. Opsamling... 17

Eksamen i statistik 2010 3 1. Introduktion Denne opgave søger at belyse motivationen blandt 895 socialrådgivere og kommunale sagsbehand- lere i 12 kommuner. For at måle graden af motivation konstrueres en skala ud fra fem udsagn. Da- tamaterialet indeholder oplysninger om, hvilken kommune respondenterne er ansat i (kommune), hvor længe de har været ansat i den pågældende kommune (anciennitet), hvorvidt de er heltids- eller deltidsansatte (ansættelsesforhold), hvor ofte de har overarbejde (overarbejde) samt deres køn og alder. I afsnit 2 præsenteres deskriptive analyser af datamaterialets variable. I afsnit 3 undersøges hvorvidt motivationsskalaen har problemer med Differentiel Item Funktion (DIF). Til sidst i afsnit 4 foreta- ges en generel lineær analyse med formål at undersøge, hvorledes graden af motivation afhænger af de ovenstående variable. 2. Præsentation af variable 2.1 Motivationsskala Den afhængige variabel (motivation) konstrueres ud fra fem variable (V71, S72, S73, S74, V75) således, at motivationsskalaen er givet ved: Motivation=V71+S72+S73+S74+V75. For variablene S72, S73 og S74 er svarkategorien nej, passer slet ikke opfattet som et udtryk for højeste grad af motivation (4 point), mens svarkategorien ja, passer i høj grad er udtryk for laveste grad af moti- vation (1 point). Det modsatte er tilfældet for variablene V71 og V75. De ansatte har mulighed for at score mellem 5 og 20 point på motivationsskalaen. I figur 1 og 2 ses svarfordelingerne for de fem variable. 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 53,8% Figur 1 Histogram af svarfordelingerne for S72, S73 og S74 39,9% 5,8% 0,4% S72: Det er kun lønnen der betyder noget Nej, passer slet ikke (4 point) 39,7% 29,8% 29,7% 21,9% 8,7% S73: Jeg ville stoppe, hvis jeg havde penge nok Nej, passer ikke (3 point) 42,2% Ja, passer i nogen grad (2 point) Ja, passer i høj grad (1 point) 20,2% 7,9% S74: Jeg ville vælge noget mere interessant, hvis jeg havde muligheden for det

Eksamensnummer: 16, 23 og 29 4 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% Figur 2 Histogram af svarfordelingerne for V71 og V5 63,8% 62,5% 26,0% 19,2% 14,5% 10,4% 2,5% 1,1% V71: Jeg har et godt arbejde V75: Jeg er stolt over mit arbejde Ja, passer i høj grad (4 point) Nej, passer ikke (2 point) Ja, passer i nogen grad (3 point) Nej, passer slet ikke (1 point) 2.2 Eksogene variable Fordelingen af de eksogene variable ses i tabel 1. Variablen alder er omkodet så gruppen 18 år og yngre er ekskluderet fra undersøgelsen (n=1), idet vi mener, at en færdiguddannet må være over som 18 år. Tabel 1: Fordelingen af de eksogenee variable Variabel N % Variabel N Kommune Kommune 1 34 3,8 Overarbejde Sjældent 215 Kommune 2 145 16,,2 2-3 gange pr. måned 288 Kommune 3 132 14,,7 2-3 gange pr. uge 277 Kommune 4 22 2,5 Næsten dagligt 109 Kommune 5 104 11,,6 Total 889 Kommune 6 53 5,9 Køn Kommune 7 39 4,44 Mand 144 Kommune 8 47 5,3 Kvinde 749 Kommune 9 37 4,1 Total 893 Kommune 10 144 16,,1 Alder Kommune 11 71 7,9 19-29 år 89 Kommune 12 67 7,5 30-39 år 177 Total 895 100,0 40-49 år 265 Ansættelsesforhold Heltid 708 79,,6 50-59 år 60 år og ældre 295 66 Deltid 181 20,,4 Total 892 Total 889 100,0 % 24,2 32,4 31,2 12,3 100,0 16,1 83,9 100,0 10,0 19,8 29,7 33,1 7,4 100,0 Det bemærkes, at relativt få mænd er med i undersøgelsen, hvilket viser sig at få betydning i opgave 2. Figur 3 og 4 viser fordelingenn af henholdsvis den kontinuerte variabel anciennitet og motivationsskalaen.

Eksamen i statistik 2010 5 Figur 3: Histogram af svarfordelingen af anciennitet Figur 4: Histogram af svarfordeling af motivation Fordelingen af anciennitetsvariablen i figur 3 er tydelig venstreskæv med få individer i de sidste kategorier. Motivationsskalaen i figur 4 er en smule højreskæv. Personer, der mangler svar på ét eller flere spørgsmål får ikke beregnet en skalaværdi, hvilket drejer sig om 10 personer (1,1 %). 3. Opgave 1 3.1 Tendenser mellem skala, items og eksogene variable Når et abstrakt begreb som motivation skal måles, kan det være nødvendigt at inkludere mere end ét enkelt item i målingen. Der skal således konstrueres en skala, som kan anvendes som proxy for den latente variabel. Relationen mellem de enkelte items og de eksogene variable skal i det store hele udvise samme tendens som sammenhængen mellem skalaen og de eksogene variable. Dette undersøges i det følgende.

Eksamensnummer: 16, 23 og 29 6 Tabel 2: Den marginale sammenhæng mellem de eksogene variable og henholdsvis motivationsskalaen og de enkelte items Motivation V71 S72 S73 S74 V75 Kommune p-værdi 0,044* 0,337 0,229 0,002* 0,061 0,260 γ 0,191 0,199 0,248 0,193 0,200-0,058 Køn p-værdi 0,001* 0,019* 0,003* 0,007* 0,005* 0,496 Alder Anciennitet Ansættelsesforhold Overarbejde Testet med χ 2 Anciennitet er kategoriseret i fem næsten lige store grupper *Signifikante sammenhænge γ 0,083 0,071 0,106 0,053 0,145 0,023 p-værdi 0,010* 0,130 0,022* 0,170 0,000* 0,614 γ 0,058 0,060 0,005 0,025 0,140 0,003 p-værdi 0,105 0,189 0,906 0,509 0,000* 0,952 γ -0,085-0,066 0,032-0,079-0,113-0,138 p-værdi 0,114 0,394 0,683 0,225 0,085 0,076 γ -0,043-0,010-0,023-0,064-0,050-0,041 p-værdi 0,204 0,840 0,640 0,118 0,232 0,405 Gammakoefficienterne har for de fleste items samme fortegn som motivation, selvom ikke alle p- værdier er signifikante. Tendensen for ansættelsesforhold og S72 samt køn og V75 er den modsatte som for motivation. Disse gammakoefficienter er dog tætte på nul, hvilket er udtryk for svag marginal sammenhæng. Desuden er p-værdierne for disse koefficienter tydeligt insignifikante på et 5 % niveau. Der behøver derfor ikke at være problemer med disse items. 3.2 Differentiel Item Funktion (DIF) Et af kriterierne for en begrebsvalid skala er, at skalaen ikke har problemer med DIF. En skala kan både have uniform og non-uniform DIF. Ved uniform DIF forstås, at en eksogen variabel stadig har en effekt på et item, når der betinges for skalaen, og denne effekt er ens på alle niveauer af skalaen. Ved non-uniform DIF er der derimod interaktion mellem skalaen og en eksogen variabel. DIF-analyser foretages for hvert enkelt item ved hjælp af logistisk regression. Dette kræver at alle items omdannes til binære variable med svarkategorierne ja og nej. For hvert item gennemføres seks separate analyser med de eksogene variable, samt én samlet analyse med alle eksogene variable inkluderet. Skalaen inkluderes i alle analyser som uafhængig variabel. Da der beregnes et stort antal teststørrelser, sættes signifikantniveauet til 1 % for at mindske risikoen for type 1 fejl. Resultaterne af DIF-analyserne ses i tabel 3.

Eksamen i statistik 2010 7 Tabel 3: P-værdier fra logistisk regression V71 S72 S73 S74 V75 Kommune Seperat 0,982 0,671 0,244 0,417 0,315 Samlet 0,989 0,609 0,253 0,463 0,311 Køn Seperat 0,080 0,680 0,888 0,546 0,064 Samlet 0,077 0,243 0,994 0,615 0,087 Alder Seperat 0,624 0,364 0,077 0,586 0,591 Samlet 0,765 0,300 0,239 0,914 0,281 Anciennitet Seperat 0,289 0,985 0,094 0,026 0,868 Samlet 0,519 0,949 0,584 0,061 0,346 Seperat 0,314 0,911 0,181 0,979 0,466 Ansættelsesforhold Samlet 0,430 0,777 0,303 0,816 0,526 Overarbejde Seperat 0,244 0,690 0,915 0,232 0,800 Samlet 0,314 0,603 0,833 0,384 0,959 Da ingen af p-værdierne i tabel 3 er signifikante på et 1 % niveau, tyder det ikke på, at der er problemer med DIF i forhold til motivationsskalaen. Sammenhængen mellem anciennitet og S74 ville dog have været signifikant på et 5 % niveau (p=0,026). Denne sammenhæng er dog ikke signifikant i den samlede analyse, og vi har ingen god faglig begrundelse for, at der kan være en sammenhæng mellem S74 og anciennitet. Da anciennitet er en kontinuert variabel, blev der foretaget DIF-analyser med anciennitet i første, anciennitet i anden og anciennitet i tredje. Resultaterne for disse analyser er ikke vist, da de ikke påvirkede resultatet. I ovenstående analyse er der ikke inddraget interaktioner mellem motivationsskalaen og de eksogene variable. Der tages derfor ikke højde for non-uniform DIF. For at undersøge, om det er for simpelt ikke at tage højde for interaktioner, sammenlignes den samlede model uden interaktioner med en mættet model inklusiv alle interaktioner for samtlige items. Sammenligningen sker ved hjælp af et likelihood ratio test, som beregnes som forskellen mellem -2Log Likelihood værdierne for de to modeller. For item S72 er p-værdien for likelihood ratio testet signifikant på et 5 % niveau (p=0,019). Den simple model for S72 forkastes derfor, og det tyder på, at der kan være problemer med non-uniform DIF. For at undersøge dette nærmere gennemføres en baglæns modelsøgning for S72, hvor alle interaktioner er inkluderet i start modellen. Interaktionen mellem ansættelsesforhold og motivation giver en p-værdi på 0,022 for likelihood ratio testet. Da signifikantniveauet er 1 %, betragtes denne interaktionen som insignifikant, og det antages, at der ikke er tale om uniform DIF i forhold til item S72. Skalaen bevares derfor i sin oprindelige form, hvor alle items er inkluderet.

Eksamensnummer: 16, 23 og 29 8 4. Opgave 2 For at belyse en eventuel sammenhæng mellem de eksogene variable og graden af motivation, gennemføres en generel lineær analyse, hvor motivationsskalaen, fra opgave 1, udgør den afhængige variabel. Vi indleder opgavebesvarelsen med en undersøgelse af marginale sammenhænge. 4.1 Marginale sammenhænge De marginale sammenhænge mellem motivation og de eksogene variable undersøges med en t-test for de binære variable og en ensidet variansanalyse, ANOVA, for de kategoriske variable. Resultaterne for disse tests er vist i tabel 4. Tabel 4: Marginale sammenhænge mellem de eksogene variable og motivationsskalaen Køn Ansættelsesforhold Kommune Alder Overarbejde Levenes test (p-værdi) 0,700 0,830 0,115 0,842 0,119 Variansanalyse 0,002 0,113 0,091 0,086 0,147 Testet med t-test Testet med ANOVA Levenes test for varianshomogenitet accepterer nulhypotesen for samtlige variable. Der er altså ikke forskel på varianserne inden for grupperne af disse variable. Køn er den eneste variabel, hvor der kan påvises en signifikant forskel på det gennemsnitlige motivationsniveau (p=0,002). Den marginale sammenhæng mellem anciennitet og motivation er belyst ved et scatter-plot i figur 5. Det bemærkes, at der hverken synes at være en tilnærmelsesvis lineær, kvadratisk eller kubisk relation imellem anciennitet og motivation. Figur 5: Scatter-plot af sammenhængen mellem anciennitet og motivation

Eksamen i statistik 2010 9 I en generel lineær analyse i SPSS anvendes sidste kategori som reference. Dette kan være uhensigtsmæssigt, hvis der er få personer i denne gruppe, da flere individer i referencegruppen mindsker standardfejlene på estimaterne af modellens parametre. Vi har derfor omkodet variablene; kommune, alder, ansættelsesforhold og overarbejde, således at referencegruppen indeholder mange individer 1. 4.2 Generel lineær analyse I det følgende gennemføres en analyse af effekten af de eksogene variable på motivation, samt en undersøgelse af eventuelle interaktioner. En generel lineær analyse bygger på følgende forudsætninger: 1) Linearitet 2) Varianshomogenitet 3) Betinget normalfordeling Jævnfør figur 4 lader motivation ikke til at være helt normalfordelt. Dette er dog ikke et problem i forhold til en generel lineær analyse, da det er den betingede fordeling af den afhængige variabel, som forudsættes at være normalfordelt. I det følgende foretages først en trinvis baglæns modelsøgning efter det hierarkiske princip. Herefter kontrolleres modellen i forhold til forudsætningerne, og endeligt estimeres parametrene i den endelige model. 4.2.1 Modelsøgning I modelsøgningen inddrages alle uafhængige variable samt alle tovejsinteraktioner i startmodellen. For denne analyse accepteres nulhypotesen om varianshomogenitet ved Levenes test (p=0,073). Dette skal dog testes igen, når den endelige model foreligger. I tabel 5 ses en oversigt over de hovedvirkninger og interaktionsled, der elimineres i modelsøgningen. 1 Referencegrupperne er som følger: kommune = kommune 10, alder = 50-59-årige, ansættelsesforhold = heltid, overarbejde = sjældent

Eksamensnummer: 16, 23 og 29 10 Tabel 5: Model-led der elimineres i modelsøgningen Trin Model-led p-værdi 1 Kommune * Anciennitet 0,823 2 Ansættelsesforhold * Anciennitet 0,689 3 Kommune * Ansættelsesforhold 0,681 4 Alder * Ansættelsesforhold 0,606 5 Ansættelsesforhold * Køn 0,550 6 Alder * Anciennitet 0,490 7 Kommune * Alder 0,195 8 Kommune * Køn 0,110 9 Køn * Anciennitet 0,102 10 Alder * Overarbejde 0,057 11 Overarbejde * Anciennitet 0,132 12 Anciennitet 0,279 13 Ansættelsesforhold * Overarbejde 0,083 Den samlede model ses i tabel 6, hvor der indgår tre interaktioner mellem henholdsvis kommune og overarbejde, alder og køn samt overarbejde og køn. Det bemærkes, at anciennitet udgår af modellen. Tabel 6: Den samlede model F p-værdi Køn 0,733 0,392 Kommune 2,593 0,003 Alder 1,896 0,109 Ansættelsesforhold 9,691 0,002 Overarbejde 4,350 0,005 Køn * Alder 3,502 0,008 Køn * Overarbejde 4,627 0,003 Overarbejde * Kommune 2,148 0,000 4.2.2 Modelkontrol Ved modelkontrol vurderes det, om modellens tre forudsætninger i et rimeligt omfang er opfyldt. Modelkontrollen består af en såkaldt residualanalyse, som er en grafisk visuelt baseret analyse, hvor modellens forudsætninger vurderes på grundlag af forskellige figurer. 1) Linearitet Undersøges med udgangspunkt i et scatter-plot (figur 6), hvor residualerne er plottet mod de prædikterede værdier. Hvis lineariteten er acceptabel, skal der ikke være nogen systematik i residualværdiernes variation, hvilket ikke er tilfældet i figur 6. Forudsætningen om linearitet accepteres. 2) Varianshomogenitet Undersøges grafisk i samme scatter-plot (figur 6). En vandret tendenslinje i y=0 er markeret, og denne hjælper til at vurdere, om variansen stiger eller falder for højere værdier af motivation, sva-

Eksamen i statistik 2010 11 rende til variansheterogenitet. Da værdierne spreder sig nogenlunde ligeligt omkring den vandrette tendenslinje, tyder det på, at der er tale om varianshomogenitet. Vi har desuden foretaget et Levenes test for varianshomogenitet af den samlede model som accepteres (p=0,142). Det bemærker, at Levenes test kun tager højde for de kategoriske variable, idet det er variansen imellem grupper, der testes. 3) Normalfordeling Histogrammet i figur 7 viser fordelingen af residualværdierne. Hvis forudsætningen, om at motivation er betinget normalfordelt, er opfyldt, vil residualværdierne være normalfordelte med en middelværdi lig nul. Dette lader til at være tilfældet i figur 7. Antagelsen om normalfordelte residualer kan også kontrolleres i et P-P-plot som vist i figur 8. Her ses, at der ikke er bemærkelsesværdig afvigelse fra den identitetslinje som punkterne skal følge, hvis der er fuldstændig overensstemmelse mellem den empirisk kumulerede fordeling og fordelingsfunktionen for normalfordelingen. Grafisk tyder det således på, at residualerne er normalfordelte. Som supplement til de grafiske fremstillinger testes normalfordelingskriteriet ved hjælp af Kolmogorov-Smirnov testet, som tilsvarende sammenligner den kumulerede fordeling af residualerne med den standardiserede normalfordeling. Kolmogorov-Smirnov testet bekræfter, at residualerne er normalfordelte, idet nulhypotesen accepteres (p=0,148). Intet tyder således på, at residualerne afviger fra normalfordelingen. Figur 6: Scatter-plot af standardiserede residualer og prædikterede værdier Figur 7: Histogram over residualerne Figur 8: P-P-plot for standardiserede residualer Samlet viser modelkontrollen, at alle tre forudsætninger for generelle lineære modeller er opfyldt. Den samlede model er forholdsvist kompliceret med interaktioner mellem køn og alder, køn og overarbejde, samt overarbejde og kommune. Det giver derfor ikke mening at se på effekterne af

Eksamensnummer: 16, 23 og 29 12 disse variable hver for sig. For at lette fortolkningen af den komplicerede model vælger vi at gennemføre separate analyser for mænd og kvinder. 4.3 Separate analyser for kvinder og mænd Der foretages modelsøgning, modelkontrol og slutteligt opstilles en endelig model for henholdsvis kvinder og mænd. De endelige modeller ses i tabel 7. Tabel 7: Model for henholdsvis kvinder og mænd Kvinder Mænd F p-værdi F p-værdi Kommune 1,334 0,201 2,920 0,002 Ansættelsesforhold 8,560 0,004 4,220 0,043 Overarbejde 2,196 0,087 4,658 0,004 Alder - - 2,736 0,033 Anciennitet 10,454 0,001 - - Overarbejde * Kommune 1,520 0,034 1,676 0,036 Modelkontrollen gennemføres ligesom for den samlede model og de grafiske fremstillinger ses i figur 9. Figur 9: Grafisk fremstilling af linearitet og varianshomogenitet vist ved et scatter-plot, normalfordelingen vist ved et histogram og P-P-plot for henholdsvis kvinder og mænd Scatter-plot af de standardiserede residualer mod prædikterede værdier Histogram over residualerne P-P-plot for de standardiserede Residualer Kvinder

Eksamen i statistik 2010 13 Mænd Kvinder: Forudsætningen om linearitet accepteres. Varianshomogenitet accepteres ligeledes og bekræftes, idet Levenes test er insignifikant (p=0,112). Det accepteres desuden, at residualerne følger en normalfordeling, hvilket bekræftes af Kolmogorov-Smirnov testet, som er insignifikant (p=0,083). Mænd: Forudsætningen om linearitet og varianshomogenitet accepteres (Levenes test p=0,324). I forhold til forudsætningen om normalfordelte residualer er de grafiske fremstillinger mere uklare grundet få individer. Kolmogorov-Smirnov testet er dog insignifikant (p=0,676), så forudsætningen accepteres. Forudsætningerne for den generelle lineære model accepteres for både mænd og kvinder, og de endelige modeller er som vist i tabel 7. Alder indgår i den samlede model og den endelige model for mænd. Alder har således kun betydning for motivationen hos mænd. Anciennitet indgår kun i modellen for kvinder, hvilket eventuelt kan skyldes en interaktion mellem anciennitet og køn, som dog ikke fremgår af den samlede model. Hvis de kategoriske variable erstattes af binære dummy-variable, kan den samlede effekt af de uafhængige variable opskrives som en lineær funktion af middelværdien. Funktionerne for henholdsvis kvinder og mænd ses nedenfor: Kvinder E(Y K, A, O, C) = α + βkkk + βaaa + βooo + βccc + βkokkoo Mænd E(Y K, Z, A, O) = α + βkkk + βzzz + βaaa + βooo + βkokkoo K = kommune, Z = alder, A = ansættelsesforhold, O = overarbejde og C = anciennitet

Eksamensnummer: 16, 23 og 29 14 4.4 Tolkning af de endelige modeller For at tolke β-estimaterne er det nødvendigt at undersøge hovedvirkninger og interaktioner for sig. β-estimaterne for hovedvirkningerne og dertilhørende konfidensintervaller ses i tabel 8. Tabel 8: β-estimater for hovedvirkninger i slutmodellerne Kvinder Mænd β CI 95 % β CI 95 % Alpha (α) 15,428 [14,481;16,375] 14,638 [12,879;16,396] Ansættelsesforhold Deltid -0,711 [-1,188;-0,234] -2,316 [-4,554;-0,077] Heltid 0,0 0,0 Anciennitet 0,033 [0,013;0,052] - - Alder 19-29 år - - 3,453 [0,924;5,982] 30-39 år - - 0,110 [-1,120; 1,340] 40-49 år - - 1,179 [0,141; 2,217] 60+ - - 0,380 [-1,981;2,741] 50-59 år - - 0,0 Kvinder: Deltidsansattes motivationsgrad ligger, alt andet lige, ca. 0,7 point lavere end fuldtidsansattes, mens graden af motivation stiger med stigende anciennitet (0,033 point pr. år, alt andet lige). Mænd: Det har stor betydning for mænds motivation hvorvidt de er ansat på hel- eller deltid. Deltidsansattes motivationsgrad er således 2,3 point lavere end heltidsansatte, alt andet lige. De 19-29- årige ligger ca. 3,5 point højere på motivationsskalaen end de 50-59-årige, alt andet lige. P- værdierne for aldersgrupperne 30-39-årrige og 60 år og ældre er insignifikante, hvilket betyder, at disse grupper i princippet kan have samme motivationsgrad som referencegruppen (50-59-årige). Begge modeller indeholder en interaktion mellem kommune og overarbejde. Dette betyder, at det ikke giver mening at se på effekterne af disse variable hver for sig. For at kunne sige noget om variablenes indflydelse på motivation er det nødvendigt at udregne den samlede effekt af de forskellige kombinationer af variablene. De samlede effekter og konfidensintervaller for interaktionen mellem kommune og overarbejde for kvinder og mænd, er vist i henholdsvis tabel 9 og 10. Konfidensintervallerne er udregnet ved at konstruere en ny variabel for interaktionen og efterfølgende indsætte denne i modellen. Herved bliver det muligt at angive konfidensintervaller for β-værdierne.

Eksamen i statistik 2010 15 Tabel 9: Samlet effekt af interaktion mellem kommune og overarbejde for kvinder Kvinder Overarbejde Næsten dagligt 2-3 gange pr. uge 2-3 gange pr. mdr. Sjældent Kommune 1 β -0,373-0,045-0,045 [CI 95 %] [-2,246;1,500] [-2,084;1,993] [-2,523;2,433] Kommune 2 β -1,306-0,964 0,498 0,838 [CI 95 %] [-2,891;0,279] [-2,259;0,331] [-0,747;1,743] [-0,638;2,314] Kommune 3 β -0,021-0,973-0,062 0,403 [CI 95 %] [-1,969;1,926] [-2,224;0,279] [-1,317;1,193] [-0,997;1,804] Kommune 4 β -0,504-0,261 0,749 0,779 [CI 95 %] [-3,615;2,607] [-3,371;2,848] [-1,548;3,046] [-1,700;3,258] Kommune 5 β 0,616 0,237-0,31-0,307 [CI 95 %] [-1,334;2,567] [-1,164;1,638] [-1,526;0,907] [-1,889;1,276] Kommune 6 β -0,448-0,481 0,444-0,691 [CI 95 %] [-2,742;1,845] [-1,934;0,973] [-1,706;2,595] [-2,844;1,461] Kommune 7 β 1,723 0,648-0,217-0,959 [CI 95 %] [-1,008;4,453] [-1,101;2,396] [-2,261;1,828] [-2,659;0,741] Kommune 8 β -3,172-0,95 0,525-2,387* [CI 95 %] [-6,922;0,577] [-2,502;0,602] [-1,130;2,181] [-4,679;-0,095] Kommune 9 β 0,576 0,028 1,714 0,485 [CI 95 %] [-1,903;3,055] [-1,866;1,921] [-0,324;3,753] [-1,992;2,963] Kommune 11 β -6,336* 0,944 1,350-0,075 [CI 95 %] [-10,085;-2,586] [-0,531;2,418] [-0,203;2,903] [-1,824;1,674] Kommune 12 β 1,924-0,105-0,291 0,684 [CI 95 %] [-0,806;4,654] [-2,257;2,047] [-1,727;1,144] [-0,698;2,065] Kommune 10 β -0,230 0,136-0,078 0 [CI 95 %] [-1,615;1,155] [-1,115;1,388] [-1,385;1,228] Ingen personer i denne kategori *Signifikante p-værdier For kvinderne er tendenserne for interaktionen generelt uklare, fordi visse kombinationer af kommune og overarbejde indeholder meget få individer. En enkelt kombination indeholder slet ingen individer. Desuden er de fleste p-værdier (undtagen to) insignifikante. Det kan således være svært at se åbenbare sammenhænge. Med disse forbehold forsøger vi at tolke interaktionerne, og det lader til, at der ingen entydig sammenhæng er mellem hyppigheden af overarbejde og graden af motivation. Effekten af overarbejde på graden af motivation afhænger af hvilken kommune man er ansat i. Det tyder på, at det at være ansat i kommune 11 og næsten dagligt have overarbejde påvirker motivationen negativt, mens motivationen er høj for ansatte i kommune 7 og 12 med dagligt overarbejde. Profilen af kvinden med lavest grad af motivation er som følger: Hun er deltidsansat, netop ansat i kommune 11 og har overarbejde næsten dagligt.

Eksamensnummer: 16, 23 og 29 16 Tabel 10: Samlet effekt af interaktion mellem kommune og overarbejde for mænd Mænd Overarbejde Næsten dagligt 2-3 gange pr. uge 2-3 gange pr. mdr. Sjældent Kommune 1 β -3,748-3,000* -1,734-3,193 [CI 95 %] [-8,699;1,204] [-5,683;-0,317] [-4,865;1,397] [-6,857;0,472] Kommune 2 β 0,471-1,669-0,02-2,701* [CI 95 %] [-1,995;2,936] [-3,963;0,625] [-2,284;2,244] [-5,149;-0,252] Kommune 3 β 1,963-0,453 0,691 1,796 [CI 95 %] [-0,576;4,501] [-4,284;3,377] [-1,859;3,242] [-0,742;4,334] Kommune 4 β -2,477 6,298* [CI 95 %] [-5,300;0,345] [0,469;12,127] Kommune 5 β 3,678-1,364 0,691-1,638 [CI 95 %] [-1,659;9,015] [-4,472;1,744] [-1,945;3,327] [-6,470;3,195] Kommune 6 β 3,773* -2,437 0,029-2,757 [CI 95 %] [0,163;7,383] [-5,643;0,769] [-3,109;3,167] [-5,873;0,359] Kommune 7 β -6,017* -3,817 [CI 95 %] [-11,364;-0,671] [-8,665;1,032] Kommune 8 β -2,748-0,072-3,090 [CI 95 %] [-7,699;2,204] [-2,958;2,814] [-8,498;2,317] Kommune 9 β 1,659-3,817 2,807-2,817 [CI 95 %] [-1,487;4,805] [-8,665;1,032] [-0,857;6,472] [-7,665;2,032] Kommune 11 β -4,817 2,371 2,321-1,827 [CI 95 %] [-9,665;0,032] [-0,839;5,582] [-0,108;4,751] [-5,628;1,973] Kommune 12 β 1,718-2,193 0,651 [CI 95 %] [-1,948;5,384] [-5,857;1,472] [-2,031;3,332] Kommune 10 β 0,362-0,470-0,817 0 [CI 95 %] [-4,470;5,195] [-3,427;2,487] [-5,665;4,032] Ingen personer i denne kategori * Signifikante p-værdier Som for kvinder er tendenserne uklare og mange p-værdier insignifikante. Ligeledes afhænger effekten af hyppigheden af overarbejde på motivationen i høj grad af, hvilken kommune man er ansat i. Det må være en stærk interaktion, idet vi finder signifikante p-værdier for relativt mange kombinationer blandt mænd, selvom der er få individer. Profilen af manden med lavest grad af motivation er som følger: Han er deltidsansat, mellem 50 og 59 år, ansat i kommune 7 og har overarbejde 2-3 gange per uge. Det bør bemærkes, at interaktionen mellem kommune og overarbejde virker forskelligt blandt kvinder og mænd, dette kan eventuelt skyldes en trevejsinteraktion mellem kommune, overarbejde og køn. Vores datamateriale er dog så beskedent og usikkerheden på estimaterne så stor, at det ikke kan udelukkes, at den samlede effekt for kommune og overarbejde faktisk er den samme for mænd og kvinder.

Eksamen i statistik 2010 17 5. Opsamling Vi fandt i opgave 1, at motivationsskalaen ikke havde problemer med DIF. I opgave 2 fandt vi, at motivationsgraden blandt socialrådgivere og sagsbehandlere afhænger af, hvorvidt man er heltidseller deltidsansat. Alder lod til kun at have betydning for mænd, mens antal år på arbejdspladsen kun havde betydning for kvinder. Kønsforskellen i forhold til effekten af anciennitet var dog ikke synlig i den samlede model. Vi fandt en interaktion mellem hyppigheden af overarbejde og ansættelseskommune. Dermed er effekten af overarbejde på graden af motivation afhængig af, hvilken kommune man er ansat i.