Eksamen i Statistik og skalavalidering

Relaterede dokumenter
Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Synopsis til eksamen i Statistik

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Statistik & Skalavalidering

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Eksamen i statistik 2009-studieordning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Multipel Lineær Regression

Eksamen Efterår 2013

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik Lektion 4. Variansanalyse Modelkontrol

Generelle lineære modeller

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Psykisk arbejdsmiljø og stress

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik Lektion 16 Multipel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Forelæsning 11: Kapitel 11: Regressionsanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1 Regressionsproblemet 2

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

MPH specialmodul Epidemiologi og Biostatistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Modelkontrol i Faktor Modeller

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark.

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Hver anden vil benytte øget åbningstid i dagtilbud

Vejledende besvarelser til opgaver i kapitel 14

Module 4: Ensidig variansanalyse

Fokus på Forsyning. Datagrundlag og metode

Løsninger til kapitel 14

Personlig stemmeafgivning

Kapitel 12 Variansanalyse

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kapitel 12 Variansanalyse

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Skriftlig eksamen i samfundsfag

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistiske modeller

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Kvinder trækker læsset i hjemmet mænd prioriterer jobbet

Perspektiver i Matematik-Økonomi: Linær regression

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Bilag 12 Regressionsanalysens tabeller og forklaringer

Normalfordelingen og Stikprøvefordelinger

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

(studienummer) (underskrift) (bord nr)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Transkript:

Eksamen i Statistik og skalavalidering 2009-studieordning Til aflevering d. 22. december 2010 Efterårssemestret 2010, Kandidatuddannelsen i Folkesundhedsvidenskab Opgaven er udarbejdet af: Eksamensnummer 13, 27 og 30 Antal anslag: 23.995

Indhold Indledning... 3 Beskrivelse af datamaterialet... 3 Formål med opgaven... 3 Opgave 1... 4 Differentiel item funktion... 4 Resultater... 4 Opgave 2... 5 Deskriptiv statistik... 5 Modelsøgning... 9 Modelkontrol... 10 Resultater... 15 Diskussion... 17 Konklusion... 18 Side 2 af 19

Indledning Beskrivelse af datamaterialet Denne opgave baserer sig på data fra en undersøgelse af arbejdsmiljø, der er foretaget blandt socialrådgivere og kommunale sagsbehandlere i 12 danske kommuner fordelt i hele landet. Datamaterialet indeholder svar fra 895 medarbejdere, som hver har svaret på fem spørgsmål, der skal bruges til at konstruere en skala for motivation. Spørgsmålene er som følger: S71: Jeg har et godt arbejde. S72: Det er kun lønnen, der betyder noget. S73: Jeg ville stoppe, hvis jeg havde penge nok. S74: Jeg ville vælge noget mere interessant, hvis jeg havde mulighed for det. S75: Jeg er stolt over mit arbejde. Svarmulighederne er: Ja, passer i høj grad Ja, passer i nogen grad Nej, passer ikke Nej, passer slet ikke Da den første svarkategori i spørgsmålene S71 og S75 svarer til den højeste grad af motivation, er disse variable er omkodet, så graden af motivation følger samme retning som de andre spørgsmål. Hermed er den første svarkategori udtryk for den laveste grad af motivation, mens den sidste svarkategori er udtryk for den højeste grad af motivation. Skalaen for motivation ser således ud: Motivation = V71+ S72 + S73+ S74 + V75 Udover svarene på spørgsmålene indeholder datamaterialet også information om køn, alder, anciennitet, ansættelsestid, overarbejde og kommune. Formål med opgaven Denne opgave har to formål. Det første vedrører skalavalidering og består i at undersøge motivationsskalaen for differentiel item funktion (DIF). Skalavalidering omfatter oftest både test af reliabilitet og validitet. I denne opgave koncentrerer vi os, på baggrund af opgaveformuleringen, kun om DIF, som er en del af begrebsvaliditeten. Side 3 af 19

Det andet formål med opgaven er at undersøge, om og hvorledes motivation er påvirket af de uafhængige variable. Dette gøres ved hjælp af en general lineær model. Opgave 1 Differentiel item funktion Når man benytter sig af en multi-item skala, bør man som en del af skalavalideringen undersøge, om items opfører sig forskelligt i undergrupper af de adspurgte, da dette kan føre til misledende resultater. DIF problemet illustreres i figur 1 nedenfor: Figur 1: Illustration af DIF Item DIF Eksogen Variable Latent variable DIF-analysen udføres ved hjælp af logistisk regression. I analysen undersøges det, om de eksogene variable og items er betinget uafhængige givet den latente variabel (motivation). DIF-analysen køres på to måder. I den første inkluderes ét item ad gangen og alle eksogene variable, mens der i den anden måde kun inkluderes ét item og én eksogen variabel ad gangen. Nul-hypotesen er, at der ikke er nogen sammenhæng, dvs. at der ikke er DIF. Da DIF-analysen involverer mange tests, forøges risikoen for type 1 fejl. Signifikansniveauet nedsættes derfor til 1 % for at minimere risikoen for type 1 fejl. Hvis nul-hypotesen afvises, fjernes det pågældende item fra skalaen. Herefter foretages en ny DIF-analyse af de resterende items med den nu reducerede skala. Dette gentages, indtil der ikke længere er DIF. Resultater I forbindelse med den første metode blev der ikke fundet nogen signifikante p-værdier for DIF på nogen items. Ved den anden metode blev der fundet DIF på item S74 ud fra et signifikansniveau på < 5 %(p-værdi på 0,026). Vi fandt ingen items med DIF på et signifikans niveau under 1 %. I tabel 1 nedenfor opsummeres resultatet af DIF-analyserne. Side 4 af 19

Tabel 1: Resultatet af DIF-analysen Item DIF (p<0,001) DIF (0,001 < P < 0,01) DIF 3 (0,01< P <0,05) V71 S72 S73 S74 Anciennitet (p-værdi = 0,026) V75 Et argument for at fjerne item S74 er, at nogle vil score anderledes på motivationsskalaen alene på grund af deres grad af anciennitet. Vi beholder det pågældende item, da anbefalingerne om et signifikansniveau < 1 % ikke er opfyldt. Ved at beholde et item, der potentielt har DIF, øger vi risikoen for type 2 fejl. Som oftest anses det imidlertid som værre at begå type 1 end type 2 fejl. Det anbefales samtidigt at have 200 individer i hver gruppe for at opnå sikre resultater, og det har vi ikke i alle grupper. Endvidere har det ulempe, at man ved at fjerne item kan miste værdifuld information, da skalaen i forvejen udgøres af et relativt lille antal items. Alle 5 items benyttes derfor til at konstruere skalaen for motivation. Opgave 2 For at undersøge, om og hvordan motivation er påvirket af de uafhængige variable, udføres en generel lineær analyse. Inden vi laver en baglæns modelsøgning, inddrages deskriptiv statistik for at give et overblik over datamaterialet. Efter modelsøgningen kontrolleres antagelserne i den generelle lineære model. Slutteligt præsenteres og diskuteres resultaterne af analysen. Deskriptiv statistik Univariat fordeling Indledningsvist bør det understreges, at datamaterialets består af i alt 895 individer. Dette kan potentielt resultere i manglende statistisk styrke i de efterfølgende analyser, da analyserne vil omfatte opdelinger af datamaterialet og dermed et lille antal individer i undergrupperne. Tabel 2 nedenfor viser fordelingen af de kategoriske variable. Der ses en stor overvægt af kvinder i datamaterialet, hvilket er forventeligt indenfor dette fagområde. I forhold til den senere analyse kan det medføre problemer med at få signifikante resultater, hvis vi undersøger mænd særskilt, samt at modellen ikke diskriminerer særlig godt blandt mænd. Side 5 af 19

Datamaterialet indeholder én person, der er under 18 år. Vi anser det for usandsynligt, at man er færdiguddannet socialrådgiver eller sagsbehandler, før man er 18 år. Da denne person samtidig angiver, at han har ni års anciennitet, fjernes hele observationen fra datamaterialet. I tabel 2 ses det, at aldersvariablen er skævt fordelt med ca. 65 % i aldersgrupperne fra 40 59 år. Dette resulterer i nogle små ydergrupper med risiko for manglende statistisk styrke i de efterfølgende analyser. Sideløbende med modelsøgningen er der kørt en alternativ modelsøgning, hvor små ydergrupper er slået sammen med større grupper. Dette resulterede dog ikke i en model med højere forklaringsgrad, hvorfor vi ikke er gået videre med denne model. Fordelingen af ansættelsestid viser samme tendens som kønsfordelingen med overvægten af personerne i heltidskategorien. Denne fordeling giver samme potentielle problemer, som anført i forhold til køn. Overarbejde er nogenlunde ligeligt fordelt i de fire grupper dog med relativt færre observationer i gruppen, der arbejder over næsten dagligt. Fordelingen i kommunerne er ulige, hvilket som anført medfører manglende statistisk styrke i de små grupper, samt at de store grupper kan skævvride resultatet. Tabel 2: Fordeling af de kategoriske variable Variabel Værdi Hyppighed Fordeling Køn Kvinde 749 83,90 % Mand 144 16,10 % Alder < 18 år 1 0,10 % 19-29 år 89 10 % 30-39 år 177 19,80 % 40-49 år 265 29,70 % 50-59 år 295 33 % 60 år + 66 7,40 % Ansættelsestid Heltid 708 79,10 % Deltid 181 20,40 % Overarbejde Sjældent 215 24,20 % 2-3 gange pr. måned 288 32,40 % 2-3 gange pr. uge 277 31,20 % Næsten dagligt 109 12,30 % Kommune 1 34 3,80 % 2 145 16,20 % 3 132 14,70 % 4 22 2,50 % 5 104 11,60 % 6 53 5,90 % 7 39 4,40 % Side 6 af 19

8 47 5,30 % 9 37 4,10 % 10 144 16,10 % 11 71 7,90 % 12 67 7,50 % Fordelingen af anciennitet (figur 2) er meget venstreskæv, og der observeres en voldsom gulv-effekt, da ca. 50 % har højst 5 års anciennitet. I analysen kan dette give problemer, da det medfører en dårligere grad af differentiering blandt de med få års anciennitet. Der er imidlertid ikke et krav, at de uafhængige variable skal være normalfordelte. Figur 2: Fordeling af anciennitet Bivariate sammenhænge I dette afsnit undersøges de marginale sammenhænge mellem motivation og uafhængige variable ved hjælp af t-test for de binære variable og ensidet variansanalyse for de resterende kategoriske variable 1. T- testet undersøger, om middelværdierne og tilhørende varianser i de to grupper er forskellige. Testet er delt i to, først et Levenes test for varianshomogenitet og derefter et test for ens middelværdier. Afhængig af, om der er varianshomo- eller heterogenitet, forløber anden del af testet på forskellige måder, men nulhypotesen er under begge omstændigheder, at der er ens middelværdier i de to grupper. Den ensidede 1 I opgaven anvender vi to-sidet test, når der testes for sammenhæng mellem to variable. Det gør vi, da vi ikke har fagligt begrundede hypoteser om retningen af sammenhængen for nogen af de uafhængige variable, dvs. om β er større eller mindre end nul. Side 7 af 19

variansanalyse forløber principielt ligesom et t-test, men anvendes for kategoriske variable med flere end to kategorier. Heri beregnes et samlet gennemsnit af middelværdier, som den enkelte middelværdi sammenlignes med. I figur 3 ses fordelingen af motivation for henholdsvis mænd og kvinder. Det ses, at kvinders middelværdi af motivation ligger en anelse højere end mændenes. T-testet viser, at der ikke er forskel på variansen, men at der er signifikant forskel på middelværdien i de to grupper, hvor kvinder har en middelværdi på 15,57, mens den er på 14,79 for mænd. Figur 3: Fordeling af motivation givet køn Levenes test for de resterende kategoriske variable viser homogene varianser og ens middelværdier. Figur 4 nedenfor viser den marginale fordeling af motivation givet anciennitet. Der ses ikke nogen klar sammenhæng mellem anciennitet og motivation. Dette skyldes formentlig den skæve fordeling i anciennitet jf. figur 2. I den generelle lineære model forudsættes det, at kontinuerte variable har en lineær effekt på den afhængige variabel. Derfor har vi sat anciennitet i anden og tredje potens samt taget logaritmen til den i håbet om at se en lineær sammenhæng med motivation. Ingen af disse tiltag førte til en mere lineær sammenhæng mellem anciennitet og motivation. Da anciennitet er en kontinuert variabel, er det ikke muligt statistisk at teste, om den påvirker motivation. Vi inddelte den derfor i kvartiler for at kunne udføre en ensidet variansanalyse. Dette gav insignifikante resultater både mht. varianshomogenitet og middelværdi. Side 8 af 19

Figur 4: Marginal sammenhæng mellem anciennitet og motivation Modelsøgning Som nævnt indledningsvis foretages en baglæns modelsøgning for at finde frem til hvilke uafhængige variable, der påvirker motivation. Startmodellen indeholder alle hovedvirkninger samt alle to-vejsinteraktioner, og modelsøgningen foretages ved hjælp af en generel lineær model. Modelsøgningen foretages ud fra det hierarkiske princip for interaktioner. Resultatet af modelsøgningen var en model, der indeholdt 3 interaktioner samt alle de uafhængige variable undtagen anciennitet. Da køn indgik i to af de tre interaktioner, lavede vi en ny modelsøgning for mænd og kvinder, da det ville lette den senere tolkning af effekten af de uafhængige variable. Inden den nye modelsøgning har vi udført en modelkontrol af den første model 2. Nedenstående tabel 3 viser det første, næstsidste og sidste trin af modelsøgningen for mænd og kvinder. 2 Forudsætningerne om normalfordeling og varianshomogenitet er opfyldt, men det er ikke muligt at teste linearitetsantagelsen, da der ikke indgår en kontinuert variabel. Side 9 af 19

Tabel 3: Modelsøgning for mænd og kvinder Mænd Kvinder Startmodel Trin 7 Endelig model Startmodel Trin 10 Endelig model Kommune 0,482 0,002 0,002 0,022 0,170 0,201 Alder 0,301 0,079 0,033 0,119 - - Ansættelsestid 0,034 0,039 0,043 0,056 0,003 0,004 Anciennitet 0,903 0,141-0,629 <0,001 0,001 Overarbejde 0,917 0,005 0,004 0,007 0,005 0,087 Kommune * Alder 0,443 - - 0,294 - - Kommune * Ansættelsestid * * * 0,617 - - Kommune * Anciennitet 0,631 - - 0,773 - - Kommune * Overarbejde 0,625 0,045 0,036 0,018 0,026 0,034 Alder * Ansættelsestid * * * 0,623 - - Alder * Anciennitet 0,252 - - 0,642 - - Alder * Overarbejde 0,226 - - 0,087 - - Ansættelsestid * Anciennitet * * * 0,669 - - Ansættelsestid * Overarbejde * * * 0,198 - - Anciennitet * Overarbejde 0,859 - - 0,041 0,096 - * Der er ingen observationer i disse kategorier. Den endelige model for kvinder indeholder ansættelsestid, anciennitet, overarbejde og kommune samt en interaktion mellem kommune og overarbejde. Den endelige model for mænd indeholder ansættelsestid, alder, overarbejde og kommune samt en interaktion mellem kommune og overarbejde. Modelkontrol Den generelle lineære model baserer sig på nogle forudsætninger, som skal være opfyldt for, at man kan bruge modellen til at undersøge data. Dette testes i en modelkontrol. Modelforudsætningerne er: Den afhængige variabel skal være normalfordelt givet de uafhængige variable Variansen af den afhængige variabel skal være homogen for alle værdier af de uafhængige variable Effekten af de uafhængige variable på den afhængige skal kunne beskrives lineært Side 10 af 19

Forudsætningerne om normalfordeling og varianshomogenitet testes ved hjælp af en residual-analyse. Residualerne er forskellen mellem de observerede værdier af motivation og modellens forventede værdier af motivation og kan beskrives således: Normalfordeling Residual = Y - ( α + β i Forudsætningen om en normalfordeling af motivation givet de uafhængige variable kan kontrolleres ved brug af grafiske fremstillinger eller ved det statistiske test Kolmogorov-Smirnov. De standardiserede residualer indsættes i et histogram for at se, om residualerne er normalfordelt omkring en værdi på 0,0. Nedenfor ses histogrammerne for kvinder og mænd. Begge ser ud til at være tilnærmelsesvis normalfordelt om end lidt venstreskæv for kvinder (5a). Histogrammet for mænd følger måske pga. det mindre antal observationer ikke ligeså pænt en normalfordeling. Til gengæld ligger de fleste observationer på eller lige omkring de forventede værdier. Figur 5a og b: Fordeling af de standardiserede residualer x i ) I figur 6a og b ses de standardiserede residualer i et PP-plot med en kumuleret fordeling af residualer i forhold til en kumuleret normalfordeling. Ved at bruge de kumulerede fordeling får man glattet små variationer ud, og derfor er det nemmere at se om residualerne følger en normalfordeling. Hvis residualerne ligger på linien, er de normalfordelte. Dette ser specielt ud til at være tilfældet for kvinder. Residualerne for mænd ser ud til at afvige en smule fra en normalfordeling. Side 11 af 19

Figur 6a og b: Kumuleret fordeling af residualerne i forhold til kumuleret normalfordeling Som supplement til de grafiske fremstillinger udføres et Kolmogorov-Smirnov test. Testet undersøger om residualerne er normalfordelte ved at sammenligne de to kumulerede fordelinger og undersøge om afstanden mellem dem er større end, det kan forklares af tilfældighed. Nul-hypotesen er, at residualerne er normalfordelte. P-værdien er 0,083 for kvinder og 0,676 for mænd. Dermed accepteres nul-hypotesen. De grafiske fremstillinger og det statistiske test viser således, at residualerne er normalfordelte. Vi konkluderer derfor, at motivation er normalfordelt givet de uafhængige variable. Varianshomogenitet Forudsætningen om varianshomogenitet kan undersøges både ved brug af Levenes test for varianshomogenitet og grafisk i et scatterplot. Levenes test undersøger kun varianshomogeniteten af modellens kategoriske uafhængige variable. Hvis modellen indeholder kontinuerte variable, vil disse ikke blive medtaget i testet. Det betyder, at vi for kvinder supplerer kontrollen af denne forudsætning med en grafisk fremstilling af residualerne i forhold til den kontinuerte variabel. Da p-værdien er 0,112 for kvinder og 0,324 for mænd, accepteres nul-hypotesen om varianshomogenitet. I figur 7a og b ses et scatterplot over de standardiserede residualer i forhold til de forventede værdier ud fra modellen. Hvis der er varianshomogenitet, vil observationerne for alle værdier af motivation sprede sig ligeligt omkring den prædikterede linie (gennem 0,0). Det ses, at observationerne for både mænd og kvinder spreder sig nogenlunde ligeligt omkring linien om end med en svag kegleform for stigende værdier af motivation hos både mænd og kvinder. Dette kunne tyde på, at variansen ikke er helt homogen. Side 12 af 19

Figur 7a og b: Standardiserede residualer overfor de prædikterede værdier Da modellen for kvinder indeholder en kontinuert variabel, undersøges det i et scatterplot, om residualerne er varianshomogene givet de forskellige værdier af anciennitet. I figur 8 ses det, at residualerne fordeler sig nogenlunde ligeligt omkring linien 0,0, hvilket tyder på, at der er varianshomogenitet. Figur 8: Standardiserede residualer og anciennitet for kvinder Da Levenes test viser, at der er varianshomogenitet, og scatterplottene ikke modsiger dette, antager vi, at denne forudsætning er opfyldt. Side 13 af 19

Linearitet Da modellen for mænd ikke indeholder kontinuerte variable, testes forudsætningen om linearitet kun for kvindernes model. Figur 8 kan også anvendes til at undersøge linearitetsantagelsen. Det ses, at residualerne for forskellige værdier af anciennitet ligger nogenlunde symmetrisk omkring linien gennem 0,0. I figur 9 undersøges linearitetsantagelsen ved at lave et scatterplot af fordelingen af motivation givet anciennitet. Den minder meget om den marginale fordeling i figur 2 (da kvinder udgør flertallet af observationerne), og der ses stadig ikke nogen klar sammenhæng mellem motivation og anciennitet. Figur 9: Motivation givet anciennitet for kvinder I figur 10 ses de observerede værdier overfor de prædikterede værdier. De observerede værdier skulle gerne kunne beskrives bedre lineært end kvadratisk eller kubisk. R 2 er ens for de tre linier, hvorfor den mest simple (den lineære) vælges til at beskrive sammenhængen. Herudover er det forsøgt at indsætte et kvadreret og et kubisk anciennitetsled i modellen for kvinder. Hvis et af disse led blev signifikante, kunne det være tegn på, at sammenhængen mellem motivation og anciennitet ikke var lineær. Hverken det kvadrerede eller kubiske led var signifikante. Vi antager derfor, at motivation tilnærmelsesvist lader sig beskrive lineært. Side 14 af 19

Figur 10: Observerede og prædikterede værdier for kvinder Afslutningsvis konkluderer vi, at forudsætninger i den generelle lineære model er tilnærmelsesvist opfyldt for både mande- og kvindemodellen. Resultater Den endelige model for henholdsvis for kvinder og mænd er som følger: Motivation β ansættelsestid Motivation β ansættelsestid kvinder mænd = α + ansættelsestid = α + ansættelsestid β + β + kommune β kommune β kommune + β kommune* overarbejde kommune + kommune* overarbejde anciennitet β anciennitet kommune* overarbejde alder alder + kommune* overarbejde + β β overarbeje overarbejde overarbejde overarbejde + + Ligningen for den generelle lineære model består af alle de mulige β-parametre for alle variable og deres kategorier 3. De forskellige kategorier inden for en hver variabel omkodes til dummyvariable, således at de led, som ikke er aktuelle, får værdien nul. Det ses ud fra modelsøgningen for kvinder, at de to variable kommune og overarbejde er insignifikante som hovedeffekter. Det betyder, at de ikke har en selvstændig effekt på motivation, og at effekten af overarbejde på motivation er forskellig i de 12 kommuner. Derimod ses det i modellen for mænd, at 3 β-parametrene forholder sig til referencegruppen, som i SPSS automatisk er den sidste gruppe. For at gøre fortolkningen mere logisk er nogle variable omkodet. Herved opnås f.eks., at de yngste bliver referencegruppen i aldersvariablen. Side 15 af 19

variablene overarbejde og kommune er signifikante som hovedeffekter, hvilket viser, at de har en selvstændig effekt på motivation. Grundet det hierarkiske princip kan effektstørrelsen ikke tolkes separat, hvorfor en samlet effektstørrelse udregnes 4. I tabel 4 nedenfor ses det, at motivationen er mindre for personer på deltid i forhold til personer på heltid. Dette er gældende for både mænd og kvinder, men den negative effekt ved at være på deltid er større for mænd end for kvinder. Konfidensintervallet overlapper ikke nul. Tabel 4: Estimater for ansættelsestid Kvinder Mænd Β 95 % CI Β 95 % CI Heltid 0. 0. Deltid -0,711 [-1,188;-0,234] -2,316 [-4,554;-0,077] Som det ses i tabel 5 over anciennitet, er kvindernes motivation proportional med stigende anciennitet. Konfidensintervallet overlapper ikke nul. Tabel 6 viser, at de mest motiverede mænd er mellem 19 og 29 år. De resterende fire aldersgruppers scorer mellem 2 og 3 enheder lavere på motivationsskalaen. Det er kun for de 40-49årige, at konfidensintervallet overlapper nul. Tabel 5: Estimater for anciennitet (kun kvinder) Β 95 % CI Anciennitet 0,033 [0,013; 0,052] Tabel 6: Estimater for alder (kun mænd) Β 95 % CI 19-29 år 0. 30-39 år -3,343 [-5,938; -0,748] 40-49 år -2,274 [-4,780; 0,233] 50-59 år -3,453 [-5,982; -0,924] 60 + -3,073 [-6,487;-0,341] Da der ikke foreligger nogen informationer om en evt. rangorden mellem kommunerne i forhold til indbyggertal, størrelse eller andre parametre, er det svært at tolke på forskellene i motivation mellem kommunerne. 4 Effekten af interaktionerne er udregnet ved at addere effekter af interaktionen med hovedeffekterne af hver af de to hovedvirkninger. Derved fås den samlede effekt af interaktionen. Side 16 af 19

I nedenstående tabel 7 ses ikke nogen entydig tendens i motivation på tværs af kommunerne givet de forskellige grupper af overarbejde. Imidlertid er der en svag tendens til, at begge køns motivation er stigende for dem, der arbejder over næsten dagligt. Det skal nævnes, at der ikke er konfidensintervaller for estimaterne for interaktionen, hvorfor usikkerheden ikke kendes. Derved kan effekten være større eller mindre end angivet, og der kan være strata, hvor et konfidensinterval vil overlappe nul. Tabel 7: Estimater for interaktionen kommune*overarbejde Kvinder Hyppighed Sjældent 2-3 gange om måneden 2-3 gange om ugen Næsten dagligt Mænd Sjældent 2-3 gange om måneden 2-3 gange om ugen Næsten dagligt Kommune 1-0,729-0,729-1,056 * -3,843-2,384-4,650-4,398 Kommune 2 0,155-0,185-2,531-1,989-3,351-0,670-2,319-0,180 Kommune 3-0,280-0,746-1,656-0,705 1,145 0,041-1,105 1,321 Kommune 4 0,096 0,066-0,945 3,859 * * -3,128 * Kommune 5-0,990-0,993-0,447-0,067-2,288 0,041-2,015 3,028 Kommune 6-1,375-0,239-1,164-1,132-3,408-0,622-3,089 3,122 Kommune 7-1,642-0,900-0,035 1,039 * * -6,668 * Kommune 8-3,071-0,159-1,634-3,856-3,741-0,722 * -3,398 Kommune 9-0,198 1,031-0,656 2,191-3,467 2,157-4,467 1,009 Kommune 10-0,684-0,762-0,548-0,914-0,651-1,467-1,121-0,288 Kommune 11-0,759 0,666 0,260-7,020-2,478-1,329 1,721 * Kommune 12 0,000-0,975-0,789 1,240 0,000-2,843 1,067-2,989 *Der er ingen observationer i disse kategorier. Diskussion Analysen tyder på, at kønnene har forskellig grad af motivation givet værdien af de uafhængige variable, hvorfor der er lavet særskilte modeller for mænds og kvinders motivation. For mænd ses det, at de yngste mænd på heltid i kommune 6, som arbejder over næsten dagligt, er de mest motiverede. For kvinder gælder det, at de på heltid med den højeste grad af anciennitet i kommune 4, som arbejder over næsten dagligt, er de mest motiverede. Da formålet med opgaven er inferens, er det essentielt at finde den model, der giver den nemmeste tolkning af resultaterne. De kønsopdelte modeller har kun én interaktion hver, hvorfor det er nemmere at tolke på effekten af de resterende uafhængige variable. Da de kønsopdelte modeller har færre Side 17 af 19

interaktioner, medfører det, at det er muligt at få konfidensintervaller på flere af effekterne i modellerne. Det betyder, at vi i højere grad får viden om usikkerheden på modellernes estimater. En ulempe ved de kønsopdelte analyser er den manglende statistiske styrke - i særdeleshed for mænd. Manglen på den statistiske styrke kommer bl.a. til udtryk i de stratificerede analyser for mændene, idet der i flere undergrupper ikke er nogen observationer (se tabel 7). Den statistiske styrke er ved opdelingen i køn blevet dårligere, hvilket gør at vi skal tolke vores resultater med forbehold. Som tidligere beskrevet, består de kønsopdelte modeller næsten af de samme variable. Den eneste forskel består i, at der i modellen for mænd er inkluderet alder, hvor modellen for kvinder inkluderer anciennitet. Logisk set skyldes dette formentlig en stærk positiv korrelation mellem alder og anciennitet, idet de formodes at være proportionelle. Grundet en formodning om konkordans benyttes en 1-sidet partiel gamma test. Gammatesten bekræfter en korrelation (γ=0,454, p-værdi < 0,001). Igennem modelsøgningen fandt vi frem til to modeller, der beskriver motivation bedst ud fra de givne uafhængige variable. For at vurdere, hvor godt disse to modeller beskriver motivation, inddrages information om modellens forklaringsgrad (R 2 ). R 2 siger noget om, hvor stor en andel af spredningen af den afhængige variabel, der kan forklares ved spredningen af de uafhængige variable i modellen. Man skal være opmærksom på, at man ofte vil få en højere R 2,når man inkluderer flere uafhængige variable i modellen. Modellen for kvinder har en R 2 på 0,106 og en adjusted R 2 på 0,042. Modellen for mænd har en R 2 på 0,524 og en adjusted R 2 på 0,292. Dette tolker vi som, at modellen for mænd bedre beskriver mænds motivation, end modellen for kvinder beskriver kvinders motivation. Dette kunne tyde på, at der (specielt for kvinder) er faktorer af betydning for motivation, som ikke er inkluderet i modellen. Vi har kun fjernet en uafhængig variabel fra modellen (henholdsvis alder og anciennitet) undervejs i modelsøgningen. Derfor kunne det tyde på, at det kunne være gavnligt at inkludere andre uafhængige variable i analysen af motivation end de seks, der indgår i datamaterialet. Det er f.eks. oplagt, at arbejdsmiljø, indflydelse, anerkendelse, kollegialt sammenhold eller tilfredshed med løn har betydning for motivation og at inklusion af disse i modellen ville give en bedre R 2 og dermed bedre forklaring af motivation. Konklusion Da vi i opgave 1 ikke fandt DIF for nogen items, er alle fem spørgsmål inkluderet i skalaen for motivation. I opgave 2 fandt vi, at mænds og kvinders motivation afhænger af forskellige faktorer, hvorfor vi har kørt separate modelsøgninger for de to køn. Kvinders motivation afhang af ansættelsestid, anciennitet, overarbejde og kommune. Kvinders motivation er proportional med stigende anciennitet og højest for Side 18 af 19

kvinder på heltid. For begge køn modificerer kommune effekten af overarbejde på motivation, men der findes ikke nogen generel tendens. Mænds motivation afhang af ansættelsestid, alder, overarbejde og kommune. Mænds motivation er højst for mænd på heltid og falder med stigende alder. For interaktionen kommune*overarbejde findes heller ikke her nogen generel tendens. Resultaterne for de to køn, skal tages med forbehold, da der er stor usikkerhed på estimaterne. Ydermere kunne modeller forklaringsgrad eventuelt øges ved inklusion af andre forklarende variable. Side 19 af 19