SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Størrelse: px
Starte visningen fra side:

Download "SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING"

Transkript

1 SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING Kandidatuddanelsen i Folkesundhedsvidenskab Københavns Universitet, 2010 EKSAMENSNUMMER: 7 & 40 Antal anslag: December 2010

2 INDHOLDSFORTEGNELSE 1. INTRODUKTION DESKRIPTIV STATISTIK OG OMKODNINGER OPGAVE 1: DIF-ANALYSE OPGAVE 2: GENERELLE LINEÆRE MODELLER BIVARIAT ANALYSE OM GENERELLE LINEÆRE MODELLER MODEL A...8 Modelsøgning...8 Modelkontrol...9 Effekter ,4. MODEL B (KVINDER)...13 Modelsøgning...13 Modelkontrol...13 Effekter MODEL C (MÆND) SAMMENLIGNING AF MODEL A OG MODEL B DISKUSSION OG KONKLUSION REFERENCER

3 1. Introduktion På baggrund af en undersøgelse af arbejdsmiljøet blandt socialrådgivere og kommunale sagsbehandlere er der blevet konstrueret en motivationsskala ud fra følgende fem items: Jeg har et godt arbejde(v71), Det er kun lønnen, der betyder noget (S72), Jeg ville stoppe, hvis jeg havde penge nok(s73), Jeg ville vælge noget mere interessant, hvis jeg havde mulighed for det(s74) og Jeg er stolt over mit arbejde(v75). I denne opgave undersøges for det første, om der er differentiel item funktion (DIF) på de items, der indgår i skalaen. Dernæst vil vi undersøge om, og hvorledes motivationsskalaen afhænger af en række eksogene variable: køn, alder, kommune nummereret fra 1-12, antal år på nuværende arbejdsplads (anciennitet), om personen er ansat på heltid eller deltid (ansættelsestid), samt hyppigheden af overarbejde. 2. Deskriptiv statistik og omkodninger Datamaterialet består af 895 socialrådgivere og kommunale sagsbehandlere, hvoraf der er beregnet en samlet motivationsskala for 885 personer ud fra fem spørgsmål om motivation givet ved: Motivation = v71+s72+s73+s74+v75. Figur 1 Histogram over fordelingen af den samlede skala motivation. Fordelingen af motivation er højreskæv og viser, at flertallet scorer højt på motivationsskalaen, hvilket indikerer en høj grad af motivation blandt medarbejdere (figur 1). Dog skal man være opmærksom på loftseffekten, der kan betyde, at en høj score ikke er udtryk for fuld motivation, men at personerne af skalatekniske årsager ikke kan angive, hvor motiverede de i virkeligheden er (Kreiner 2007; s.23). Der er i alt 749 kvinder (83,7 %) og 144 mænd. I fordelingen af anciennitet, observeres det, at ca. halvdelen af personerne har været på arbejdspladsen i under 5 år (figur 2). Desuden er 79,1 % ansat på heltid. 3

4 Alder er opdelt i 10-års intervaller, og der er flest personer Figur 2 Histogram over fordelingen af i alderen år. Da der kun er én person i gruppen 18 år eller yngre er denne slået sammen med gruppen år. Overarbejde er fordelt i grupperne næsten dagligt (12,3%), 2-3 gange/uge (31,2%), 2-3 gange/måned (32,4%) og sjældent (24,2%). For at lette fortolkningen har vi valgt at omkode overarbejde og alder til den senere generelle lineære analyse, som vælger den sidste kategori som reference. Da der er færrest dataindivider i de sidste grupper, har vi omkodet variablene således, at de personer der sjældent har overarbejde og er 29 år eller yngre er referencekategorierne. Dette giver i sidste ende et bedre sammenligningsgrundlag. Kommune er en nominalskala, hvor kodeværdierne ikke tillægges anden værdi end kategorinavnet. Vi har ingen information om, hvilke kommuner der indgår i undersøgelsen, hvorfor vi ikke kan udtale os om eventuelle forskelle imellem eksempelvis by- og landkommuner. 3. Opgave 1: DIF-analyse Differentiel item funktion undersøges ud fra en DIF-analyse, hvor der testes om items og de eksogene variable er betinget uafhængige givet motivationsskalaen. Der er DIF, hvis et eller flere items i en skala fungerer forskelligt for undergrupper af respondenter, hvilket har den konsekvens at ens målinger bliver konfoundede (Fayers and Machin 2007, s. 176). Nedenstående diagram viser, hvorledes DIF kan illustreres, hvor eksempelvis item V71 udover at blive påvirket indirekte af kommune gennem motivation, også påvirkes direkte af kommune. 4

5 DIF V71: Har et godt arbejde Kommune S72: Kun lønnen betyder noget Køn S73: Ville vælge mere interessant arb. Motivation Alder Anciennitet S74: Ville stoppe hvis penge nok Ansættelsestid V75: Stolt af arbejde Overarbejde DIF-analysen foretages vha. logistiske regressionsanalyser, fordi det her er muligt at håndtere flere baggrundsvariable samtidigt. Analysen forudsætter, at den afhængige variabel er binær. Derfor er items dikotomiseret, således at kategorierne Ja, passer i høj grad og Ja, passer i nogen grad er slået sammen til ja, og kategorierne Nej, passer ikke og Nej, passer slet ikke er slået sammen til nej. Der er anvendt to forskellige strategier til DIF-analysen, hvor den første strategi undersøger hver kombination af items og de eksogene variable. Den anden strategi undersøger hvert item kombineret med samtlige eksogene variable. I begge strategier betinges der for motivationsskalaen. Det er undersøgt, om items har sammenhæng med anden- og tredjegradsled af den kontinuerte variabel, anciennitet. Dette var aktuelt for item V75, hvorfor anciennitet 2 og anciennitet 3 er inddraget i DIFanalysen for item V75. Da der er foretaget mange analyser, er DIF vurderet ud fra et 1 % signifikansniveau, for at mindske risikoen for type 1 fejl (Kreiner 2007, s. 266). 5

6 Tabel 1 DIF-analyse med p-værdier for de to analysestrategier. Analysestrategi 1* Analysestrategi 2** Item Variabelnavn p-værdi*** p-værdi*** V71: Jeg har et godt arbejde Kommune 0,982 0,989 Køn 0,080 0,078 Alder 0,624 0,767 Anciennitet 0,289 0,521 Ansættelsestid 0,314 0,430 Overarbejde 0,244 0,313 S72: Det er kun lønnen, der betyder noget Kommune 0,671 0,609 Køn 0,680 0,243 Alder 0,364 0,300 Anciennitet 0,985 0,949 Ansættelsestid 0,911 0,777 Overarbejde 0,690 0,603 S73: Jeg ville stoppe, hvis jeg havde penge nok Kommune 0,244 0,252 Køn 0,888 0,996 Alder 0,077 0,237 Anciennitet 0,094 0,584 Ansættelsestid 0,181 0,303 Overarbejde 0,915 0,833 S74: Jeg ville vælge noget mere interessant, hvis jeg havde mulighed for det Kommune 0,417 0,463 Køn 0,546 0,613 Alder 0,588 0,915 Anciennitet 0,026 0,061 Ansættelsestid 0,979 0,815 Overarbejde 0,232 0,384 V75: Jeg er stolt over mit arbejde Kommune 0,315 0,345 Køn 0,064 0,097 Alder 0,591 0,259 Anciennitet 0,685 0,083 Ansættelsestid 0,466 0,518 Overarbejde 0,800 0,918 Anciennitet^2 0,609 0,067 Anciennitet^3 0,670 0,064 * Logistisk regression med item givet skalaen og den enkelte eksogene variabel ** Logistisk regression med item givet skalaen og samtlinge eksogene variable *** p-værdi for Wald-test Ingen af strategierne viste tegn på DIF ved et 1 % signifikansniveau. Det skal dog bemærkes, at der på et 5 % signifikansniveau er DIF for item S74 på anciennitet (p=0,026) i analysestrategi 1. Dette vil vi dog ikke efterfølge, pga. risikoen for at begå en type 1 fejl. For at udelukke, at den ulige fordeling af den kontinuerte variabel anciennitet havde en betydning, gentog vi DIF-analyserne med anciennitet kategoriseret i 5 års intervaller, hvilke heller ikke viste DIF. På baggrund af analyserne antager vi derfor at items og de eksogene variable er betinget uafhængige, dvs. at der indenfor hvert item, ikke svares differentieret som følge af, om man er mand eller kvinde, ung eller gammel, tilhører den ene eller anden kommune etc. Vi fandt med andre ord ikke nogen grund til at reducere skalaen. 6

7 4. Opgave 2: Generelle lineære modeller Formålet med denne opgave er, at bestemme om, og på hvilken måde de uafhængige variable påvirker graden af motivation. Da den forrige analyse ikke gav grundlag for at reducere skalaen, anvendes motivationsskalaen i sin oprindelige form. Først undersøges den marginale struktur af den afhængige og hver af de uafhængige variable Bivariat analyse Det undersøges, om der er forskel på motivationen blandt mænd og kvinder vha. et t-test. Testet viser varianshomogenitet (p=0,700) og forskel i middelværdier (p=0,002), hvilket indikerer, at den gennemsnitlige motivation er forskellig givet om man er mand eller kvinde. 1 Motivation undersøges blandt personer, der er ansat på heltid og deltid. Der er varianshomogenitet (p=0,830), samt ens middelværdier af motivation (p=0,113), hvilket betyder, at der ingen forskel er, i graden af motivation blandt ansatte på heltid og deltid. Der er foretaget en ensidet variansanalyse, for at undersøge om der er forskel på motivation i de 12 kommuner. Levene s test viser varianshomogenitet (p=0,115). Da der er varianshomogenitet foretages et F-test vha. One-Way ANOVA. Nulhypotensen om, at middelværdier for motivation er ens i kommunerne, accepteres, da p-værdien er insignifikant (p=0,091). Den ensidede variansanalyse for alder viser varianshomogenitet (p=0,827), samt ens middelværdier for motivation i aldersgrupperne (p=0,091). Der er ligeledes fundet ens varianser (p=0,119) og ens middelværdier (p=0,147) for motivation i overarbejdsgrupperne Den marginale struktur af motivation og den kontinuerte variabel, anciennitet, undersøges ved en lineær regressionsanalyse. Der er signifikant effekt af anciennitet på motivation (p=0,022). Vi tester for linearitet ved at indsætte et kvadratisk og et kubisk led i modellen, som resulterer i insignifikante p-værdier, hvilket betyder at anciennitet 2 og anciennitet 3 ikke beskriver sammenhængen bedre. Dette bekræftes endvidere grafisk, hvor kvadratiske og kubiske linjer ikke viste bedre tilpasning. I den generelle lineære analyse vil vi alligevel inddrage 2. og 3. gradsled, fordi vi ikke kan udelukke, at de vil indgå i interaktioner med de andre variable. 1 T-testets nulhypotese er, at der er variansheterogenitet og ens middelværdier. 7

8 Ud fra den bivariate analyse, ser det således ud til, at den gennemsnitlige motivation er forskellig for mænd og kvinder. Derimod tyder det ikke på, at der er forskel på motivationen indenfor grupperne af de andre uafhængige variable. På baggrund af den bivariate analyse, foretager vi ingen fravalg af variable til modelsøgningen, da variablene i samspil med andre variable kan have betydning for motivation Om generelle lineære modeller Der anvendes en generel lineær model, da den afhængige variabel er en kontinueret intervalskalavariabel og, da de uafhængige både er kategorivariable og kontinuerte intervalskalavariable. Den generelle lineære model er en generalisering af den flersidede variansanalyse og den multiple lineære regression, hvor effekten af de uafhængige variable måles ved middelværdiforskelle af den afhængige variabel, motivation. Forudsætninger for anvendelse af modellen er, at den betingede fordeling af den afhængige variabel skal være normal, og at der er varianshomogenitet, hvilket vil sige, at der skal være ens varianser af motivation for alle værdier af en given uafhængig variabel (Kreiner 2007; s. 535). 4.3 Model A Modelsøgning Startmodellen indeholder variablene: Anciennitet, køn, alder, kommune, ansættelsestid og overarbejde, alle to-vejsinteraktioner samt 2. og 3. gradsled for anciennitet. Der er foretaget en baglæns modelsøgning efter det hierarkiske princip, hvor først interaktioner og derefter hovedeffekter fjernes trinvist (Kreiner 2007; s. 489). Tre-vejsinteraktioner er ikke inddraget, da et stort antal variable og interaktioner øger risikoen for statistiske fejlslutninger, som eksempelvis sker ved overparametriserede modeller eller, når modelsøgningen stoppes ved en for kompliceret model. Konsekvensen ved overparametrisering kan være, at de enkelte strata kommer til at indeholde for få dataindivider (Kreiner 2007; s. 508). Da startmodellen alligevel indeholder mange parametre, vurderes modellen ud fra et signifikansniveau på 1 %. Tabel 2 viser den trinvise eliminering af interaktionsled og hovedvariable. 8

9 Tabel 2 Modelsøgning med trinvis eliminering. Efter endt modelsøgning, har vi inddraget eliminerede led, for at kontrollere, at vi ikke har draget fejlkonklusioner. Anciennitet, anciennitet 2 og anciennitet 3 er således indsat igen og elimineret enkeltvis, da de ikke viste sig at være signifikante. Da både køn og overarbejde indgår i to interaktioner har vi prøvet at indsætte en tre-vejs interaktion med køn*overarbejde*alder og overabejde*kommune*køn. Ingen af disse var signfikante, hvorefter de blev fjernet igen. Den endelige model A er vist i tabel 3. Tabel 3 Endelig model A med p-værdier og F- test for hovedvirkninger og interaktioner Modelkontrol For at kunne fortolke resultaterne af model A, er det nødvendigt at modellen opfylder antagelserne for generelle lineære modeller om normalfordelte residualer for motivation givet de uafhængige variable, samt betinget varianshomogenitet (Kreiner 2007; s. 567). Antagelsen om normalfordeling kan accepteres, idet histogram (figur 3) og P-P plot (figur 4) for de standardiserede residualer ikke viste betydelige afvigelser fra normalfordelingen. P-P plottet viser at observationerne afviger ganske lidt fra identitetslinjen på midten, men ligger pænt på linjen i begge ender, hvor den er mindre sensitiv for afvigelser (Kreiner 2007; s.124). 9

10 Figur 3 Histogram over fordelingen af de standardiserede residualer for model A Figur 4 P-P plot over de standardiserede residualer Der er herefter foretaget en numerisk kontrol af normalfordelte residualer vha. af et Kolmogorov- Smirnov test. Den insignifikante p-værdi (p=0,142) bekræfter, at der er tale om normalfordelte residualer i vores model. Antagelsen om varianshomogenitet undersøges numerisk ud fra Levene s test, hvor nulhypotesen om varianshomogenitet accepteres (p=0,149). Et grafisk plot (figur 5) med de standardiserede residualer mod de prædikterede værdier af den afhængige variabel bekræfter varianshomogenitet, idet værdierne ikke spreder sig mere i den ene side, end i den anden. Alt i alt finder vi antagelserne opfyldt. Figur 5 De prædikterede værdier af motivation plottet mod de standardiserede residualer. Den endelige model A kan beskrives som følger: E(motivation kommune,overarb.,ansættelsestid,køn,alder,alder * køn,kommune* overarb.,køn * overarb.) = α + β kommune x kommune + β overarbejde x overarbejde + β ansættelsestid ansættelsestid+ β køn køn + β alder x alder + β alder,køn x alder,køn + β kommune,overarbejde x kommune,overarbejde + β overarbejde,køn x overarbejde,køn hvor α er lig middelværdien for motivation i referencegruppen. Summationstegnene angiver summen af β-parametre for hver kategori af den uafhængige variabel, og multipliceres med værdien af dummyvariablen. Parameterestimaterne er præsenteret i tabel 4. 10

11 Tabel 4 Parameterestimater for motivation. Variabel β t p-værdi CI95% Kommune 1-1,517-1,396 0,163 (-3,651;0,616) 2-0,869-1,302 0,193 (-2,179;0,441) 3 0,110 0,167 0,868 (-1,188;1,409) 4 0,032 0,026 0,979 (-2,425;2,490) 5-1,058-1,374 0,170 (-2,570;0,453) 6-1,774-1,878 0,061 (-3,627;0,08) 7-1,639-1,903 0,057 (-3,329;0,051) 8-3,176-2,902 0,004 (-5,325;-1,028) 9-0,592-0,513 0,608 (-2,857;1,674) 10-0,553-0,878 0,380 (-1,790;0,683) 11-0,938-1,122 0,262 (-2,578;0,703) Køn Mand 1,737 1,517 0,130 (-0,510;3,984) Kvinde Ansættelsestid Heltid 0,715 3,123 0,002 (0,266;1,164) Deltid Overarbejde Sjældent gange/måned -1,294-1,815 0,070 (-2,694;0,105) 2-3 gange/uge -0,213-0,214 0,830 (-2,165;1,739) Næsten dagligt 1,002 0,73 0,466 (-1,692;3,695) Alder 29 år eller yngre år 0,072 0,199 0,843 (-0,639;-0,783) år 0,498 1,458 0,145 (-0,172;1,169) år 0,830 2,453 0,014 (0,166;1,495) 60 år eller ældre 1,180 2,531 0,012 (0,265;2,095 Alder*køn a Overarbejde*køn a Kommune*overarbejde a a Værdierne for interaktioner vises ikke her, men vil blive behandlet ifb. med udregning af samlede effekter. α =17,498 Da α-parameteren er lig 17,498 betyder det, at kvinder tilhørende kommune 12, der er ansat på deltid, sjældent har overarbejde og er i alderen 29 år eller yngre har en gennemsnitlig motivation på 17,5 point. 11

12 Effekter β-parameteren for hovedeffekten ansættelsestid på 0,715 er et udtryk for en middelværdiforskel af motivation mellem heltids- og deltidsansatte. Her er motivationen for personer på heltid 0,7 point bedre, end folk på deltid i forhold til personer i referencegruppen. De øvrige variable indgår interaktioner - derfor giver det ikke mening at tolke på β-parametrene. Da kommune, alder, køn og overarbejde indgår i en kompliceret model af indbyrdes modificerende faktorer, er det svært at tolke på disse β-parametre. Dog kan siges, at effekten af overarbejde og alder påvirkes af køn, og at effekten af kommune og køn påvirkes af overarbejde, eller omvendt. For at kunne tolke på interaktionerne beregnes de samlede effekter, som summen af β- parametrene for de to hovedvirkninger og interaktionen, som illustreret i tabel 5 (grå farve). Beregningerne er kun eksemplificeret for interaktionen mellem overarbejde og køn. Tabel 5 Parametre for interaktion mellem køn og overarbejde. Overarbejde Næsten dagligt 2-3 gange/ 2-3 gange/ Sjældent overarbejde Hovedvirkning 1,002-0,213-1,294 0 Mand 1,737 2,685-0,094 0,968 0 Kvinde De samlede effekter for overarbejde og køn er beregnet og vist i figur 6. Figuren viser at, ved stigende overarbejde falder motivationen for mænd, mens den er svagt stigende for kvinder, når man sammenligner med referencengruppen, som er at være kvinde der sjældent har overarbejde. Figur 6 Samlet effekt af overarbejde og køn på motivation. 12

13 Allerede i den bivariate analyse, fandt vi forskelle i middelværdier for motivation blandt mænd og kvinder, som kunne indikere, at køn har en betydning for motivation. Da antallet af mænd i datasættet er lavt, og da model A viste to interaktioner med køn, finder vi det relevant, at undersøge motivationen for mænd og kvinder hver især. 4,4. Model B (kvinder) Modelsøgning Modellen for kvinder er konstrueret på samme måde som model A. Modelsøgningen blev i første omgang vurderet ud fra et 1 % niveau, men da den samme interaktion, mellem kommune og overarbejde, som i model A, viste sig signifikant (p=0,034) på et 5 % niveau, valgte vi at stoppe modelsøgningen. Dette gjorde vi også på baggrund af, at kommune og overarbejde blev insignifikante med p-værdier på hhv. (p=0,523) og (p=0,207), når interaktionen blev taget ud af modellen. Dette kan skyldes, at kommune og overarbejde modificerer effekten af hinanden på motivation og at variablene hver især, ingen effekt har på motivation. Det bemærkes desuden, at anciennitet forbliver i modellen for kvinder, hvilket den ikke gør i model A. Den endelige model for kvinder ses i tabel 6. Tabel 6 Endelig model B med p-værdier og F-test for hovedvirkninger og interaktion Efterfølgende har vi indsat den eliminerede variabel, alder, men denne var ikke signifikant i modellen, hvorefter antagelser for slutmodellen kontrolleredes. Modelkontrol Antagelserne om normalfordelte residualer kan accepteres ud fra den numeriske kontrol med et insignifikant Kolmogorov-Smirnov test (p=0,083), samt acceptable grafiske plots (figur 7). Levene s test viste varianshomogenitet (p=0,112), mens det grafiske plot viste svag tendens til kegleform (figur 8). Da forklaringen kan være, at der er få personer med over 25 års anciennitet, vælger vi at tro på den numeriske kontrol, der accepterer varianshomogenitet. 13

14 Figur7 Histogram over de standardiserede residualer for model B Figur 8 Standardiserede residualer for motivation plottet mod anciennitet Antagelsen om linearitet er ligeledes opfyldt, idet indsættelse af anciennitet 2 og anciennitet 3 i modellen ikke resulterede i signifikante p-værdier. Model B opfylder antagelserne og accepteres, dog er antagelserne ikke opfyldt i lige så høj grad som i model A. Effekter De signifikante hovedeffekter i modellen med kvinder er anciennitet og ansættelsestid, hvor β- parametrene er hhv. 0,033 og 0,711. Det vil sige, at for hvert år man har været ansat på samme arbejdsplads stiger motivationen med 0,033 point i forhold til referencen. β-parameteren nærmer sig nul, hvilket betyder at effekten af anciennitet er lille. Effekten af ansættelsestid på motivation er næsten den samme som i forrige model. Det skal desuden bemærkes, at modellens α-parameter er 15,4, hvilket er lavere end den rapporterede for model A. Beregningen af de samlede effekter for interaktionen mellem overarbejde og kommune gennemføres på samme vis, som eksemplet i model A. Resultaterne er illustreret grafisk i figur 9, hvor referencegruppen er personer fra kommune 12, der sjældent har overarbejde, er ansat på deltid og har været 0 år på samme arbejdsplads. Interaktionen kommer til udtryk ved, at effekten af overarbejde på motivation er forskellig, alt efter hvilken kommune man arbejder i. Det skal bemærkes at β-parametrenes konfidensintervaller for interaktionen er brede, hvilket betyder at man skal være forsigtig med fortolkningen af resultaterne. 14

15 Figur 9 Samlet effekt af kommune og overarbejde på motivation. 2,000 Motivation (βkommune,overarbejde) 1,000 0,000-1,000-2,000-3,000-4,000-5,000-6,000-7,000-8,000 Sjældent 2-3 gange/måned 2-3 gange/uge Næsten dagligt Overarbejde kommune 1 kommune 2 kommune 3 kommune 4 kommune 5 kommune 6 kommune 7 kommune 8 kommune 9 kommune 10 kommune 11 kommune Model C (mænd) Da modellen for mænd kun indeholder 144 dataindivider, kan der være sket flere fejlslutninger undervejs i modelsøgningen. Der er risiko for overfitting, når der inddrages mange variable i et lille datamateriale. Dette resulterer i, at der er få individer i hvert strata, hvor SPSS i nogle tilfælde ikke kan beregne værdierne. Konklusioner der bliver draget af modelkontrollen bliver af samme grund mere usikre. Med dette in mente, har vi alligevel gennemført modelsøgning og -kontrol for mænd som kort vil blive præsenteret her. Den endelige model indeholder følgende signifikante hovedeffekter og interaktion ved et 5 % niveau: kommune, overarbejde, alder, ansættelsestid og kommune*overarbejde. De numeriske tests viste normalfordelte residualer samt varianshomogenitet, hvorimod de grafiske plots var mere usikre. Den samlede effekt af interaktionen er ikke præsenteret her, idet flere β- parametre gav 0 pga. manglende dataindivider i strata, af hvilken grund beregninger af samlede effekter blev misvisende. 15

16 5. Sammenligning af model A og model B Til at forklare, hvor stor en andel af den samlede variation af motivation, der kan forklares af de uafhængige variable angives determinationskoefficienten R 2. For model A er R 2 lig 0,147, hvilket betyder at 14,7 % af variationen af motivation kan forklares af de uafhængige variable i modellen. Model B s R 2 -værdi er mindre (R 2 =0,106), svarende til 10,6 %. Ud fra dette kan konkluderes, at model A er bedre til at prædiktere data, idet R 2 =1 svarer til perfekt tilpasning til data. 2 Begge R 2 -værdier har dog en lav forklaringsgrad. I en sammenligning af model A og B, ses at anciennitet ikke indgår i førstnævnte model, men indgår i model B, hvor alder til gengæld ikke indgår. Ud fra denne betragtning og en faglig fundering, om at alder og anciennitet har en beslægtet effekt på motivation, er sammenhængen mellem disse variable undersøgt. Ved udregning af Pearson s korrelationskoefficient R=0,478 (p=0,000) mellem anciennitet og alder, fandt vi at anciennitet og alder korrelerer. På baggrund af dette fandt vi det relevant forsøgsvist at erstatte variablene med hinanden i modellerne. Ved at erstatte alder med anciennitet i model A bliver anciennitet signifikant (p=0,018) og kan desuden indgå i en signifikant interaktion med køn (p=0,008). Ved at erstatte anciennitet med alder i model B, bliver alder signifikant (p=0,012). R 2 -værdierne for modellerne er vist i tabel 7, hvor det fremgår at model A, hvor alder er inkluderet, er bedre til at prædiktere data end, hvis den erstattes med anciennitet. Til gengæld er der ingen forskel i R 2 -værdierne for model B, som har den samme forklaringsgrad uanset om alder eller anciennitet indgår i modellen. Tabel 7 R 2 -værdier for de to modeller med hhv. alder og anciennitet Med alder (R 2 ) Med anciennitet (R 2 ) Model A 0,147 0,128 Model B 0,106 0,106 Opsummerende kan således siges, at alder og anciennitet begge har en beslægtet effekt på motivation, men at de udelukker hinanden fra modellen. At anciennitet indgår i den ene model, og at alder indgår i den anden, kan være et udtryk for en tilfældighed, eller at der er sket fejlslutninger i forbindelse med modelsøgningen. 2 R 2 -værdien er valgt fordi den er lettere at tolke på end den justerede R 2. Fordelen ved den justerede R 2 er til gengæld, at den tager højde for antallet af parametre i modellen, hvor R 2 -værdien bliver højere jo flere parametre der inddrages. 16

17 6. Diskussion og konklusion I opgave 1 fandt vi ingen DIF og dermed ingen grund til at reducere skalaen. Ved valget af logistisk regression som analysestrategi, var det nødvendigt at dikotomisere items, hvilket er en kraftig form for datareduktion. Dette kunne have været undgået ved beregning af partielle gammakoefficienter, hvor fordelen er, at items kan bibeholdes på ordinalt niveau. Resultatet af DIF-analysen afhænger muligvis af metodevalget. Den logistiske regression er her valgt, fordi den er mest fleksibel. Accept af skalaen skete under antagelser om, at andre validitetskrav er opfyldt, herunder lokal uafhængighed mellem items, monotone relationer mellem skalaen og items, ingen differentiel item effekt samt endimensionalitet (Fayers& Machin, 2007, s. 83) Disse er ikke undersøgt, men det kan fx diskuteres, om skalaen kun måler motivation, da items ligeså vel kunne relatere sig til medarbejdernes tilfredshed, udbrændthed eller noget helt tredje. Om skalaen er et godt mål for motivation, er svært at vurdere, fordi vi ikke har et andet mål som eksempelvis en blodprøve at holde det op imod. I den generelle lineære analyse fandt vi i første omgang (model A), at ansættelsestid, kommune og overarbejde har en effekt på motivation. Derudover indgår alder, køn, overarbejde og kommune i tre interaktioner, der indbyrdes modificerer hinanden. På baggrund af, at køn indgik i to interaktioner, og at køn i den bivariate analyse fandt forskel på mænd og kvinders motivation, valgte vi at foretage analysen særskilt for kvinder og mænd. I model B har anciennitet og ansættelsestid en effekt på motivation, mens overarbejde og kommune indgår i en interaktion. I model C for mænd havde kommune, overarbejde, heltid og alder en effekt på motivation. Her indgik kommune og overarbejde ligeledes i en interaktion. Da denne interaktion var til stede i alle tre modeller, finder vi det plausibelt at tro på, at overarbejde og kommune i samspil har en betydning for motivation. Vi opdagede, at alder og anciennitet korrelerer, og muligvis har den samme effekt på motivation, men at de udelukker hinanden fra modellerne. Vi fandt altså, at ombytning af de to variable begge resulterede i signifikante slutmodeller, hvilket leder os til den konklusion, at det kan være et udslag af tilfældigheder, hvilken af variablene der er endt i de respektive modeller. Modellen for kvinder synes at give et klarere billede af variablenes indvirkning på motivation, fordi det er en simplere model og fordi vi kan udelukke, at mænd slører billedet. Til gengæld opfyldte denne model ikke i lige så høj grad antagelserne for generelle lineære modeller, som model A gjorde. Sammenlignes R 2 -værdierne, er model A bedst til at prædiktere motivation, men årsagen til dette skal måske findes i det højere antal parametre i model A. 17

18 Til sidst skal påpeges, at vi i den statistiske analyse har antaget, at de eksogene variable ligger kausalt før motivation. Man kunne argumentere for, at det er ens motivation, der er afgørende for, om man er på heltid eller deltid, eller om man har overarbejde eller ej. Således bør faglige argumenter vægtes og inddrages i planlægningen og udførelsen af den statistiske analyse. Dette skal sikre, at man ikke drager konklusioner om statistiske sammenhænge på et ureflekteret grundlag. 18

19 7. Referencer Fayers, PM. and Machin, D. 2007: Quality of Life: The assessment, analysis and interpretation of patientreported outcomes. Second edition, Wiley. Kreiner, Svend 2007: Statistisk Problemløsning: Præmisser, teknik og analyse. 2.udgave Jurist- og Økonomforbundets Forlag. Nielsen, T & Kreiner, S. 2003: SPSS: Introduktion til databehandling & statistik analyse. 2.udgave, 1.oplag, Jurist- og Økonomforbundets Forlag. 19

Eksamen i Statistik og skalavalidering

Eksamen i Statistik og skalavalidering Eksamen i Statistik og skalavalidering 2009-studieordning Til aflevering d. 22. december 2010 Efterårssemestret 2010, Kandidatuddannelsen i Folkesundhedsvidenskab Opgaven er udarbejdet af: Eksamensnummer

Læs mere

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Synopsis til eksamen i Statistik

Synopsis til eksamen i Statistik Synopsis til eksamen i Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Københavns Universitet december 2010 Eksamensnummer: 12 Antal anslag: 23.839 (svarende til 9,9 normalsider) - 1 - Indholdsfortegnelse

Læs mere

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4 Indholdsfortegnelse INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF OULATIONEN... 4 DELOGAVE 1...5 BEGREBSVALIDITET... 6 Differentiel item funktionsanalyser...7 Differentiel item effekt...10 Lokal

Læs mere

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab Eksamensnr. 26, 41 og 11 Anslag (uden tabeller og figurer): 23.933 1 1. Indledning...3 2. Deskriptiv statistik...3 3. Indledende

Læs mere

Statistik & Skalavalidering

Statistik & Skalavalidering å Statistik & Skalavalidering Synopsis til mundtlig eksamen d. 24. januar 2011 K ø b e n h a v n s U n i v e r s i t e t K a n d i d a t u d d a n n e l s e n i F o l k e s u n d h e d s v i d e n s k

Læs mere

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45 Statistik og skalavalidering Synopsis Københavns Universitet Folkesundhedsvidenskab, 7. semester Typografiske enheder: 22.615 December 2010 Indholdsfortegnelse 1.0 Indledning... 3 1.1 Karakteristika af

Læs mere

Eksamen i statistik 2009-studieordning

Eksamen i statistik 2009-studieordning Kandidatuddannelsen i Folkesundhedsvidenskab Det sundhedsvidenskabelige fakultet Københavns Universitet 21.12.2010 Eksamen i statistik 2009-studieordning Underviser Svend Kreiner Udarbejdet af eksamens

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Eksamen Efterår 2013

Eksamen Efterår 2013 Eksamen Efterår 2013 Opgave En måde at sammenlægge svarene fra de fem EQ-5D items er igennem et indeks, der angiver værdien samfundet giver en bestemt svarkombination. EURV = 1-0.081*(D=1) 0.069*(MOVE=2)

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Psykisk arbejdsmiljø og stress

Psykisk arbejdsmiljø og stress Psykisk arbejdsmiljø og stress - Hvilke faktorer har indflydelse på det psykiske arbejdsmiljø og medarbejdernes stress Marts 2018 Konklusion Denne analyse forsøger at afklare, hvilke faktorer der påvirker

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Udbrændthed og brancheskift

Udbrændthed og brancheskift Morten Bue Rath Oktober 2009 Udbrændthed og brancheskift Hospitalsansatte sygeplejersker der viser tegn på at være udbrændte som konsekvens af deres arbejde, har en væsentligt forøget risiko for, at forlade

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Kursets hjemmeside: http://staff.pubhealth.ku.dk/~skm/fsvpage/index.html

Kursets hjemmeside: http://staff.pubhealth.ku.dk/~skm/fsvpage/index.html Kursets hjemmeside: http://staff.pubhealth.ku.dk/~skm/fsvpage/index.html 1 Kandidatkursus i statistik efteråret 2010 Planen er sidst revideret den 6.9.2010 Oversigt over kursets forløb Periode Emne 7/9

Læs mere

Hver anden vil benytte øget åbningstid i dagtilbud

Hver anden vil benytte øget åbningstid i dagtilbud Børnefamiliers dagtilbud og arbejdsliv 17. maj 18 Hver anden vil benytte øget åbningstid i dagtilbud Halvdelen af alle lønmodtagere med børn mellem -13 år ville benytte sig af udvidede åbningstider i deres

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvalitative egenskaber og dummyvariabler Kvantitative metoder 2 Dummyvariabler 28. marts 2007 Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006 Dagens program Økonometri 1 Kvalitative variable 8. marts 2006 Kvalitative variabler som forklarende variabler i en lineær regressionsmodel (Wooldridge kap. 7.1-7.4) Kvalitative variabler generelt Dummy

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

LUP Fødende læsevejledning til afdelingsrapporter

LUP Fødende læsevejledning til afdelingsrapporter Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Uddybende forklaring af elementer i figurer og tabeller...

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

LUP læsevejledning til afdelingsrapporter

LUP læsevejledning til afdelingsrapporter Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Uddybende forklaring af elementer i figurer og tabeller...

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

Tilsynsklienternes oplevelse af LS/RNR

Tilsynsklienternes oplevelse af LS/RNR Tilsynsklienternes oplevelse af LS/RNR En delrapport på baggrund af Brugerundersøgelsen i KiF 2015 Af Juliane Bonnemose Poulsen, Natalia Bien og Jonas Lindstad Direktoratet for Kriminalforsorgen Koncern

Læs mere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Bilag I afrapportering af signifikanstest i tabeller i artikel er der benyttet følgende illustration af signifikans: * p

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik 2018 om forskel på privatansatte kvinder og mænds løn

Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik 2018 om forskel på privatansatte kvinder og mænds løn Kønsbestemt lønforskel? Analyse på baggrund af IDAs lønstatistik 2018 om forskel på privatansatte kvinder og mænds løn Februar 2018 Kønsbestemt lønforskel? Resume Denne analyse ser alene på de privatansatte

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Anna Amilon Materiel vurdering Ved vurderingen af en afgørelses materielle indhold vurderes afgørelsens korrekthed i forhold

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Eksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 20-02-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere