Eksamen i Statistik og skalavalidering

Størrelse: px
Starte visningen fra side:

Download "Eksamen i Statistik og skalavalidering"

Transkript

1 Eksamen i Statistik og skalavalidering 2009-studieordning Til aflevering d. 22. december 2010 Efterårssemestret 2010, Kandidatuddannelsen i Folkesundhedsvidenskab Opgaven er udarbejdet af: Eksamensnummer 13, 27 og 30 Antal anslag:

2 Indhold Indledning... 3 Beskrivelse af datamaterialet... 3 Formål med opgaven... 3 Opgave Differentiel item funktion... 4 Resultater... 4 Opgave Deskriptiv statistik... 5 Modelsøgning... 9 Modelkontrol Resultater Diskussion Konklusion Side 2 af 19

3 Indledning Beskrivelse af datamaterialet Denne opgave baserer sig på data fra en undersøgelse af arbejdsmiljø, der er foretaget blandt socialrådgivere og kommunale sagsbehandlere i 12 danske kommuner fordelt i hele landet. Datamaterialet indeholder svar fra 895 medarbejdere, som hver har svaret på fem spørgsmål, der skal bruges til at konstruere en skala for motivation. Spørgsmålene er som følger: S71: Jeg har et godt arbejde. S72: Det er kun lønnen, der betyder noget. S73: Jeg ville stoppe, hvis jeg havde penge nok. S74: Jeg ville vælge noget mere interessant, hvis jeg havde mulighed for det. S75: Jeg er stolt over mit arbejde. Svarmulighederne er: Ja, passer i høj grad Ja, passer i nogen grad Nej, passer ikke Nej, passer slet ikke Da den første svarkategori i spørgsmålene S71 og S75 svarer til den højeste grad af motivation, er disse variable er omkodet, så graden af motivation følger samme retning som de andre spørgsmål. Hermed er den første svarkategori udtryk for den laveste grad af motivation, mens den sidste svarkategori er udtryk for den højeste grad af motivation. Skalaen for motivation ser således ud: Motivation = V71+ S72 + S73+ S74 + V75 Udover svarene på spørgsmålene indeholder datamaterialet også information om køn, alder, anciennitet, ansættelsestid, overarbejde og kommune. Formål med opgaven Denne opgave har to formål. Det første vedrører skalavalidering og består i at undersøge motivationsskalaen for differentiel item funktion (DIF). Skalavalidering omfatter oftest både test af reliabilitet og validitet. I denne opgave koncentrerer vi os, på baggrund af opgaveformuleringen, kun om DIF, som er en del af begrebsvaliditeten. Side 3 af 19

4 Det andet formål med opgaven er at undersøge, om og hvorledes motivation er påvirket af de uafhængige variable. Dette gøres ved hjælp af en general lineær model. Opgave 1 Differentiel item funktion Når man benytter sig af en multi-item skala, bør man som en del af skalavalideringen undersøge, om items opfører sig forskelligt i undergrupper af de adspurgte, da dette kan føre til misledende resultater. DIF problemet illustreres i figur 1 nedenfor: Figur 1: Illustration af DIF Item DIF Eksogen Variable Latent variable DIF-analysen udføres ved hjælp af logistisk regression. I analysen undersøges det, om de eksogene variable og items er betinget uafhængige givet den latente variabel (motivation). DIF-analysen køres på to måder. I den første inkluderes ét item ad gangen og alle eksogene variable, mens der i den anden måde kun inkluderes ét item og én eksogen variabel ad gangen. Nul-hypotesen er, at der ikke er nogen sammenhæng, dvs. at der ikke er DIF. Da DIF-analysen involverer mange tests, forøges risikoen for type 1 fejl. Signifikansniveauet nedsættes derfor til 1 % for at minimere risikoen for type 1 fejl. Hvis nul-hypotesen afvises, fjernes det pågældende item fra skalaen. Herefter foretages en ny DIF-analyse af de resterende items med den nu reducerede skala. Dette gentages, indtil der ikke længere er DIF. Resultater I forbindelse med den første metode blev der ikke fundet nogen signifikante p-værdier for DIF på nogen items. Ved den anden metode blev der fundet DIF på item S74 ud fra et signifikansniveau på < 5 %(p-værdi på 0,026). Vi fandt ingen items med DIF på et signifikans niveau under 1 %. I tabel 1 nedenfor opsummeres resultatet af DIF-analyserne. Side 4 af 19

5 Tabel 1: Resultatet af DIF-analysen Item DIF (p<0,001) DIF (0,001 < P < 0,01) DIF 3 (0,01< P <0,05) V71 S72 S73 S74 Anciennitet (p-værdi = 0,026) V75 Et argument for at fjerne item S74 er, at nogle vil score anderledes på motivationsskalaen alene på grund af deres grad af anciennitet. Vi beholder det pågældende item, da anbefalingerne om et signifikansniveau < 1 % ikke er opfyldt. Ved at beholde et item, der potentielt har DIF, øger vi risikoen for type 2 fejl. Som oftest anses det imidlertid som værre at begå type 1 end type 2 fejl. Det anbefales samtidigt at have 200 individer i hver gruppe for at opnå sikre resultater, og det har vi ikke i alle grupper. Endvidere har det ulempe, at man ved at fjerne item kan miste værdifuld information, da skalaen i forvejen udgøres af et relativt lille antal items. Alle 5 items benyttes derfor til at konstruere skalaen for motivation. Opgave 2 For at undersøge, om og hvordan motivation er påvirket af de uafhængige variable, udføres en generel lineær analyse. Inden vi laver en baglæns modelsøgning, inddrages deskriptiv statistik for at give et overblik over datamaterialet. Efter modelsøgningen kontrolleres antagelserne i den generelle lineære model. Slutteligt præsenteres og diskuteres resultaterne af analysen. Deskriptiv statistik Univariat fordeling Indledningsvist bør det understreges, at datamaterialets består af i alt 895 individer. Dette kan potentielt resultere i manglende statistisk styrke i de efterfølgende analyser, da analyserne vil omfatte opdelinger af datamaterialet og dermed et lille antal individer i undergrupperne. Tabel 2 nedenfor viser fordelingen af de kategoriske variable. Der ses en stor overvægt af kvinder i datamaterialet, hvilket er forventeligt indenfor dette fagområde. I forhold til den senere analyse kan det medføre problemer med at få signifikante resultater, hvis vi undersøger mænd særskilt, samt at modellen ikke diskriminerer særlig godt blandt mænd. Side 5 af 19

6 Datamaterialet indeholder én person, der er under 18 år. Vi anser det for usandsynligt, at man er færdiguddannet socialrådgiver eller sagsbehandler, før man er 18 år. Da denne person samtidig angiver, at han har ni års anciennitet, fjernes hele observationen fra datamaterialet. I tabel 2 ses det, at aldersvariablen er skævt fordelt med ca. 65 % i aldersgrupperne fra år. Dette resulterer i nogle små ydergrupper med risiko for manglende statistisk styrke i de efterfølgende analyser. Sideløbende med modelsøgningen er der kørt en alternativ modelsøgning, hvor små ydergrupper er slået sammen med større grupper. Dette resulterede dog ikke i en model med højere forklaringsgrad, hvorfor vi ikke er gået videre med denne model. Fordelingen af ansættelsestid viser samme tendens som kønsfordelingen med overvægten af personerne i heltidskategorien. Denne fordeling giver samme potentielle problemer, som anført i forhold til køn. Overarbejde er nogenlunde ligeligt fordelt i de fire grupper dog med relativt færre observationer i gruppen, der arbejder over næsten dagligt. Fordelingen i kommunerne er ulige, hvilket som anført medfører manglende statistisk styrke i de små grupper, samt at de store grupper kan skævvride resultatet. Tabel 2: Fordeling af de kategoriske variable Variabel Værdi Hyppighed Fordeling Køn Kvinde ,90 % Mand ,10 % Alder < 18 år 1 0,10 % år % år ,80 % år ,70 % år % 60 år ,40 % Ansættelsestid Heltid ,10 % Deltid ,40 % Overarbejde Sjældent ,20 % 2-3 gange pr. måned ,40 % 2-3 gange pr. uge ,20 % Næsten dagligt ,30 % Kommune ,80 % ,20 % ,70 % ,50 % ,60 % ,90 % ,40 % Side 6 af 19

7 8 47 5,30 % ,10 % ,10 % ,90 % ,50 % Fordelingen af anciennitet (figur 2) er meget venstreskæv, og der observeres en voldsom gulv-effekt, da ca. 50 % har højst 5 års anciennitet. I analysen kan dette give problemer, da det medfører en dårligere grad af differentiering blandt de med få års anciennitet. Der er imidlertid ikke et krav, at de uafhængige variable skal være normalfordelte. Figur 2: Fordeling af anciennitet Bivariate sammenhænge I dette afsnit undersøges de marginale sammenhænge mellem motivation og uafhængige variable ved hjælp af t-test for de binære variable og ensidet variansanalyse for de resterende kategoriske variable 1. T- testet undersøger, om middelværdierne og tilhørende varianser i de to grupper er forskellige. Testet er delt i to, først et Levenes test for varianshomogenitet og derefter et test for ens middelværdier. Afhængig af, om der er varianshomo- eller heterogenitet, forløber anden del af testet på forskellige måder, men nulhypotesen er under begge omstændigheder, at der er ens middelværdier i de to grupper. Den ensidede 1 I opgaven anvender vi to-sidet test, når der testes for sammenhæng mellem to variable. Det gør vi, da vi ikke har fagligt begrundede hypoteser om retningen af sammenhængen for nogen af de uafhængige variable, dvs. om β er større eller mindre end nul. Side 7 af 19

8 variansanalyse forløber principielt ligesom et t-test, men anvendes for kategoriske variable med flere end to kategorier. Heri beregnes et samlet gennemsnit af middelværdier, som den enkelte middelværdi sammenlignes med. I figur 3 ses fordelingen af motivation for henholdsvis mænd og kvinder. Det ses, at kvinders middelværdi af motivation ligger en anelse højere end mændenes. T-testet viser, at der ikke er forskel på variansen, men at der er signifikant forskel på middelværdien i de to grupper, hvor kvinder har en middelværdi på 15,57, mens den er på 14,79 for mænd. Figur 3: Fordeling af motivation givet køn Levenes test for de resterende kategoriske variable viser homogene varianser og ens middelværdier. Figur 4 nedenfor viser den marginale fordeling af motivation givet anciennitet. Der ses ikke nogen klar sammenhæng mellem anciennitet og motivation. Dette skyldes formentlig den skæve fordeling i anciennitet jf. figur 2. I den generelle lineære model forudsættes det, at kontinuerte variable har en lineær effekt på den afhængige variabel. Derfor har vi sat anciennitet i anden og tredje potens samt taget logaritmen til den i håbet om at se en lineær sammenhæng med motivation. Ingen af disse tiltag førte til en mere lineær sammenhæng mellem anciennitet og motivation. Da anciennitet er en kontinuert variabel, er det ikke muligt statistisk at teste, om den påvirker motivation. Vi inddelte den derfor i kvartiler for at kunne udføre en ensidet variansanalyse. Dette gav insignifikante resultater både mht. varianshomogenitet og middelværdi. Side 8 af 19

9 Figur 4: Marginal sammenhæng mellem anciennitet og motivation Modelsøgning Som nævnt indledningsvis foretages en baglæns modelsøgning for at finde frem til hvilke uafhængige variable, der påvirker motivation. Startmodellen indeholder alle hovedvirkninger samt alle to-vejsinteraktioner, og modelsøgningen foretages ved hjælp af en generel lineær model. Modelsøgningen foretages ud fra det hierarkiske princip for interaktioner. Resultatet af modelsøgningen var en model, der indeholdt 3 interaktioner samt alle de uafhængige variable undtagen anciennitet. Da køn indgik i to af de tre interaktioner, lavede vi en ny modelsøgning for mænd og kvinder, da det ville lette den senere tolkning af effekten af de uafhængige variable. Inden den nye modelsøgning har vi udført en modelkontrol af den første model 2. Nedenstående tabel 3 viser det første, næstsidste og sidste trin af modelsøgningen for mænd og kvinder. 2 Forudsætningerne om normalfordeling og varianshomogenitet er opfyldt, men det er ikke muligt at teste linearitetsantagelsen, da der ikke indgår en kontinuert variabel. Side 9 af 19

10 Tabel 3: Modelsøgning for mænd og kvinder Mænd Kvinder Startmodel Trin 7 Endelig model Startmodel Trin 10 Endelig model Kommune 0,482 0,002 0,002 0,022 0,170 0,201 Alder 0,301 0,079 0,033 0, Ansættelsestid 0,034 0,039 0,043 0,056 0,003 0,004 Anciennitet 0,903 0,141-0,629 <0,001 0,001 Overarbejde 0,917 0,005 0,004 0,007 0,005 0,087 Kommune * Alder 0, , Kommune * Ansættelsestid * * * 0, Kommune * Anciennitet 0, , Kommune * Overarbejde 0,625 0,045 0,036 0,018 0,026 0,034 Alder * Ansættelsestid * * * 0, Alder * Anciennitet 0, , Alder * Overarbejde 0, , Ansættelsestid * Anciennitet * * * 0, Ansættelsestid * Overarbejde * * * 0, Anciennitet * Overarbejde 0, ,041 0,096 - * Der er ingen observationer i disse kategorier. Den endelige model for kvinder indeholder ansættelsestid, anciennitet, overarbejde og kommune samt en interaktion mellem kommune og overarbejde. Den endelige model for mænd indeholder ansættelsestid, alder, overarbejde og kommune samt en interaktion mellem kommune og overarbejde. Modelkontrol Den generelle lineære model baserer sig på nogle forudsætninger, som skal være opfyldt for, at man kan bruge modellen til at undersøge data. Dette testes i en modelkontrol. Modelforudsætningerne er: Den afhængige variabel skal være normalfordelt givet de uafhængige variable Variansen af den afhængige variabel skal være homogen for alle værdier af de uafhængige variable Effekten af de uafhængige variable på den afhængige skal kunne beskrives lineært Side 10 af 19

11 Forudsætningerne om normalfordeling og varianshomogenitet testes ved hjælp af en residual-analyse. Residualerne er forskellen mellem de observerede værdier af motivation og modellens forventede værdier af motivation og kan beskrives således: Normalfordeling Residual = Y - ( α + β i Forudsætningen om en normalfordeling af motivation givet de uafhængige variable kan kontrolleres ved brug af grafiske fremstillinger eller ved det statistiske test Kolmogorov-Smirnov. De standardiserede residualer indsættes i et histogram for at se, om residualerne er normalfordelt omkring en værdi på 0,0. Nedenfor ses histogrammerne for kvinder og mænd. Begge ser ud til at være tilnærmelsesvis normalfordelt om end lidt venstreskæv for kvinder (5a). Histogrammet for mænd følger måske pga. det mindre antal observationer ikke ligeså pænt en normalfordeling. Til gengæld ligger de fleste observationer på eller lige omkring de forventede værdier. Figur 5a og b: Fordeling af de standardiserede residualer x i ) I figur 6a og b ses de standardiserede residualer i et PP-plot med en kumuleret fordeling af residualer i forhold til en kumuleret normalfordeling. Ved at bruge de kumulerede fordeling får man glattet små variationer ud, og derfor er det nemmere at se om residualerne følger en normalfordeling. Hvis residualerne ligger på linien, er de normalfordelte. Dette ser specielt ud til at være tilfældet for kvinder. Residualerne for mænd ser ud til at afvige en smule fra en normalfordeling. Side 11 af 19

12 Figur 6a og b: Kumuleret fordeling af residualerne i forhold til kumuleret normalfordeling Som supplement til de grafiske fremstillinger udføres et Kolmogorov-Smirnov test. Testet undersøger om residualerne er normalfordelte ved at sammenligne de to kumulerede fordelinger og undersøge om afstanden mellem dem er større end, det kan forklares af tilfældighed. Nul-hypotesen er, at residualerne er normalfordelte. P-værdien er 0,083 for kvinder og 0,676 for mænd. Dermed accepteres nul-hypotesen. De grafiske fremstillinger og det statistiske test viser således, at residualerne er normalfordelte. Vi konkluderer derfor, at motivation er normalfordelt givet de uafhængige variable. Varianshomogenitet Forudsætningen om varianshomogenitet kan undersøges både ved brug af Levenes test for varianshomogenitet og grafisk i et scatterplot. Levenes test undersøger kun varianshomogeniteten af modellens kategoriske uafhængige variable. Hvis modellen indeholder kontinuerte variable, vil disse ikke blive medtaget i testet. Det betyder, at vi for kvinder supplerer kontrollen af denne forudsætning med en grafisk fremstilling af residualerne i forhold til den kontinuerte variabel. Da p-værdien er 0,112 for kvinder og 0,324 for mænd, accepteres nul-hypotesen om varianshomogenitet. I figur 7a og b ses et scatterplot over de standardiserede residualer i forhold til de forventede værdier ud fra modellen. Hvis der er varianshomogenitet, vil observationerne for alle værdier af motivation sprede sig ligeligt omkring den prædikterede linie (gennem 0,0). Det ses, at observationerne for både mænd og kvinder spreder sig nogenlunde ligeligt omkring linien om end med en svag kegleform for stigende værdier af motivation hos både mænd og kvinder. Dette kunne tyde på, at variansen ikke er helt homogen. Side 12 af 19

13 Figur 7a og b: Standardiserede residualer overfor de prædikterede værdier Da modellen for kvinder indeholder en kontinuert variabel, undersøges det i et scatterplot, om residualerne er varianshomogene givet de forskellige værdier af anciennitet. I figur 8 ses det, at residualerne fordeler sig nogenlunde ligeligt omkring linien 0,0, hvilket tyder på, at der er varianshomogenitet. Figur 8: Standardiserede residualer og anciennitet for kvinder Da Levenes test viser, at der er varianshomogenitet, og scatterplottene ikke modsiger dette, antager vi, at denne forudsætning er opfyldt. Side 13 af 19

14 Linearitet Da modellen for mænd ikke indeholder kontinuerte variable, testes forudsætningen om linearitet kun for kvindernes model. Figur 8 kan også anvendes til at undersøge linearitetsantagelsen. Det ses, at residualerne for forskellige værdier af anciennitet ligger nogenlunde symmetrisk omkring linien gennem 0,0. I figur 9 undersøges linearitetsantagelsen ved at lave et scatterplot af fordelingen af motivation givet anciennitet. Den minder meget om den marginale fordeling i figur 2 (da kvinder udgør flertallet af observationerne), og der ses stadig ikke nogen klar sammenhæng mellem motivation og anciennitet. Figur 9: Motivation givet anciennitet for kvinder I figur 10 ses de observerede værdier overfor de prædikterede værdier. De observerede værdier skulle gerne kunne beskrives bedre lineært end kvadratisk eller kubisk. R 2 er ens for de tre linier, hvorfor den mest simple (den lineære) vælges til at beskrive sammenhængen. Herudover er det forsøgt at indsætte et kvadreret og et kubisk anciennitetsled i modellen for kvinder. Hvis et af disse led blev signifikante, kunne det være tegn på, at sammenhængen mellem motivation og anciennitet ikke var lineær. Hverken det kvadrerede eller kubiske led var signifikante. Vi antager derfor, at motivation tilnærmelsesvist lader sig beskrive lineært. Side 14 af 19

15 Figur 10: Observerede og prædikterede værdier for kvinder Afslutningsvis konkluderer vi, at forudsætninger i den generelle lineære model er tilnærmelsesvist opfyldt for både mande- og kvindemodellen. Resultater Den endelige model for henholdsvis for kvinder og mænd er som følger: Motivation β ansættelsestid Motivation β ansættelsestid kvinder mænd = α + ansættelsestid = α + ansættelsestid β + β + kommune β kommune β kommune + β kommune* overarbejde kommune + kommune* overarbejde anciennitet β anciennitet kommune* overarbejde alder alder + kommune* overarbejde + β β overarbeje overarbejde overarbejde overarbejde + + Ligningen for den generelle lineære model består af alle de mulige β-parametre for alle variable og deres kategorier 3. De forskellige kategorier inden for en hver variabel omkodes til dummyvariable, således at de led, som ikke er aktuelle, får værdien nul. Det ses ud fra modelsøgningen for kvinder, at de to variable kommune og overarbejde er insignifikante som hovedeffekter. Det betyder, at de ikke har en selvstændig effekt på motivation, og at effekten af overarbejde på motivation er forskellig i de 12 kommuner. Derimod ses det i modellen for mænd, at 3 β-parametrene forholder sig til referencegruppen, som i SPSS automatisk er den sidste gruppe. For at gøre fortolkningen mere logisk er nogle variable omkodet. Herved opnås f.eks., at de yngste bliver referencegruppen i aldersvariablen. Side 15 af 19

16 variablene overarbejde og kommune er signifikante som hovedeffekter, hvilket viser, at de har en selvstændig effekt på motivation. Grundet det hierarkiske princip kan effektstørrelsen ikke tolkes separat, hvorfor en samlet effektstørrelse udregnes 4. I tabel 4 nedenfor ses det, at motivationen er mindre for personer på deltid i forhold til personer på heltid. Dette er gældende for både mænd og kvinder, men den negative effekt ved at være på deltid er større for mænd end for kvinder. Konfidensintervallet overlapper ikke nul. Tabel 4: Estimater for ansættelsestid Kvinder Mænd Β 95 % CI Β 95 % CI Heltid Deltid -0,711 [-1,188;-0,234] -2,316 [-4,554;-0,077] Som det ses i tabel 5 over anciennitet, er kvindernes motivation proportional med stigende anciennitet. Konfidensintervallet overlapper ikke nul. Tabel 6 viser, at de mest motiverede mænd er mellem 19 og 29 år. De resterende fire aldersgruppers scorer mellem 2 og 3 enheder lavere på motivationsskalaen. Det er kun for de 40-49årige, at konfidensintervallet overlapper nul. Tabel 5: Estimater for anciennitet (kun kvinder) Β 95 % CI Anciennitet 0,033 [0,013; 0,052] Tabel 6: Estimater for alder (kun mænd) Β 95 % CI år år -3,343 [-5,938; -0,748] år -2,274 [-4,780; 0,233] år -3,453 [-5,982; -0,924] ,073 [-6,487;-0,341] Da der ikke foreligger nogen informationer om en evt. rangorden mellem kommunerne i forhold til indbyggertal, størrelse eller andre parametre, er det svært at tolke på forskellene i motivation mellem kommunerne. 4 Effekten af interaktionerne er udregnet ved at addere effekter af interaktionen med hovedeffekterne af hver af de to hovedvirkninger. Derved fås den samlede effekt af interaktionen. Side 16 af 19

17 I nedenstående tabel 7 ses ikke nogen entydig tendens i motivation på tværs af kommunerne givet de forskellige grupper af overarbejde. Imidlertid er der en svag tendens til, at begge køns motivation er stigende for dem, der arbejder over næsten dagligt. Det skal nævnes, at der ikke er konfidensintervaller for estimaterne for interaktionen, hvorfor usikkerheden ikke kendes. Derved kan effekten være større eller mindre end angivet, og der kan være strata, hvor et konfidensinterval vil overlappe nul. Tabel 7: Estimater for interaktionen kommune*overarbejde Kvinder Hyppighed Sjældent 2-3 gange om måneden 2-3 gange om ugen Næsten dagligt Mænd Sjældent 2-3 gange om måneden 2-3 gange om ugen Næsten dagligt Kommune 1-0,729-0,729-1,056 * -3,843-2,384-4,650-4,398 Kommune 2 0,155-0,185-2,531-1,989-3,351-0,670-2,319-0,180 Kommune 3-0,280-0,746-1,656-0,705 1,145 0,041-1,105 1,321 Kommune 4 0,096 0,066-0,945 3,859 * * -3,128 * Kommune 5-0,990-0,993-0,447-0,067-2,288 0,041-2,015 3,028 Kommune 6-1,375-0,239-1,164-1,132-3,408-0,622-3,089 3,122 Kommune 7-1,642-0,900-0,035 1,039 * * -6,668 * Kommune 8-3,071-0,159-1,634-3,856-3,741-0,722 * -3,398 Kommune 9-0,198 1,031-0,656 2,191-3,467 2,157-4,467 1,009 Kommune 10-0,684-0,762-0,548-0,914-0,651-1,467-1,121-0,288 Kommune 11-0,759 0,666 0,260-7,020-2,478-1,329 1,721 * Kommune 12 0,000-0,975-0,789 1,240 0,000-2,843 1,067-2,989 *Der er ingen observationer i disse kategorier. Diskussion Analysen tyder på, at kønnene har forskellig grad af motivation givet værdien af de uafhængige variable, hvorfor der er lavet særskilte modeller for mænds og kvinders motivation. For mænd ses det, at de yngste mænd på heltid i kommune 6, som arbejder over næsten dagligt, er de mest motiverede. For kvinder gælder det, at de på heltid med den højeste grad af anciennitet i kommune 4, som arbejder over næsten dagligt, er de mest motiverede. Da formålet med opgaven er inferens, er det essentielt at finde den model, der giver den nemmeste tolkning af resultaterne. De kønsopdelte modeller har kun én interaktion hver, hvorfor det er nemmere at tolke på effekten af de resterende uafhængige variable. Da de kønsopdelte modeller har færre Side 17 af 19

18 interaktioner, medfører det, at det er muligt at få konfidensintervaller på flere af effekterne i modellerne. Det betyder, at vi i højere grad får viden om usikkerheden på modellernes estimater. En ulempe ved de kønsopdelte analyser er den manglende statistiske styrke - i særdeleshed for mænd. Manglen på den statistiske styrke kommer bl.a. til udtryk i de stratificerede analyser for mændene, idet der i flere undergrupper ikke er nogen observationer (se tabel 7). Den statistiske styrke er ved opdelingen i køn blevet dårligere, hvilket gør at vi skal tolke vores resultater med forbehold. Som tidligere beskrevet, består de kønsopdelte modeller næsten af de samme variable. Den eneste forskel består i, at der i modellen for mænd er inkluderet alder, hvor modellen for kvinder inkluderer anciennitet. Logisk set skyldes dette formentlig en stærk positiv korrelation mellem alder og anciennitet, idet de formodes at være proportionelle. Grundet en formodning om konkordans benyttes en 1-sidet partiel gamma test. Gammatesten bekræfter en korrelation (γ=0,454, p-værdi < 0,001). Igennem modelsøgningen fandt vi frem til to modeller, der beskriver motivation bedst ud fra de givne uafhængige variable. For at vurdere, hvor godt disse to modeller beskriver motivation, inddrages information om modellens forklaringsgrad (R 2 ). R 2 siger noget om, hvor stor en andel af spredningen af den afhængige variabel, der kan forklares ved spredningen af de uafhængige variable i modellen. Man skal være opmærksom på, at man ofte vil få en højere R 2,når man inkluderer flere uafhængige variable i modellen. Modellen for kvinder har en R 2 på 0,106 og en adjusted R 2 på 0,042. Modellen for mænd har en R 2 på 0,524 og en adjusted R 2 på 0,292. Dette tolker vi som, at modellen for mænd bedre beskriver mænds motivation, end modellen for kvinder beskriver kvinders motivation. Dette kunne tyde på, at der (specielt for kvinder) er faktorer af betydning for motivation, som ikke er inkluderet i modellen. Vi har kun fjernet en uafhængig variabel fra modellen (henholdsvis alder og anciennitet) undervejs i modelsøgningen. Derfor kunne det tyde på, at det kunne være gavnligt at inkludere andre uafhængige variable i analysen af motivation end de seks, der indgår i datamaterialet. Det er f.eks. oplagt, at arbejdsmiljø, indflydelse, anerkendelse, kollegialt sammenhold eller tilfredshed med løn har betydning for motivation og at inklusion af disse i modellen ville give en bedre R 2 og dermed bedre forklaring af motivation. Konklusion Da vi i opgave 1 ikke fandt DIF for nogen items, er alle fem spørgsmål inkluderet i skalaen for motivation. I opgave 2 fandt vi, at mænds og kvinders motivation afhænger af forskellige faktorer, hvorfor vi har kørt separate modelsøgninger for de to køn. Kvinders motivation afhang af ansættelsestid, anciennitet, overarbejde og kommune. Kvinders motivation er proportional med stigende anciennitet og højest for Side 18 af 19

19 kvinder på heltid. For begge køn modificerer kommune effekten af overarbejde på motivation, men der findes ikke nogen generel tendens. Mænds motivation afhang af ansættelsestid, alder, overarbejde og kommune. Mænds motivation er højst for mænd på heltid og falder med stigende alder. For interaktionen kommune*overarbejde findes heller ikke her nogen generel tendens. Resultaterne for de to køn, skal tages med forbehold, da der er stor usikkerhed på estimaterne. Ydermere kunne modeller forklaringsgrad eventuelt øges ved inklusion af andre forklarende variable. Side 19 af 19

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Synopsis til eksamen i Statistik

Synopsis til eksamen i Statistik Synopsis til eksamen i Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Københavns Universitet december 2010 Eksamensnummer: 12 Antal anslag: 23.839 (svarende til 9,9 normalsider) - 1 - Indholdsfortegnelse

Læs mere

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING Kandidatuddanelsen i Folkesundhedsvidenskab Københavns Universitet, 2010 EKSAMENSNUMMER: 7 & 40 Antal anslag: 23.576 December 2010 INDHOLDSFORTEGNELSE

Læs mere

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4 Indholdsfortegnelse INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF OULATIONEN... 4 DELOGAVE 1...5 BEGREBSVALIDITET... 6 Differentiel item funktionsanalyser...7 Differentiel item effekt...10 Lokal

Læs mere

Statistik & Skalavalidering

Statistik & Skalavalidering å Statistik & Skalavalidering Synopsis til mundtlig eksamen d. 24. januar 2011 K ø b e n h a v n s U n i v e r s i t e t K a n d i d a t u d d a n n e l s e n i F o l k e s u n d h e d s v i d e n s k

Læs mere

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab Eksamensnr. 26, 41 og 11 Anslag (uden tabeller og figurer): 23.933 1 1. Indledning...3 2. Deskriptiv statistik...3 3. Indledende

Læs mere

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45 Statistik og skalavalidering Synopsis Københavns Universitet Folkesundhedsvidenskab, 7. semester Typografiske enheder: 22.615 December 2010 Indholdsfortegnelse 1.0 Indledning... 3 1.1 Karakteristika af

Læs mere

Eksamen i statistik 2009-studieordning

Eksamen i statistik 2009-studieordning Kandidatuddannelsen i Folkesundhedsvidenskab Det sundhedsvidenskabelige fakultet Københavns Universitet 21.12.2010 Eksamen i statistik 2009-studieordning Underviser Svend Kreiner Udarbejdet af eksamens

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Eksamen Efterår 2013

Eksamen Efterår 2013 Eksamen Efterår 2013 Opgave En måde at sammenlægge svarene fra de fem EQ-5D items er igennem et indeks, der angiver værdien samfundet giver en bestemt svarkombination. EURV = 1-0.081*(D=1) 0.069*(MOVE=2)

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Psykisk arbejdsmiljø og stress

Psykisk arbejdsmiljø og stress Psykisk arbejdsmiljø og stress - Hvilke faktorer har indflydelse på det psykiske arbejdsmiljø og medarbejdernes stress Marts 2018 Konklusion Denne analyse forsøger at afklare, hvilke faktorer der påvirker

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark.

Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark. Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark. Denne opgavetype kan tage sig ud på forskellig vis, da det udleverede materiale enten kan være en tabel eller en figur. Nedenfor

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

Hver anden vil benytte øget åbningstid i dagtilbud

Hver anden vil benytte øget åbningstid i dagtilbud Børnefamiliers dagtilbud og arbejdsliv 17. maj 18 Hver anden vil benytte øget åbningstid i dagtilbud Halvdelen af alle lønmodtagere med børn mellem -13 år ville benytte sig af udvidede åbningstider i deres

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Løsninger til kapitel 14

Løsninger til kapitel 14 Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen STATISTIK Skriftlig evaluering, 3. semester, mandag den 6. januar 004 kl. 9.00-13.00. Alle hjælpemidler er tilladt. Opgaveløsningen forsynes med navn og CPR-nr. OPGAVE 1 Et firma tuner biler. Antallet

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod. 1-stikprøve t-test (Eksamen 2005 opgave 1) Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod. I nedenstående tabel betragtes blodprøver fra 9 patienter. Hver

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Kvinder trækker læsset i hjemmet mænd prioriterer jobbet

Kvinder trækker læsset i hjemmet mænd prioriterer jobbet Morten Bue Rath og Martin Hornstrup Januar 2010 Kvinder trækker læsset i hjemmet mænd prioriterer jobbet Betragter man den samlede ugentlige på arbejdsmarkedet og i hjemmet, arbejder mænd og kvinder stort

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere