Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet



Relaterede dokumenter
Bilag 12 Regressionsanalysens tabeller og forklaringer

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Besvarelse af vitcap -opgaven

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Løsning eksamen d. 15. december 2008

Løsning til eksamen d.27 Maj 2010

Statistik Lektion 17 Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Ikke-parametriske tests

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Normalfordelingen og Stikprøvefordelinger

To samhørende variable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Løsning til eksaminen d. 29. maj 2009

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Skriftlig eksamen Science statistik- ST501

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Løsning til eksaminen d. 14. december 2009

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Eksamen i Statistik for biokemikere. Blok

Appendiks Økonometrisk teori... II

1 Hb SS Hb Sβ Hb SC = , (s = )

Multipel Lineær Regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Statistik II 4. Lektion. Logistisk regression

Konfidensintervaller og Hypotesetest

Kapitel 7 Forskelle mellem centraltendenser

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kapitel 11 Lineær regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

MPH specialmodul Epidemiologi og Biostatistik

Kvantitative Metoder 1 - Forår Dagens program

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Hver anden vil benytte øget åbningstid i dagtilbud

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Forelæsning 1: Intro og beskrivende statistik

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

1 Regressionsproblemet 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Afdeling for Anvendt Matematik og Statistik December 2006

To-sidet varians analyse

Generelle lineære modeller

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Reeksamen i Statistik for biokemikere. Blok

Basal statistik. 30. januar 2007

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

(studienummer) (underskrift) (bord nr)

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Opgavebesvarelse, Basalkursus, uge 3

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Program dag 2 (11. april 2011)

Opgavebesvarelse, Basalkursus, uge 3

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Logistisk Regression - fortsat

Fokus på Forsyning. Datagrundlag og metode

Statistik II 1. Lektion. Analyse af kontingenstabeller

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kvantitative Metoder 1 - Forår Dagens program

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Epidemiologi og Biostatistik

Skriftlig eksamen i samfundsfag

Psykisk arbejdsmiljø og stress

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Modul 12: Regression og korrelation

Stastistik og Databehandling på en TI-83

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kvantitative metoder 2

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Postoperative komplikationer

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Beskrivende statistik

Transkript:

Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6

1) Af boxplottet kan man aflæse, at medianen er 9 og at de 50 % midterste observationer falder mellem 6 og 12, dette er interquartilen, de to streger viser, at den laveste alder er 1 år og den højeste alder er 19 år. 2) p-p-plot står for probability-probability plot, grafen plotter den kumulative sandsynlighed for en given variabel mod kumulativ sandsynlighed for en bestemt fordeling. Således kan p-p plot vise, hvorvidt data er normalfordelt. Da locus of Control ligger sig tæt op af den diagonale linje, kan det konkluderes, at data er normalfordelt. 3) Først omregnes scoresne til z-scores, med gennemsnit på 0 og standardafvigelse på 1. Z=(35-50)/10 = -1,5 Z=(65-50)/10 =1,5 I Appendix A1 s.800 i Field (2009) aflæses det at sandsynligheden for at nogen får over 1,5 er 0,00681. Derfor vil 100-0,06681*100*2 = 86, 638 % af populationen have en score mellem 35 og 65. 4) Standard error of the mean for de 16 skolebørn er = 2 5) log transformation kan anvendes, når der er en positiv skævhed i fordelingen, således at forudsætningen om normalfordelingen alligevel opfyldes og man således kan anvende de parametriske test. En transformation af data kan dog skabe problemer senere i processen især, hvis man skal sammenligne med andre data. Et alternativ til at transformere er at anvende bootstrapping, her 14. december 2011 Side 2 af 6

antages det, at den skæve fordeling, der observeres i stikprøven, faktisk afspejler en skæv fordeling i populationen. 6) Hvis IQ og uddannelsesniveau korrelerer med 0,5, kan man ved at tage denne værdi i anden udregne R 2, som kan fortælle, hvor meget varians, der kan forklares af modellen. R 2 = 0,25 betyder, at 25 % af variationen i IQ kan forklares af uddannelsesniveau. 7) Kendall s Tau er en ikke-parametrisk test af korrelations koefficienten, som kan anvendes, hvis forudsætningerne for Pearson s r ikke er opfyldt. Kendall s Tau foretrækkes fremfor Spearman s korrelations koefficient, da Kendall s Tau giver et bedre estimat af korrelationen i populationen. 8) Partial correlation er en korrelation mellem to variabler i hvilken effekten af andre variabler holdes konstant. Her kontrolleres der for en eventuel tredje variabels indflydelse på begge de to originale variabler. I Semi-partial correlation ser man stadig på de to variable, men ser kun på effekten af den tredje variabel på én af de oprindelige variable. 9) Man kan oftere finde en signifikant effekt i et repeated-measure design, fordi den usystematiske variation, dvs. den variation som ikke kontrolleres eksperimentalt vil være mindre og således er det nemmere at opdage enhver systematisk variation 10) Sums of squares df Mean square F Between groups 300 3-1= 2 300/2 = 150 150/30 = 5 Witin groups 900 32-2= 30 900/30 = 30 (error) Total 1200 33-1= 32 14. december 2011 Side 3 af 6

11) A) = se udregninger i tabellen ovenfor B) F er signifikant med p= 0,05, fordi 5 er over grænseværdien på 3,32 C) Eta-squared = = = 0,25 D) Med eta-squared, får vi en mål for effektstørrelse, det er egentlig det samme som r 2. Dette mål er dog en smule biased, fordi det kun baserer sig på sums of squares og ikke har nogen korrektion for, at der egentlig ønskes et estimat af effektstørrelsen i populationen og ikke blot i stikprøven. Derfor er ω 2 et bedre mål, fordi den inddrager både variansen forklaret af modellen og fejl variansen. Her ville ω 2 blive = 0,12. Effekten mindskes således, men bliver samtidig et bedre estimat for den egentlige effekt i populationen. E) Ved en post hoc test sammenligner man alle grupper mod hinanden, således ville man kunne se om ikke-rygere klarede sig bedre eller dårligere end henholdsvis storrygere, der lige havde røget eller storrygere der ikke havde røget de seneste 3 timer, man ville også kunne se om der var forskel mellem de to grupper af storrygere. En helmert contrast analyse sammenligner alle undtagen den sidste kategori med den gennemsnitlige effekt af alle efterfølgende kategorier. Tennis gruppen ville således blive sammenlignet med den gennemsnitlige effekt hos fodbold, håndbold og cykelløb grupperne sammenlagt. Fodboldgruppen ville blive sammenlignet med den gennemsnitlige effekt hos håndbold og cykelløb grupperne sammenlagt og håndboldgruppen ville blive sammenlignet med den gennemsnitlige effekt hos cykelløbgruppen. 12). a) De totale frihedsgrader er N-1= 30-1 = 29 b) total sum of squares skal opdeles i time-point og error(time-point). Time-point vil have 3-1 = 2 frihedsgrader og error (time) vil have 29-2=27 frihedsgrader. 13) a) For en person med en månedlig lån på 30.000 kr. og en jobansvars rating på 15 er den forudsagte jobtilfredshed = 10 + 0,5*30 + 3*15 = 70 14. december 2011 Side 4 af 6

b) A= 0,5/0,1 = 5 B= 3/1,5 = 2 c) Indkomsten er det, der bidrager mest til regressionen, idet den standardiserede koefficient er den højeste. d) Toleransen er 1/VIF, værdier under 0,2 kan være problematiske og værdier under 0,1 indikerer et seriøst problem med multicollinarity. Multicollinarity er, at en predictor har en stærk lineær relation til de øvrige predictorer. I opgaven er toleransen 0,8 og er derfor ikke problematisk ift. forudsætningen. Toleransen for både salary og job responsibility er ens, fordi der kun er disse to predictorer og de har derfor samme indbyrdes relation. 14) I factor analyse tillader oblique rotationer, at faktorerne korrelerer med hinanden, herunder er der to former man kan vælge mellem i SPSS direct oblim, hvor en konstant delta bestemmer i hvilken grad faktorerne må korrelere, og promax, som kan anvendes til meget store datasæt. Oblique rotation foretrækkes ofte af psykologer, da det menes, at faktorer aldrig vil være helt uafhængige og en korrelation i mellem dem således vil afspejle virkeligheden bedre og give en højere økologisk validitet. 15) Romantic comedy Action thriller Total Males Observed: 80 Observed: 20 100 Expected: 50 Expected: 50 Females Observed: 20 Observed: 80 100 Expected: 50 Expected:50 100 100 200 a) Pearson s chi 2 = (80-50) 2 /50 + (20-50) 2 /50 + (20-50) 2 /50 +(80-50) 2 /50 = 72 b) Df = (2-1)*(2-1) = 1 c) Chi 2 tester forholdet mellem to frekvenser, her er den signifikant, da den er over den kritiske værdi for p= 0,01 på 6,63. 14. december 2011 Side 5 af 6

d) Det kan konkluderes, at der er en signifikant forskel på hvilken filmgenre mænd og kvinder foretrækker. For at udregne effektstørrelse ville man skulle lave en odds ratio. 14. december 2011 Side 6 af 6