ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Relaterede dokumenter
ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Statistik og skalavalidering. Opgave 1

Statistik II 4. Lektion. Logistisk regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Regressionsanalyse i SurveyBanken

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Udbrændthed og brancheskift

ØVELSER Statistik, Logistikøkonom Lektion 7: Hypotesetest 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Løsninger til kapitel 14

Økogården. Virksomheds- og situationsbeskrivelse. Problemformuleringer. Økogården

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Logistisk regression

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

1 Multipel lineær regression

Statistik II 1. Lektion. Analyse af kontingenstabeller

MAT A HHX FACITLISTE TIL KAPITEL 8. Øvelser. Øvelse 1 Graf tegnes med CAS. Øvelse 2. Bedste rette linie: Øvelse 3. Øvelse 4.

Bilag 12 Regressionsanalysens tabeller og forklaringer

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Lineære sammenhænge, residualplot og regression

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Overordnet set skelnes der mellem to former for mobilitet: Geografisk og faglig mobilitet.

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Et psykisk belastende arbejde har store konsekvenser for helbredet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Lineær og logistisk regression

1 Multipel lineær regression

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Indledning...1. Analyse af lønforskellen mellem kvinder og mænd...2

Bilag 2. Supplerende figurer og tabeller

Simpel Lineær Regression

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark.

Baggrundsnotat: Undervisningstimer på universitetet

Vejledende løsninger kapitel 9 opgaver

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Statistik Lektion 17 Multipel Lineær Regression

Psykisk arbejdsmiljø og stress

Når butikkerne lukker, vil husstandene i gennemsnit foretage 2,3 indkøbsture pr. uge og i gennemsnit køre 4,1 km i bil i forbindelse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

1 α K = A t, (SS1) n + g + δ eller: ln yt =lna t +

POLITIETS TRYGHEDSUNDERSØGELSE I GRØNLAND, 2017

Unge afgiver rask væk personlige oplysninger for at få adgang til sociale medier

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

To samhørende variable

Program dag 2 (11. april 2011)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Lineære normale modeller (4) udkast

Dagtilbudsledernes perspektiv på nyuddannede pædagoger. Bilag: Figurer

Transkript:

! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine ansattes effektivitet. Det er et generelt problem for lageret, at der er meget stor udskiftning i medarbejderstaben. Faktisk stopper 80% af de ansatte inden der er gået ét år. Ledelsen har en formodning om, at dette går ud over effektiviteten. De regner nemlig med, at den ansattes erfaring har signifikant indflydelse på den ansattes effektivitet. Ledelsen gennemfører derfor en stikprøve blandt 20 ansatte, hvor de registrerede den ansattes gennemsnitlige effektivitet på en tilfældig udvalgt arbejdsdag. Ledelsen har bedt os måle, hvorvidt den ansattes erfaring (antal uger som medarbejderen har været ansat i virksomheden) har signifikant indflydelse på den ansattes effektivitet (hvor hurtigt - målt i minutter - den ansatte er om at pakke produktet fra han ser registreringen i systemet, afhenter produktet på lageret og til den endelige pakning og forsendelse (gns. målt i minutter)). Du kan se stikprøvens rådata herunder: Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 1 42 5 2 37 8 3 35 9 4 41 8 5 33 8 6 25 10 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!1

Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 7 2 20 8 28 11 9 8 15 10 59 6 11 46 8 12 11 10 13 29 7 14 35 9 15 22 7 16 14 14 17 44 7 18 8 18 19 41 4 20 35 9 1. Opstil formelt en model der angiver sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. 2. Estimer i Excel en simpel lineær regressionsmodel. 3. Fortolk udførligt regressionsoutputtet og de enkelte koefficienter. 4. Opstil formelt den estimerede regressionslinje for sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. 5. Hvor stor en del af variationen i det ansattes effektivitet forklares af modellen (den ansattes erfaring)? ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!2

Opgave 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [1] En stor elektronikkæde har haft sine sælgere på et kursus i salgsteknik. Kurset blev afsluttet med en test hvor den maksimale score var 100. Ugen efter blev en stikprøve på 8 af elektronikkædens sælgere udvalgt og deres salg af elektronikprodukter blev målt (antal solgte produkter): Sælger Testresultat Ugentligt salg stk. 1 55 10 2 60 12 3 85 28 4 75 24 5 80 18 6 85 16 7 65 15 8 60 12 1. Opstil formelt en model der angiver sammenhængen mellem testresultat efter salgskursus og ugentligt salg af elektronikprodukter. 2. Estimer i Excel en regressionsmodel ud fra stikprøven på 8 sælgere. Opstil formelt den estimerede regressionslinje samt definér og fortolk udførligt regressionsoutputtet og de enkelte koefficienter. 3. Hvor stor en del af variationen i det ugentlige salg forklares af testresultatet efter salgskurset? 4. Test på 5%-niveauet om der er sammenhæng mellem testresultatet og det ugentlige salg. 5. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 50. 6. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 70. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!3

Opgave 2 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [2] I et østeuropæisk land venter man på svar fra EU på en ansøgning om optagelse i EURO-samarbejdet (ERM2). Mens man venter, laves forskellige analyser af landets økonomi. En af de analyser man ønsker at få lavet, er at undersøge rentens (beregnet som en årlig gennemsnitsrente for 10-årige statsobligationer) indflydelse på boligbyggeriets udvikling. Følgende tal er hentet fra offentlige statistikker: År Renten * i % Antal opførte boliger i 1.000 stk. 2001 11,42 55,6 2002 13,73 48,6 2003 15 35,5 2004 13,66 39,2 2005 15,67 36,3 2006 16,72 34,2 2007 17,8 31,1 2008 17,62 30,3 2009 19,18 21,9 2010 19,85 20,6 *Renten er her et årligt gennemsnit for 10-årige statsobligationer 1. Opstil en lineær regressionsmodel. 2. Estimer en model ud fra stikprøven. Opstil formelt stikprøvens regressionslinje samt definér og fortolk udførligt regressionsoutputtet, samt de enkelte variable og parametre. 3. Diskuter modellens forudsætninger. 4. Vurder hvorvidt modellen samlet set er signifikant. 5. Beregn ud fra modellen det forventede antal opførte boliger, når renten ligger på 15 %. 6. Diskutér hvilke andre faktorer end renteudviklingen, som kunne tænkes at påvirke antallet af opførte boliger. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!4

Eksempel 2 AT MODELSØGE, ARBEJDE MED DUMMYVARIABLE OG MULTIPLE LINEÆRE REGRESSIONSMODELLER - GENNEMGÅS AF JAKOB Vi anvender casen og data fra Eksempel A. Lad os forestille os, at vi i stedet for det simple datasæt i Eksempel A, i stedet har et datasæt med flere potentielle X-variable (se Excel-ark og vælg fanebladet Eksempel B ). Datasættet består af disse variable: Y: Effektivitet (målt i minutter) X1: Erfaring (målt i antal uger respondenten har arbejdet på lageret) X2: Har den ansatte en videregående uddannelse (0: Nej, 1: Ja) X3: Alder X4: Køn (0: Mand, 1: Kvinde) 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). 2. Kommenter på din slutmodels regressionsoutput: a. Hvad med F-testet? b. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? c. Hvad kan du fortælle ud fra de estimerede koefficienter? d. Hvad med R 2? 3. Forklar til sidemanden, hvordan vi skal fortolke dummy-variables koefficienter og hvordan disse adskiller sig, fra almindelige koefficienter. Opgave 3 AT OPSTILLE EN MULTIPEL LINEÆR REGRESSIONSMODEL, BRUGE MODELSØGNING OG KOMMENTERE PÅ OUTPUTTET ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!5

En større by i Danmark gennemfører med jævne mellemrum en imageundersøgelse blandt borgere, der bor i byen og i oplandet. I tilknytning til imageundersøgelsen er en mindre gruppe på 16 respondenter tillige blevet spurgt om deres månedlige indkøb i byen, samt hvor langt væk de bor fra byen målt i kilometer. Månedlige indkøb (i kr.) Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) 5.500 5 10.000 11 5.100 8 9.000 25 4.500 9 8.300 20 5.100 8 9.700 21 4.950 8 9.400 19 4.000 10 7.600 27 2.500 20 4.800 52 3.900 11 7.400 28 3.150 15 6.000 38 5.400 6 11.000 14 4.800 8 9.100 20 3.900 10 7.800 24 3.500 7 5.800 18 4.200 9 8.000 23 5.000 7 9.500 18 3.250 14 5.000 25 1. Opstil først en model der viser sammenhængen mellem månedlige indkøb og afstand til byen (altså en simpel lineær regressionsmodel). Fortolk regressionsoutputtet. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!6

Som det fremgår af tabellen ovenfor, har respondenterne også angivet husstandens månedlige disponible indkomst og transporttid til byen. 2. Find ved hjælp af en modelsøgning frem til den bedste model blandt alle variablerne, men som i sidste ende kun indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). 3. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? 3. Hvad kan du fortælle ud fra de estimerede koefficienter? 4. Hvad med R 2? 4. Angiv mindst 2 andre variable der kunne være relevante at inddrage i en model til forudsigelse af det månedlige indkøb. Opgave 4 ENDNU EN REGRESSIONSANALYSE Tag udgangspunkt i din besvarelse af opgave 3.1 hvor du opstillede en model, der viste sammenhængen mellem månedlig indkøb og afstand til byen. Du skal nu tilføje en ekstra forklarende variabel til modellen du er nemlig interesseret i at vide om køberens køn også har indflydelse på det månedlige indkøb. Månedlige indkøb (i kr.) Afstand til byen (i km) Køn 5.500 5 Kvinde 5.100 8 Kvinde 4.500 9 Mand 5.100 8 Kvinde 4.950 8 Mand ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!7

Månedlige indkøb (i kr.) Afstand til byen (i km) 1. Opstil og fortolk en model (dvs. den estimerede regressionslinje) der viser sammenhængen mellem månedlig indkøb og afstand til byen samt en eventuel kønseffekt. Køn 4.000 10 Kvinde 2.500 20 Mand 3.900 11 Mand 3.150 15 Kvinde 5.400 6 Kvinde 4.800 8 Kvinde 3.900 10 Mand 3.500 7 Mand 4.200 9 Kvinde 5.000 7 Kvinde 3.250 14 Kvinde Opgave 5 ENDNU EN MULTIPEL REGRESSIONSMODEL En af Jyllands attraktioner med 200.000 årlige besøgende har lavet en spørgeskemaundersøgelse for at afdække gæsternes oplevelser samt adfærd. Undersøgelserne skal blandt andet bruges til at sætte nye tiltag i gang, såfremt resultaterne i undersøgelsen giver belæg herfor. Ledelsen har i 15 uger eksperimenteret med forskellige billetpriser, turistbrochurer og reklamespots i en række lokalradioer for at se hvilken indvirkning det har på antallet af gæster i de pågældende uger. Resultaterne fremgår af tabel 4. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!8

Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) 1 960 30 10.000 12 2 681 45 12.000 9 3 881 35 7.000 11 4 320 60 8.000 4 5 209 70 15.000 3 6 550 50 12.000 7 7 385 60 7.000 5 8 1.135 25 8.000 14 9 150 75 15.000 1 10 1.400 25 10.000 18 11 330 63 12.000 4 12 854 40 7.000 11 13 320 65 8.000 4 14 132 75 15.000 0 15 658 50 12.000 8 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på antallet af gæster pr uge. Begrund valget af din slutmodel. 2. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? 3. Hvad kan du fortælle ud fra de estimerede koefficienter? ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!9

4. Hvad med R 2? 3. Nævn mindst 2 andre faktorer der kan have indflydelse på det ugentlige antal gæster. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!10