! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine ansattes effektivitet. Det er et generelt problem for lageret, at der er meget stor udskiftning i medarbejderstaben. Faktisk stopper 80% af de ansatte inden der er gået ét år. Ledelsen har en formodning om, at dette går ud over effektiviteten. De regner nemlig med, at den ansattes erfaring har signifikant indflydelse på den ansattes effektivitet. Ledelsen gennemfører derfor en stikprøve blandt 20 ansatte, hvor de registrerede den ansattes gennemsnitlige effektivitet på en tilfældig udvalgt arbejdsdag. Ledelsen har bedt os måle, hvorvidt den ansattes erfaring (antal uger som medarbejderen har været ansat i virksomheden) har signifikant indflydelse på den ansattes effektivitet (hvor hurtigt - målt i minutter - den ansatte er om at pakke produktet fra han ser registreringen i systemet, afhenter produktet på lageret og til den endelige pakning og forsendelse (gns. målt i minutter)). Du kan se stikprøvens rådata herunder: Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 1 42 5 2 37 8 3 35 9 4 41 8 5 33 8 6 25 10 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!1
Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 7 2 20 8 28 11 9 8 15 10 59 6 11 46 8 12 11 10 13 29 7 14 35 9 15 22 7 16 14 14 17 44 7 18 8 18 19 41 4 20 35 9 1. Opstil formelt en model der angiver sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. 2. Estimer i Excel en simpel lineær regressionsmodel. 3. Fortolk udførligt regressionsoutputtet og de enkelte koefficienter. 4. Opstil formelt den estimerede regressionslinje for sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. 5. Hvor stor en del af variationen i det ansattes effektivitet forklares af modellen (den ansattes erfaring)? ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!2
Opgave 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [1] En stor elektronikkæde har haft sine sælgere på et kursus i salgsteknik. Kurset blev afsluttet med en test hvor den maksimale score var 100. Ugen efter blev en stikprøve på 8 af elektronikkædens sælgere udvalgt og deres salg af elektronikprodukter blev målt (antal solgte produkter): Sælger Testresultat Ugentligt salg stk. 1 55 10 2 60 12 3 85 28 4 75 24 5 80 18 6 85 16 7 65 15 8 60 12 1. Opstil formelt en model der angiver sammenhængen mellem testresultat efter salgskursus og ugentligt salg af elektronikprodukter. 2. Estimer i Excel en regressionsmodel ud fra stikprøven på 8 sælgere. Opstil formelt den estimerede regressionslinje samt definér og fortolk udførligt regressionsoutputtet og de enkelte koefficienter. 3. Hvor stor en del af variationen i det ugentlige salg forklares af testresultatet efter salgskurset? 4. Test på 5%-niveauet om der er sammenhæng mellem testresultatet og det ugentlige salg. 5. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 50. 6. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 70. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!3
Opgave 2 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [2] I et østeuropæisk land venter man på svar fra EU på en ansøgning om optagelse i EURO-samarbejdet (ERM2). Mens man venter, laves forskellige analyser af landets økonomi. En af de analyser man ønsker at få lavet, er at undersøge rentens (beregnet som en årlig gennemsnitsrente for 10-årige statsobligationer) indflydelse på boligbyggeriets udvikling. Følgende tal er hentet fra offentlige statistikker: År Renten * i % Antal opførte boliger i 1.000 stk. 2001 11,42 55,6 2002 13,73 48,6 2003 15 35,5 2004 13,66 39,2 2005 15,67 36,3 2006 16,72 34,2 2007 17,8 31,1 2008 17,62 30,3 2009 19,18 21,9 2010 19,85 20,6 *Renten er her et årligt gennemsnit for 10-årige statsobligationer 1. Opstil en lineær regressionsmodel. 2. Estimer en model ud fra stikprøven. Opstil formelt stikprøvens regressionslinje samt definér og fortolk udførligt regressionsoutputtet, samt de enkelte variable og parametre. 3. Diskuter modellens forudsætninger. 4. Vurder hvorvidt modellen samlet set er signifikant. 5. Beregn ud fra modellen det forventede antal opførte boliger, når renten ligger på 15 %. 6. Diskutér hvilke andre faktorer end renteudviklingen, som kunne tænkes at påvirke antallet af opførte boliger. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!4
Opgave 3 AT OPSTILLE EN MULTIPEL LINEÆR REGRESSIONSMODEL, BRUGE MODELSØGNING OG KOMMENTERE PÅ OUTPUTTET En større by i Danmark gennemfører med jævne mellemrum en imageundersøgelse blandt borgere, der bor i byen og i oplandet. I tilknytning til imageundersøgelsen er en mindre gruppe på 16 respondenter tillige blevet spurgt om deres månedlige indkøb i byen, samt hvor langt væk de bor fra byen målt i kilometer. Månedlige indkøb (i kr.) Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) 5.500 5 10.000 11 5.100 8 9.000 25 4.500 9 8.300 20 5.100 8 9.700 21 4.950 8 9.400 19 4.000 10 7.600 27 2.500 20 4.800 52 3.900 11 7.400 28 3.150 15 6.000 38 5.400 6 11.000 14 4.800 8 9.100 20 3.900 10 7.800 24 3.500 7 5.800 18 4.200 9 8.000 23 5.000 7 9.500 18 3.250 14 5.000 25 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!5
1. Opstil først en model der viser sammenhængen mellem månedlige indkøb og afstand til byen (altså en simpel lineær regressionsmodel). Fortolk regressionsoutputtet. Som det fremgår af tabellen ovenfor, har respondenterne også angivet husstandens månedlige disponible indkomst og transporttid til byen. 2. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). 3. Kommenter på din slutmodels regressionsoutput: a. Hvad kan du fortælle ud fra de estimerede koefficienter? b. Hvad med p-værdierne? c. Hvad med F-testet? d. Hvad med justeret R 2? 4. Angiv mindst 2 andre variable der kunne være relevante at inddrage i en model til forudsigelse af det månedlige indkøb. Opgave 4 AT ARBEJDE MED DUMMYVARIABLE Tag udgangspunkt i din besvarelse af opgave 3.1 hvor du opstillede en model, der viste sammenhængen mellem månedlig indkøb og afstand til byen. Du skal nu tilføje en ekstra forklarende variabel til modellen du er nemlig interesseret i at vide om køberens køn også har indflydelse på det månedlige indkøb. Månedlige indkøb (i kr.) Afstand til byen (i km) Køn 5.500 5 Kvinde 5.100 8 Kvinde ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!6
Månedlige indkøb (i kr.) Afstand til byen (i km) Køn 4.500 9 Mand 5.100 8 Kvinde 4.950 8 Mand 4.000 10 Kvinde 2.500 20 Mand 3.900 11 Mand 3.150 15 Kvinde 5.400 6 Kvinde 4.800 8 Kvinde 3.900 10 Mand 3.500 7 Mand 4.200 9 Kvinde 5.000 7 Kvinde 3.250 14 Kvinde 1. Opstil og fortolk en model (dvs. den estimerede regressionslinje) der viser sammenhængen mellem månedlig indkøb og afstand til byen samt en eventuel kønseffekt. 2. Forklar koefficienterne, herunder især hvilken betydning kønnet (som er en dummy-variabel) har for det månedlige indkøb. 3. Forklar til sidemanden, hvordan vi skal fortolke dummy-variables koefficienter og hvordan disse adskiller sig, fra almindelige koefficienter. Opgave 5 ENDNU EN MULTIPEL REGRESSIONSMODEL ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!7
En af Jyllands attraktioner med 200.000 årlige besøgende har lavet en spørgeskemaundersøgelse for at afdække gæsternes oplevelser samt adfærd. Undersøgelserne skal blandt andet bruges til at sætte nye tiltag i gang, såfremt resultaterne i undersøgelsen giver belæg herfor. Ledelsen har i 15 uger eksperimenteret med forskellige billetpriser, turistbrochurer og reklamespots i en række lokalradioer for at se hvilken indvirkning det har på antallet af gæster i de pågældende uger. Resultaterne fremgår af tabel 4. Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) 1 960 30 10.000 12 2 681 45 12.000 9 3 881 35 7.000 11 4 320 60 8.000 4 5 209 70 15.000 3 6 550 50 12.000 7 7 385 60 7.000 5 8 1.135 25 8.000 14 9 150 75 15.000 1 10 1.400 25 10.000 18 11 330 63 12.000 4 12 854 40 7.000 11 13 320 65 8.000 4 14 132 75 15.000 0 15 658 50 12.000 8 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på antallet af gæster pr uge. Begrund valget af din slutmodel. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!8
2. Kommenter på din slutmodels regressionsoutput: a. Hvad kan du fortælle ud fra de estimerede koefficienter? b. Hvad med p-værdierne? c. Hvad med F-testet? d. Hvad med justeret R2? 3. Nævn mindst 2 andre faktorer der kan have indflydelse på det ugentlige antal gæster. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup Side!9