ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR

Relaterede dokumenter
ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Fokus på Forsyning. Datagrundlag og metode

Løsninger til kapitel 14

Multipel Lineær Regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Anvendt Statistik Lektion 8. Multipel Lineær Regression

1 Multipel lineær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Bilag 12 Regressionsanalysens tabeller og forklaringer

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

1 Multipel lineær regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik Lektion 17 Multipel Lineær Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik II 1. Lektion. Analyse af kontingenstabeller

Appendiks Økonometrisk teori... II

Kvantitative metoder 2

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

To samhørende variable

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning til eksaminen d. 14. december 2009

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

1 Regressionsproblemet 2

Generelle lineære modeller

ca. 5 min. STATISTISKE TEGN

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statistik Lektion 16 Multipel Lineær Regression

BOLIGØKONOMISK VIDENCENTER

Regressionsanalyse i SurveyBanken

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Opgavebesvarelse, brain weight

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Test nr. 6 af centrale elementer 02402

ØVELSER Statistik, Logistikøkonom Lektion 7: Hypotesetest 2

Opgavebesvarelse, brain weight

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

(studienummer) (underskrift) (bord nr)

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsninger til kapitel 15. størrelsen i kvadratmeter, X. en dummy-variabel, som indikerer om der er havudsigt eller ej, så er modellen

Opgavebesvarelse, brain weight

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Simpel Lineær Regression

Opgavebesvarelse, brain weight

Kapitel 11 Lineær regression

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Besvarelse af vitcap -opgaven

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Tema: Kommunal variation i tilkendelse af førtidspension i 2008

02402 Løsning til testquiz02402f (Test VI)

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Besvarelse af juul2 -opgaven

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Logistisk Regression - fortsat

Psykisk arbejdsmiljø og stress

Statistik og skalavalidering. Opgave 1

Udbrændthed og brancheskift

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Personlig stemmeafgivning

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Løsning til eksaminen d. 29. maj 2009

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Vejledende løsninger kapitel 9 opgaver

Uge 13 referat hold 4

1 Hb SS Hb Sβ Hb SC = , (s = )

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Transkript:

! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine ansattes effektivitet. Det er et generelt problem for lageret, at der er meget stor udskiftning i medarbejderstaben. Faktisk stopper 80% af de ansatte inden der er gået ét år. Ledelsen har en formodning om, at dette går ud over effektiviteten. De regner nemlig med, at den ansattes erfaring har signifikant indflydelse på den ansattes effektivitet. Ledelsen gennemfører derfor en stikprøve blandt 20 ansatte, hvor de registrerede den ansattes gennemsnitlige effektivitet på en tilfældig udvalgt arbejdsdag. Ledelsen har bedt os måle, hvorvidt den ansattes erfaring (antal uger som medarbejderen har været ansat i virksomheden) har signifikant indflydelse på den ansattes effektivitet (hvor hurtigt - målt i minutter - den ansatte er om at pakke produktet fra han ser registreringen i systemet, afhenter produktet på lageret og til den endelige pakning og forsendelse (gns. målt i minutter)). Du kan se stikprøvens rådata herunder: Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 1 42 5 2 37 8 3 35 9 4 41 8 5 33 8 6 25 10 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!1

Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) 7 2 20 8 28 11 9 8 15 10 59 6 11 46 8 12 11 10 13 29 7 14 35 9 15 22 7 16 14 14 17 44 7 18 8 18 19 41 4 20 35 9 1. Opstil formelt en model der angiver sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. Kausalmodel: Xerfaring Yerfaring Teoretisk regressionsmodel: Yerfaring = α + βerfaring Xerfaring + ε 2. Estimer i Excel en simpel lineær regressionsmodel. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!2

SUMMARY OUTPUT Regression Statistics Multiple R 0,829346223 R Square 0,687815158 Adjusted R Square 0,670471555 Standard Error 2,379822125 Observations 20 ANOVA df SS MS F Significance F Regression 1 224,6060398 224,6060398 39,65814853 6,16378E-06 Residual 18 101,9439602 5,663553346 Total 19 326,55 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 16,47013747 1,206672416 13,64922017 6,18359E-11 13,93501279 19,00526214 Erfaring (målt i antal uger respondenten har arbejdet på lageret) -0,229248318 0,036403232-6,297471598 6,16378E-06-0,30572867-0,152767966 3. Fortolk udførligt regressionsoutputtet og de enkelte koefficienter. Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=0,0000006163). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XErfaring), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XErfaring har en signifikant indvirkning på YEffektivitet. Vi kan nu - da vi har konkluderet, at XErfaring har en signifikant indvirkning på YEffektivitet kommentere på hældningskoefficienten for XErfaring (-0,22925): For hver gang XErfaring stiger med én enhed, falder tidsforbruget med 0,22. Med andre ord: For hver måned den ansatte er ansat på lageret, falder hans eller hendes tidsforbrug med 0,22 minut i gennemsnit. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!3

4. Opstil formelt den estimerede regressionslinje for sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. Realiseret regressionsmodel: Yerfaring = 16,47013747 + (-0,229248318) Xerfaring + e Realiseret regressionslinje: Yerfaring = 16,47013747 + (-0,229248318) Xerfaring 5. Hvor stor en del af variationen i det ansattes effektivitet forklares af modellen (den ansattes erfaring)? Modellen forklarer samlet set 68,7% (R Square = 0,687815158) af al variationen i YEffektivitet - dvs. 69% af al det som spiller ind på variablen YEffektivitet - forklares af XErfaring. Opgave 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [1] En stor elektronikkæde har haft sine sælgere på et kursus i salgsteknik. Kurset blev afsluttet med en test hvor den maksimale score var 100. Ugen efter blev en stikprøve på 8 af elektronikkædens sælgere udvalgt og deres salg af elektronikprodukter blev målt (antal solgte produkter): Sælger Testresultat Ugentligt salg stk. 1 55 10 2 60 12 3 85 28 4 75 24 5 80 18 6 85 16 7 65 15 8 60 12 1. Opstil formelt en model der angiver sammenhængen mellem testresultat efter salgskursus og ugentligt salg af elektronikprodukter. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!4

Kausalmodel: XTestresultat YUgentligt salg Teoretisk regressionsmodel: YUgentlig salg = α + βtestresultat XTestresultat + ε 2. Estimer i Excel en regressionsmodel ud fra stikprøven på 8 sælgere. Opstil formelt den estimerede regressionslinje samt definér og fortolk udførligt regressionsoutputtet og de enkelte koefficienter. SUMMARY OUTPUT Regression Statistics Multiple R 0,774780851 R Square 0,600285367 Adjusted R Square 0,533666262 Standard Error 4,279243696 Observations 8 ANOVA df SS MS F Significance F Regression 1 165,0034404 165,0034404 9,010708918 0,023952982 Residual 6 109,8715596 18,31192661 Total 7 274,875 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept -11,50458716 9,57453041-1,201582392 0,274797161-34,93261909 11,92344477 Testresultat 0,401834862 0,133865336 3,001784289 0,023952982 0,074278185 0,729391539 Realiseret regressionsmodel: YUgentligt salg = -11,50458716 + 0,401834862 XTestresultat + e Realiseret regressionslinje: YUgentligt salg = -11,50458716 + 0,401834862 XTestresultat Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=0,023952982). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XErfaring), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XTestresultat har en signifikant indvirkning på YUgentligt salg. Vi kan nu - da vi har konkluderet, at XTestresultat har en signifikant indvirkning på YUgentligt salg kommentere på hældningskoefficienten for XTestresultat 0,401834862: For hver gang XTestresultat stiger med én enhed, stiger det ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!5

ugentlige salg med 0,40 stk. i gennemsnit. Med andre ord: For hver gang en ansats testresultat øges med 1 score, vil dennes ugentlige salg i gennemsnit stige med 0,40 stk. 3. Hvor stor en del af variationen i det ugentlige salg forklares af testresultatet efter salgskurset? Modellen forklarer samlet set 60% (R Square = 0,600285367) af al variationen i YUgentligt salg - dvs. 60% af al det som spiller ind på variablen YUgentligt salg - forklares af XTestresultat. 4. Test på 5%-niveauet om der er sammenhæng mellem testresultatet og det ugentlige salg. Dette kan vi konkludere ved at kigge på den partielle signifikanstest for XTestresultat (P-værdi=0,023952982). Da P-værdien er under den kritiske værdi på 0,05, kan vi med 95% sandsynlighed konkludere / eller et signifikansniveau på 5% konkludere, at XTestresultat har en signifikant indvirkning på YUgentligt salg. 5. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 50. Ud fra vores estimerede regressionslinje beregner vi simpelt: YUgentligt salg = -11,50458716 + 0,401834862 50 YUgentligt salg = 8,59 6. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 70. YUgentligt salg = -11,50458716 + 0,401834862 70 YUgentligt salg = 16,62 Opgave 2 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [2] I et østeuropæisk land venter man på svar fra EU på en ansøgning om optagelse i EURO-samarbejdet (ERM2). Mens man venter, laves forskellige analyser af landets økonomi. En af de analyser man ønsker at få lavet, er at undersøge rentens (beregnet som en årlig gennemsnitsrente for 10-årige statsobligationer) indflydelse på boligbyggeriets udvikling. Følgende tal er hentet fra offentlige statistikker: ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!6

År Renten * i % Antal opførte boliger i 1.000 stk. 2001 11,42 55,6 2002 13,73 48,6 2003 15 35,5 2004 13,66 39,2 2005 15,67 36,3 2006 16,72 34,2 2007 17,8 31,1 2008 17,62 30,3 2009 19,18 21,9 2010 19,85 20,6 *Renten er her et årligt gennemsnit for 10-årige statsobligationer 1. Opstil en lineær regressionsmodel. Kausalmodel: XRenten YOpførte boliger Teoretisk regressionsmodel: YOpførte boliger = α + βrenten XRenten + ε 2. Estimer en model ud fra stikprøven. Opstil formelt stikprøvens regressionslinje samt definér og fortolk udførligt regressionsoutputtet, samt de enkelte variable og parametre. SUMMARY OUTPUT Regression Statistics Multiple R 0,961107236 R Square 0,923727119 Adjusted R Square 0,914193009 Standard Error 3,156023615 Observations 10 ANOVA ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!7

SUMMARY OUTPUT df SS MS F Significance F Regression 1 965,0371195 965,0371195 96,88655861 9,55077E-06 Residual 8 79,68388048 9,96048506 Total 9 1044,721 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 97,71773649 6,416315912 15,22957065 3,42519E-07 82,92168547 112,5137875 Renten i % -3,883456987 0,394536088-9,843097003 9,55077E-06-4,793258838-2,973655136 Realiseret regressionsmodel: YOpførte boliger = 97,71773649 + (-3,883456987) XRenten + e Realiseret regressionslinje: YOpførte boliger = 97,71773649 + (-3,883456987) XRenten Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=9,55077E-06 - meget lav). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XRenten), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XRenten har en signifikant indvirkning på YOpførte boliger (1000 stk.). Vi kan fortolke hældningskoefficienten for XRenten på denne måde: For hver gang renten øges med 1 %, vil der i gennemsnit blive opført 3883 færre boliger (da Y variablen måles i 1000 stk.). 3. Diskuter modellens forudsætninger. Der er en række forudsætninger for den lineære regressionsmodel. Én af de vigtigste er, at der skal være lineær sammenhæng mellem X og Y (forudsætning 1). Det er jo netop denne forudsætning som I tester i det partielle signifikanstest, hvor I undersøger hvorvidt H0: b=0 eller H1: b 0. Kun hvis hældningen er forskellige fra 0 (hvilket i signifikantstestet kræver, at p-værdien er over 0,05) kan vi bruge X-variablen og sige, at den har en signifikant indvirkning på Y. 4. Vurder hvorvidt modellen samlet set er signifikant. Det er den, da vores p-værdi for F-test er langt under 0,05. 5. Beregn ud fra modellen det forventede antal opførte boliger, når renten ligger på 15 %. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!8

97,71773649 + (-3,883456987) 15 = 39,47 (antal opførte boliger i tusinder, dvs. 3947 boliger) 6. Diskutér hvilke andre faktorer end renteudviklingen, som kunne tænkes at påvirke antallet af opførte boliger. Det er der en lang række andre faktorer der gør. Tænk blot på landets generelle politiske miljø, kriminaliteten i samfundet, antallet af beskæftigede, bankernes evne til at låne penge ud og den globale konkurrencesituation som påvirker landets økonomi og dermed i sidste ende borgernes lønninger. Eksempel 2 AT MODELSØGE, ARBEJDE MED DUMMYVARIABLE OG MULTIPLE LINEÆRE REGRESSIONSMODELLER - GENNEMGÅS AF JAKOB Vi anvender casen og data fra Eksempel A. Lad os forestille os, at vi i stedet for det simple datasæt i Eksempel A, i stedet har et datasæt med flere potentielle X-variable (se Excel-ark og vælg fanebladet Eksempel B ). Datasættet består af disse variable: Y: Effektivitet (målt i minutter) X1: Erfaring (målt i antal uger respondenten har arbejdet på lageret) X2: Har den ansatte en videregående uddannelse (0: Nej, 1: Ja) X3: Alder X4: Køn (0: Mand, 1: Kvinde) 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). Jeg gennemfører først en baglæns modelsøgning. I startmodellen indfører jeg alle X-variablerne. Jeg udtager den X-variabel med den højeste p-værdi og laver en ny regressionsmodel med de resterende X-variabler. Sådan fortsætter jeg indtil jeg har en model med udelukkende signifikante X-variable (dvs. X-variable som alle har en p- værdi over 0,05). Min slutmodel bliver derfor: Kausalmodel: XErfaring + XVideregående uddannelse YEffektivitet målt i minutter Teoretisk regressionsmodel: YEffektivitet målt i minutter = α + βerfaring XErfaring + βvideregående udd. XVideregående udd. + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!9

SUMMARY OUTPUT Regression Statistics Multiple R 0,891372159 R Square 0,794544326 Adjusted R Square 0,77037307 Standard Error 1,986595527 Observations 20 ANOVA df SS MS F Significance F Regression 2 259,4584496 129,7292248 32,87145415 1,43914E-06 Residual 17 67,09155037 3,946561786 Total 19 326,55 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 16,66777084 1,009482634 16,51120116 6,68851E-12 14,53794865 18,79759303 Erfaring (målt i antal uger respondenten har -0,141254412 0,042429043-3,32919158 0,003971646-0,230771868-0,051736957 arbejdet på lageret) Har den ansatte en videregående uddannelse (0: Nej, 1: Ja) -4,022074396 1,353452898-2,971713609 0,008554987-6,877610404-1,166538388 Den estimerede regressionslinje bliver derfor: YEffektivitet målt i minutter = 16,66777084 + (-0,141254412) XErfaring + (-4,022074396) XVideregående udd. 2. Kommenter på din slutmodels regressionsoutput: a. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 1,43914E-06 og dermed på 0,0000014391437872). ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!10

b. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? Begge X-variables koefficienter er signifikante, da deres p-værdier er under 0,05. De er henholdsvis på 0,003971646 for XErfaring og 0,008554987 for XVideregående uddannelse. c. Hvad kan du fortælle ud fra de estimerede koefficienter? XErfaring er en skalavariabel med mange udfald. Den fortolkes på følgende måde: For hver gang den ansattes erfaring stiger med én uge, vil YEffektivitet målt i tid falde med 0,14 minutter. Den ansatte vil således i gennemsnit være 0,14 minutter hurtigere, når hans eller hendes erfaring stiger med én uge. XVideregående uddannelse er en dummyvariabel med 2 udfald. Den fortolkes derfor på følgende måde: Når den ansatte har en videregående uddannelse, er han i gennemsnit 4,02 minutter hurtigere, end en ansat som ingen videregående uddannelse har. d. Hvad med R 2? Da der er tale om en multipel lineær regressionsmodel med flere X-variable, kigger på vi justeret R 2, som i dette tilfælde er på 0,77037307. Det betyder, at modellen forklarer 77,04 % af den samlede variation i Y (Effektivitet målt i minutter). 3. Forklar til sidemanden, hvordan vi skal fortolke dummy-variables koefficienter og hvordan disse adskiller sig, fra almindelige koefficienter. Opgave 3 AT OPSTILLE EN MULTIPEL LINEÆR REGRESSIONSMODEL, BRUGE MODELSØGNING OG KOMMENTERE PÅ OUTPUTTET En større by i Danmark gennemfører med jævne mellemrum en imageundersøgelse blandt borgere, der bor i byen og i oplandet. I tilknytning til imageundersøgelsen er en mindre gruppe på 16 respondenter tillige blevet spurgt om deres månedlige indkøb i byen, samt hvor langt væk de bor fra byen målt i kilometer. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!11

Månedlige indkøb (i kr.) Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) 5.500 5 10.000 11 5.100 8 9.000 25 4.500 9 8.300 20 5.100 8 9.700 21 4.950 8 9.400 19 4.000 10 7.600 27 2.500 20 4.800 52 3.900 11 7.400 28 3.150 15 6.000 38 5.400 6 11.000 14 4.800 8 9.100 20 3.900 10 7.800 24 3.500 7 5.800 18 4.200 9 8.000 23 5.000 7 9.500 18 3.250 14 5.000 25 1. Opstil først en model der viser sammenhængen mellem månedlige indkøb og afstand til byen (altså en simpel lineær regressionsmodel). Fortolk regressionsoutputtet. Kausalmodel: XAfstand til byen YMånedlig indkøb i kroner Teoretisk regressionsmodel: YMånedlig indkøb i kroner = α + βafstand til byen XAfstand til byen + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!12

SUMMARY OUTPUT Regression Statistics Multiple R 0,867838686 R Square 0,753143985 Adjusted R Square 0,735511413 Standard Error 457,2477154 Observations 16 ANOVA df SS MS F Significance F Regression 1 8930287,125 8930287,125 42,7132221 1,3221E-05 Residual 14 2927056,625 209075,4732 Total 15 11857343,75 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 6260,132222 321,4121339 19,47696294 1,53966E-11 5570,771756 6949,492688 Afstand til byen (i km) -202,65881 31,00875439-6,535535334 1,3221E-05-269,1659736-136,1516464 Den estimerede regressionslinje bliver derfor: YMånedligt indkøb = 6260,132222 + (-202,65881) XAfstand til byen XAfstand til byen har en signifikant indvirkning på YMånedligt indkøb da p-værdien er på 0,00001322 (/1,3221E-05), hvilket er langt under det kritiske niveau på 0,05. Vi forkaster derfor H0: b=0 og tror på H1: b 0. Hældningskoefficienten for XAfstand til byen kan fortolkes på følgende måde: For hver gang afstand til byen forøges med 1 kilometer, falder det gennemsnitlige månedlige indkøb med 202,66 kroner. Som det fremgår af tabellen ovenfor, har respondenterne også angivet husstandens månedlige disponible indkomst og transporttid til byen. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!13

2. Find ved hjælp af en modelsøgning frem til den bedste model blandt alle variablerne, men som i sidste ende kun indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). I modelsøgningen sker der en lidt sjov ting. Vi har netop ovenfor haft en model med XAfstand til byen, som havde en signifikant indvirkning på YMånedligt indkøb. I modelsøgningen udtager vi XAfstand til byen som den første X-variabel. Du kan spørge: Er det ikke mærkeligt, når vi netop har vist, at den har en signifikant indvirkning på YMånedligt indkøb. Svaret er, at det skyldes at XAfstand til byen er stærkt korreleret og samvarierer mega meget med XTransporttid. De to variable forklarer nemlig det samme. Man siger, at der opstår for højt multikollinearitet, som betyder at to X- variabler samvarierer for meget. Hvis det sker, går det galt for vores lineære regressionsmodel. Man kan undersøge sådan noget, ved en korrelationsanalyse. Den laver I også ved at trygge på Dataanalyse i Excel og i stedet vælge Correlation / korrelation. I indsætter da alle X-variabler og trykker OK. Korrelationsanalysen vises således: Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) Afstand til byen (i km) 1 Husstandens månedlig disp. indkomst (i kr.) -0,807647681 1 Transporttid (i minutter) 0,947745648-0,717040944 1 Jeg har farvet problemet rødt. Tallene ovenfor kaldes for korrelationskoefficienter. De kan antage en værdi mellem -1 og 1. Hvis den er -1 betyder det, at de to variable samvarierer perfekt negativt. Der er tale om en lineær samvariation, hvilket vil sige, at hvis værdien er -1 betyder det, at når den ene variabel stiger med 1, vil den anden variabel falde med 1. 0 betyder at de slet ikke samvarierer. Der sker altså ikke noget. Hvorimod 1 betyder, at når den ene variabel stiger med 1, stiger den anden variabel ligeledes med 1. En hovedregel er, at multikollinearitet (og altså det her med, at to X-variable i en lineær regressionsanalyse ikke må være for højt korrelerede) opstår, når korrelationskoefficienten mellem dem er højere end -0,8 eller 0,8. Du kan se, at korrelationskoefficienten for ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!14

XAfstand til byen og XTransporttid er på 0,9477. Der er altså vildt højt. Og derfor bliver man nødt til at udtage én af disse variable. Vi udtager derfor XAfstand til byen da den har den højeste p-værdi i vores startmodel. Vi gennemfører vores modelsøgning og finder frem til følgende slutmodel: Kausalmodel: XHusstandsindkomst + XTransporttid YMånedlig indkøb i kroner Teoretisk regressionsmodel: YMånedlig indkøb i kroner = α + βhusstandsindkomst XHusstandsindkomst + βtransporttid XTransporttid + ε SUMMARY OUTPUT Regression Statistics Multiple R 0,980831096 R Square 0,962029638 Adjusted R Square 0,956188044 Standard Error 186,0991526 Observations 16 ANOVA df SS MS F Significance F Regression 2 11407116,12 5703558,06 164,6861496 5,8397E-10 Residual 13 450227,6297 34632,8946 Total 15 11857343,75 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 1619,421359 440,536137 3,676023879 0,002794979 667,7008968 2571,141822 Husstandens månedlig disp. 0,392585777 0,037374852 10,50400874 1,01402E-07 0,311842317 0,473329236 indkomst (i kr.) Transporttid (i minutter) -19,76176366 7,097798115-2,784210446 0,015490772-35,09562424-4,42790308 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!15

3. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 5,8397E-10 og dermed på 0,000000000583). 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? Begge X-variables koefficienter er signifikante, da deres p-værdier er under 0,05. De er henholdsvis på 1,01402E-07 for XHusstandsindkomst og 0,015490772 for XTransporttid. 3. Hvad kan du fortælle ud fra de estimerede koefficienter? Begge variable er skalavariable med mange udfald, så aflæsningen af deres koefficienter er lige ud af landevejen. XHusstandsindkomst fortolkes på følgende måde: For hver gang husstandens månedlige disponible indkomst stider med 1 krone, stiger det gennemsnitlige månedlige indkøb med 0,392 kroner. XTransporttid fortolkes på følgende måde: For hver gang transporttiden forøges med 1 minut, falder det gennemsnitlige månedlige indkøb med 19,76 kroner. 4. Hvad med R 2? Da der er tale om en multipel lineær regressionsmodel med flere X-variable, kigger på vi justeret R 2, som i dette tilfælde er på 0,956188044. Det betyder, at modellen forklarer 95,61 % af den samlede variation i Y (Månedlige indkøb i kroner). 4. Angiv mindst 2 andre variable der kunne være relevante at inddrage i en model til forudsigelse af det månedlige indkøb. Det kunne være køn eller uddannelsesniveau. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!16

Opgave 4 ENDNU EN REGRESSIONSANALYSE Tag udgangspunkt i din besvarelse af opgave 3.1 hvor du opstillede en model, der viste sammenhængen mellem månedlig indkøb og afstand til byen. Du skal nu tilføje en ekstra forklarende variabel til modellen du er nemlig interesseret i at vide om køberens køn også har indflydelse på det månedlige indkøb. Månedlige indkøb (i kr.) Afstand til byen (i km) 1. Opstil og fortolk en model (dvs. den estimerede regressionslinje) der viser sammenhængen mellem månedlig indkøb og afstand til byen samt en eventuel kønseffekt. Lille hint: Excel kan kun læse tal. Så jeg har lavet en lille snydevariabel (XKøn). Du skal simpelhen bare lave kønsvariablen om til udfaldende 0 og 1. Vi kan fx sige, at kvinde er 0 og mand er 1. Køn 5.500 5 Kvinde 5.100 8 Kvinde 4.500 9 Mand 5.100 8 Kvinde 4.950 8 Mand 4.000 10 Kvinde 2.500 20 Mand 3.900 11 Mand 3.150 15 Kvinde 5.400 6 Kvinde 4.800 8 Kvinde 3.900 10 Mand 3.500 7 Mand 4.200 9 Kvinde 5.000 7 Kvinde 3.250 14 Kvinde ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!17

Vi finder da ud af, at XKøn ikke har nogen signifikant indvirkning på YMånedlige indkøb i kroner, og vores model bliver da præcis som i opgave 3.1. Vi skal nemlig huske aldrig at fortsætte med en model med insignifikante variable. Vi må nemlig aldrig, fortolke koefficienter når variablen er insignifikant! Opgave 5 ENDNU EN MULTIPEL REGRESSIONSMODEL En af Jyllands attraktioner med 200.000 årlige besøgende har lavet en spørgeskemaundersøgelse for at afdække gæsternes oplevelser samt adfærd. Undersøgelserne skal blandt andet bruges til at sætte nye tiltag i gang, såfremt resultaterne i undersøgelsen giver belæg herfor. Ledelsen har i 15 uger eksperimenteret med forskellige billetpriser, turistbrochurer og reklamespots i en række lokalradioer for at se hvilken indvirkning det har på antallet af gæster i de pågældende uger. Resultaterne fremgår af tabel 4. Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) 1 960 30 10.000 12 2 681 45 12.000 9 3 881 35 7.000 11 4 320 60 8.000 4 5 209 70 15.000 3 6 550 50 12.000 7 7 385 60 7.000 5 8 1.135 25 8.000 14 9 150 75 15.000 1 10 1.400 25 10.000 18 11 330 63 12.000 4 12 854 40 7.000 11 13 320 65 8.000 4 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!18

Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) 14 132 75 15.000 0 15 658 50 12.000 8 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på antallet af gæster pr uge. Begrund valget af din slutmodel. For en god orden skyld viser jeg lige præcis hvordan modelsøgningen foregår. Jeg starter med følgende startmodel: SUMMARY OUTPUT Regression Statistics Multiple R 0,996138971 R Square 0,992292849 Adjusted R Square 0,990190898 Standard Error 38,00951518 Observations 15 ANOVA df SS MS F Significance F Regression 3 2046083,378 682027,7925 472,0819681 6,71527E-12 Residual 11 15891,95569 1444,723244 Total 14 2061975,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 231,0395179 205,615295 1,123649473 0,285086104-221,5166951 683,5957308 Billetpris i kr. -3,343348401 2,822923284-1,184356805 0,261231565-9,556560656 2,869863855 Antal brochure (pr. uge) 0,005030572 0,004119835 1,221061475 0,24758919-0,004037124 0,014098268 Antal radiospots (pr. uge) 65,51593205 9,342855026 7,012410218 2,23316E-05 44,95244678 86,07941731 ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!19

Jeg kan se, at XBilletpris har den højeste p-værdi (0,261231565). Jeg udtager derfor denne variabel og genererer en ny regressionsmodel. Jeg får nu følgende model 2: SUMMARY OUTPUT Regression Statistics Multiple R 0,995645542 R Square 0,991310046 Adjusted R Square 0,989861721 Standard Error 38,64202213 Observations 15 ANOVA df SS MS F Significance F Regression 2 2044056,863 1022028,431 684,4524585 4,30631E-13 Residual 12 17918,47049 1493,205874 Total 14 2061975,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept -4,191160991 54,08154246-0,077497068 0,93950531-122,0247195 113,6423976 Antal brochure (pr. uge) 0,003581098 0,00399932 0,895426767 0,388167722-0,005132671 0,012294867 Antal radiospots (pr. uge) 76,23472013 2,35828959 32,32627598 4,85403E-13 71,09644852 81,37299175 Jeg kan se, at XAntal brochure har den højeste p-værdi (0,388167722). Jeg udtager derfor denne variabel og genererer en ny regressionsmodel, og kommer nu frem til følgende slutmodel: Kausalmodel: XAntal radiospots YAntal ugentlige gæster Teoretisk regressionsmodel: YAntal ugentlige gæster = α + βantal radiospots XAntal radiospots + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!20

SUMMARY OUTPUT Regression Statistics Multiple R 0,995353917 R Square 0,99072942 Adjusted R Square 0,990016299 Standard Error 38,34630328 Observations 15 ANOVA df SS MS F Significance F Regression 1 2042859,627 2042859,627 1389,285555 1,33221E-14 Residual 13 19115,70667 1470,438975 Total 14 2061975,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 41,45925516 17,90836901 2,31507711 0,037591589 2,770576067 80,14793426 Antal radiospots (pr. uge) 75,16316372 2,016551379 37,27312107 1,33221E-14 70,80666932 79,51965811 Den estimerede regressionslinje bliver derfor: YAntal ugentlige gæster = 41,45925516 + 75,16316372 XAntal radiospots 2. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 1,33221E-14 og dermed på 0,00000000000001332). Men da der er tale om en simpel lineær regressionsmodel, er denne p-værdi den samme som p-værdien for den partielle signifikanstest. 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!21

XAntal radiospots er jo signikant, da p-værdien er under 0,05 (den er på 1,33221E-14 og dermed 0,00000000000001332). 3. Hvad kan du fortælle ud fra de estimerede koefficienter? XAntal radiospots fortolkes på følgende måde: For hver gang der udsendes et radiospot stiger det gennemsnitlige antal ugentlige gæster med 75,16. 4. Hvad med R 2? Da der er tale om en simpel lineær regressionsmodel med kun én X-variabel, kigger på vi R 2, som i dette tilfælde er på 0,99072942. Det betyder, at modellen forklarer 99,07 % af den samlede variation i Y (Antal ugentilge gæster). Det er et usandsynlig højt tal og lugter langt væk af skoleopgave;). 3. Nævn mindst 2 andre faktorer der kan have indflydelse på det ugentlige antal gæster. Vejret og hvorvidt der er fodbold VM i fjernsynet. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!22