ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR

Størrelse: px
Starte visningen fra side:

Download "ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR"

Transkript

1 ! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine ansattes effektivitet. Det er et generelt problem for lageret, at der er meget stor udskiftning i medarbejderstaben. Faktisk stopper 80% af de ansatte inden der er gået ét år. Ledelsen har en formodning om, at dette går ud over effektiviteten. De regner nemlig med, at den ansattes erfaring har signifikant indflydelse på den ansattes effektivitet. Ledelsen gennemfører derfor en stikprøve blandt 20 ansatte, hvor de registrerede den ansattes gennemsnitlige effektivitet på en tilfældig udvalgt arbejdsdag. Ledelsen har bedt os måle, hvorvidt den ansattes erfaring (antal uger som medarbejderen har været ansat i virksomheden) har signifikant indflydelse på den ansattes effektivitet (hvor hurtigt - målt i minutter - den ansatte er om at pakke produktet fra han ser registreringen i systemet, afhenter produktet på lageret og til den endelige pakning og forsendelse (gns. målt i minutter)). Du kan se stikprøvens rådata herunder: Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!1

2 Respondent nr. Erfaring (målt i antal uger respondenten har arbejdet på lageret) Effektivitet (målt i minutter) Opstil formelt en model der angiver sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. Kausalmodel: Xerfaring Yerfaring Teoretisk regressionsmodel: Yerfaring = α + βerfaring Xerfaring + ε 2. Estimer i Excel en simpel lineær regressionsmodel. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!2

3 SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 2, Observations 20 ANOVA df SS MS F Significance F Regression 1 224, , , ,16378E-06 Residual , , Total ,55 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 16, , , ,18359E-11 13, , Erfaring (målt i antal uger respondenten har arbejdet på lageret) -0, , , ,16378E-06-0, , Fortolk udførligt regressionsoutputtet og de enkelte koefficienter. Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=0, ). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XErfaring), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XErfaring har en signifikant indvirkning på YEffektivitet. Vi kan nu - da vi har konkluderet, at XErfaring har en signifikant indvirkning på YEffektivitet kommentere på hældningskoefficienten for XErfaring (-0,22925): For hver gang XErfaring stiger med én enhed, falder tidsforbruget med 0,22. Med andre ord: For hver måned den ansatte er ansat på lageret, falder hans eller hendes tidsforbrug med 0,22 minut i gennemsnit. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!3

4 4. Opstil formelt den estimerede regressionslinje for sammenhængen mellem den ansattes erfaring og den ansattes effektivitet. Realiseret regressionsmodel: Yerfaring = 16, (-0, ) Xerfaring + e Realiseret regressionslinje: Yerfaring = 16, (-0, ) Xerfaring 5. Hvor stor en del af variationen i det ansattes effektivitet forklares af modellen (den ansattes erfaring)? Modellen forklarer samlet set 68,7% (R Square = 0, ) af al variationen i YEffektivitet - dvs. 69% af al det som spiller ind på variablen YEffektivitet - forklares af XErfaring. Opgave 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [1] En stor elektronikkæde har haft sine sælgere på et kursus i salgsteknik. Kurset blev afsluttet med en test hvor den maksimale score var 100. Ugen efter blev en stikprøve på 8 af elektronikkædens sælgere udvalgt og deres salg af elektronikprodukter blev målt (antal solgte produkter): Sælger Testresultat Ugentligt salg stk Opstil formelt en model der angiver sammenhængen mellem testresultat efter salgskursus og ugentligt salg af elektronikprodukter. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!4

5 Kausalmodel: XTestresultat YUgentligt salg Teoretisk regressionsmodel: YUgentlig salg = α + βtestresultat XTestresultat + ε 2. Estimer i Excel en regressionsmodel ud fra stikprøven på 8 sælgere. Opstil formelt den estimerede regressionslinje samt definér og fortolk udførligt regressionsoutputtet og de enkelte koefficienter. SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 4, Observations 8 ANOVA df SS MS F Significance F Regression 1 165, , , , Residual 6 109, , Total 7 274,875 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept -11, , , , , , Testresultat 0, , , , , , Realiseret regressionsmodel: YUgentligt salg = -11, , XTestresultat + e Realiseret regressionslinje: YUgentligt salg = -11, , XTestresultat Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=0, ). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XErfaring), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XTestresultat har en signifikant indvirkning på YUgentligt salg. Vi kan nu - da vi har konkluderet, at XTestresultat har en signifikant indvirkning på YUgentligt salg kommentere på hældningskoefficienten for XTestresultat 0, : For hver gang XTestresultat stiger med én enhed, stiger det ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!5

6 ugentlige salg med 0,40 stk. i gennemsnit. Med andre ord: For hver gang en ansats testresultat øges med 1 score, vil dennes ugentlige salg i gennemsnit stige med 0,40 stk. 3. Hvor stor en del af variationen i det ugentlige salg forklares af testresultatet efter salgskurset? Modellen forklarer samlet set 60% (R Square = 0, ) af al variationen i YUgentligt salg - dvs. 60% af al det som spiller ind på variablen YUgentligt salg - forklares af XTestresultat. 4. Test på 5%-niveauet om der er sammenhæng mellem testresultatet og det ugentlige salg. Dette kan vi konkludere ved at kigge på den partielle signifikanstest for XTestresultat (P-værdi=0, ). Da P-værdien er under den kritiske værdi på 0,05, kan vi med 95% sandsynlighed konkludere / eller et signifikansniveau på 5% konkludere, at XTestresultat har en signifikant indvirkning på YUgentligt salg. 5. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 50. Ud fra vores estimerede regressionslinje beregner vi simpelt: YUgentligt salg = -11, , YUgentligt salg = 8,59 6. Beregn ud fra modellen det forventede ugentligt salg, for en given sælger med et testresultat på 70. YUgentligt salg = -11, , YUgentligt salg = 16,62 Opgave 2 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL [2] I et østeuropæisk land venter man på svar fra EU på en ansøgning om optagelse i EURO-samarbejdet (ERM2). Mens man venter, laves forskellige analyser af landets økonomi. En af de analyser man ønsker at få lavet, er at undersøge rentens (beregnet som en årlig gennemsnitsrente for 10-årige statsobligationer) indflydelse på boligbyggeriets udvikling. Følgende tal er hentet fra offentlige statistikker: ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!6

7 År Renten * i % Antal opførte boliger i stk ,42 55, ,73 48, , ,66 39, ,67 36, ,72 34, ,8 31, ,62 30, ,18 21, ,85 20,6 *Renten er her et årligt gennemsnit for 10-årige statsobligationer 1. Opstil en lineær regressionsmodel. Kausalmodel: XRenten YOpførte boliger Teoretisk regressionsmodel: YOpførte boliger = α + βrenten XRenten + ε 2. Estimer en model ud fra stikprøven. Opstil formelt stikprøvens regressionslinje samt definér og fortolk udførligt regressionsoutputtet, samt de enkelte variable og parametre. SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 3, Observations 10 ANOVA ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!7

8 SUMMARY OUTPUT df SS MS F Significance F Regression 1 965, , , ,55077E-06 Residual 8 79, , Total ,721 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 97, , , ,42519E-07 82, , Renten i % -3, , , ,55077E-06-4, , Realiseret regressionsmodel: YOpførte boliger = 97, (-3, ) XRenten + e Realiseret regressionslinje: YOpførte boliger = 97, (-3, ) XRenten Som vi kan aflæse i regressionsoutputtet ovenfor er regressionsmodellen samlet set signifikant (Signifikans F=9,55077E-06 - meget lav). Da vi kun har ét X i modellen, er F-testets p-værdi den samme som den partielle signifikanstest (P-værdien for XRenten), som også er topsignifikant (langt under den kritiske værdi på 0,05). Vi kan dermed konkludere, at XRenten har en signifikant indvirkning på YOpførte boliger (1000 stk.). Vi kan fortolke hældningskoefficienten for XRenten på denne måde: For hver gang renten øges med 1 %, vil der i gennemsnit blive opført 3883 færre boliger (da Y variablen måles i 1000 stk.). 3. Diskuter modellens forudsætninger. Der er en række forudsætninger for den lineære regressionsmodel. Én af de vigtigste er, at der skal være lineær sammenhæng mellem X og Y (forudsætning 1). Det er jo netop denne forudsætning som I tester i det partielle signifikanstest, hvor I undersøger hvorvidt H0: b=0 eller H1: b 0. Kun hvis hældningen er forskellige fra 0 (hvilket i signifikantstestet kræver, at p-værdien er over 0,05) kan vi bruge X-variablen og sige, at den har en signifikant indvirkning på Y. 4. Vurder hvorvidt modellen samlet set er signifikant. Det er den, da vores p-værdi for F-test er langt under 0, Beregn ud fra modellen det forventede antal opførte boliger, når renten ligger på 15 %. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!8

9 97, (-3, ) 15 = 39,47 (antal opførte boliger i tusinder, dvs boliger) 6. Diskutér hvilke andre faktorer end renteudviklingen, som kunne tænkes at påvirke antallet af opførte boliger. Det er der en lang række andre faktorer der gør. Tænk blot på landets generelle politiske miljø, kriminaliteten i samfundet, antallet af beskæftigede, bankernes evne til at låne penge ud og den globale konkurrencesituation som påvirker landets økonomi og dermed i sidste ende borgernes lønninger. Eksempel 2 AT MODELSØGE, ARBEJDE MED DUMMYVARIABLE OG MULTIPLE LINEÆRE REGRESSIONSMODELLER - GENNEMGÅS AF JAKOB Vi anvender casen og data fra Eksempel A. Lad os forestille os, at vi i stedet for det simple datasæt i Eksempel A, i stedet har et datasæt med flere potentielle X-variable (se Excel-ark og vælg fanebladet Eksempel B ). Datasættet består af disse variable: Y: Effektivitet (målt i minutter) X1: Erfaring (målt i antal uger respondenten har arbejdet på lageret) X2: Har den ansatte en videregående uddannelse (0: Nej, 1: Ja) X3: Alder X4: Køn (0: Mand, 1: Kvinde) 1. Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). Jeg gennemfører først en baglæns modelsøgning. I startmodellen indfører jeg alle X-variablerne. Jeg udtager den X-variabel med den højeste p-værdi og laver en ny regressionsmodel med de resterende X-variabler. Sådan fortsætter jeg indtil jeg har en model med udelukkende signifikante X-variable (dvs. X-variable som alle har en p- værdi over 0,05). Min slutmodel bliver derfor: Kausalmodel: XErfaring + XVideregående uddannelse YEffektivitet målt i minutter Teoretisk regressionsmodel: YEffektivitet målt i minutter = α + βerfaring XErfaring + βvideregående udd. XVideregående udd. + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!9

10 SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 1, Observations 20 ANOVA df SS MS F Significance F Regression 2 259, , , ,43914E-06 Residual 17 67, , Total ,55 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 16, , , ,68851E-12 14, , Erfaring (målt i antal uger respondenten har -0, , , , , , arbejdet på lageret) Har den ansatte en videregående uddannelse (0: Nej, 1: Ja) -4, , , , , , Den estimerede regressionslinje bliver derfor: YEffektivitet målt i minutter = 16, (-0, ) XErfaring + (-4, ) XVideregående udd. 2. Kommenter på din slutmodels regressionsoutput: a. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 1,43914E-06 og dermed på 0, ). ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!10

11 b. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? Begge X-variables koefficienter er signifikante, da deres p-værdier er under 0,05. De er henholdsvis på 0, for XErfaring og 0, for XVideregående uddannelse. c. Hvad kan du fortælle ud fra de estimerede koefficienter? XErfaring er en skalavariabel med mange udfald. Den fortolkes på følgende måde: For hver gang den ansattes erfaring stiger med én uge, vil YEffektivitet målt i tid falde med 0,14 minutter. Den ansatte vil således i gennemsnit være 0,14 minutter hurtigere, når hans eller hendes erfaring stiger med én uge. XVideregående uddannelse er en dummyvariabel med 2 udfald. Den fortolkes derfor på følgende måde: Når den ansatte har en videregående uddannelse, er han i gennemsnit 4,02 minutter hurtigere, end en ansat som ingen videregående uddannelse har. d. Hvad med R 2? Da der er tale om en multipel lineær regressionsmodel med flere X-variable, kigger på vi justeret R 2, som i dette tilfælde er på 0, Det betyder, at modellen forklarer 77,04 % af den samlede variation i Y (Effektivitet målt i minutter). 3. Forklar til sidemanden, hvordan vi skal fortolke dummy-variables koefficienter og hvordan disse adskiller sig, fra almindelige koefficienter. Opgave 3 AT OPSTILLE EN MULTIPEL LINEÆR REGRESSIONSMODEL, BRUGE MODELSØGNING OG KOMMENTERE PÅ OUTPUTTET En større by i Danmark gennemfører med jævne mellemrum en imageundersøgelse blandt borgere, der bor i byen og i oplandet. I tilknytning til imageundersøgelsen er en mindre gruppe på 16 respondenter tillige blevet spurgt om deres månedlige indkøb i byen, samt hvor langt væk de bor fra byen målt i kilometer. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!11

12 Månedlige indkøb (i kr.) Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) Opstil først en model der viser sammenhængen mellem månedlige indkøb og afstand til byen (altså en simpel lineær regressionsmodel). Fortolk regressionsoutputtet. Kausalmodel: XAfstand til byen YMånedlig indkøb i kroner Teoretisk regressionsmodel: YMånedlig indkøb i kroner = α + βafstand til byen XAfstand til byen + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!12

13 SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 457, Observations 16 ANOVA df SS MS F Significance F Regression , ,125 42, ,3221E-05 Residual , ,4732 Total ,75 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 6260, , , ,53966E , , Afstand til byen (i km) -202, , , ,3221E , , Den estimerede regressionslinje bliver derfor: YMånedligt indkøb = 6260, (-202,65881) XAfstand til byen XAfstand til byen har en signifikant indvirkning på YMånedligt indkøb da p-værdien er på 0, (/1,3221E-05), hvilket er langt under det kritiske niveau på 0,05. Vi forkaster derfor H0: b=0 og tror på H1: b 0. Hældningskoefficienten for XAfstand til byen kan fortolkes på følgende måde: For hver gang afstand til byen forøges med 1 kilometer, falder det gennemsnitlige månedlige indkøb med 202,66 kroner. Som det fremgår af tabellen ovenfor, har respondenterne også angivet husstandens månedlige disponible indkomst og transporttid til byen. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!13

14 2. Find ved hjælp af en modelsøgning frem til den bedste model blandt alle variablerne, men som i sidste ende kun indeholder de X-variable som har signifikant indflydelse på det månedlige indkøb (i kr.). I modelsøgningen sker der en lidt sjov ting. Vi har netop ovenfor haft en model med XAfstand til byen, som havde en signifikant indvirkning på YMånedligt indkøb. I modelsøgningen udtager vi XAfstand til byen som den første X-variabel. Du kan spørge: Er det ikke mærkeligt, når vi netop har vist, at den har en signifikant indvirkning på YMånedligt indkøb. Svaret er, at det skyldes at XAfstand til byen er stærkt korreleret og samvarierer mega meget med XTransporttid. De to variable forklarer nemlig det samme. Man siger, at der opstår for højt multikollinearitet, som betyder at to X- variabler samvarierer for meget. Hvis det sker, går det galt for vores lineære regressionsmodel. Man kan undersøge sådan noget, ved en korrelationsanalyse. Den laver I også ved at trygge på Dataanalyse i Excel og i stedet vælge Correlation / korrelation. I indsætter da alle X-variabler og trykker OK. Korrelationsanalysen vises således: Afstand til byen (i km) Husstandens månedlig disp. indkomst (i kr.) Transporttid (i minutter) Afstand til byen (i km) 1 Husstandens månedlig disp. indkomst (i kr.) -0, Transporttid (i minutter) 0, , Jeg har farvet problemet rødt. Tallene ovenfor kaldes for korrelationskoefficienter. De kan antage en værdi mellem -1 og 1. Hvis den er -1 betyder det, at de to variable samvarierer perfekt negativt. Der er tale om en lineær samvariation, hvilket vil sige, at hvis værdien er -1 betyder det, at når den ene variabel stiger med 1, vil den anden variabel falde med 1. 0 betyder at de slet ikke samvarierer. Der sker altså ikke noget. Hvorimod 1 betyder, at når den ene variabel stiger med 1, stiger den anden variabel ligeledes med 1. En hovedregel er, at multikollinearitet (og altså det her med, at to X-variable i en lineær regressionsanalyse ikke må være for højt korrelerede) opstår, når korrelationskoefficienten mellem dem er højere end -0,8 eller 0,8. Du kan se, at korrelationskoefficienten for ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!14

15 XAfstand til byen og XTransporttid er på 0,9477. Der er altså vildt højt. Og derfor bliver man nødt til at udtage én af disse variable. Vi udtager derfor XAfstand til byen da den har den højeste p-værdi i vores startmodel. Vi gennemfører vores modelsøgning og finder frem til følgende slutmodel: Kausalmodel: XHusstandsindkomst + XTransporttid YMånedlig indkøb i kroner Teoretisk regressionsmodel: YMånedlig indkøb i kroner = α + βhusstandsindkomst XHusstandsindkomst + βtransporttid XTransporttid + ε SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 186, Observations 16 ANOVA df SS MS F Significance F Regression , ,06 164, ,8397E-10 Residual , ,8946 Total ,75 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 1619, , , , , , Husstandens månedlig disp. 0, , , ,01402E-07 0, , indkomst (i kr.) Transporttid (i minutter) -19, , , , , , ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!15

16 3. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 5,8397E-10 og dermed på 0, ). 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? Begge X-variables koefficienter er signifikante, da deres p-værdier er under 0,05. De er henholdsvis på 1,01402E-07 for XHusstandsindkomst og 0, for XTransporttid. 3. Hvad kan du fortælle ud fra de estimerede koefficienter? Begge variable er skalavariable med mange udfald, så aflæsningen af deres koefficienter er lige ud af landevejen. XHusstandsindkomst fortolkes på følgende måde: For hver gang husstandens månedlige disponible indkomst stider med 1 krone, stiger det gennemsnitlige månedlige indkøb med 0,392 kroner. XTransporttid fortolkes på følgende måde: For hver gang transporttiden forøges med 1 minut, falder det gennemsnitlige månedlige indkøb med 19,76 kroner. 4. Hvad med R 2? Da der er tale om en multipel lineær regressionsmodel med flere X-variable, kigger på vi justeret R 2, som i dette tilfælde er på 0, Det betyder, at modellen forklarer 95,61 % af den samlede variation i Y (Månedlige indkøb i kroner). 4. Angiv mindst 2 andre variable der kunne være relevante at inddrage i en model til forudsigelse af det månedlige indkøb. Det kunne være køn eller uddannelsesniveau. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!16

17 Opgave 4 ENDNU EN REGRESSIONSANALYSE Tag udgangspunkt i din besvarelse af opgave 3.1 hvor du opstillede en model, der viste sammenhængen mellem månedlig indkøb og afstand til byen. Du skal nu tilføje en ekstra forklarende variabel til modellen du er nemlig interesseret i at vide om køberens køn også har indflydelse på det månedlige indkøb. Månedlige indkøb (i kr.) Afstand til byen (i km) 1. Opstil og fortolk en model (dvs. den estimerede regressionslinje) der viser sammenhængen mellem månedlig indkøb og afstand til byen samt en eventuel kønseffekt. Lille hint: Excel kan kun læse tal. Så jeg har lavet en lille snydevariabel (XKøn). Du skal simpelhen bare lave kønsvariablen om til udfaldende 0 og 1. Vi kan fx sige, at kvinde er 0 og mand er 1. Køn Kvinde Kvinde Mand Kvinde Mand Kvinde Mand Mand Kvinde Kvinde Kvinde Mand Mand Kvinde Kvinde Kvinde ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!17

18 Vi finder da ud af, at XKøn ikke har nogen signifikant indvirkning på YMånedlige indkøb i kroner, og vores model bliver da præcis som i opgave 3.1. Vi skal nemlig huske aldrig at fortsætte med en model med insignifikante variable. Vi må nemlig aldrig, fortolke koefficienter når variablen er insignifikant! Opgave 5 ENDNU EN MULTIPEL REGRESSIONSMODEL En af Jyllands attraktioner med årlige besøgende har lavet en spørgeskemaundersøgelse for at afdække gæsternes oplevelser samt adfærd. Undersøgelserne skal blandt andet bruges til at sætte nye tiltag i gang, såfremt resultaterne i undersøgelsen giver belæg herfor. Ledelsen har i 15 uger eksperimenteret med forskellige billetpriser, turistbrochurer og reklamespots i en række lokalradioer for at se hvilken indvirkning det har på antallet af gæster i de pågældende uger. Resultaterne fremgår af tabel 4. Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!18

19 Uge nr. Antal ugentlige gæster Billetpris i kr. Antal brochure (pr. uge) Antal radiospots (pr. uge) Find ved hjælp af en modelsøgning frem til den bedste model, som indeholder de X-variable som har signifikant indflydelse på antallet af gæster pr uge. Begrund valget af din slutmodel. For en god orden skyld viser jeg lige præcis hvordan modelsøgningen foregår. Jeg starter med følgende startmodel: SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 38, Observations 15 ANOVA df SS MS F Significance F Regression , , , ,71527E-12 Residual , , Total ,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 231, , , , , , Billetpris i kr. -3, , , , , , Antal brochure (pr. uge) 0, , , , , , Antal radiospots (pr. uge) 65, , , ,23316E-05 44, , ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!19

20 Jeg kan se, at XBilletpris har den højeste p-værdi (0, ). Jeg udtager derfor denne variabel og genererer en ny regressionsmodel. Jeg får nu følgende model 2: SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 38, Observations 15 ANOVA df SS MS F Significance F Regression , , , ,30631E-13 Residual , , Total ,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept -4, , , , , , Antal brochure (pr. uge) 0, , , , , , Antal radiospots (pr. uge) 76, , , ,85403E-13 71, , Jeg kan se, at XAntal brochure har den højeste p-værdi (0, ). Jeg udtager derfor denne variabel og genererer en ny regressionsmodel, og kommer nu frem til følgende slutmodel: Kausalmodel: XAntal radiospots YAntal ugentlige gæster Teoretisk regressionsmodel: YAntal ugentlige gæster = α + βantal radiospots XAntal radiospots + ε ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!20

21 SUMMARY OUTPUT Regression Statistics Multiple R 0, R Square 0, Adjusted R Square 0, Standard Error 38, Observations 15 ANOVA df SS MS F Significance F Regression , , , ,33221E-14 Residual , , Total ,333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 41, , , , , , Antal radiospots (pr. uge) 75, , , ,33221E-14 70, , Den estimerede regressionslinje bliver derfor: YAntal ugentlige gæster = 41, , XAntal radiospots 2. Kommenter på din slutmodels regressionsoutput: 1. Hvad med F-testet? Modellen er samlet set signifikant, da p-værdien for F-testet er under 0,05 (den er jo på 1,33221E-14 og dermed på 0, ). Men da der er tale om en simpel lineær regressionsmodel, er denne p-værdi den samme som p-værdien for den partielle signifikanstest. 2. Hvad med p-værdierne for de enkelte variable (den partielle signifikanstest)? ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!21

22 XAntal radiospots er jo signikant, da p-værdien er under 0,05 (den er på 1,33221E-14 og dermed 0, ). 3. Hvad kan du fortælle ud fra de estimerede koefficienter? XAntal radiospots fortolkes på følgende måde: For hver gang der udsendes et radiospot stiger det gennemsnitlige antal ugentlige gæster med 75, Hvad med R 2? Da der er tale om en simpel lineær regressionsmodel med kun én X-variabel, kigger på vi R 2, som i dette tilfælde er på 0, Det betyder, at modellen forklarer 99,07 % af den samlede variation i Y (Antal ugentilge gæster). Det er et usandsynlig højt tal og lugter langt væk af skoleopgave;). 3. Nævn mindst 2 andre faktorer der kan have indflydelse på det ugentlige antal gæster. Vejret og hvorvidt der er fodbold VM i fjernsynet. ØVELSER / Statistik, Logistikøkonom / Forår 2016 / Jakob Pindstrup / SVAR Side!22

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression ! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine

Læs mere

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression ! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende sine

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Løsninger til kapitel 14

Løsninger til kapitel 14 Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvalitative egenskaber og dummyvariabler Kvantitative metoder 2 Dummyvariabler 28. marts 2007 Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative

Læs mere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede

Læs mere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Bilag I afrapportering af signifikanstest i tabeller i artikel er der benyttet følgende illustration af signifikans: * p

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

ca. 5 min. STATISTISKE TEGN

ca. 5 min. STATISTISKE TEGN ca. 5 min. STATISTISKE TEGN I statistik støder du tit på forskellige tegn - det som også kaldes for statistisk notation. Det kan virke forvirrende og uoverskueligt i starten. Men bare rolig: For det første

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

BOLIGØKONOMISK VIDENCENTER

BOLIGØKONOMISK VIDENCENTER BOLIGØKONOMISK VIDENCENTER WORKING PAPER FEBRUAR 2015 Fællesudgifter i ejerlejligheder Fællesudgifter i ejerlejligheder Marc Lund Andersen Februar 2015 Boligøkonomisk Videncenter 1 Indholdsfortegnelse

Læs mere

Regressionsanalyse i SurveyBanken

Regressionsanalyse i SurveyBanken Først vælges datasættet De Kommunale Nøgletal. Klik på Variable Description og derefter De Kommunale Nøgletal 2010. De enkelte variable i datasættet bliver nu oplistet og kan vælges. Klik herefter på Analysis

Læs mere

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1 Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere

Læs mere

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge Redegørelsen ovenfor er baseret på statistiske analyser, der detaljeres i det følgende, et appendiks for hvert afsnit. Problematikken

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Test nr. 6 af centrale elementer 02402

Test nr. 6 af centrale elementer 02402 QuizComposer 2001- Olaf Kayser & Gunnar Mohr Contact: admin@quizcomposer.dk Main site: www.quizcomposer.dk Test nr. 6 af centrale elementer 02402 Denne quiz angår forståelse af centrale elementer i kursus

Læs mere

ØVELSER Statistik, Logistikøkonom Lektion 7: Hypotesetest 2

ØVELSER Statistik, Logistikøkonom Lektion 7: Hypotesetest 2 ØVELSER Statistik, Logistikøkonom Lektion 7: Hypotesetest 2 Eksempel 1 TEST AF FORSKEL PÅ TO MIDDELVÆRDIER Apple har udviklet et nyt batteri (type B), som skulle have længere brændtid end den hidtidige

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Løsninger til kapitel 15. størrelsen i kvadratmeter, X. en dummy-variabel, som indikerer om der er havudsigt eller ej, så er modellen

Løsninger til kapitel 15. størrelsen i kvadratmeter, X. en dummy-variabel, som indikerer om der er havudsigt eller ej, så er modellen Løsninger til kapitel 5 Opgave 5. a) Hvis Y indikerer prisen, størrelsen i kvadratmeter, afstanden i meter til vandet og en dummy-variael, som indikerer om der er havudsigt eller ej, så er modellen Y =

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1 Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006 Økonometri 1: F9 1 Program frem til efterårsferien Om goodness-of-fit, prediktion og residualer (kap. 6.3-4) Kvalitative egenskaber i den multiple

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2013 Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.april) I forbindelse med reagensglasbehandling blev 100 par randomiseret

Læs mere

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997 Teknisk note nr. 1 Dokumentation af datagrundlaget fra GDSundersøgelserne i februar/marts 1996 og februar 1997 Noten er udarbejdet i samarbejde mellem, Søren Pedersen og Søren Brodersen Rockwool Fondens

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Tema: Kommunal variation i tilkendelse af førtidspension i 2008

Tema: Kommunal variation i tilkendelse af førtidspension i 2008 Tema: Kommunal variation i tilkendelse af førtidspension i 2008 Der er stor variation i, hvor mange førtidspensioner kommunerne har tilkendt i 2008. Nogle kommuner har tilkendt én eller derunder pr. 1.000

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45 Statistik og skalavalidering Synopsis Københavns Universitet Folkesundhedsvidenskab, 7. semester Typografiske enheder: 22.615 December 2010 Indholdsfortegnelse 1.0 Indledning... 3 1.1 Karakteristika af

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Psykisk arbejdsmiljø og stress

Psykisk arbejdsmiljø og stress Psykisk arbejdsmiljø og stress - Hvilke faktorer har indflydelse på det psykiske arbejdsmiljø og medarbejdernes stress Marts 2018 Konklusion Denne analyse forsøger at afklare, hvilke faktorer der påvirker

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Udbrændthed og brancheskift

Udbrændthed og brancheskift Morten Bue Rath Oktober 2009 Udbrændthed og brancheskift Hospitalsansatte sygeplejersker der viser tegn på at være udbrændte som konsekvens af deres arbejde, har en væsentligt forøget risiko for, at forlade

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller Hvad skal vi lave? 1 Kovariansanalyse Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning 2 Sammenligning af modeller 3 Mere generelle modeller PSE (I17) ASTA - 14. lektion

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Vejledende løsninger kapitel 9 opgaver

Vejledende løsninger kapitel 9 opgaver KAPITEL 9 OPGAVE 1 a) Hypoteser H 0 : Der er uafhængighed (ingen sammenhæng) i kontingenstabellen H 1 : Der er afhængighed (sammenhæng) i kontingenstabellen Observerede værdier Ny metode Gammel metode

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere