Løsninger til kapitel 14

Relaterede dokumenter
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Løsninger til kapitel 15. størrelsen i kvadratmeter, X. en dummy-variabel, som indikerer om der er havudsigt eller ej, så er modellen

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsninger til kapitel 9

Vejledende løsninger kapitel 9 opgaver

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik Lektion 4. Variansanalyse Modelkontrol

Modul 12: Regression og korrelation

Residualer i grundforløbet

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Konfidensintervaller og Hypotesetest

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Multipel Lineær Regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

MAT A HHX FACITLISTE TIL KAPITEL 8. Øvelser. Øvelse 1 Graf tegnes med CAS. Øvelse 2. Bedste rette linie: Øvelse 3. Øvelse 4.

Eksamen i Statistik for biokemikere. Blok

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Samfundsfag og matematik

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik Lektion 16 Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Modul 11: Simpel lineær regression

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Vejledende besvarelser til opgaver i kapitel 14

Tema. Dagens tema: Indfør centrale statistiske begreber.

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

1 Multipel lineær regression

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Kvantitative metoder 2

1 Multipel lineær regression

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Vejledende løsninger kapitel 8 opgaver

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Perspektiver i Matematik-Økonomi: Linær regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Bilag 12 Regressionsanalysens tabeller og forklaringer

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

To samhørende variable

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

1 Hb SS Hb Sβ Hb SC = , (s = )

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Module 4: Ensidig variansanalyse

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Opgave 6. Opgave 7. Peter Harremoës Matematik A med hjælpemidler 26 maj a) Se Bilag 2! b) Variablen n isoleres. L = 2 z 1 α. L = 2 z 1 α L = n =

Statistisk modellering og regressionsanalyse

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Kapitel 7 Forskelle mellem centraltendenser

02402 Løsning til testquiz02402f (Test VI)

Transkript:

Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en lineær sammenhæng. b) Modellen er, hvor X er antal forudsolgte billetter og Y er antal solgte måltider. Skæringen a estimeres til 8,86, hvilket tolkes som, at hvis der er 0 forudbestilte billetter, så vil der sælges 8,86 måltider. Hældningen estimeres til 1,70, hvilket betyder, at for hver gang antallet af forudbestilte billetter forøges, så stiger salget af måltider med 1,70. c) Modellens signifikans testes ved nulhypotesen, altså at modellen ikke er signifikant. Fra Excel-udskriften ses, at p-værdien for denne test er på, og da dette er mindre end signifikansniveauet på 5%, så kan nulhypotesen forkastes, og det konkluderes, at modellen er signifikant. d) I princippet ja, men i praksis er sagen lidt mere kompliceret. Regressionens standardfejl er på, og idet usikkerheden på enhver forudsigelse er mindst den dobbelte standardfejl, dvs. på 17,5, så er der altid en usikkerhed på 17,5 måltider i prognosen. Dette er meget i forhold til de typiske værdier, antallet af solgte måltider antager, men omvendt så kan man jo fryse fast-food-måtiderne ned, så de kan holde sig. SÅ ja, modellen er anvendelig. e) HypoStat giver: 42,90683 20 0,95 23,60206 62,21161 Det ses, at med 95% sikkerhed ligger antallet af måltider mellem 23,6 og 62,21. f) Forudsætninger for at kunne behandle denne model er følgende: 1) Der skal være tale om en lineær sammenhæng, dvs. E ( ε i ) = 0. 2) Spredningerne af residualerne σ ε ) skal være konstant. ( i 1

3) ρ( x i, εi ) = 0, dvs. der må ikke være nogen korrelation mellem den forklarende variabel og residualerne. 4) ρ( ε, ε ) = 0, dvs. ingen autokorrelation mellem residualerne. i j 5) Residualerne skal være normalfordelte. Forudsætning 1 er kontrolleret i delopgave a. Forudsætningerne 2-4 kontrolleres ved at tegne residualplottet: Det ses, at spredningen af residualerne er nogenlunde konstant og at der ingen indlysende korrelation er mellem hverken residualerne selv eller mellem residualerne og den forklarende variabel. Forudsætning 5 kontrolleres ved at tegne et normalfraktilplot af residualerne: Idet punkterne fordeler sig jævnt omkring den rette linje, er residualerne med god tilnærmelse normalfordelte, og derfor er alle forudsætningerne opfyldt. 2

Opgave 14.2 a) Linjetilpasningsplottet er: og da punkterne er jævnt fordelte omkring regressionslinjen, så kan det ikke afvises, at der er tale om en lineær model. b) Modellen er, hvor X er antal slagtilbud og Y er omsætningen. Skæringen a estimeres til 40,98, hvilket tolkes som, at hvis der ingen slagtilbud er, så er omsætningen på 40,98 tusinde kr. Hældningen estimeres til 4,64, hvilke betyder, at for slagtilbud forøges omsætningen med 4,64 tusinde kr. c) Modellens signifikans testes ved nulhypotesen, altså at modellen ikke er signifikant. Fra Excel-udskriften ses, at p-værdien for denne test er på, og da dette er mindre end signifikansniveauet på 5%, så kan nulhypotesen forkastes, og det konkluderes, at modellen er signifikant. d) I princippet ja, men i praksis er sagen lidt mere kompliceret. Regressionens standardfejl er på, og idet usikkerheden på enhver forudsigelse er mindst den dobbelte standardfejl, dvs, på 14,2, så er der altid en usikkerhed på 14,2 tusinde kr i omsætningen. Dette er en betragtelig usikkerhed, og modellen er derfor ikke brugbar i praksis. e) HypoStat giver: 73,43333 7 0,95 53,99752 92,86915 Det ses, at med 7 slagtilbud vil omsætningen med 95% sikkerhed ligge mellem 54,00 og 92,87 tusinde kr. f) Idet estimatet for hældningen er på 4,64, og dette er mindre end 5, så testes der venstresidet med alternativhypotesen og den tilsvarende nulhypotese HypoStat giver: 3

T E S T P Å B E T A α = 0,05 H 0 : β 5 FORUDSÆTNING H 1 : β < 5 b β T = 0 Teststørrelse s b T = 0,2798 STIKPRØVEDATA b = 4,636667 s 2 e = 50,58592 s 2 b = 1,686197 n x = 15 Beslutningsregel Forkast H 0, hvis T < - t n-2, α = 1,77093 P-værdi 0,392016 (1-α) Nedre Øvre b t s β b + t 0,95 1,831349 7,441985 n 2, α / 2 b n 2, α / 2 s b 4 Idet p-værdien er på 39,2%, og dette er mere end signifikansniveauet på 5%, så kan nulhypotesen ikke afvises, og vi kan ikke afvise, at omsætningen stiger med 5000 kr for hvert slagtilbud. g) Forudsætningerne for at kunne behandle denne model er følgende: 1) Der skal være tale om en lineær sammenhæng, dvs. E ( ε i ) = 0. 2) Spredningerne af residualerne σ ( ε i ) skal være konstant. 3) ρ( x i, εi ) = 0, dvs. der må ikke være nogen korrelation mellem den forklarende variabel og residualerne. 4) ρ( εi, ε j ) = 0, dvs. ingen autokorrelation mellem residualerne. 5) Residualerne skal være normalfordelte. Forudsætning 1 er kontrolleret i delopgave a. Forudsætningerne 2-4 kontrolleres ved at tegne residualplottet:

Det ses, at spredningen af residualerne er nogenlunde konstant, og at der ingen indlysende korrelation er mellem hverken residualerne selv eller mellem residualerne og den forklarende variabel. Forudsætning 5 kontrolleres ved at tegne et normalfraktilplot af residualerne: Idet punkterne fordeler sig jævnt omkring den rette linje, er residualerne med god tilnærmelse normalfordelte, og derfor er alle forudsætningerne opfyldte. 5

Opgave 14.3 a) Modellen er, hvor X er mængden og Y er prisen. Skæringen a estimeres til 49,3, hvilket tolkes som, at hvis der er 0 fisk til salg, så vil prisen være 49,3. Hældningen estimeres til -3,96, hvilke betyder, at for hver gang antallet af fisk stiger med en enhed, så falder prisen med 3,96 kr. b) Forklaringsgraden aflæses i Excel-outputtet til 68,7%. Dette betyder, at 68,7% af variationen i priserne kan forklares ved variationen i mængderne. c) HypoStat giver: Forudsigelsesinterval 2 xn x Yn ± tn + + + 1 2 + 1 2 2 1 1 ( ), α/ Se n SAK x 29,48306 5 0,95 11,77539 47,19072 Det ses, at med 95% sikkerhed vil prisen ligge mellem 11,77 og 47,19 kr. d) HypoStat giver: Forventningsinterval 2 1 ( xn x Yn ± tn + + 1 ) 2 + 1 2, α/ 2 Se n SAK x 41,36547 2 0,95 34,46 48,27094 Det ses, at prisen med 95% sikkerhed vil ligge mellem 34,46 og 48,27 kr. 6

e) Linjetilpasningsplottet bliver: Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en lineær sammenhæng. (Man kan dog diskutere, om en potentiel sammenhæng af formen ikke ville passe bedre (Regressionslinjen i Excel sættes til 'Strøm': 7