Kapitel 11 Lineær regression

Relaterede dokumenter
Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Modul 12: Regression og korrelation

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 8. Multipel Lineær Regression

1 Regressionsproblemet 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Kapitel 10 Simpel korrelation

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kapitel 12 Variansanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kapitel 12 Variansanalyse

Løsninger til kapitel 14

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Multipel lineær regression

1 Multipel lineær regression

Modul 11: Simpel lineær regression

To samhørende variable

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Module 3: Statistiske modeller

Kapitel 7 Forskelle mellem centraltendenser

Perspektiver i Matematik-Økonomi: Linær regression

Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Kapitel 3 Centraltendens og spredning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Simpel Lineær Regression: Model

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 6: Regression og kalibrering

Kapitel 13 Reliabilitet og enighed

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Konfidensintervaller og Hypotesetest

Nanostatistik: Lineær regression

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Statistik Lektion 4. Variansanalyse Modelkontrol

Simpel Lineær Regression

Statistik II 4. Lektion. Logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 17 Multipel Lineær Regression

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Kapitel 3 Centraltendens og spredning

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Løsning eksamen d. 15. december 2008

Lineære sammenhænge, residualplot og regression

Kvantitative metoder 2

Besvarelse af juul2 -opgaven

Vejledende løsninger kapitel 9 opgaver

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Løsning til eksamen d.27 Maj 2010

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Forelæsning 11: Envejs variansanalyse, ANOVA

Løsning til eksaminen d. 14. december 2009

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik Lektion 16 Multipel Lineær Regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Lineær Algebra

Kvantitative metoder 2

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

Kursus 02402/02323 Introducerende Statistik

(studienummer) (underskrift) (bord nr)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Rygtespredning: Et logistisk eksperiment

Opgavebesvarelse, brain weight

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

for drikkevandsselskaberne

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineære normale modeller (4) udkast

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Skriftlig eksamen Science statistik- ST501

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Bilag 7. SFA-modellen

Transkript:

Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus), som vi i princippet kan vælge frit Vi vælger en simpel model: = a + b + ε hvor a er hældningen, b er skæringen med -aksen og ε er den del af responset, der ikke kan forklares med modellen Vi antager at ε N(0, σ 2 ) og uafhængige Vi bestemmer estimater for a og b ud fra data og kan herefter forudsige (prediktere) værdier af som ŷ = â + ˆb 2 / 1

Liniens ligning En linie kan defineres ved to punkter eller ét punkt og en hældning Liniens ligning i et almindeligt (, ) koordinat-sstem er givet ved = a + b hvor a er hældning og b er skæring med -aksen Regressionen af på går altså igennem punkterne (0, b) og (1, a + b) 3 / 1 Liniens ligning 10 5 0 5 10 = = 0.5+2 = 1.5+8 10 5 0 5 10 4 / 1

Eksempel med ρ = 0, 81 og n = 10 2 4 6 8 5 / 1 Bestemmelse af regressionslinien Vi bentter mindste kvadraters metode så summen af kvadraterne på de lodrette afstande fra datapunkterne til regressionslinien bliver så lille som muligt: ( ŷ) 2 = ( a b) 2 = min! Det viser sig, at a og b skal vælges så regressionslinien passerer gennem (, ȳ), der også kaldes datamaterialets massemidtpunkt 6 / 1

Bestemmelse af regressionslinien (fortsat) 0 Kvadratsum 22.0 22.5 23.0 23.5 24.0 24.5 25.0 0 0.6 0.7 0.8 0.9 Hældning 7 / 1 Bestemmelse af regressionslinien (fortsat) Man kan vise, at summen af de kvadratiske afvigelser er minimal for n i i a = henholdsvis n b = i 2 ( i i a n i ) 2 i i 8 / 1

Beregning eksempel i 2 2 1 1 2 1 4 2 2 2 1 4 1 2 3 3 4 9 16 12 4 4 6 16 36 24 5 5 2 25 4 10 6 6 5 36 25 30 7 7 8 49 64 56 8 8 5 64 25 40 9 9 7 81 49 63 10 10 9 100 81 90 55 49 385 305 329 9 / 1 Beregning eksempel (fortsat) Først beregner vi hældningen a â = n i i n i 2 ( i i = i ) 2 10 329 55 49 10 385 55 2 = 0, 721 Dernæst skæringen b ˆb = i a n i = 49 0, 721 55 10 = 0, 933 Den samlede regressionslinie hedder derfor ŷ = 0, 721 + 0, 933 10 / 1

Beregning eksempel (fortsat) 2 4 6 8 11 / 1 Den omvendte regression Det er fristende at fltte lidt rundt på ligningen: = a + b = 1 a b a, a 0 Beregningen er sådan set lovlig, men højresiden udtrkker ikke regressionen af på For at få den omvendte regression må man lade og btte roller og starte beregningen af a og b helt forfra... 12 / 1

Den omvendte regression (fortsat) 2 4 6 8 Data =f() Rigtig =f() Forkert =f() 13 / 1 Variationskilder De observerede værdier af har en varians, der er sammensat af et bidrag fra model (variation på eller ŷ ȳ) og rest (residualen ŷ) Ved at se på de to bidrag i forhold til hinanden kan vi vurdere, hvor sikkert vi kan forudsige ud fra 14 / 1

Variationskilder: Totalvarians 2 4 6 8 15 / 1 Variationskilder: Modelvarians 2 4 6 8 16 / 1

Variationskilder: Restvarians 2 4 6 8 17 / 1 Variationskilder: Samlet Den totale varians kan henføres til model og rest i ȳ = ( i ŷ) + (ŷ ȳ)... s 2 = s 2 ŷ + s2 ê Andelen af total varians, der kan forklares med modellen, er r 2 = s2 ŷ s 2 Total Model Rest 18 / 1

Variationskilder eksempel ŷ ȳ ( ȳ) 2 ŷ ȳ (ŷ ȳ) 2 ŷ ( ŷ) 2 1 2 1,65-2,90 8,41-3,25 10,53 0,35 0,12 2 1 2,38-3,90 15,21-2,52 6,37-1,38 1,89 3 4 3,10-0,90 0,81-1,80 3,25 0,90 0,82 4 6 3,82 1,10 1,21-1,08 1,17 2,18 4,76 5 2 4,54-2,90 8,41-0,36 0,13-2,54 6,45 6 5 5,26 0,10 0,01 0,36 0,13-0,26 0,07 7 8 5,98 3,10 9,61 1,08 1,17 2,02 4,07 8 5 6,70 0,10 0,01 1,80 3,25-1,70 2,90 9 7 7,42 2,10 4,41 2,52 6,37-0,42 0,18 10 9 8,15 4,10 16,81 3,25 10,53 0,85 0,73 0 64,90 0 42,91 0 21,99 19 / 1 Variationskilder eksempel (fortsat) Bemærk at ( ȳ) 2 = (ŷ ȳ) 2 + ( ŷ) 2 Vi kan nu beregne alle tre varianser: s 2 total = s 2 model = s 2 rest = ( ȳ) 2 n 1 (ŷ ȳ) 2 n 1 ( ŷ) 2 n 1 = = = 64, 90 10 1 42, 91 10 1 21, 99 10 1 = 7, 21 = 4, 77 = 2, 44 Andelen af den totale variation, der kan forklares ved modellen er r 2 = s2 model 4, 77 stotal 2 = = 0, 66 7, 21 20 / 1

Variationskilder - ekstra Med de allerede beregnede kvadratsummer kan vi med en variansanalse teste om modellen er signifikant i vores tilfælde svarende til om hældningen er signifikant forskellig fra nul Kilde DF SAK MS F Model 1 42,91 42,91 15,61 Rest 8 21,99 2,75 Total 9 64,90 Teststørrelsen vurderes i en F -fordeling med (1,8) frihedsgrader og vi finder P(F > 15, 61) = 0, 0042 hvilket betder at hældningen er signifikant forskellig fra nul (p = 0, 42 pct.) 21 / 1 Multipel lineær regression Samme princip som for simpel lineær regression, nemlig mindste kvadrater Beregning foretages altid med computer og passende software (Ecel kan bruges) Pas på med fortolkning af parameterestimater hvis de forklarende variable er korrelerede 22 / 1

Multipel lineær regression eksempel Uddannelse Alder Mdr. Efter Højde Score 1 2 3 4 3 54 6 168 32 3 61 8 170 27 3 68 4 164 18 3 75 10 166 25 2 54 6 172 28 2 61 2 168 19 2 68 8 174 20 2 75 6 166 10 2 82 10 170 12 1 54 4 166 22 1 61 4 172 11 1 68 10 168 20 23 / 1 Multipel lineær regression eksempel 55 65 75 164 168 172 1 1.0 2.0 3.0 55 65 75 2 3 164 168 172 4 10 15 20 25 30 1.0 2.0 3.0 10 15 20 25 30 24 / 1

Multipel lineær korrelation eksempel 25 / 1 Multipel lineær regression eksempel 26 / 1