Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Relaterede dokumenter
(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Modul 11: Simpel lineær regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Module 3: Statistiske modeller

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kapitel 11 Lineær regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statistik Lektion 16 Multipel Lineær Regression

Multipel Lineær Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Simpel Lineær Regression: Model

Perspektiver i Matematik-Økonomi: Linær regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Statistik Lektion 4. Variansanalyse Modelkontrol

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program. 1. Flersidet variansanalyse 1/11

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Økonometri: Lektion 6 Emne: Heteroskedasticitet

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Hb SS Hb Sβ Hb SC = , (s = )

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Modul 6: Regression og kalibrering

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Nanostatistik: Lineær regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Simpel Lineær Regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

1 Multipel lineær regression

Statistik Lektion 17 Multipel Lineær Regression

1 Multipel lineær regression

Modul 12: Regression og korrelation

Løsning eksamen d. 15. december 2008

Eksamen i Statistik for biokemikere. Blok

Statistik Formelsamling. HA Almen, 1. semester

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

To-sidet variansanalyse

Kvantitative metoder 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Module 4: Ensidig variansanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Opgavebesvarelse, brain weight

To-sidet varians analyse

Vejledende løsninger kapitel 9 opgaver

Opgavebesvarelse, brain weight

Løsninger til kapitel 14

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Nanostatistik: Lineær regression

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Introduktion til R. March 8, Regne- og tegneprogrammet R kan frit downloades fra adressen. http : //mirrors.sunsite.dk.cran

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Den lineære normale model

Opgavebesvarelse, brain weight

To samhørende variable

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Statistik II 1. Lektion. Analyse af kontingenstabeller

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Forelæsning 11: Envejs variansanalyse, ANOVA

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Transkript:

Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13

Multipel regression Data fra opgave 3 side 453: Oven width x 1 1.32 2.69 3.56 4.41 5.35 6.20 7.12 8.87 Temperature x 2 1.15 3.40 4.10 8.75 14.82 15.15 15.32 18.18 log cooking time Y 1.86 2.71 2.93 3.41 3.80 3.89 3.94 4.12 Multipel regressionsmodel: hvor ǫ N(0, σ 2 ). Y = α + β 1 x 1 + β 2 x 2 + ǫ 2/13

Plots af data 3/13

Estimation og residualer ˆα, ˆβ 1 og ˆβ 2 vælges så n i=1 e2 i minimeres (mindste kvadraters metode) hvor e i = y i ŷ i og ŷ i = ˆα + ˆβ 1 x 1 + ˆβ 2 x 2 Estimat af σ 2 s 2 = 1 n 3 n (y i ŷ i ) 2 Model check analogt med model check for lineær regression: histogram, qqplot, plot af residualer mod ŷ, x 1 og x 2. Eksempel: Via SPSS fås i=1 ˆα = 2.061, ˆβ 1 = 0.078, ˆβ 2 = 0.097 4/13

Kolinearitet Width 2 4 6 8 10 0 10 20 30 40 Temperature De to variable width og temperatur minder kraftigt om hinanden - dvs. de forklarer den samme variation i data. Derved er en overflødig. 5/13

Polynomiel model logtime 2.0 2.5 3.0 3.5 4.0 4.5 0 10 20 30 40 Temperature Ser ud til, at log time er kvadratisk/parabolsk funktion af temperatur - vi laver en model hvor log time er andengrads-polynomium som funktion af temperatur: Y = α + β 1 x 1 + β 2 x 2 + ǫ hvor x 1 er temperatur og x 2 = x 2 1 er temperatur kvadreret. 6/13

Kategoriske forklarende variable Tabel 12.7 side 477: ph x 6.5 6.9 7.8... 6.7 6.9... 6.5 7.0... polymer type 1 1 1... 2 2... 3 3... suspended solids y 292 329 352... 198 227... 167 225... Tal 1, 2 og 3 i polymer typen skal ikke tages for bogstaveligt: blot navne for typer af polymer (kunne ligesåvel være A, B, C). 7/13

Forskellig skæring suspended 200 250 300 350 400 1 2 3 6.5 7.0 7.5 8.0 8.5 9.0 ph Model: forskellig skæring afhængig af polymer type? poly2 = 1 hvis polymer type 2 og nul ellers poly3 = 1 hvis polymer type 3 og nul ellers Y = α + β 1 ph + β 2 poly2 + β 3 poly3 + ǫ β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3. 8/13

Forskellig hældning ph2 = ph poly2 = ph hvis polymer type 2 og nul ellers ph3 = ph poly3 = ph hvis polymer type 3 og nul ellers Y = α + β 1 ph + β 2 poly2 + β 3 poly3 + β 4 ph2 + β 5 ph3 + ǫ β 4 : forskel hældning polymer 1 og 2. β 5 forskel hældning polymer 1 og 3. 9/13

Model selektion Hvis man har observeret flere uafhængige variable har man en del forskellige modeller at vælge mellem: Skal alle eller kun nogle uafhængige variable med? Skal der bruges lineære funktion, anden ordens polynomier, eller mere avancerede funktioner? Model selektion går ud på at vælge mellem modeller, og er en balance mellem at finde nogle modeller som tildels er simple nok til at bruge, tildels er avancerede nok til at være realistiske. 10/13

Model selektion: R 2 og R 2 adj Determinationskoefficient (ligesom for simpel lineær regression): R 2 = 1 SSE SST = SSR SST R 2 fortæller hvor stor en del af variationen i data der forklares ud fra de valgte forklarende variable, men den vokser altid når flere uafhængige variable inkluderes - den kan altså ikke bruges til at vælge mellem mere eller mindre avancerede modeller. Istedet kan den justerede R 2 bruges: R 2 adj = 1 SSE/(n k 1) SST/(n 1) Dvs. hvis man skal sammenligne to modeller (fx. en ret linie eller en parabel) kan man regne Radj 2 for begge og vælge den model med den højeste værdi. 11/13

Middelkvadrater Middelkvadrat, regression: Middelkvadrat, fejl: (MSE kaldes også s 2 ) MSR = SSR k MSE = SSE n k 1 Teststørrelse for hypotesen H 0 : β 1 = = β k = 0: f = MSR MSE Store værdier kritiske for hypotesen. f (k, n k 1) 12/13

ANOVA-tabel Model SS df MS F Sig Regression SSR k MSR f p-værdi Residual SSE n-k-1 MSE Total SST n-1 En p-værdi over signifikans niveauet (eller tilsvarende en f-værdi under den kritiske værdi) betyder at ingen af ledene i modellen er signifikante. 13/13

Backward elimination og forward selection En mere systematisk tilgang er nødvendig hvis man skal vælge mellem en masse forskellige modeller (hvis man har mange uafhængige variable). To metoder: 1. Forward selection: man starter med en tom model (dvs uden nogle uafhængige variable) og prøver systematisk at inkludere variable, indtil den bedste model er fundet. 2. Backward elimination: man starter med at inkludere alle de uafhængige variable man har og giver sig til at systematisk at fjerne dem en af gangen indtil man har fundet den bedste model. Disse skal i arbejde med næste gang for jer selv, samt forsøge at danne jer et overblik over lineær regression. 14/13