Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Relaterede dokumenter
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Besvarelse af juul2 -opgaven

Lineær regression i SAS. Lineær regression i SAS p.1/20

Besvarelse af vitcap -opgaven

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Reeksamen i Statistik for Biokemikere 6. april 2009

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Eksamen i Statistik for Biokemikere, Blok januar 2009

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Reeksamen i Statistik for biokemikere. Blok

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Generelle lineære modeller

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen i Statistik for biokemikere. Blok

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Multipel Lineær Regression

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Regressionsanalyse i SAS

Besvarelse af opgave om Vital Capacity

Modul 11: Simpel lineær regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statistik Lektion 17 Multipel Lineær Regression

Basal statistik. 21. oktober 2008

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Opgavebesvarelse, brain weight

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Besvarelse af opgave om Vital Capacity

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

k normalfordelte observationsrækker (ensidet variansanalyse)

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Opgavebesvarelse, brain weight

To-sidet varians analyse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Restsaltmængdernes afhængighed af trafikken,

Skriftlig eksamen Science statistik- ST501

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik Lektion 16 Multipel Lineær Regression

En Introduktion til SAS. Kapitel 6.

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Normalfordelingen og Stikprøvefordelinger

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

9. Chi-i-anden test, case-control data, logistisk regression.

1 Multipel lineær regression

Vejledende besvarelse af hjemmeopgave, efterår 2018

Modul 6: Regression og kalibrering

1 Multipel lineær regression

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

En Introduktion til SAS. Kapitel 5.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Alternativ estimering af nøgletal for arbejdstidsforbruget til Produktionsgrenstatistikken Andersen, Johnny Michael

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Module 3: Statistiske modeller

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Logistisk Regression - fortsat

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksempel , opg. 2

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Eksamen i Statistik for biokemikere. Blok

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

To samhørende variable

Løsning til øvelsesopgaver dag 4 spg 5-9

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Epidemiologi og Biostatistik

Statistik Lektion 4. Variansanalyse Modelkontrol

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Vejledende besvarelse af hjemmeopgave, forår 2015

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Opgavebesvarelse, korrelerede målinger

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Morten Frydenberg 26. april 2004

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Løsning eksamen d. 15. december 2008

Transkript:

Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ i svarer til uafhængig variabel i : partiel regressionskoefficient

Krav: m 2 individer! Minimere - igen Y j Y j 2 Overordnet: H 0 : i 0 for alle i H A : i 0 for mindst én i

ANOVA-metode SS-værdier som for m 1 DF total : N 1 DF regr : m 1 for simpel regr.) DF res : N m 1 N 2 F MS regr MS res

Determinationskoefficient: R 2 SS regr SS total 1 SS res SS total r 2 for m 1 R r Y i, Y i Justeret: R a 2 1 n 1 n m 1 1 R2

Test af hver enkelt i H 0 : i 0 H A : i 0 t-test: t b i s bi DF res

Dummy variable kategori-variable i regression! k kategorier: k 1 dummy-variable Eksempel: køn D mænd: 0 kvinder: 1 HUSK: altid kode 0/1

Tre kategorier to dummy-variable: D1 D2 A 0 0 B 1 0 C 0 1 D# angiver forskel i gennemsnit for gruppen, hvor D# 1 sammenlignet med gruppen, hvor alle D# 0 men KUN hvis kodet 0/1! Er der kun en kategorivariabel, omkodet til dummy-variable, er intercept gennemsnit for gruppen hvor alle D# 0

Polynomisk regression Model m Y i j 1 j X i j i m Y i a j 1 b j X i j X i j erne multipel regression BEMÆRK! i svarer til individ j svarer til grad af polynomium for uafhængig variabel krav: m n - 1 for at udregne linien m n - 2 for at teste

Start med m så stor som forventet H 0 : m 0 b m NS b m 1 (evt. b m signifikant b m 1 enten t-test eller F SS regr m SS regrm 1 MS resm DF :1,DF res m 1: én variabel (X m ) fjernet behold alle X j for j m!! prædiktion OK med stor m men tolkning ofte vanskelig for m 2

Datatransformation Antagelser i t-test, parametrisk ANOVA, og linear regression: 1) tilfældige uafhængige stikprøver 2) normalfordeling for afhængig variabel i hver gruppe/værdi af uafhængig variabel 3) varianshomogenitet 4) effekter additive ( 2 uafhængige variable) Transformation kan ofte afhjælpe afvigelser fra 2) og 3) (og evt 4))

Logaritme-transformation X log(x) eller X log(x 1) "log": oftest ln log-transformation giver "pæne" fordelinger når: rådata har en højreskæv fordeling ( symmetrisk) CV i er ~konstante: SD i X i ( varianshomogenitet) Pas på med estimater for og CI i oprindelig skala!! X NF X lognormal fordelt!!

Kvadratrodstransformation X X X X 1 2 X X 3 8 X X X 1 når s i 2 X i (~CV i *SD i konstant) Igen, pas på med estimering af og CI for data i oprindelig skala

Andre metoder A) SD X i 2 : X 1 X B) antal, som i A : X 1 X 1 C) SD i 1 X : X X2 D) venstreskæve rådata : X X 2

Mere generel metode: Box - Cox X X 1 for 0 X ln X for 0

The MEANS Procedure N SEX Obs Variable Mean Std Dev ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 335 FEV1 1.5383881 0.2906874 AGE 9.0064304 0.7274344 HEIGHT 124.0125374 6.4538547 1 301 FEV1 1.6572757 0.3076511 AGE 8.9583998 0.7105208 HEIGHT 124.0980071 5.9988385 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 15.68023 15.68023 230.24 <.0001 Error 634 43.17820 0.06810 Corrected Total 635 58.85842 Root MSE 0.26097 R-Square 0.2664 Dependent Mean 1.59465 Adj R-Sq 0.2652 Coeff Var 16.36519 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-0.36792 0.12975-2.84 0.0047 AGE Age (years) 1 0.21846 0.01440 15.17 <.0001

The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 25.63830 12.81915 244.27 <.0001 Error 633 33.22012 0.05248 Corrected Total 635 58.85842 Root MSE 0.22909 R-Square 0.4356 Dependent Mean 1.59465 Adj R-Sq 0.4338 Coeff Var 14.36588 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-2.30872 0.18118-12.74 <.0001 AGE Age (years) 1 0.08972 0.01572 5.71 <.0001 HEIGHT Height (cm) 1 0.02497 0.00181 13.77 <.0001

The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 27.96713 9.32238 190.73 <.0001 Error 632 30.89129 0.04888 Corrected Total 635 58.85842 Root MSE 0.22109 R-Square 0.4752 Dependent Mean 1.59465 Adj R-Sq 0.4727 Coeff Var 13.86414 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-2.36022 0.17501-13.49 <.0001 AGE Age (years) 1 0.09460 0.01519 6.23 <.0001 HEIGHT Height (cm) 1 0.02457 0.00175 14.04 <.0001 SEX Sex of the child (0 F 1 M) 1 0.12133 0.01758 6.90 <.0001

Lab K_mg_L D1 D2 D3 1 10.20 0 0 0 1 10.40 0 0 0 1 10.00 0 0 0 2 10.60 1 0 0 2 10.80 1 0 0 2 10.90 1 0 0 3 10.30 0 1 0 3 10.40 0 1 0 3 10.70 0 1 0 4 10.50 0 0 1 4 10.70 0 0 1 4 10.40 0 0 1 N = 12 The REG Procedure Model: MODEL1 Dependent Variable: K_mg_L Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 0.48917 0.16306 5.02 0.0303 Error 8 0.26000 0.03250 Corrected Total 11 0.74917 Root MSE 0.18028 R-Square 0.6529 Dependent Mean 10.49167 Adj R-Sq 0.5228 Coeff Var 1.71829 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 10.20000 0.10408 98.00 <.0001 D1 1 0.56667 0.14720 3.85 0.0049 D2 1 0.26667 0.14720 1.81 0.1076 D3 1 0.33333 0.14720 2.26 0.0533

The GLM Procedure Dependent Variable: ANATREG Number of observations 190 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 15638.08236 5212.69412 592.26 <.0001 Error 186 1637.05487 8.80137 Corrected Total 189 17275.13724 Source DF Type III SS Mean Square F Value Pr > F FEMUR1 1 2316.503663 2316.503663 263.20 <.0001 SEX01 1 4.698691 4.698691 0.53 0.4659 FEMUR1*SEX01 1 0.957145 0.957145 0.11 0.7419 Sum of Source DF Squares Mean Square F Value Pr > F Model 2 15637.12522 7818.56261 892.59 <.0001 Error 187 1638.01202 8.75942 Corrected Total 189 17275.13724 Source DF Type III SS Mean Square F Value Pr > F FEMUR1 1 4314.247192 4314.247192 492.53 <.0001 SEX01 1 297.942177 297.942177 34.01 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 57.16500513 5.14132560 11.12 <.0001 FEMUR1 2.39059607 0.10771878 22.19 <.0001 SEX01-3.93288562 0.67434643-5.83 <.0001