Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Relaterede dokumenter
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Besvarelse af vitcap -opgaven

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Reeksamen i Statistik for Biokemikere 6. april 2009

Regressionsanalyse i SAS

Lineær regression i SAS. Lineær regression i SAS p.1/20

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Modul 11: Simpel lineær regression

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Eksamen i Statistik for biokemikere. Blok

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Besvarelse af juul2 -opgaven

Eksamen i Statistik for Biokemikere, Blok januar 2009

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Modul 6: Regression og kalibrering

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Generelle lineære modeller

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Besvarelse af opgave om Vital Capacity

Reeksamen i Statistik for biokemikere. Blok

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Besvarelse af opgave om Vital Capacity

En Introduktion til SAS. Kapitel 5.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

To-sidet varians analyse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Økonometri: Lektion 6 Emne: Heteroskedasticitet

To samhørende variable

Forelæsning 11: Envejs variansanalyse, ANOVA

Module 3: Statistiske modeller

Simpel Lineær Regression

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsning eksamen d. 15. december 2008

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Statistik Lektion 17 Multipel Lineær Regression

En Introduktion til SAS. Kapitel 6.

Vejledende besvarelse af hjemmeopgave, efterår 2018

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Appendiks Økonometrisk teori... II

Module 12: Mere om variansanalyse

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Epidemiologi og Biostatistik

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02402/02323 Introducerende Statistik

Kapitel 11 Lineær regression

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Løsning til eksamen d.27 Maj 2010

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Transkript:

Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0

Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til hver X svarer en Y-værdi på linien Y i (hat) som angiver estimat af Y i for X i vertikal (langs y-aksen) afvigelse: Y i Y i residual

Vi søger den linie, der minimerer n Y i Y 2 i 1 n i 1 i 2 0! residual SS (SS res ) ~error SS SS res : den variabilitet for Y, der ikke forklares ved linien og dermed ved X

SS X i 1 Vi skal nu bruge n X i X 2 x 2 altså notation: x X i X og n SCP XY X i X Y i Y xy i 1 SCP: sum of cross-products xy BEMÆRK: n 1 betegnes kovarians, ofte cov(x,y)

Regressionskoefficient - b xy x 2 b ~ estimat for enhed: enhed Y enhed X b angiver ændring i Y for ændring på 1 for X hældning af linien

Skæring med Y-aksen a ~ estimat for linie entydigt bestemt ved og et talpar, f.eks. (0, Y 0 ) a Y 0, men vi mangler information istedet bruger vi a Y bx da X, Y kendes og må ligge på linien (kan vises teoretisk) a har samme enhed som Y

Med linien bestemt af Ŷ i a bx i er SS res mindst mulig dvs. "least squares" er fundet!

Formlen Ŷ i a bx i alternativt Ŷ i Y b X i X kan bruges til prædiktion af Y vha. X PAS PÅ med X-værdier uden for range [X min,x max ]!

Antagelser gælder i princippet KUN når man vil teste! 1) For hver X er Y NF (rettere ) 2) For hver X er var(y) ens (igen ) 3) For hver X ligger Y på samme rette linie (hvis opfylder 1) og 2), så gør Y også: linearitet) 4) Y udtaget tilfældigt og uafhængigt 5) X målt nøjagtigt (men IKKE nødvendigvis NF!) Afvigelser fra 1) - 3) kan ofte rettes ved transformationer

Test af regressionsparametre (Regression er faktisk når 0!) H 0 : 0 H A : 0 TO metoder

1) ANOVA SS total Y i Y 2, DF total n 1 SS regr Ŷ i Y 2, DF regr 1 SS regr SS total hvis linearitet SS res Y i Ŷ i 2, DF res n 2 SS total SS regr SS res : den variabilitet for Y, der ikke forklares ved linien og dermed ved X

F MS regr MS res 2 MS res s Y X, SE s Y X ensidet test med DF: 1, n-2 med 1 DF i tælleren peger dette mod t-fordelingen!

2) t-test (tosidet): H 0 : 0 H A : 0 GENEREL metode til test af parametre! t 0 SE b o s b da b og SE S b s b 2 s 2 Y X x 2 s b s Y X x 2

Konfidensinterval for parametre IGEN generelt (NF osv) CI parameterestimat t*se estimat CI for : b t 2, n 2 s b

Konfidensinterval for estimeret Y: ( konfidensbånd for hele linien) 1) m nye individer med X X i : SE s Ŷi m 2 s 1 Y X m 1 n X i X 2 x 2 hvor n er størrelsen af stikprøven, som regressionen er estimeret udfra GENEREL formel!

2) Populationens Y for givet X i : m 1/m 0 2 SE s Ŷi s Ŷi s 1 Y X n X i X 2 x 2 højre led i kantet parentes: for X i X : SE s Ŷi 2 s Y X n svarer til SE mindst mulig for X i 0, Y 0 a SE s a s Y X 2 1 n X2 x 2

3) Én ny måling, X i : m 1 1/m 1 SE s Ŷi 1 2 s Y X 1 1 n X i X 2 x 2 CI pop CI m CI 1

VIGTIGT residual-analyse residual E i Y i Y i plot E i mod X i eller Y i men IKKE mod Y i!!

Fortolkning Prædiktion lineær sammenhæng kausal sammenhæng! Kræver en faglig forståelse - som i øvrigt enhver sund H 0 Confounding

Replikation (ægte) k : antal X værdier n j 1 : antal observationer dvs.y værdier pr. X man skal IKKE benytte Y j for given X j til regression: information smides væk! Test for linearitet kan ikke (simpelt) udføres uden replikation for hver X j : vi har ingen variation på Y for givet X k N j 1 n j

N SS X X i X 2 x 2 i 1 SS X N 1 var X N SS Y Y i Y 2 y 2 i 1 SS Y N 1 var Y N SCP XY X i X Y i Y xy i 1 SCP XY N 1 cov X, Y

som tidligere: b xy x 2 og videre a Y bx SS regr xy 2 x 2, DF 1 SS res SS total SS regr y 2 SS regr

ANOVA-test, også som før Y ij Y Ŷ i Y Y ij Ŷ i ~ total regression residual med replikation kommer et within led til: (within X-værdierne) Y ij Y Y i Y Y ij Y i ~ total among within

SS among k ni Y ij 2 k n n i i Y ij 2 N j 1 DF among k 1 SS within SS total SS among DF within DF total DF among N 1 k 1 N k videre kan among opdeles: Y i Y Ŷ i Y Y i Ŷ i ~ among regression linearitetsafvigelse herefter linearitetsafvigelse: deviation

Samlet: Y ij Y Ŷ i Y Y i Ŷ i Y ij Y i ~ total regression deviation within-afvigelse SS dev SS among SS regr DF dev DF among DF regr k 2 i SS-termer: SS res SS total SS regr SS dev SS within SS among

To hypoteser 1) Linearitet (MS dev og MS within estimerer samme varians) H 01 : regression lineær H A1 : regression ikke lineær F MS dev MS within, DF k 1, N k 2) Som før H 02 : 0 H A2 : 0 TO muligheder!

A) Accept af H 01, altså linearitet F MS regr MS res, DF 1, N 2 hvor MS res er MS dev og MS within pooled B) Forkast af H 01, altså IKKE linearitet Her kan man ikke stole på prædikterede Y-værdier! Test af H 02 giver ikke mening! Forsøg eventuelt med transformationer!

Transformation af Y (X kan også transformeres, men dette har intet med antagelser om NF og homoskedasticitet af Y at gøre) OK hvis ikke NF og ikke homoskedasticitet men IKKE ok blot fordi man ikke har en ret linie! risiko for at transformeret Y ikke er NF eller homoskedastisk Prøv istedet med ikke-lineær, f.eks.polynomisk, regression - herom senere

The CORR Procedure 2 Variables: FEMUR1 ANATREG Simple Statistics Variable N Mean Std Dev Median Minimum Maximum FEMUR1 20 45.26250 3.15973 44.97500 39.60000 52.50000 ANATREG 20 163.45000 9.32300 165.25000 147.00000 184.00000 SSCP Matrix FEMUR1 ANATREG FEMUR1 41163.5725 148505.8751 ANATREG 148505.8751 535969.5000 CSSCP Matrix FEMUR1 ANATREG FEMUR1 189.694423 542.762561 ANATREG 542.762561 1651.450000 Covariance Matrix, DF = 19 FEMUR1 ANATREG FEMUR1 9.98391699 28.56645058 ANATREG 28.56645058 86.91842105 Pearson Correlation Coefficients, N = 20 Prob > r under H0: Rho=0 FEMUR1 ANATREG FEMUR1 1.00000 0.96973 <.0001 ANATREG 0.96973 1.00000 <.0001 Spearman Correlation Coefficients, N = 20 Prob > r under H0: Rho=0 FEMUR1 ANATREG FEMUR1 1.00000 0.95557 <.0001 ANATREG 0.95557 1.00000 <.0001

The REG Procedure Model: MODEL1 Dependent Variable: ANATREG anatomically reconstructed stature adjusted for age Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 1552.97764 1552.97764 283.87 <.0001 Error 18 98.47236 5.47069 Corrected Total 19 1651.45000 Root MSE 2.33895 R-Square 0.9404 Dependent Mean 163.45000 Adj R-Sq 0.9371 Coeff Var 1.43099 Parameter Estimates Parameter Standard Variable Label DF Estimate Error Intercept Intercept 1 33.94282 7.70434 FEMUR1 1 2.86125 0.16982 Variable Label DF t Value Pr > t Intercept Intercept 1 4.41 0.0003 FEMUR1 1 16.85 <.0001 Variable Label DF 95% Confidence Limits Intercept Intercept 1 17.75661 50.12902 FEMUR1 1 2.50446 3.21803

Obs FEMUR1 ANATREG _pred _resid _l95m _u95m 1 47.15 164.50 168.85-4.35 167.56 170.14 2 43.45 159.00 158.26 0.74 156.99 159.54 3 45.05 166.00 162.84 3.16 161.74 163.94 4 41.35 156.00 152.26 3.74 150.48 154.03 5 42.55 155.00 155.69-0.69 154.22 157.15 6 44.90 166.00 162.41 3.59 161.31 163.52 7 46.90 169.00 168.14 0.86 166.89 169.38 8 47.40 171.50 169.57 1.93 168.23 170.90 9 52.50 184.00 184.16-0.16 181.35 186.96 10 41.70 149.50 153.26-3.76 151.58 154.94 11 48.05 173.50 171.43 2.07 169.94 172.91 12 43.30 158.50 157.83 0.67 156.53 159.14 13 43.60 159.00 158.69 0.31 157.44 159.94 14 47.65 169.50 170.28-0.78 168.89 171.67 15 39.60 147.00 147.25-0.25 144.95 149.55 16 42.75 155.50 156.26-0.76 154.84 157.68 17 48.60 172.50 173.00-0.50 171.38 174.62 18 48.75 172.50 173.43-0.93 171.77 175.09 19 46.70 166.50 167.56-1.06 166.35 168.78 20 43.30 154.00 157.83-3.83 156.53 159.14

Prædiktion af middelværdi af Y for givet X

Prædiktion af individuel Y for givet X

The ANOVA Procedure Level of -----------anatreg----------- femur1 N Mean Std Dev 39.60 10 146.637753 2.22606261 41.35 10 155.747301 2.13519985 41.70 10 148.238991 2.69897593 42.55 10 156.085975 2.06092951 42.75 10 155.601315 2.74361979 43.30 10 156.186408 2.56961607 43.45 10 159.278256 1.86303009 43.60 10 157.626924 1.32399990 44.90 10 166.239719 3.26503851 45.05 10 165.668727 1.69447564 46.70 10 166.518040 2.05054323 46.90 10 168.956217 2.45830704 47.15 10 165.141408 2.77721733 47.40 10 171.309150 2.42955922 47.65 10 169.006636 1.61201713 48.05 10 174.600025 2.71090256 48.60 10 172.956186 2.73410237 48.75 10 171.877086 2.31770019 52.50 10 183.637294 2.18508850

The REG Procedure Model: MODEL1 Dependent Variable: anatreg Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 15339 15339 1489.58 <.0001 Error 188 1935.95420 10.29763 Corrected Total 189 17275 Root MSE 3.20899 R-Square 0.8879 Dependent Mean 163.75334 Adj R-Sq 0.8873 Coeff Var 1.95965 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 33.34856 3.38680 9.85 <.0001 femur1 1 2.87452 0.07448 38.60 <.0001

The ANOVA Procedure Class Levels Values Class Level Information femur1 19 39.60 41.35 41.70 42.55 42.75 43.30 43.45 43.60 44.90 45.05 46.70 46.90 47.15 47.40 47.65 48.05 48.60 48.75 52.50 Number of observations 190 Dependent Variable: anatreg Sum of Source DF Squares Mean Square F Value Pr > F Model 18 16326.85007 907.04723 163.56 <.0001 Error 171 948.28717 5.54554 Corrected Total 189 17275.13724 R-Square Coeff Var Root MSE anatreg Mean 0.945107 1.438076 2.354897 163.7533 Source DF Anova SS Mean Square F Value Pr > F femur1 18 16326.85007 907.04723 163.56 <.0001