Statistik Lektion 16 Multipel Lineær Regression

Relaterede dokumenter
Multipel Lineær Regression

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Statistik Lektion 4. Variansanalyse Modelkontrol

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik Lektion 17 Multipel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Generelle lineære modeller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Modul 11: Simpel lineær regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Modul 6: Regression og kalibrering

Statistik II 4. Lektion. Logistisk regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression: Model

1 Regressionsproblemet 2

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Simpel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

To samhørende variable

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Module 3: Statistiske modeller

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Konfidensintervaller og Hypotesetest

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning eksamen d. 15. december 2008

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Module 12: Mere om variansanalyse

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

To-sidet variansanalyse

Logistisk Regression - fortsat

Statistik II 1. Lektion. Analyse af kontingenstabeller

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Normalfordelingen og Stikprøvefordelinger

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Eksamen i Statistik og skalavalidering

Statistik Formelsamling. HA Almen, 1. semester

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Kapitel 11 Lineær regression

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Program. 1. Flersidet variansanalyse 1/11

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

1 Multipel lineær regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Skriftlig eksamen Science statistik- ST501

To-sidet varians analyse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Perspektiver i Matematik-Økonomi: Linær regression

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Kvantitative metoder 2

Besvarelse af vitcap -opgaven

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Transkript:

Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR

Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

Multipel Lineær Regression - Repetition Model: Y i = β + β x + β x + L+ β x 0 ε i.i.d i i N(0, σ ) i k ki + ε i x ji er den j te forklarende variabel for den i te observation. Estimerede model: y ˆ = b + b x + b x + L+ 0 b k x k i te residual: e i = y i yˆ i

Forudsætninger for MLR. Lineær sammenhæng mellem y og x j erne. x j erne opfattes som faste tal 3. ε i = fejlleddene, antages at være uafhængige 4. E(ε i ) = 0 5. Var(ε i ) = σ konstant 6. ε i antages at være normalfordelt homoskedastisk / varianshomogen 7. x,,x k må ikke være indbyrdes lineært afh.

Multipel lineær regression (Eksempel - i bogen) Eksempel: Y = Export Eksport til Singapore i millioner $ X = M Money supply X = Lend Udlånsrente X 3 = Price Prisindex X 4 = Exchange Vekselkurs ml. S pore $ og US $ Model: y i = 0 + βx i + βxi + β3x3i + β4x4i β + ε ε i.i.d i i N(0, σ )

F-test: Model Besværet Værd? Hypoteser H 0 : β = β = = β k = 0 H : Mindst et β j 0 (Vi kan lige så godt sige, at y erne alle har en og samme middelværdi) (Der er en lineær sammenhæng mellem y og mindst ét af x j erne) Teststørrelse: SSR k F = = SSR n k MSR MSE 0 Kritisk område F α/ (k,n-k-)

F-test: Eksempel F-testet af hypotesen H 0 :β = β = β 3 = β 4 =0 vs H : Mindst et β j 0 Testen har p-værdi < 0.0005!! Beslutning: Da p-værdi mindre end 0.05 afviser H 0. Fortolkning:Y har en lineær sammenhæng med mindst en af de forklarende variable X i, mao. kan modellen betale sig. ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 3,946 4 8,37 73,059,000 a 6,990 6,3 39,936 66

Determinationskoefficienten Som i simpel lineær regression er Som før 0 R. Hvis vi øger antallet af uafhængige variable (x erne) for en multipel regressionsanalyse, så vil R som regel vokse (og aldrig falde)! Hvis vi har n observationer og bruger en model med k=n-, så kan vi i nogle tilfælde opnå R =! Er det ikke fantastisk?! Næh SSR R = = SST SSE SST = Forklaret variation Totale variation

Justeret R Justeret R R = adj R = MSE MST = SSE (n - (k + )) SST (n -) = ( R ) n - n - (k + ) Justeret R tager i nogen grad højde for, problemerne med R når k er stor i forhold til n. Hvis adj R vokser når nyt x i medtages, så er det nok værd at medtage det x i.

Eksempel: R og Justeret R Model Summary b Model Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,908 a,85,84,33577,583 R = 0.85, dvs. modellen forklarer 8.5% af variationen i Y erne. Justeret R = 0.84

Parameter-estimaterne Estimatoren B j svarende til b j er normalfordelt: Dvs. B j er et unbiased estimat af β j. s (b j ) betegner estimatet af variansen σ (b j ). s (b j ) beregnes af SPSS. Vi har B B j s( b ~ ) N j β j j ( β, σ ( b )) ~ t j ( n k ) j

Test for regressionsparametre Test for hypotesen H H 0 : : βi = 0 β 0 i (Ingen lineær sammenhæng mellem y og x i ) Teststørrelse: t = b s i ( b i ) -t α/ (n-k-) 0 Kritisk område t α/ (n-k-)

Eksempel: Test for regressionsparametre Coefficients a Model (Constant) M Lend Price Exchange Unstandardized Coefficients Standardized Coefficients 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound -4,05,766 -,45,5-9,545,54,368,064,549 5,77,000,4,496,005,049,0,096,94 -,094,03,037,009,5 3,95,000,08,055,68,75,04,8,80 -,08,68 Det ser ud som om Lend og Exchange ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model: y i = β x β x 0 i 3 3i β + + + ε i ε i i.i.d N(0, σ )

Eksempel: Simplere Model Bemærk: R uændret men adj R større! Bemærk: Er stadig besværet værd:

Eksempel: Simplere Model Bemærk: p-værdierne er blevet mindre for de tilbageværende parametre (selvom det ikke er så nemt at se). Før: Efter:

Grafisk modelkontrol Scatterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige observationer

Modelkontrol: Residualplots e vs x i i e vs x i i3

Residualplot e vs ˆ i y i

Normalfordelingsplot Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Observationer Outliers Indflydelsesrig Observation y Regressionslinie uden outlier.. y Punkt med stor værdi af x i.............. Regressionslinie med outlier.......... Regressionslinie når alle datapunkter er inkluderet Outlier x Ingen sammenhæng mellem x og y i denne klump x

Prædiktion Model: Estimeret model: Punktestimat for μ Y : i k x k x x Y ε β β β β + + + + + = L 0 ) (0, i.i.d σ ε N i b k x k x b b x b y + + + + = L 0 ˆ k k x x Y k x x x x x Y k β β β β μ + + + + = = L K K 0,, ),, E( k k x x Y x b x b b x b y k + + + + = = L K 0,, ˆ μ

Prædiktionsintervaller Et (-α)00% konfidensinterval for E(Y X=x) er yˆ ± t α ( n k ) s ( yˆ) Interval hvor vi er (-α)00% sikre på, at regressionslinjen ligger for et givet x. Et (-α)00% prædiktionsinterval for Y X=x er ( n k ) s ( yˆ MSE ˆ y ± tα ) + Interval hvor vi er (-α)00% sikre på, at en fremtidig observation af y ligger for en given værdi af x.

Export Estimerede regressionplan for Eksempel - Estimerede regressionplan for Eksempel - M Price Prædiktions intervaller tilgængelige i SPSS for x-værdier i data. Se under Save menuen.

Blandede forklarende variable Antagelser Y er en afhængig skala/kontinuert variabel X,,X k er k forklarende variable Hvis X,,X k alle er kategoriske variable, så anvender vi en (k-sidet) variansanalyse. Hvis X,,X k alle er skala variable, så anvender vi en Multipel lineær regression. Hva så hvis nogle X j er er kategoriske og andre skala?

Multipel lineær regression og kvalitative forklarende variable Y afhængig variabel X er skala forklarende variabel og X er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel Y = Vægt i kg R (kontinuert. afh. var.) X Højde = Højde i cm R (kont. forkl. var.) X Køn = Køn {Mand,Kvind} (kval. forkla. var.)

Omkodning at kvalitativ variabel Omkod X køn til binær variabel X Kvinde X kvinde = hvis X Køn = Kvinde X kvinde = 0 hvis X Køn = Mand Model Y = 0 Højde Højde Kvinde Kvinde β + β x + β x + ε Bemærk at modellen har form som MLR.

Fortolkning af model Når X Køn = Mand, så er x kvinde = 0: Y = β0 + β HøjdexHøjde + β Kvinde0 = β + β 0 Højde x Højde + ε + ε Når X Køn = Kvinde, så er x kvinde = 0: Y = β0 + β HøjdexHøjde + β Kvinde+ ε = β + β 0 Kvinde + β Højde Højde + ε To linjer med forskellig skæringspunter! β Kvinde angiver forskellen i skæringspunkt. x

To regressions-linjer med forskellige skæringer, men samme hældning Y Linje for X Kvinde = β 0 + β Kvinde Linje for X Kvinde =0 β 0 X

Omkodning i SPSS I det konkrete data er køn lagret i variablen kon som tager værdierne og. Da vi skal bruge variabel med værdierne 0 og skaber vi en ny variabel kon=kon-. I SPPS anvendes Transform Compute...

Model Regression Residual Total Sum of Squares df Mean Square F Sig. 045,9 0057,940 87,86,000 a 97054,8 578 5,7 49800,7 580 Model Adjusted Std. Error of R R Square R Square the Estimate,635 a,404,403 0,7344 Model (Constant) h jde kon Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. -43,47 5,3-8,3,000,68,09,473 3,47,000-6,0,56 -,6-0,78,000 Regressionslinje for mænd: Y =,47 + 0,68x 6, 0 + ε 43 Højde Regressionslinje for kvinder: Y 43,47 + 0,68x Højde 6,0 + ε = 49,439 + 0, 68x + ε = Højde

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Højde og X Kvinde som før. Introducer: X Højde,Kvinde = X Højde X Kvinde Model Y β + β x + β x + β x + = 0 Højde Højde Kvinde Kvinde Højde, Kvinde Højde, Kvinde ε ε ~ N(0, σ )

Fortolkning Når X Køn = Mand: E ( Y x ) = β + β x 0 Højde Højde Når X Køn = Kvinde: E ( Y x) = β + β = 0 Højde x Højde + β Kvinde + β Højde, Kvinde ( β ) ( ) 0 + β Kvinde + β Højde + β Højde, Kvinde x Højde x Højde β Højde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.

Nu Som Figur! Y Linie for X =0 Hældning = b Linie for X = b 0 Hældning = b +b 3 b 0 +b

SPSS I SPSS definerer vi en ny variabel højde*køn vha. compute funktionen. Teste hypotesen H 0 : β Højde,Køn = 0 Konklusion: Vi afviser H 0, dvs der er en veksel-virkning. Model (Constant) h jde køn højde*køn Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. -64,77 7,90-8,803,000,797,04,553 9,65,000 34,769 0,04,47 3,463,00 -,36,058 -,43-4,069,000

Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable.

Mere end to kategorier Eksempel Y = Vægt i kg R (kontinuert. afh. var.) X Højde = Højde i cm R (kont. forkl. var.) X Løn = Løn {Lav,Mellem,Høj} (kval. forkla. var.) X Løn har tre kategorier X Løn omkodes til to binære variable

Omkodning at kvalitativ variabel X Løn omkodes til to binære variable X Mellem og X Høj : X Mellem = hvis X Løn = Mellem X Mellem = 0 hvis X Løn Mellem X Høj = hvis X Løn = Høj X Høj = 0 hvis X Løn Høj Som tabel X Løn X Mellem X Høj Lav 0 0 Mellem 0 Høj 0

Fortolkning af model Model: Y = 0 Højde Højde Mellem Mellem Høj Høj β + β x + β x + β x + ε Når X Løn = Lav : Når X Løn = Mellem : Når X Løn = Høj : Y = x 0 Højde Højde β + β + ε Y = x 0 Højde Højde Mellem β + β + β + ε Y = 0 Højde x Højde Høj β + β + β + ε Tre linjer med forskellig skæringspunter!

Fortolkning af model Fortolkning af model E ( Y x) = β 0 + β HøjdexHøjde + βmellemxmellem + β Høj xhøj Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe Mellem og Lav. ( x ) ( ) Højde, xløn = Mellem E Y xhøjde, xløn = Lav ( β ) ( ) 0 + β HøjdexHøjde + βmellem β0 + β HøjdexHøjde = βmellem E Y = Vi siger at Lav kategorien er reference-kategori.

Y b 0 +b Høj b 0 +b Mellem b 0 X Højde

Dummy variable i SPSS I SPSS anvend Transform Recode Into Different Variable Under Name: angiv navn på dummy variabel. Eksempel: Vi vil kode dummy variabel svarende til Mellemindkomst, dvs. lonkat= Vi kalder den nye variabel lonkat 4 3

lon skal svare til Mellemindkomst dvs lonkat= lonkat= lonkat=0. I SPSS: Value =, New Value =0, Klik Add lonkat= lonkat= lonkat=3 lonkat=0 3

Dummyvariable Model (Constant) h jde lonkat lonkat a. Dependent Variable: vægt Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. -8,874 5,070-6,49,000,890,09,65 30,776,000 -,57,663 -,05 -,303,0 -,478,683 -,06 -,700,484

Generelle Lineære Modeller For at undgå at skulle kode en masse binære dummyvariable, kan man i SPSS bruge Analyze General Linear Model Univariate Kategoriske variable Kontinuerte variable

Eksamensopgave 3 I finder den tredje eksamens opgave her: www.math.aau.dk/~kkb/undervisning/ha08/ Opgaveformulering med udgangspunkt i FAUST datasættet: På baggrund af data bedes I besvare følgende spørgsmål:. Hvilke forhold påvirker de ansattes vitalitet? Opstil en statistisk model, der beskriver vitaliteten og analyser denne model.. Hvorledes indvirker lønform og uddannelse på vitaliteten? Også her skal jeres konklusioner underbygges af en statistisk model og en tilhørende analyse.