Anvendt Statistik Lektion 7. Simpel Lineær Regression

Relaterede dokumenter
Anvendt Statistik Lektion 8. Multipel Lineær Regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Simpel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

To samhørende variable

Simpel Lineær Regression: Model

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Statistik Lektion 16 Multipel Lineær Regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kapitel 11 Lineær regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Modul 11: Simpel lineær regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik II 4. Lektion. Logistisk regression

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Modul 6: Regression og kalibrering

Løsninger til kapitel 14

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Module 3: Statistiske modeller

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 17 Multipel Lineær Regression

Modul 12: Regression og korrelation

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Løsning eksamen d. 15. december 2008

Kvantitative metoder 2

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kursus 02402/02323 Introducerende Statistik

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning til eksaminen d. 29. maj 2009

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Løsning til eksaminen d. 14. december 2009

1 Hb SS Hb Sβ Hb SC = , (s = )

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

1 Multipel lineær regression

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Perspektiver i Matematik-Økonomi: Linær regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

1 Multipel lineær regression

Skriftlig eksamen Science statistik- ST501

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Eksamen i Statistik for biokemikere. Blok

Note om Monte Carlo metoden

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning til eksamen d.27 Maj 2010

Statistik II 1. Lektion. Analyse af kontingenstabeller

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kvantitative metoder 2

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Transkript:

Anvendt Statistik Lektion 7 Simpel Lineær Regression 1

Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2

Scatterplot Et scatterplot er et plot af to variable: : forklarende variabel (fattigdomsraten) : respons-variabel (mordraten) For den i te observation har vi Y i ( i, i ) i (fattigdomsraten for i te stat) i (mordraten for i te stat) Data: ( 1, 1 ), ( 2, 2 ),, ( n, n ) i 3

Forventet respons: En ret linje Den rette linje α + β beskriver den forventede (dvs. middel) respons: E[] = α + β UK: Epected Eksempel: E[] = 210 + 25 Fortolkning: Antag = 4 (fattigdomsraten), så er det forventede mordrate 210 + 25 4 = 310. Hvis øges med 1, så øges den forventede værdi af med 25. Hvis = 0, så er den forventede værdi af = 210. α 1 E[] = α + β β 4

Fejlleddet De enkelte datapunkter ( i, i ) ligger tpisk ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ε i. i ( i, i ) ε i α + β Regressionsmodel: i = α + β i + ε i Bemærk: n fejlled ε 1, ε 2,..., ε n. Flere detaljer og antagelser på næste slide i 5

Simpel lineær regressionsmodel i = α + β i + ε i ε iid i N(0, σ 2 ) Y - afhængige/respons variabel. X - uafhængige/forklarende variabel faste tal α - skæringspunkt med -aksen β - det græske bogstav beta β 1 - hældningskoefficient iid - UK: independent, identicall distributed = uafhængig, identisk fordelte ε - det græske bogstav epsilon ε i - fejlled - det eneste stokastiske element i modellen 6

Lineær regressionsmodel: Figur Model: i = α + β i + ε i Om fejlledene ε i antager vi: Normalfordelt Middelværdi nul Konstant standardafvigelse σ Y Y = α + β + ε i i Fordelingen af i omkring regressionslinjen. i Dvs. punkterne ligger usstematisk spredt omkring en ret linje, hvor variationen er konstant. 1 2 3 4 5 iid normalfordelte fejlled Kontinuert forklarende variabel 7 X

Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (,) ser punkterne ud til at ligge langs en ret linje? 8

Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable antages at være faste dvs. ikke stokastiske. Mao. Antages at være kendt eller målt uden støj / målefejl Indledende tjek: Logisk sans. 9

Forudsætninger for SLR (3/3) Fejledene ε i antages være uafhængige og normalfordelte med middelværdi 0 og konstant standardafvigelse σ. Indledende tjek: Se efter indlsende problemer i scatter plot af (,). 10

11

Er der en sammenhæng? Graphs Chart builder Scatter/Dot Simple Scatter Outlier Scatterplot Er antagelserne opfldt? Samme plot uden outlier eren 12

En tilnærmet linje En estimeret regressionslinje er givet ved: Her er a et estimat af α ŷ = a + b b et estimat af β hat er estimat af E() ( i, i ) E[] = α + β i e i ŷ i ŷ = a + b Afstanden fra punktet til den estimerede regressionslinje kaldes residualet e i = i -. ŷ i i 13

Mindste kvadraters metode Summen af de kvadrede residualer betegnes: SSE = n 2 ( ) = i ˆ i i= 1 i= 1 UK: Sum of Squared Errors. n e 2 i ( i, i ) E[] = α + β i e i ŷ i ŷ = a + b SSE kan skrives som SSE = n ( i ( a + b i )) i= 1 Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode. 2 i 14

Estimater af α, β og σ Mindste kvadraters metode giver følgende estimater Estimatet for β er b Estimatet for α er n i i= 1 = n ( )( ) ( i ) i= 1 a = b i 2 Estimat for σ er s SSE = n 2 15

Mere om lineær regression Prædiktion: For en n værdi kan vi prædiktere værdien af : ˆ = a + b Skæring i middel: (, ) Regressionslinjen skærer i : ( b) + b ˆ = a + b = = ŷ ŷ = a + b Summen af residualer: Summen af alle residualer er nul: i ei = 0 16

Simpel lineær regression i SPSS Anazze Regression Linear 17

SPSS: Resultat a Den estimerede regressionslinje er altså: Fortolkning ŷ b = -10,136 + 1,323 Hver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000. Hvis der er nul procent fattige, så er den forventede mordrate -10,136 Hvis procent fattige er 16.2, så er den prædikterede mordrate: -10.136 + 1.323 16.2 = 11.30. 18

Regressionslinje i SPSS Graphs Chart builder Scatter/Dot Simple Scatter Outlier Efterfølgende dobbelt-klik på plottet og vælg: Elements Fit line at total 19

Estimat af σ Simpel lineær regression i SPSS giver også følgende resultater: SSE n--2 SSE/(n-2) Estimat af σ : SSE 3904.252 s = = = 79.679 = 8.926 n 2 51 2 Dvs. vi forventer at ca. 95% af punkterne ligger højst 2 8.9 enheder fra regressionslinjen. 20

Hpotesetest af β Nul-hpoteser: H 0 : β = 0 Alternativ-hpoteser: H a : β 0 H a : β > 0 H a : β < 0 Teststørrelse t = b se hvor se er standardfejlen: se = s ( ) 2 i i,hvor Hvis H 0 er sand, så følger t en t- fordeling med df = n-2 frihedsgrader s SSE = n 2 21

Fortolkning af H 0 : β = 0 Er der en lineær sammenhæng mellem X og Y? H 0 : β = 0 H a : β 0 ingen lineær sammenhæng lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usstematisk variation Ikke-lineær sammenhæng Y Y Y X X X 22

Hpotesetest i SPSS t = se b = 1.323 0.275 = 4.804 P-værdi t-fordeling med df = n-2 H 0 : β = 0 vs H a : β 0 Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H 0. -3-2 -1 0 1 2 3-4.804 4.804 Dvs. er er en lineær sammenhæng ml. fattigdoms- og mordraten. 23

Konfidensintervaller for β Konfidensintervallet for β følger det sædvanlige mønster: b ± t n-2,α/2 se Standardfejlen se udregnes som før, og udregnes i praksis af SPSS. I dialogboksen for lineær regression tilvælges konfidensintervaller under statistics 95% konf. int.: 1.323 ± 2.01 0.275 = [ 0.770 ; 1.876 ] t 49,0.025 = 2.01 24

Korrelationen r Graden af lineær sammenhæng mellem og kan måles ved korrelation r. Korrelationen kan udregnes som Hvor s og s standardafvigelserne for hhv. og : i i s ( ) = n 1 r = 2 s b s og i i s ( ) = n 1 2 25

Korrelationen: Egenskaber Egenskaber ved korrelationen: -1 r 1 r har samme fortegn som b r = 0 : ingen lineær sammenhæng r = ± 1 : perfekt lineær sammenhæng Jo større absolut værdi, jo stærkere lineær sammenhæng 26

Illustration af korrelation Y r = -1 Y r = 0 Y r = 1 X X X Y r = -.8 Y r = 0 Y r =.8 X X X 27

Korrelation i SPSS Som en del af output et for lineær regression får man bl.a. følgende kasse: Korrelationen r Korrelationen er her r = 0.565, dvs. en middel lineær sammenhæng. 28

Forklaret og uforklaret afvigelse Y i s afvigelse fra Y kan opdeles i to: i Y ŷ i Uforklaret afvigelse Forklaret afvigelse ˆ = a + b Totale afvigelse i

Kvadratsummer Sums of squares: Total sum of squares: TSS TSS er den totale variation i i erne. ( ) = i i 2 ( ) 2 2 Sum of squared errors: SSE = = i i ˆ i e i i SSE er den uforklarede del af variationen i i erne. SSE TSS TSS SSE 0 den forklarede variation. 30

Total og uforklaret variation - illustration TSS SSE Den totale variation ses når vi kigger langs -aksen. Den uforklarede variation ses når vi kigger langs regressionslinjen. 31

Determinationskoefficienten r 2 TSS Den totale variation TSS SSE Den forklarede variation Determinationskoefficienten Fortolkning r 2 TSS SSE = TSS r 2 er andelen af den totale variation i i erne der er forklaret af i erne. F: Hvis r 2 = 0.62, så er 62% af variation i forklaret af. 32

Determinationskoefficienten i SPSS Som en del af output et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten r 2 Determinationskoefficienten er her r 2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten. 33

Determinationskoefficienten i SPSS Graphs Chart builder Scatter/Dot Simple Scatter r 2 34