Anvendt Statistik Lektion 7 Simpel Lineær Regression 1
Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2
Scatterplot Et scatterplot er et plot af to variable: : forklarende variabel (fattigdomsraten) : respons-variabel (mordraten) For den i te observation har vi Y i ( i, i ) i (fattigdomsraten for i te stat) i (mordraten for i te stat) Data: ( 1, 1 ), ( 2, 2 ),, ( n, n ) i 3
Forventet respons: En ret linje Den rette linje α + β beskriver den forventede (dvs. middel) respons: E[] = α + β UK: Epected Eksempel: E[] = 210 + 25 Fortolkning: Antag = 4 (fattigdomsraten), så er det forventede mordrate 210 + 25 4 = 310. Hvis øges med 1, så øges den forventede værdi af med 25. Hvis = 0, så er den forventede værdi af = 210. α 1 E[] = α + β β 4
Fejlleddet De enkelte datapunkter ( i, i ) ligger tpisk ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ε i. i ( i, i ) ε i α + β Regressionsmodel: i = α + β i + ε i Bemærk: n fejlled ε 1, ε 2,..., ε n. Flere detaljer og antagelser på næste slide i 5
Simpel lineær regressionsmodel i = α + β i + ε i ε iid i N(0, σ 2 ) Y - afhængige/respons variabel. X - uafhængige/forklarende variabel faste tal α - skæringspunkt med -aksen β - det græske bogstav beta β 1 - hældningskoefficient iid - UK: independent, identicall distributed = uafhængig, identisk fordelte ε - det græske bogstav epsilon ε i - fejlled - det eneste stokastiske element i modellen 6
Lineær regressionsmodel: Figur Model: i = α + β i + ε i Om fejlledene ε i antager vi: Normalfordelt Middelværdi nul Konstant standardafvigelse σ Y Y = α + β + ε i i Fordelingen af i omkring regressionslinjen. i Dvs. punkterne ligger usstematisk spredt omkring en ret linje, hvor variationen er konstant. 1 2 3 4 5 iid normalfordelte fejlled Kontinuert forklarende variabel 7 X
Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (,) ser punkterne ud til at ligge langs en ret linje? 8
Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable antages at være faste dvs. ikke stokastiske. Mao. Antages at være kendt eller målt uden støj / målefejl Indledende tjek: Logisk sans. 9
Forudsætninger for SLR (3/3) Fejledene ε i antages være uafhængige og normalfordelte med middelværdi 0 og konstant standardafvigelse σ. Indledende tjek: Se efter indlsende problemer i scatter plot af (,). 10
11
Er der en sammenhæng? Graphs Chart builder Scatter/Dot Simple Scatter Outlier Scatterplot Er antagelserne opfldt? Samme plot uden outlier eren 12
En tilnærmet linje En estimeret regressionslinje er givet ved: Her er a et estimat af α ŷ = a + b b et estimat af β hat er estimat af E() ( i, i ) E[] = α + β i e i ŷ i ŷ = a + b Afstanden fra punktet til den estimerede regressionslinje kaldes residualet e i = i -. ŷ i i 13
Mindste kvadraters metode Summen af de kvadrede residualer betegnes: SSE = n 2 ( ) = i ˆ i i= 1 i= 1 UK: Sum of Squared Errors. n e 2 i ( i, i ) E[] = α + β i e i ŷ i ŷ = a + b SSE kan skrives som SSE = n ( i ( a + b i )) i= 1 Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode. 2 i 14
Estimater af α, β og σ Mindste kvadraters metode giver følgende estimater Estimatet for β er b Estimatet for α er n i i= 1 = n ( )( ) ( i ) i= 1 a = b i 2 Estimat for σ er s SSE = n 2 15
Mere om lineær regression Prædiktion: For en n værdi kan vi prædiktere værdien af : ˆ = a + b Skæring i middel: (, ) Regressionslinjen skærer i : ( b) + b ˆ = a + b = = ŷ ŷ = a + b Summen af residualer: Summen af alle residualer er nul: i ei = 0 16
Simpel lineær regression i SPSS Anazze Regression Linear 17
SPSS: Resultat a Den estimerede regressionslinje er altså: Fortolkning ŷ b = -10,136 + 1,323 Hver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000. Hvis der er nul procent fattige, så er den forventede mordrate -10,136 Hvis procent fattige er 16.2, så er den prædikterede mordrate: -10.136 + 1.323 16.2 = 11.30. 18
Regressionslinje i SPSS Graphs Chart builder Scatter/Dot Simple Scatter Outlier Efterfølgende dobbelt-klik på plottet og vælg: Elements Fit line at total 19
Estimat af σ Simpel lineær regression i SPSS giver også følgende resultater: SSE n--2 SSE/(n-2) Estimat af σ : SSE 3904.252 s = = = 79.679 = 8.926 n 2 51 2 Dvs. vi forventer at ca. 95% af punkterne ligger højst 2 8.9 enheder fra regressionslinjen. 20
Hpotesetest af β Nul-hpoteser: H 0 : β = 0 Alternativ-hpoteser: H a : β 0 H a : β > 0 H a : β < 0 Teststørrelse t = b se hvor se er standardfejlen: se = s ( ) 2 i i,hvor Hvis H 0 er sand, så følger t en t- fordeling med df = n-2 frihedsgrader s SSE = n 2 21
Fortolkning af H 0 : β = 0 Er der en lineær sammenhæng mellem X og Y? H 0 : β = 0 H a : β 0 ingen lineær sammenhæng lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usstematisk variation Ikke-lineær sammenhæng Y Y Y X X X 22
Hpotesetest i SPSS t = se b = 1.323 0.275 = 4.804 P-værdi t-fordeling med df = n-2 H 0 : β = 0 vs H a : β 0 Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H 0. -3-2 -1 0 1 2 3-4.804 4.804 Dvs. er er en lineær sammenhæng ml. fattigdoms- og mordraten. 23
Konfidensintervaller for β Konfidensintervallet for β følger det sædvanlige mønster: b ± t n-2,α/2 se Standardfejlen se udregnes som før, og udregnes i praksis af SPSS. I dialogboksen for lineær regression tilvælges konfidensintervaller under statistics 95% konf. int.: 1.323 ± 2.01 0.275 = [ 0.770 ; 1.876 ] t 49,0.025 = 2.01 24
Korrelationen r Graden af lineær sammenhæng mellem og kan måles ved korrelation r. Korrelationen kan udregnes som Hvor s og s standardafvigelserne for hhv. og : i i s ( ) = n 1 r = 2 s b s og i i s ( ) = n 1 2 25
Korrelationen: Egenskaber Egenskaber ved korrelationen: -1 r 1 r har samme fortegn som b r = 0 : ingen lineær sammenhæng r = ± 1 : perfekt lineær sammenhæng Jo større absolut værdi, jo stærkere lineær sammenhæng 26
Illustration af korrelation Y r = -1 Y r = 0 Y r = 1 X X X Y r = -.8 Y r = 0 Y r =.8 X X X 27
Korrelation i SPSS Som en del af output et for lineær regression får man bl.a. følgende kasse: Korrelationen r Korrelationen er her r = 0.565, dvs. en middel lineær sammenhæng. 28
Forklaret og uforklaret afvigelse Y i s afvigelse fra Y kan opdeles i to: i Y ŷ i Uforklaret afvigelse Forklaret afvigelse ˆ = a + b Totale afvigelse i
Kvadratsummer Sums of squares: Total sum of squares: TSS TSS er den totale variation i i erne. ( ) = i i 2 ( ) 2 2 Sum of squared errors: SSE = = i i ˆ i e i i SSE er den uforklarede del af variationen i i erne. SSE TSS TSS SSE 0 den forklarede variation. 30
Total og uforklaret variation - illustration TSS SSE Den totale variation ses når vi kigger langs -aksen. Den uforklarede variation ses når vi kigger langs regressionslinjen. 31
Determinationskoefficienten r 2 TSS Den totale variation TSS SSE Den forklarede variation Determinationskoefficienten Fortolkning r 2 TSS SSE = TSS r 2 er andelen af den totale variation i i erne der er forklaret af i erne. F: Hvis r 2 = 0.62, så er 62% af variation i forklaret af. 32
Determinationskoefficienten i SPSS Som en del af output et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten r 2 Determinationskoefficienten er her r 2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten. 33
Determinationskoefficienten i SPSS Graphs Chart builder Scatter/Dot Simple Scatter r 2 34