Modul 11: Simpel lineær regression

Transkript

1 Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser Oversigt Eksempel 17.1 fra Zar Regression med gentagelser Oversigt Eksempel 17.8 fra Zar Regression uden gentagelser Bemærk: i modulerne om regression og korrelation vil vi kalde signifikansiveauet for δ. f.eks. δ = 5% Oversigt Variable: X (uafhængig variabel) og Y (responsvariabel) X kontrolleret: betyder at værdien af X kan varieres frit i eksperimentet, f.eks. X = koncentration, strømstyrke, vægt, længde, tidsinterval etc. Der er tale om en årsagssammenhæng: når X øges vil Y have en tendens til at gå op eller at gå ned. Der ønskes en prediktion af Y ud fra X (her giver det ikke mening at prediktere X ud fra Y ). X ikke kontrolleret: betyder at X og Y begge er stokastiske X og Y er på lige fod. Der er ikke nogen klar årsagssammenhæng. Vælg Y som den variabel der ønskes predikteret ud fra X. Analysen er dog den samme uanset om X er kontrolleret eller ej.

2 11.1 Regression uden gentagelser 2 Model: Y i = α + βx i + ǫ i Y i : Den i-te værdi af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ i : Den i-te statistisk fejl (residual). i: Observationsnummer; i = 1,2,...,n. Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Evalueres den fittede linie for hver observation fås de fittede værdier: Ŷ i = a + bx i Lad x i = X i X og y i = Y i Ȳ, så er estimaterne for β og α henholdsvis: b = n x iy i n x2 i og a = Ȳ b X den fittede linie går igennem punktet ( X, Ȳ ), hvilket let ses: Modelforudsætninger: a + b X = = Ȳ Ȳ b X + b X 1. ǫ i N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ i -erne er uafhængige stokastiske variable. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ i = e i = Y i Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Mindste kvadraters princip: a og b er valgt så de minimerer kvadratsummen af residualerne: n n ( ) 2 e 2 i = Y i Ŷi = n (Y i a bx i ) 2

3 11.1 Regression uden gentagelser 3 Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram. Check for varianshomogenitet ved at plotte residualerne e i, mod X i eller mod Ŷ i Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Vær også på vagt over for outliers (ekstremer i Y -retningen) eller indflydelsesrige observationer (ekstremer i X-retningen), som nogen gange kan ændre analysens konklusioner drastisk. Checkes ved at udregne Cook s D i, som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Error SSE n 2 MSE = SSE n 2 Total SST n 1 s 2 Y X = MSE er estimatet for residualvariansen σ2. Residualer og kvadratsummer: For residualerne gælder der ) ) Y i (Y Ȳ = i Ŷi + (Ŷi Ȳ Tilsvarende gælder der hvor SST = SSE + SSR SST = SSE = SSR = n ( Yi Ȳ ) 2 n ( ) 2 Y i Ŷi n ) 2 (Ŷi Ȳ Denne opsplitning af kvadratsummen følger (matematisk set) fordi a og b er fundet ved mindste kvadraters princip. Vurdering af modellen:

4 11.1 Regression uden gentagelser 4 I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = 1 SSE SST = (udtrykkes ofte i %). Bemærk også r 2 altså en voksende funktion af F. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : SST SSE SST = SSR SST, 0 r2 1 = 1 SSE SST SSE = 1 SSE + SSR 1 = 1 = 1 SSE SSE + SSR SSE n 2 F Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b

5 11.1 Regression uden gentagelser 5 Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X n x2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s Y X 1 n + X2 n x2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + n x2 i Bruges til at forudse hvor den nye observation Y vil ligge. III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + n x2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt.

6 11.1 Regression uden gentagelser Eksempel 17.1 fra Zar Data og analysemetode: Data er vingelængde for 13 spurve i forskellig alder (Zar, eks. 17.1, p. 326): Alder (dage) Vingelængde (cm) X Y Vingelængden antages at afhænge positivt af alderen. Et plot af de to variable viser en tendens til lineær sammenhæng. Vi vil derfor lave en simpel lineær regressionsanalyse. Model: Y i = α + βx i + ǫ i Y : Den afhængige variabel, vingelængde. X: Den uafhængige, forklarende variabel, alder. Hvis vi har mulighed for frit at vælge spurve af en hvilken som helst alder kan vi tale om at X er kontrolleret. Hvis der er tale om en tilfældig stikprøve af en given population af spurve med forskellige aldre er X ikke kontrolleret. Om det ene eller det andet er tilfældet ændrer dog ikke på analysen. α: Angiver den forventede værdi af Y, når alderen er 0. Da 0 ligger uden for range for X, er α ikke interessant i sig selv. β: Repræsenterer ændringen i den forventede vingelængde ved en forøgelse af X på 1 dag. Vi forventer, at β > 0. ǫ i : Residual. i: Observationsnummer, i = 1,2,...,13. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie (se SASkørsel): Ŷ = X Dvs. hver gang alderen øges med 1 dag, øges den forventede vingelængde med 0.27 cm. b er således positiv som forventet. Modelforudsætninger:

7 11.1 Regression uden gentagelser 7 1. ǫ i N(0,σ 2 ) 2. ǫ i -erne er uafhængige stokastiske variable. 3. Linearitet Disse forudsætninger undersøges senere. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = dvs. 97% af variationen i Y, vingelængden, kan forklares af alderen. Dette giver mening i vokseperioden, men gælder givetvis ikke for voksne fugle, hvor slutvingelængden kan tænkes at afhænge af forskellige genetiske og miljømæssige faktorer. II. Test af de enkelte parametre Nulhypotese H 0 : β 0 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b = T t-fordelt med n 2 = 11 frihedsgrader. p-værdi = (p-værdien i SAS er for et tosidet test, men det er irrelevant her med så lille en værdi). p-værdien er således mindre end ethvert rimeligt valg af signifikansniveuet δ. Vi må derfor afvise H 0, dvs. der er en positiv, signifikant sammenhæng, hvilket svarer til vores forventning. Modelkontrol: 1. Check normalitet ved at indtegne de standardiserede, estimerede residualer i et histogram. Histogrammet skal være klokkeformet, symmetrisk omkring 0. Denne forudsætning synes at være opfyldt. 2. Check for varianshomogenitet ved at plotte e i mod X i. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 Dette synes nogenlunde at være tilfældet. 3. Linearitet kan ikke testes, da vi ikke har gentagelser (se næste afsnit). Men scatterplottet viser en pæn lineær sammenhæng. 4. Alle værdier af Cook s D i, er mindre end 1, så outliers ser ikke ud til at være et problem. Vi kan konkludere, at forudsætningerne således synes opfyldte. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.

8 11.1 Regression uden gentagelser 8 SAS-output: Plot of Y*X. Legend: A = 1 obs, B = 2 obs, etc. Y 6 A 5 A A A A 4 A A A A 3 A A 2 A A X

9 11.1 Regression uden gentagelser 9 Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP X Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs Y Value Predict Mean Mean Predict Predict Std Err Student Cook s Obs Residual Residual Residual D * *** * 0.049

10 11.1 Regression uden gentagelser ** ** ** * ** ** * *** Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) Plot of RESID*X. Legend: A = 1 obs, B = 2 obs, etc. 0.3 A A 0.2 A A A A 0.1 R A e A s i d 0.0 u a l -0.1 A

11 11.1 Regression uden gentagelser A A -0.3 A A X Frequency 4 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 3 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 2 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** ****

12 11.2 Regression med gentagelser 12 **** **** **** 1 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** Studentized Residual 11.2 Regression med gentagelser Oversigt Antag nu at der er gentagelser, dvs. gentagne målinger af Y for hver værdi af X. Betyder at X er kontrolleret, da vi ellers ikke kan holde X-værdien fast i forbindelse med gentagelserne. Der er altså tale om en årsagssammenhæng: Y forklares ud fra X. Model: Y ij = α + βx i + ǫ ij i: Gruppenummer: i = 1,2,...,k j: Observationsnummer inden for gruppe; j = 1,2,...,n i. n i : Antal replikationer i den i-te gruppe. Bør være mindst 2, men enkelte grupper kan have n i = 1. n: Samlet stikprøvestørrelse n = n n k. Y ij : Den j-te værdi i den i-te gruppe af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel, som er ens for alle n i data i gruppe i. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ ij : Den j-te statistisk fejl i gruppe i. Bemærk: regressionsmodeller svarer i bund og grund til ubalancerede forsøg, og der er ikke noget krav om at n i erne skal være ens.

13 11.2 Regression med gentagelser 13 Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Fittede værdier (fælles for alle n i observationer i gruppe i): Lad x i = X i X og y ij = Y ij Ȳ, hvor Ŷ i = a + bx i Ȳ = 1 n k n i j=1 Y ij Bemærk at dobbeltsummen har n led, dvs. summationen er over alle n observationer. For X fås: X = 1 k n i X i n altså det vægtede gennemsnit af X i -erne. Så er mindste kvadraters estimaterne for β og α henholdsvis: b = k ni j=1 x iy ij k n ix 2 i og a = Ȳ b X Estimaterne er som før, bortset fra at den nye notation tvinger os til at erstatte summen med enten en dobbeltsum eller en vægtet sum. den fittede linie går igen igennem punktet ( X, Ȳ ). Modelforudsætninger: 1. ǫ ij N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ ij -erne er uafhængige stokastiske variable, både inden for grupper og mellem grupper. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ ij = e ij = Y ij Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram.

14 11.2 Regression med gentagelser 14 Hvis n i -erne alle er passende store (mindst 20) bør man lave et separat normalfordelingsplot for hver af de k grupper. Man skal særlig være på vagt overfor systematiske afvigelser fra rette linier i de k plot. Check for varianshomogenitet ved at plotte residualerne e ij, mod X i eller mod Ŷi. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Bartlett s test for varianshomogenitet kan udføres ligesom ved ensidig variansanalyse, baseret på de k variansestimater s 2 1,...,s2 k, forudsat alle n i > 1. Outliers og indflydelsesrige observationer kan checkes ved at udregne Cook s D ij (n ialt) som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Ikke-linearitet SSL k 2 MSL = SSL MSL k 2 MSE Error SSE n k MSE = SSE n k Total SST n 1 s 2 p = MSE er estimatet for residualvariansen σ2, ligesom i ensidig variansanalyse. Det svarer til at poole de k estimater s 2 1,...,s2 k. Residualer og kvadratsummer: For residualerne gælder der Y ij Ȳ = ( Y ij Ȳi) ) ) + (Ȳi Ŷi + (Ŷi Ȳ Tilsvarende kan man vise at hvor vi har Den totale kvadratsum: SST = SSE + SSL + SSR SST = k n i ( Yij Ȳ ) 2 j=1 Kvadratsum inden for grupper (pure error): SSE = k n i ( Yij Ȳi) 2 j=1

15 11.2 Regression med gentagelser 15 Kvadratsum for afvigelse fra linearitet (lack of fit): Kvadratsum for regression: SSL = SSR = k n i (Ȳi Ŷi k ) 2 ) 2 n i (Ŷi Ȳ Forudsætter igen at vi bruger mindste kvadraters princip ved estimation af α og β. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = SSR SST, 0 r2 1 (udtrykkes ofte i %). Bemærk også r 2 SSE + SSL = 1 SSE + SSL + SSR 1 = SSR SSE+SSL hvilket viser at r 2 er en voksende funktion af F-testen for regression baseret på den poolede varians (se nedenfor), altså F = hvor DFE = n k og DFL = k 2. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : MSR SSE+SSL DFE+DFL Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0

16 11.2 Regression med gentagelser 16 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X k n ix 2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s 1 Y X n + X 2 k n ix 2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + k n ix 2 i Bruges til at forudse hvor den nye observation Y vil ligge.

17 11.2 Regression med gentagelser 17 III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + k n ix 2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt. Bemærk: Det poolede variansskøn under antagelse af lineær sammenhæng er: s 2 Y X som har DFE + DFL = n 2 frihedsgrader Eksempel 17.8 fra Zar = SSE + SSL DFE + DFL Data og analysemetode: Data er alder (år) og systolisk blodtryk (mm Hg), (Zar, eks. 17.2, p. 346): Alder (år) Blodtryk (mm Hg) n i X Y , 110, , 120, 118, , 137, , 151, 146, 147, , 156, 164, 158, Et plot af de to variable (Zar figur 17.9) viser en pæn lineær sammenhæng. Model: Y ij = α + βx i + ǫ ij i: Aldersgruppe: i = 1,2,...,5 j: Observationsnummer inden for aldersgruppe; j = 1,2,...,n i. n i : Antal personer (replikationer) i den i-te aldersgruppe. n: Samlet stikprøvestørrelse n = = 20. Y ij : Den j-te persons blodtryk i den i-te aldersgruppe. X i : Værdien af alderen i den i-te aldersgruppe (alle personer i gruppen antages at have samme alder). α: Konstantled. Repræsenterer gennemsnitligt blodtryk ved alder 0. Da 0 ligger uden for det betragtede aldersinterval er α ikke interessant i sig selv. β: Hældning. Repræsenterer den gennemsnitlige ændringen i blodtryk per år.

18 11.2 Regression med gentagelser 18 ǫ ij : Den j-te statistisk fejl i gruppe i, altså differensen mellem den j-te persons blodtryk i den i-te gruppe og denne gruppes middelblodtryk. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie: Ŷ = X Dvs. for hvert år øges det forventede blodtryk med mm Hg. Som referenceblodtryk kan f.eks. bruges det forventede blodtryk ved 45 år, som er Ŷ 45 = = Modelforudsætninger: 1. ǫ ij N(0,σ 2 ) 2. ǫ ij -erne er uafhængige stokastiske variable. 3. Linearitet. Disse forudsætninger ser ud til at være opfyldt. ANOVA-tabel: Source SS DF M S F p Regression p < Ikke-linearitet p > 0.25 Error Total s 2 p = 7.82 er estimatet for residualvariansen σ2. Bemærk: Zar laver F-testet for linearitet baseret på det poolede variansskøn s 2 Y X = 6.61 med 18 frihedsgrader, hvilket giver samme resultat. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = 0.98 dvs. 98% af variationen i Y, blodtryk, kan forklares af alderen. II. Test af de enkelte parametre Nulhypotese H 0 : β 0

19 11.2 Regression med gentagelser 19 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b T t-fordelt med 18 frihedsgrader, hvis s 2 Y X bruges. Udeladt. Modelkontrol: Udeladt. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.