Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation............................... 2 6.2.1 Estimation af kovarians og korrelation................... 3 6.3 Simpel lineær regression............................... 5 6.3.1 Den lineære regressionsmodel........................ 7 6.3.2 Estimation af parametre........................... 8 6.3.3 Modelkontrol................................. 10 6.3.4 Inferens.................................... 15 6.3.5 Prædiktion.................................. 19 6.1 Årsag og virkning Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen mellem x og y? Hvordan påvirkes x af y? Eller y af x? SAMMENHÆNG BETYDER IKKE NØDVENDIGVIS, AT DER ER EN ÅRSAG OG EN VIRKNING 1. x er årsag til y. For eksempel: jo mere vind, jo større produktion af vindmøllestrøm. 2. x og y påvirker hinanden. For eksempel hænger prisen på et produkt ofte tæt sammen med efterspørgslen. 3. x og y kan begge være forårsaget af en tredje (underliggende) variabel z. For eksempel medfører større næringsindhold i jorden øget vækst for både nytteplanter og ukrudt.
6.2 Kovarians og korrelation 2 4. x af y kan hænge sammen ved rene tilfældigheder. For eksempel: Gå igennem alle mulige variabelpar i en årgang af Dansk Statistisk Årbog, indtil man finder to variable med en stærk sammenhæng. 5. x af y viser en sammenhæng fordi éns data ikke er repræsentative for den ønskede population. For eksempel: Hvis man på grundlag af tal for værnepligtige forsøger at udtale sig om sammenhængen mellem højde og vægt for hele den voksne population. 6.2 Kovarians og korrelation Hvor stærkt (linært) afhængige er to stokastiske variable X og Y? Kovarians: Cov (X,Y ) = E[(X EX) (Y EY )] Alternative udtryk: Cov (X,Y ) = E(XY ) E(X) E(Y ) Cov (X,Y ) = E[X (Y EY )] = E[Y (X EX)] Gennemsnitlig grad af co-variation mellem X og Y, dvs hvor meget de varierer sammen (co-vary). Regneregler for kovarians: 1. Cov (X,Y ) = Cov (Y,X) (symmetrisk). 2. Cov (X,X) = Var (X) 3. Cov (X + Y,Z) = Cov (X,Z) + Cov (Y,Z) (additiv) 4. Cov (a + bx,y ) = bcov (X,Y ) (skalatransformation) Mål for den lineære association mellem X og Y (renset for position). Variansen for en sum: Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X,Y ) Bevis: Var (X + Y ) = Cov (X + Y,X + Y ) = Cov (X,X) + Cov (X,Y ) + Cov (Y,X) + Cov (Y,Y ) = Var (X) + Cov (X,Y ) + Cov (X,Y ) + Var (Y )
6.2 Kovarians og korrelation 3 Korrelation (Pearsons korrelationskoefficient): ρ = ρ(x,y ) = Cov(X,Y ) Var (X) Var (Y ). Mulige værdier (følger af Cauchy-Schwarz uligheden) ρ [ 1,1] Symmetrisk: ρ(x,y ) = ρ(y,x). Fortegnsafhængig: ρ( X, Y ) = ρ(y, X). Uafhængig af position og skala: ρ(a + bx,y ) = ρ(x,y ) hvis b > 0 Bevis: ρ(a + bx,y ) = = Cov(a + bx,y ) Var (a + bx) Var (Y ) bcov(x,y ) b 2 Var (X) Var (Y ) = ρ(x,y ) Mål for den lineære association mellem X og Y (renset for både position og skala). Styrke og fortegn for korrelation vurderes groft som følger: Fortegn: Positiv korrelation hvis ρ > 0. Negativ korrelation hvis ρ < 0. Hvis ρ = 0 kaldes X og Y indbyrdes ukorrelerede. Styrke: Stærk korrelation hvis ρ er stor. Svag korrelation hvis ρ er lille. Eksakt lineær sammenhæng hvis ρ = 1, dvs. der findes a og b 0 så Y = a + bx. Ingen lineær sammenhæng hvis ρ = 0.
6.2 Kovarians og korrelation 4 6.2.1 Estimation af kovarians og korrelation Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Empirisk kovarians: c = c xy = 1 n 1 (x i x) (y i ȳ). Alternative udtryk: (x i x) (y i ȳ) = (x i x) (y i ȳ) = = x i y i n xȳ x i (y i ȳ) (x i x)y i Korrelationskoefficient: Bemærk: r = r xy = 1 n 1 (x i x) (y i ȳ) s x s y = 1 n 1 ( )( ) xi x yi ȳ. s x s y Mulige værdier: r [ 1,1] Fortolkning: fortolkes nogenlunde som ρ, se Modul 1 (sammenhængsmål). Eksempel 6.1 Isforbrug og temperatur Isforbruget per inbygger (i pints per dag) blev målt i forskellige områder af USA om sommeren. Desuden blev, for hver måling af isforbrug, gennemsnitstemperaturen noteret (bl.a.): Isforbrug (pints): 0.386 0.374 0.393... 0.548 Temperatur (Fahrenheit): 41 56 63... 71 Isforbrug og temperatur: r = 0.776.
6.3 Simpel lineær regression 5 Figur 6.1: Isforbrug og temperatur. Determinationskoefficient: r 2 [0,1] Eksempel 6.1: isforbrug og temperatur: r 2 = 0.602. Betegnes ofte R 2 og udtrykkes i procent. Bruges som mål for associationen mellem x og y i regression. Kan være misvisende hvis x ikke er stokastisk. 6.3 Simpel lineær regression Antag at vi igen har n observationspar (x 1,y 1 ),...,(x n,y n ). Angiver samhørende værdier for variablene x og y. Linear regression adskiller sig fra korrelation ved følgende: 1. Vi ønsker at prædiktere (forudsige) y fra x. 2. Vi skal vælge en responsvariabel y og en forklarende variabel x. Der skelnes mellem to tilfælde: 1. x er kontrolleret (konstant), mens y svarer til en stokastisk variabel Y. 2. x svarer til en stokastisk variabel X lige så vel som y svarer til Y. Vi taler også om regression af y på x.
6.3 Simpel lineær regression 6 I begge tilfælde (1. og 2.) tænker vi på x som konstant og Y som stokastisk. Bemærk: r xy og c xy spiller en vis praktisk rolle i regression, men da x betragtes som konstant, giver ρ(x,y ) ikke nødvendigvis mening. Eksempel 6.1: Isforbrug og temperatur Afhænger isforbruget (y) af tempeteraturen? Hvor stort isforbrug kan forventes ved 50 F? Vi kan tænke på x = temperatur som kontrolleret. Vi ønsker at prædiktere y ud fra x. Eksempel 6.2 Vindenergi En undersøgelse blev lavet for at finde ud af, hvordan strømproduktionen (y) fra vindmøller afhænger af vindhastigheden (x). 2.0 Current output 1.5 1.0 0.5 0.0 4 6 8 10 Wind speed Figur 6.2: Strømproduktion og vindhastighed. Vi ønsker at prædiktere y ud fra x.
6.3 Simpel lineær regression 7 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x, hurtig) Berg score (y, omstændelig, præcis) Begge svarer til stokastiske variable, hhv. X og Y. Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Figur 6.3: Berg score mod TUG score. 6.3.1 Den lineære regressionsmodel Data (x 1,y 1 ),...,(x n,y n ), hvor x 1,...,x n er konstante. y 1,...,y n er observationer fra uafhængige stokastiske variable Y 1,...,Y n. Sammenængen mellem x og Y er givet ved Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, β 0,β 1 R er ukendte regressionsparametre.
6.3 Simpel lineær regression 8 Om fejlleddet ɛ i gælder ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. σ 2 kaldes for variansparameteren, eller residualvariansen. Sammenfatning: Der er fire antagelser i lineær regression: 1. Lineær sammenhæng mellem x og y: E(Y i ) = β 0 + β 1 x i for i = 1,...,n. 2. Y 1,...,Y n er indbyrdes uafhængige. 3. Variansen er konstant Var (Y i ) = Var[ɛ i ] = σ 2 for i = 1,...,n. 4. ɛ i -erne er normalfordelte. Modellen skrives kort som Y i N ( β 0 + β 1 x i,σ 2), uafhængige i = 1,...,n. Teoretisk regressionslinie y = β 0 + β 1 x Fortolkning af regressionsparametre: β 0 : Forventet værdi af Y, når x = 0. β 1 : Forventet ændring i Y, når værdien af x øges til x + 1. σ 2 : Den lodrette variation for hver givet værdi af x. 6.3.2 Estimation af parametre Find ret linie så de lodrette afvigelser af observerede data fra linien er minimeret. Lad ˆβ 0 og ˆβ 1 betegne estimater for parametrene. Residualer: e i = y i ˆβ 0 ˆβ 1 x i,i = 1,...,n. Forskelle mellem observationer: y i prædikterede værdier: ˆβ0 + ˆβ 1 x i
6.3 Simpel lineær regression 9 Vælg ˆβ 0 og ˆβ 1 så alle residualer er små i absolut værdi. Least squares (mindste kvadraters) metoden Minimer kvadratsummen af residualer m.h.t. β 0 og β 1 : e 2 i = (y i β 0 β 1 x i ) 2. Løs β 0 e 2 i = 0 og β 1 e 2 i = 0. Least squares estimater: ˆβ 1 = ˆβ 0 n (x i x)(y i ȳ) n (x i x) 2 = ȳ ˆβ 1 x = c xy s 2 x Estimeret regressionslinie: y = ˆβ 0 + ˆβ 1 x. Fittede værdier/ prædikterede værdier: ŷ i = ˆβ 0 + ˆβ 1 x i, i = 1,2,...,n. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = 61.314 1.340x.
6.3 Simpel lineær regression 10 Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Estimat af residualvarians: Figur 6.4: Mobility data: de observerede residualer. MSE = 1 n 2 (Mean Square Error). Har n 2 frihedsgrader. Bemærk: Måler variationen omkring regressionslinien. ( y i ˆβ 0 ˆβ 1 x i ) 2. Unbiased estimat, dvs. har den korrekte middelværdi. 6.3.3 Modelkontrol Modelantagelser for i = 1,...,n: Y i ɛ i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E[Y i ] = β 0 + β 1 x i E[ɛ i ] = 0 4 Var[Y i ] = σ 2 Var[ɛ i ] = σ 2 Check 2 med et QQ plot for standardiserede residualer
6.3 Simpel lineær regression 11 Check 3 + 4 med residualplot for standardiserede residualer Standardiserede residualer Check om ɛ i N ( 0,σ 2) : 1. Skal bruge observationer fra ɛ i = Y i β 0 β 1 x i 2. Idé: Residualer e i = y i ˆβ 0 ˆβ 1 x i. 3. Problem: kan vise at e i kommer fra N ( 0,σ 2 (1 h i ) ) -ford., med h i = 1 n + (x i x) 2 n (x i x) 2 Standardiserede residualer fra N ( 0,σ 2) : e i = e i 1 hi. Tegn standardiserede residualer mod forventede værdier: Tegn: (ˆβ0 + ˆβ 1 x i,e i), i = 1,2,...,n. Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Figur 6.5: Mobility data; least squares linien.
6.3 Simpel lineær regression 12 standardised residuals -0.05 0.0 0.05 0.10 normal quantiles -2-1 0 1 2 0.30 0.35 0.40 fitted values -0.05 0.0 0.05 0.10 observed quantiles Figur 6.6: Isforbrug og temperatur: modelcheck. normal quantiles -2-1 0 1 2-0.04-0.02 0.0 0.02 0.04 0.06 0.08 observed quantiles Figur 6.7: Isforbrug og temperatur: fraktildiagram uden outlier.
6.3 Simpel lineær regression 13 standardised residuals -0.04-0.02 0.0 0.02 0.04 0.06 0.08 0.25 0.30 0.35 0.40 0.45 0.50 fitted values Figur 6.8: Isforbrug og temperatur: residualplot. normal quantiles -2-1 0 1 2 residuals -0.6-0.4-0.2 0.0 0.2-0.6-0.4-0.2 0.0 0.2 observed quantiles 1.0 1.5 2.0 2.5 fitted values Figur 6.9: Strøm og vind: modelcheck.
6.3 Simpel lineær regression 14 normal quantiles -2-1 0 1 2 residuals -0.2-0.1 0.0 0.1-0.2-0.1 0.0 0.1 observed quantiles 0.5 1.0 1.5 2.0 fitted values Figur 6.10: Strøm og 1/vind: modelcheck. standardised residuals -4-2 0 2 4 6 normal quantiles -2-1 0 1 2 40 42 44 46 48 50 52 fitted values -4-2 0 2 4 6 observed quantiles Figur 6.11: Mobilitet af ældre: modelcheck. Hvis plottet viser krum form: Antagelse 3 forkert.
6.3 Simpel lineær regression 15 trompetform: Antagelse 4 forkert intet mønster: Antagelser (formentlig) OK Resumé: Model hvor Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. Estimat for hældning ˆβ 1 = n (x i x)(y i ȳ) n n (x i x) 2 = y i(x i x) hvor = n (x i x) 2. For intercept ˆβ 0 = ȳ ˆβ 1 x og for varians med n 2 frihedsgrader. MSE = 1 n 2 (y i ˆβ 0 ˆβ ) 2 1 x i 6.3.4 Inferens Vi ønsker at lave test og konfidensintervaller for parametrene i regressionsmodellen. Estimatorernes fordeling Hældning: intercept ( σ ˆβ 2 ) 1 N β 1,, ( )] 1n ˆβ 0 N [β 0,σ 2 + x2. Bevis: Både ˆβ 1 og ˆβ 0 er linearkombinationer af Y i -erne, og er dermed normalfordelt. Nok at finde E og Var. 1. Hældning: Husk: ˆβ 1 = n Y i(x i x).
6.3 Simpel lineær regression 16 Middelværdi ) E (ˆβ1 n = E(Y i) (x i x) n = (β 0 + β 1 x i ) (x i x) n = β (x i x) n 0 + β x i(x i x) 1 = β 1, da n (x i x) = 0 og n x i(x i x) =. Varians da n (x i x) 2 =. 2. Intercept: Husk ) Var (ˆβ1 ) Middelværdi: Da E (ˆβ1 = β 1 og ) følger det at E (ˆβ0 = β 0. E ( Ȳ ) = n = Var (Y i) (x i x) 2 2 n = σ 2 (x i x) 2 2 = σ2, ˆβ 0 = Ȳ ˆβ 1 x. 1 n (β 0 + β 1 x i ) = β 0 + β 1 1 n = β 0 + β 1 x Varians: Man kan vise, at ˆβ 0 og Ȳ er uafhængige og Var ( Ȳ ) = σ 2 /n. Derfor ) Var (ˆβ1 x i = Var ( Ȳ ) ) + x 2 Var (ˆβ1 = σ2 n + x2 σ2. At ˆβ ) 0 og (ˆβ0 Ȳ er uafhængige følger af at Cov,Ȳ = 0 (en simpel udregning).
6.3 Simpel lineær regression 17 Hældning Da er standardfejlen for ˆβ 1 givet ved idet MSE er estimatet for σ 2. ( σ ˆβ 2 ) 1 N β 1,, SE = MSE, Man kan så vise, at ˆβ 1 β 1 SE t n 2. Konfidensinterval for hældningen: L 100% konfidensinterval C.I. L (y) for β 1 er givet ved endepunkterne: ˆβ 1 ± SE t n 2,(1+L)/2. Test for hældningen: baseres på H 0 : β 1 = β 10 ˆβ 1 β 10 SE H 0 t n 2 Som alternative hypoteser bruges de samme som i Modul 5, altså Intercept Da 1. H a : β 1 β 10, som betyder, at hældningen er forskellig fra β 10. 2. H a+ : β 1 > β 10, som betyder, at hældningen er større end β 10. 3. H a : β 1 < β 10, som betyder, at hældningen er mindre end β 10. er standardfejlen for ˆβ 0 givet ved idet MSE er estimatet for σ 2. ( )] 1n ˆβ 0 N [β 0,σ 2 + x2 SE = MSE ( ) 1 n + x2,
6.3 Simpel lineær regression 18 Man kan så vise, at ˆβ 0 β 0 SE t n 2. Konfidensinterval for intercept: L 100% konfidensinterval C.I. L (y) for β 0 er givet ved endepunkterne: ˆβ 0 ± SE t n 2,(1+L)/2. Test for intercept: baseres på H 0 : β 0 = β 00 ˆβ 0 β 00 SE H 0 t n 2 Alternative hypoteser: H a, H a+ eller H a på samme facon som ovenfor. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = 61.314 1.340x. 95% konfidensintervaller: β 0 : C.I. 0.95 (y) = (54.143,68.484), β 1 : C.I. 0.95 (y) = ( 1.953, 0.728). Brug af SAS output De vigtigste ting fra SAS/Insight output for mobilitetsdata.
6.3 Simpel lineær regression 19 Figur 6.12: SAS analyse af mobilitetsdata. Model equation giver formlen for den fittede (least squares) linie. Parametric Regression Fit: 1. Degree (Polynomial): Der fittes en ret linie, som er et polynomium af grad 1. 2. Error: DF = frihedsgrader, dvs. n 2. Mean Square = MSE. Summary of Fit: 1. R-Square = R 2. 2. Root MSE = MSE. Parameter Estimates: 1. Estimate: ˆβ0 og ˆβ 1. 2. Std Error: SE 3. t Stat: t-test for hypotesen, at den pågældende parameter er 0. 4. Pr > t : p-værdi for t-testen. Konfidensinterval for β 1 : Med tabelopslag t 14,0.975 = 2.1448 er konfidensintervallet givet ved 1.3404 ± 0.2854 2.1448 som stemmer overens med intervallet angivet ovenfor. Konfidensinterval for β 0 : Kan findes på samme måde ud fra tabellen med estimater.
6.3 Simpel lineær regression 20 6.3.5 Prædiktion Vi ønsker nu at udføre prædiktion af en fremtidig observation. Forventet middelrespons Ny værdi af den forklarende variabel x = x 0. Lad Y = Y 0 være den tilsvarende responsvariabel. Middelværdi for Y 0 er men vi kender ikke β 0 og β 1. E(Y 0 ) = β 0 + β 1 x 0, I stedet bruger vi forventet middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Middelværdi og varians af Ŷ0 ) E (Ŷ0 = E (ˆβ0 + ˆβ ) 1 x 0 = β 0 + β 1 x 0. ) Var (Ŷ0 = Var (ˆβ0 + ˆβ ) ( 1 1 x 0 = σ 2 n + (x 0 x) 2 ). Bevis: Resultatet følger af ˆβ 0 + ˆβ 1 x 0 = Ȳ + ˆβ 1 (x 0 x), idet de to led er uafhængige. Det følger, at standardfejlen for Ŷ0 er SE = MSE [ 1 n + (x 0 x) 2 ]. 95% konfidensinterval for middelrespons C.I. 0.95 (y) er givet ved: Ŷ 0 ± SE t n 2,0.975 Kan også lave test for hvor µ 0 er et givet tal. H 0 : β 0 + β 1 x 0 = µ 0, Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = 61.314 1.340x.
6.3 Simpel lineær regression 21 Forventet middelrespons for x 0 = 10: For at finde SE på Ŷ0 skal vi bruge. ŷ 0 = 61.314 1.340 10 = 47.914. Figur 6.13: SAS nøglestørrelser for mobilitetsdata. Fra nøglestørrelser for x finder vi = 106.91 (ses under CSS, Corrected Sum of Squares). SE for Ŷ0 er SE = 8.7088 [ ] 1 (10 11.425)2 + = 0.8424 16 106.91 95% konfidensinterval for forventet Berg score, for person med TUG score 10 er givet ved 47.914 ± 0.8424 2.1448, altså C.I. 0.95 (y) = (46.107,49.720).
6.3 Simpel lineær regression 22 Ny respons For x = x 0 er ny respons: Y 0 = β 0 + β 1 x 0 + ɛ 0, med ɛ 0 N ( 0,σ 2). Det antages at ɛ 0 er uafhængig af ɛ 1,...,ɛ n. Dvs. Y 0,Y 1,...,Y n er indbyrdes uafhængige. Vi prædikterer igen Y 0 ved den forventede middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Bemærk at Y 0 og Ŷ0 er uafhængige, så ( ) ) Var Y 0 Ŷ0 = Var (Y 0 ) + Var (Ŷ0 ( 1 = σ 2 + σ 2 n + (x 0 x) 2 ) ( = σ 2 1 + 1 n + (x 0 x) 2 ) Fortolkning: Usikkerheden i prædiktionen kommer fra to kilder: 1. Estimaterne ˆβ 0 og ˆβ 1. 2. Fejlleddet ɛ 0. Da ɛ 0 er uafhængig af ˆβ 0 og ˆβ 1, skal de to varianser lægges sammen. Estimat for spredning: SE = MSE [ 1 + 1 n + (x 0 x) 2 ]. 95% tosidet prædiktionsinterval er givet ved: P.I. 0.95 (y) = (Ŷ0 ± SE t n 2,0.975 ). Bemærk: Vi kalder det for et prædiktionsinterval (P.I.), fordi det vedrører den fremtidige observerede værdi af en stokastisk variabel Y 0 og ikke værdien af en ukendt parameter. Fortolkning: Hvis vi hver gang påstår at Y 0 tilhører P.I. L (y) vil vi have ret med sandsynlighed L. Det er vigtigt at skelne mellem middelrespons og ny respons.
6.3 Simpel lineær regression 23 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: Forventet middelrespons for x 0 = 10: y = 61.314 1.340x. ŷ 0 = 61.314 1.340 10 = 47.914. SE for Ŷ0 er SE = 8.7088 [ 1 + 1 ] (10 11.425)2 + = 3.0690 16 106.91 95% prædiktionsinterval for Berg score, for person med TUG score 10, er givet ved 47.914 ± 3.0690 2.1448, altså P.I. 0.95 (y) = (41.332,54.496). Vi kan altså forvente, at en fremtidig måling af Berg score på en sådan person med 95% sikkerhed vil ligge mellem 41.332 og 54.496.