To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen mellem x og y? Hvordan påvirkes x af y? Eller y af x?
1. x er årsag til y. Jo mere vind, jo mere vindmøllestrøm produceres. 2. x og y påvirker hinanden. Prisen på et produkt hænger tæt sammen med efterspørgslen. 3. x og y kan begge være forårsaget af en tredje variabel z. Større næringsindhold i jorden medfører øget vækst for både nytteplanter og ukrudt. 4. x og y kan hænge sammen ved rene tilfældigheder. Små datasæt har ofte "mærkelige" strukturer.
Empirisk kovarians og korrelation Empirisk kovarians: n s xy 1 n 1 i 1 x i x y i ȳ. Korrelationskoefficient: r xy 1, 1 r xy s xy s x s y n 1 n 1 i 1 x i x s x y i ȳ s y Determinationskoefficient: r xy 2 0, 1, udtrykkes ofte i procent. Mål for associationen mellem x og y.
Simpel lineær regression Antagatviharn observationspar x 1, y 1,, x n,y n. Angiver samhørende værdier for variablene x og y. Linear regression adskiller sig fra korrelation ved følgende: 1. Vi ønsker at prædiktere (forudsige) y fra x. 2. Vi skal vælge en responsvariabel y og en forklarende variabel x. Eksempel Vindenergi En undersøgelse blev lavet for at finde ud af, hvordan strømproduktionen (y) fra vindmøller afhænger af vindhastigheden (x).
Current output 2.0 1.5 1.0 0.5 0.0 4 6 8 10 Wind speed Strømproduktion og vindhastighed.
Vi ønsker at prædiktere y ud fra x. Der skelnes mellem to tilfælde: 1. x er kontrolleret (konstant), mens y svarer til en stokastisk variabel Y. 2. x svarer til en stokastisk variabel X ligesåvelsomy svarer til Y. Vi taler også om regression af y på x. I begge tilfælde (1. og 2.) behandler vi x som konstant og Y som stokastisk. Bemærk: r xy og s xy spiller en vis praktisk rolle i regression, men da x betragtes som konstant, giver X, Y ikke altid mening.
Eksempel Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x, hurtig, men ikke særlig præcis) Berg score (y, langsom, men præcis) Begge svarer til stokastiske variable, hhv. X og Y.
Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Berg score mod TUG score.
Den lineære regressionsmodel Data x 1, y 1,, x n, y n, hvor x 1,,x n er konstanter. y 1,, y n er observationer fra uafhængige stokastiske variable Y 1,, Y n. Sammenængen mellem x og Y er givet ved Y i x i e i, i 1,,n,, R er ukendte regressionsparametre. Om fejlleddet e i gælder e i N 0, 2 for i 1,, n uafhængige. 2 kaldes for variansparameteren, eller residualvariansen.
Model Y i x i e i, i 1,, n, uafhængige. Sammenfatning: Dererfireantagelserilineærregression: 1. Y 1,, Y n er indbyrdes uafhængige. 2. e i -erne er normalfordelte. 3. Lineær sammenhæng mellem x og y: y x 4. Variansen er konstant (den samme for alle i) Var Y i Var e i 2 for i 1,,n. Fortolkning af regressionsparametre: : Forventet værdi af Y, når x 0. : Forventet ændring i Y, når værdien af x øges til x 1.
2 : Den lodrette variation for hver givet værdi af x.
Estimation af parametre Find den rette linje som passer bedst med data: y x Her er og estimater for parametrene. Residualer: de lodrette afvigelser mellem data og linje ê i y i x i, i 1,,n. Vælg og så residualerne er små i absolut værdi.
Least squares (mindste kvadraters) metoden Minimer kvadratsummen af fejlled m.h.t. og : Løs n i 1 n i 1 n e i 2 i 1 e i 2 0og y i x i 2. n i 1 e i 2 0. Least squares (mindste kvadraters) estimater: n x i 1 i x y i ȳ n s xy x i x 2 i 1 ȳ x s x 2 r xy s y s x
Estimeret regressionslinje: y x. Fittede (prædikterede) værdier: ŷ i x i, i 1, 2,,n. Eksempel Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score x og Berg score Y. Least squares linjen: y 61. 314 1. 340x.
Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Mobilitetsdata: de observerede residualer.
Estimat af residualvarians: 2 s 2 1 n 2 y i 2 x i. i 1 (Residual Mean Square Error). Har n 2 frihedsgrader. Bemærk: Måler variationen omkring regressionslinjen. Unbiased estimat, dvs. har den korrekte middelværdi E S 2 2 n
Modelkontrol Modelantagelser for i 1,, n: Y i e i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E Y i x i E e i 0 4 Var Y i 2 Var e i 2 Check 2 med et QQ plot for standardiserede residualer Check 3 4 med residualplot for standardiserede residualer
Standardiserede residualer Check om e i N 0, 2 : 1. Skal bruge fejlledene e i Y i x i 2. Forslag: Brug residualerne ê i y i x i. 3. Problem: kanviseatê i kommer fra N 0, 2 1 h i,med h i 1 n x i x 2 n i 1 x i x 2 Standardiserede residualer fra N 0, 2 : ê i ê i. 1 h i Tegn standardiserede residualer mod forventede værdier:
Tegn: xi, ê i, i 1,2,,n.
Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Mobilitetsdata: least squares linjen.
standardised residuals -4-2 0 2 4 6 normal quantiles -2-1 0 1 2 40 42 44 46 48 50 52-4 -2 0 2 4 6 fitted values observed quantiles Mobilitetsdata: modelcheck.
normal quantiles -2-1 0 1 2 residuals -0.6-0.4-0.2 0.0 0.2-0.6-0.4-0.2 0.0 0.2 1.0 1.5 2.0 2.5 observed quantiles fitted values Strøm og vind: modelcheck.
Current output 2.0 1.5 1.0 0.5 0.0 4 6 8 10 Wind speed Strømproduktion og vindhastighed.
output 0.5 1.0 1.5 2.0 0.10 0.15 0.20 0.25 0.30 0.35 0.40 in vspeed Strømproduktion og 1/vindhastighed.
normal quantiles -2-1 0 1 2 residuals -0.2-0.1 0.0 0.1-0.2-0.1 0.0 0.1 0.5 1.0 1.5 2.0 observed quantiles fitted values Strøm og 1/vindhastighed: modelcheck.
Modelkontrol Y i e i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E Y i x i E e i 0 4 Var Y i 2 Var e i 2 Hvis residualplottet viser: Krum form: Antagelse 3 forkert. Trompetform: Antagelse 4 forkert. Intet mønster ("skyform"): Antagelser OK.
Resumé: Model hvor Y i x i e i, i 1,,n, e i N 0, 2 uafhængige i 1,,n. Estimat for hældning n x i 1 i x y i ȳ n n y i 1 i x i x x i x 2 SS X i 1 hvor SS X n i 1 x i x 2. Følger af at
n i 1 For intercept x i x y i ȳ n i 1 n i 1 n x i x y i ȳ i 1 x i x y i ȳ x x i x og for varians med n 2 frihedsgrader. n s 2 1 n 2 i 1 y i x i 2