Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1
Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
er relateret til EN ELLER FLERE forklarende variable uafhængige variable regressionsvariable X variable kovariater 3
Typer af udfaldsvariable Typen af UDFALDS-variablen bestemmer hvilken slags regressionsmodel der er relevant Y Model 0-1 ( binær ) logistisk regression Kvantitativ lineær regression Overlevelsestid ( rate ) Cox (Poisson) regression 4
Fortolkningen af effekten af en forklarende variabel afhænger også af typen af udfaldsvariabel (dvs. typen af regressionsmodel): Model logistisk regression lineær Cox (Poisson) effekt OR, log(or) forskel i middelværdier rate ratio, log(rate ratio) 5
Typer af forklarende variable I ALLE typer regressionsmodeler kan man betragte TO slags forklarende variable: kategoriske (specielt binære) kvantitative grupper linier For en kategorisk forklarende variabel svarer effekten til forskelle mellem grupper: logistisk regression lineær regression Cox (Poisson) regression log(or) middelværdier log(rate ratio) 6
For en kvantitativ forklarende variabel X svarer effekten til forskelle i log(or) / middelværdi / log(rate ratio) per enhed af X. NOTE: Denne linearitet er en modelantagelse der bør tjekkes! 7
En illustration: Lineær regression for et kvantitativt udfald, f.eks Framingham data Y = SBP (blodtryk), X = alder, kvantitativ forklarende variabel > framingdata <- read.table("framingham.txt",header=true) > dimnames(framingdata)[[2]] [1] "SEX" "AGE" "SBP" > attach(framingdata) > plot(age, SBP) 8
45 50 55 60 100 150 200 250 300 AGE SBP 9
Model: Y i = a + bx i + ε i hvor ε i N(0, σ 2 ) Da ε i N(0, σ 2 ) er Y i N(a + bx i, σ 2 ) Linien (a + bx) er fittet ved mindste-kvadraters metoden (least-squares), dvs estimaterne for a og b minimerer kvadratsummen (sum of squares): SSD l = i (Y i a bx i ) 2 = i ( Yi α β(x i X) ) 2 b = β er effekten af alder på blodtrykket, a = α β X er interceptet 10
dssd l dα = 2 i ( Yi α β(x i X) ) ( = 2 (Y i α) β i i = 2 (Y i α) i ( Xi X )) ˆα = 1 n Y i = Ȳ i 11
dssd l dβ = 2 (X i X) ( Y i α β(x i X) ) i ( = 2 (X i X) (Y i α) β i i ( Xi X ) 2 ) ˆβ = i (X i X) ( Y i Ȳ ) ( i Xi X ) 2 = i (X i X) ( Y i Ȳ ) SSD X 12
> SSDx <- sum((age - mean(age))^2) > SSDx [1] 32165.28 > alphahat <- mean(sbp) > alphahat [1] 148.1259 > betahat <- sum((sbp - mean(sbp))*(age - mean(age))) / SSDx > betahat [1] 1.042994 > ahat <- mean(sbp) - betahat*mean(age) > ahat [1] 93.42583 13
> model1 <- lm(sbp ~ AGE, data = framingdata) > model1 Call: lm(formula = SBP ~ AGE, data = framingdata) Coefficients: (Intercept) AGE 93.426 1.043 Sammenlign med > c(ahat,betahat) [1] 93.425830 1.042994 14
Estimeret regressionslinie: SBP = 93.43 + 1.04 alder Lad os plotte: > plot(age, SBP) > abline(model1) Fortolkning? 15
45 50 55 60 100 150 200 250 300 AGE SBP 16
> summary(model1) Call: lm(formula = SBP ~ AGE, data = framingdata) Residuals: Min 1Q Median 3Q Max -61.833-18.533-4.919 13.360 155.467 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 93.4258 8.1017 11.53 < 2e-16 *** AGE 1.0430 0.1538 6.78 1.77e-11 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 17
Residual standard error: 27.59 on 1404 degrees of freedom Multiple R-Squared: 0.0317,Adjusted R-squared: 0.03101 F-statistic: 45.96 on 1 and 1404 DF, p-value: 1.768e-11 18
Husk at vi havde > dimnames(framingdata)[[2]] [1] "SEX" "AGE" "SBP" > plot(sex, SBP) 19
0.0 0.2 0.4 0.6 0.8 1.0 100 150 200 250 300 SEX SBP 20
En binær forklarende variabel: køn Z = 1 mænd 0 kvinder Model: Y i = a + cz i + ε i (a + c) + ε i (mænd) = a + ε i (kvinder) c = kønseffekt 21
Model: Y i = a + cz i + ε i (a + c) + ε i (mænd) = a + ε i (kvinder) c = kønseffekt a og c estimeret ved mindste kvadraters metode a gennemsnit af Y for kvinder = 152.0 c gennemsnit af Y for mænd minus gennemsnit af Y for kvinder = 143.9-152.0 = -8.1 22
> model2 <- lm(sbp ~ SEX, data = framingdata) > model2 Call: lm(formula = SBP ~ SEX, data = framingdata) Coefficients: (Intercept) SEX 151.969-8.076 23
> mean(sbp[sex == 1]) [1] 143.8924 > mean(sbp[sex == 0]) [1] 151.9688 > mean(sbp[sex == 1]) - mean(sbp[sex == 0]) [1] -8.076416 Sammenlign med forrige slide: > coef(model2) (Intercept) SEX 151.968792-8.076416 24
To forklarende variable: alder og køn Mulig model: Y i = a + bx i + cz i + ε i (a + c) + bx i + ε i (mænd) = a + bx i + ε i (kvinder) NB: Samme alderseffekt (b) for både mænd og kvinder Samme kønseffekt (c) for alle aldre interaktion Ingen effekt-modifikation 25
> model3 <- lm(sbp ~ AGE + SEX, data = framingdata) > model3 Call: lm(formula = SBP ~ AGE + SEX, data = framingdata) Coefficients: (Intercept) AGE SEX 96.874 1.051-8.176 26
Her, parallelle linier: SBP = 96.9 + 1.05 alder for kvinder SBP = 96.9 8.2 + 1.05 alder = 88.7 + 1.05 alder for mænd 27
> a <- coef(model3)["(intercept)"] > a (Intercept) 96.87426 > b <- coef(model3)["age"] > b AGE 1.051417 > c <- coef(model3)["sex"] > c SEX -8.175771 > plot(age,sbp) > abline(a,b,col="red") > abline((a+c),b,col="blue") 28
45 50 55 60 100 150 200 250 300 AGE SBP 29
> summary(model3) Call: lm(formula = SBP ~ AGE + SEX, data = framingdata) Residuals: Min 1Q Median 3Q Max -65.754-18.622-4.563 13.349 151.606 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 96.8743 8.0388 12.051 < 2e-16 *** AGE 1.0514 0.1522 6.908 7.44e-12 *** SEX -8.1758 1.4577-5.609 2.45e-08 *** [...] 30
Problemstilling og hypoteser REGRESSIONSANALYSE Regressionsmodeller anvendes til at beskrive sammenhænge mellem en stokastisk responsvariabel og en eller flere forklarende variable. De forklarende variable kaldes også regressionsvariable eller baggrundsvariable. Økonomi: baggrundsvariabel = eksogen variabel responsvariabel = endogen variabel Simpleste beskrivelse er en lineær funktion y(t) = ν + βt 31
Observationer n par af sammenhørende observationer (t 1, x 1 ),..., (t n, x n ) hvor t erne er kendte tal, og x erne stammer fra normalfordelinger med samme varians, men hvor middelværdien kan afhænge af t. Grafisk analyse Afsætte x erne mod t erne i et diagram (scatterplot) for at se om observationerne tilnærmelsesvis ligger på en ret linie. Residualanalyse. Transformation af variable. 32
Formalisering Observationssæt t x t 1 x 1...... t n x n Realisationer af stokastiske variable X r, r = 1,..., n X r erne er indbyrdes uafhængige. X r N(ν + βt r, σ 2 ) 33
Regressionslinie og hypoteser Lineær regressionsmodel: y(t) = ν + βt Parameteren β beskriver, hvorledes middelværdien ændrer sig, når værdien af t ændrer sig, mens ν angiver middelværdien svarende til t=0, altså skæringen med y aksen. Inter- og ekstrapolation. 34
Hypoteseskema y(t) = ν + βt y(t) = ν 0 + βt y(t) = ν + β 0 t y(t) = ν 0 + β 0 t 35
Lineær regression Lad x = (x r ) r=1,...,n og t = (t r ) r=1,...,n, hvor x r R og t r R. Realisationer af stokastiske variable X r, r = 1,..., n. X r erne er indbyrdes uafhængige. Ny parametrisering Regressionslinien bliver X r N(ν + βt r, σ 2 ) EX r = α + β(t r t) for r = 1,..., n y(t) = α + β(t t) og liniens skæring med y aksen bliver α β t. 36
Notation Lad x = (x r ) r=1,...,n og t = (t r ) r=1,...,n, hvor x r R og t r R n x = 1 n t = 1 n SSD t = ˆβ = SSD l = r=1 n r=1 x r t r n (t r t) 2 r=1 n r=1 (x r x)(t r t) n r=1 (t r t) 2 = n (x r x ˆβ(t r t)) 2 r=1 n r=1 (x r x)(t r t) SSD t 37
Fordelingsresultater X = (X r ) r=1,...,n, hvor X r N(α + β(t r t), σ 2 ) og uafhængige. (a) Observationernes simultane tæthed er n { 1 ϕ α,β,σ 2(x) = exp 1 } r=1 2πσ 2 2σ 2 (x r α β(t r t)) 2 { } 1 = ( 2πσ 2 ) exp 1 n n 2σ 2 (x r α β(t r t)) 2 (b) X N(α, 1 n σ2 ). (c) ˆβ N(β, 1 SSD t σ 2 ). (d) X, ˆβ og SSD l er uafhængige. (e) SSD l σχ 2 n 2. r=1 BEVIS: Se tavlen. 38
Estimation i Linearitetsmodellen Linearitetsmodel M l : EX r = α + β(t r t), (α, β) R 2, Parameterområde under modellen Θ 0 = R 2 ]0, [ x er observation fra den statistiske model (R n, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) hvor N α,β,σ 2 ϕ α,β,σ 2(x) = har tæthed 1 ( 2πσ 2 ) n exp { 1 2σ 2 } n (x r α β(t r t)) 2 r=1 39
Log-likelihood: l = log ϕ α,β,σ 2(x) = n log( 2πσ 2 ) 1 2σ 2 n (x r α β(t r t)) 2 r=1 Score-funktioner: dl dα = 1 n σ 2 (x r α β(t r t)) (Hvor har vi set det før?) dl dβ r=1 = 1 n σ 2 (t r t)(x r α β(t r t)) (Og det her?) r=1 dl dσ 2 = n 2σ 2 + 1 2σ 4 n (x r α β(t r t)) 2 r=1 40
MLE for (α, β, σ 2 ) er entydigt givet ved ˆα = x ˆβ = n r=1 (x r x)(t r t) SSD t ˆσ l 2 = 1 n (x r x n r t)) 2 r=1 ˆα, ˆβ og ˆσ 2 l er uafhængige og ˆα N(α, 1 n σ2 ) ˆβ N(β, SSD l = nˆσ 2 l σ 2 χ 2 n 2 Fordelingsudsagnene følger af Sætning 12.2.1. σ 2 SSD t ) 41
Bemærkninger Maximum likelihood estimatorerne eksisterer med sandsynlighed 1. Under M l gælder Eˆσ 2 l = n 2 n σ2. I almindelighed bruger man derfor s 2 l = 1 n 2 n (x r x ˆβ(t r t)) 2 r=1 som estimator for σ 2, da Es 2 l = σ2. 42
Konklusioner Estimatet for regressionslinien y(t) bliver ŷ(t) = x + ˆβ(t t). Den stokastiske variabel Y (t) = X + ˆβ(t r t) har fordeling Y (t) N(α + β(t t), σ 2 ( 1 n + (t t) 2 SSD t ). Variansen på den estimerede regressionslinie vokser med afstanden til t, således at regressionslinien er bedst bestemt nær t. I praktiske anvendelser indsættes ( x, ˆβ, s 2 l ) i stedet for parameterværdierne, når man skal angive estimatorernes og den estimerede regressionslinies fordelinger. 43