Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Relaterede dokumenter
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Lineær og logistisk regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Opgavebesvarelse, brain weight

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Nanostatistik: Lineær regression

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02402/02323 Introducerende Statistik

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

(studienummer) (underskrift) (bord nr)

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Logistisk Regression - fortsat

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Modul 6: Regression og kalibrering

Logistisk regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Modul 11: Simpel lineær regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Lineær regression i SAS. Lineær regression i SAS p.1/20

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Multipel Lineær Regression

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Perspektiver i Matematik-Økonomi: Linær regression

To samhørende variable

Generelle lineære modeller

Module 4: Ensidig variansanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 11 Lineær regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Den lineære normale model

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik Lektion 16 Multipel Lineær Regression

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Appendiks Økonometrisk teori... II

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Lineære normale modeller (4) udkast

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Simpel Lineær Regression: Model

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Løsning til eksaminen d. 29. maj 2009

MPH specialmodul Epidemiologi og Biostatistik

(studienummer) (underskrift) (bord nr)

Kvantitative Metoder 1 - Efterår Dagens program

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Opgavebesvarelse, brain weight

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Løsning eksamen d. 15. december 2008

Opgavebesvarelse, brain weight

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Simpel Lineær Regression

Nanostatistik: Lineær regression

Morten Frydenberg 26. april 2004

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Module 12: Mere om variansanalyse

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Opgavebesvarelse, brain weight

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Transkript:

Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1

Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

er relateret til EN ELLER FLERE forklarende variable uafhængige variable regressionsvariable X variable kovariater 3

Typer af udfaldsvariable Typen af UDFALDS-variablen bestemmer hvilken slags regressionsmodel der er relevant Y Model 0-1 ( binær ) logistisk regression Kvantitativ lineær regression Overlevelsestid ( rate ) Cox (Poisson) regression 4

Fortolkningen af effekten af en forklarende variabel afhænger også af typen af udfaldsvariabel (dvs. typen af regressionsmodel): Model logistisk regression lineær Cox (Poisson) effekt OR, log(or) forskel i middelværdier rate ratio, log(rate ratio) 5

Typer af forklarende variable I ALLE typer regressionsmodeler kan man betragte TO slags forklarende variable: kategoriske (specielt binære) kvantitative grupper linier For en kategorisk forklarende variabel svarer effekten til forskelle mellem grupper: logistisk regression lineær regression Cox (Poisson) regression log(or) middelværdier log(rate ratio) 6

For en kvantitativ forklarende variabel X svarer effekten til forskelle i log(or) / middelværdi / log(rate ratio) per enhed af X. NOTE: Denne linearitet er en modelantagelse der bør tjekkes! 7

En illustration: Lineær regression for et kvantitativt udfald, f.eks Framingham data Y = SBP (blodtryk), X = alder, kvantitativ forklarende variabel > framingdata <- read.table("framingham.txt",header=true) > dimnames(framingdata)[[2]] [1] "SEX" "AGE" "SBP" > attach(framingdata) > plot(age, SBP) 8

45 50 55 60 100 150 200 250 300 AGE SBP 9

Model: Y i = a + bx i + ε i hvor ε i N(0, σ 2 ) Da ε i N(0, σ 2 ) er Y i N(a + bx i, σ 2 ) Linien (a + bx) er fittet ved mindste-kvadraters metoden (least-squares), dvs estimaterne for a og b minimerer kvadratsummen (sum of squares): SSD l = i (Y i a bx i ) 2 = i ( Yi α β(x i X) ) 2 b = β er effekten af alder på blodtrykket, a = α β X er interceptet 10

dssd l dα = 2 i ( Yi α β(x i X) ) ( = 2 (Y i α) β i i = 2 (Y i α) i ( Xi X )) ˆα = 1 n Y i = Ȳ i 11

dssd l dβ = 2 (X i X) ( Y i α β(x i X) ) i ( = 2 (X i X) (Y i α) β i i ( Xi X ) 2 ) ˆβ = i (X i X) ( Y i Ȳ ) ( i Xi X ) 2 = i (X i X) ( Y i Ȳ ) SSD X 12

> SSDx <- sum((age - mean(age))^2) > SSDx [1] 32165.28 > alphahat <- mean(sbp) > alphahat [1] 148.1259 > betahat <- sum((sbp - mean(sbp))*(age - mean(age))) / SSDx > betahat [1] 1.042994 > ahat <- mean(sbp) - betahat*mean(age) > ahat [1] 93.42583 13

> model1 <- lm(sbp ~ AGE, data = framingdata) > model1 Call: lm(formula = SBP ~ AGE, data = framingdata) Coefficients: (Intercept) AGE 93.426 1.043 Sammenlign med > c(ahat,betahat) [1] 93.425830 1.042994 14

Estimeret regressionslinie: SBP = 93.43 + 1.04 alder Lad os plotte: > plot(age, SBP) > abline(model1) Fortolkning? 15

45 50 55 60 100 150 200 250 300 AGE SBP 16

> summary(model1) Call: lm(formula = SBP ~ AGE, data = framingdata) Residuals: Min 1Q Median 3Q Max -61.833-18.533-4.919 13.360 155.467 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 93.4258 8.1017 11.53 < 2e-16 *** AGE 1.0430 0.1538 6.78 1.77e-11 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 17

Residual standard error: 27.59 on 1404 degrees of freedom Multiple R-Squared: 0.0317,Adjusted R-squared: 0.03101 F-statistic: 45.96 on 1 and 1404 DF, p-value: 1.768e-11 18

Husk at vi havde > dimnames(framingdata)[[2]] [1] "SEX" "AGE" "SBP" > plot(sex, SBP) 19

0.0 0.2 0.4 0.6 0.8 1.0 100 150 200 250 300 SEX SBP 20

En binær forklarende variabel: køn Z = 1 mænd 0 kvinder Model: Y i = a + cz i + ε i (a + c) + ε i (mænd) = a + ε i (kvinder) c = kønseffekt 21

Model: Y i = a + cz i + ε i (a + c) + ε i (mænd) = a + ε i (kvinder) c = kønseffekt a og c estimeret ved mindste kvadraters metode a gennemsnit af Y for kvinder = 152.0 c gennemsnit af Y for mænd minus gennemsnit af Y for kvinder = 143.9-152.0 = -8.1 22

> model2 <- lm(sbp ~ SEX, data = framingdata) > model2 Call: lm(formula = SBP ~ SEX, data = framingdata) Coefficients: (Intercept) SEX 151.969-8.076 23

> mean(sbp[sex == 1]) [1] 143.8924 > mean(sbp[sex == 0]) [1] 151.9688 > mean(sbp[sex == 1]) - mean(sbp[sex == 0]) [1] -8.076416 Sammenlign med forrige slide: > coef(model2) (Intercept) SEX 151.968792-8.076416 24

To forklarende variable: alder og køn Mulig model: Y i = a + bx i + cz i + ε i (a + c) + bx i + ε i (mænd) = a + bx i + ε i (kvinder) NB: Samme alderseffekt (b) for både mænd og kvinder Samme kønseffekt (c) for alle aldre interaktion Ingen effekt-modifikation 25

> model3 <- lm(sbp ~ AGE + SEX, data = framingdata) > model3 Call: lm(formula = SBP ~ AGE + SEX, data = framingdata) Coefficients: (Intercept) AGE SEX 96.874 1.051-8.176 26

Her, parallelle linier: SBP = 96.9 + 1.05 alder for kvinder SBP = 96.9 8.2 + 1.05 alder = 88.7 + 1.05 alder for mænd 27

> a <- coef(model3)["(intercept)"] > a (Intercept) 96.87426 > b <- coef(model3)["age"] > b AGE 1.051417 > c <- coef(model3)["sex"] > c SEX -8.175771 > plot(age,sbp) > abline(a,b,col="red") > abline((a+c),b,col="blue") 28

45 50 55 60 100 150 200 250 300 AGE SBP 29

> summary(model3) Call: lm(formula = SBP ~ AGE + SEX, data = framingdata) Residuals: Min 1Q Median 3Q Max -65.754-18.622-4.563 13.349 151.606 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 96.8743 8.0388 12.051 < 2e-16 *** AGE 1.0514 0.1522 6.908 7.44e-12 *** SEX -8.1758 1.4577-5.609 2.45e-08 *** [...] 30

Problemstilling og hypoteser REGRESSIONSANALYSE Regressionsmodeller anvendes til at beskrive sammenhænge mellem en stokastisk responsvariabel og en eller flere forklarende variable. De forklarende variable kaldes også regressionsvariable eller baggrundsvariable. Økonomi: baggrundsvariabel = eksogen variabel responsvariabel = endogen variabel Simpleste beskrivelse er en lineær funktion y(t) = ν + βt 31

Observationer n par af sammenhørende observationer (t 1, x 1 ),..., (t n, x n ) hvor t erne er kendte tal, og x erne stammer fra normalfordelinger med samme varians, men hvor middelværdien kan afhænge af t. Grafisk analyse Afsætte x erne mod t erne i et diagram (scatterplot) for at se om observationerne tilnærmelsesvis ligger på en ret linie. Residualanalyse. Transformation af variable. 32

Formalisering Observationssæt t x t 1 x 1...... t n x n Realisationer af stokastiske variable X r, r = 1,..., n X r erne er indbyrdes uafhængige. X r N(ν + βt r, σ 2 ) 33

Regressionslinie og hypoteser Lineær regressionsmodel: y(t) = ν + βt Parameteren β beskriver, hvorledes middelværdien ændrer sig, når værdien af t ændrer sig, mens ν angiver middelværdien svarende til t=0, altså skæringen med y aksen. Inter- og ekstrapolation. 34

Hypoteseskema y(t) = ν + βt y(t) = ν 0 + βt y(t) = ν + β 0 t y(t) = ν 0 + β 0 t 35

Lineær regression Lad x = (x r ) r=1,...,n og t = (t r ) r=1,...,n, hvor x r R og t r R. Realisationer af stokastiske variable X r, r = 1,..., n. X r erne er indbyrdes uafhængige. Ny parametrisering Regressionslinien bliver X r N(ν + βt r, σ 2 ) EX r = α + β(t r t) for r = 1,..., n y(t) = α + β(t t) og liniens skæring med y aksen bliver α β t. 36

Notation Lad x = (x r ) r=1,...,n og t = (t r ) r=1,...,n, hvor x r R og t r R n x = 1 n t = 1 n SSD t = ˆβ = SSD l = r=1 n r=1 x r t r n (t r t) 2 r=1 n r=1 (x r x)(t r t) n r=1 (t r t) 2 = n (x r x ˆβ(t r t)) 2 r=1 n r=1 (x r x)(t r t) SSD t 37

Fordelingsresultater X = (X r ) r=1,...,n, hvor X r N(α + β(t r t), σ 2 ) og uafhængige. (a) Observationernes simultane tæthed er n { 1 ϕ α,β,σ 2(x) = exp 1 } r=1 2πσ 2 2σ 2 (x r α β(t r t)) 2 { } 1 = ( 2πσ 2 ) exp 1 n n 2σ 2 (x r α β(t r t)) 2 (b) X N(α, 1 n σ2 ). (c) ˆβ N(β, 1 SSD t σ 2 ). (d) X, ˆβ og SSD l er uafhængige. (e) SSD l σχ 2 n 2. r=1 BEVIS: Se tavlen. 38

Estimation i Linearitetsmodellen Linearitetsmodel M l : EX r = α + β(t r t), (α, β) R 2, Parameterområde under modellen Θ 0 = R 2 ]0, [ x er observation fra den statistiske model (R n, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) hvor N α,β,σ 2 ϕ α,β,σ 2(x) = har tæthed 1 ( 2πσ 2 ) n exp { 1 2σ 2 } n (x r α β(t r t)) 2 r=1 39

Log-likelihood: l = log ϕ α,β,σ 2(x) = n log( 2πσ 2 ) 1 2σ 2 n (x r α β(t r t)) 2 r=1 Score-funktioner: dl dα = 1 n σ 2 (x r α β(t r t)) (Hvor har vi set det før?) dl dβ r=1 = 1 n σ 2 (t r t)(x r α β(t r t)) (Og det her?) r=1 dl dσ 2 = n 2σ 2 + 1 2σ 4 n (x r α β(t r t)) 2 r=1 40

MLE for (α, β, σ 2 ) er entydigt givet ved ˆα = x ˆβ = n r=1 (x r x)(t r t) SSD t ˆσ l 2 = 1 n (x r x n r t)) 2 r=1 ˆα, ˆβ og ˆσ 2 l er uafhængige og ˆα N(α, 1 n σ2 ) ˆβ N(β, SSD l = nˆσ 2 l σ 2 χ 2 n 2 Fordelingsudsagnene følger af Sætning 12.2.1. σ 2 SSD t ) 41

Bemærkninger Maximum likelihood estimatorerne eksisterer med sandsynlighed 1. Under M l gælder Eˆσ 2 l = n 2 n σ2. I almindelighed bruger man derfor s 2 l = 1 n 2 n (x r x ˆβ(t r t)) 2 r=1 som estimator for σ 2, da Es 2 l = σ2. 42

Konklusioner Estimatet for regressionslinien y(t) bliver ŷ(t) = x + ˆβ(t t). Den stokastiske variabel Y (t) = X + ˆβ(t r t) har fordeling Y (t) N(α + β(t t), σ 2 ( 1 n + (t t) 2 SSD t ). Variansen på den estimerede regressionslinie vokser med afstanden til t, således at regressionslinien er bedst bestemt nær t. I praktiske anvendelser indsættes ( x, ˆβ, s 2 l ) i stedet for parameterværdierne, når man skal angive estimatorernes og den estimerede regressionslinies fordelinger. 43