Forelæsning 9: Multipel lineær regression

Størrelse: px
Starte visningen fra side:

Download "Forelæsning 9: Multipel lineær regression"

Transkript

1 Introduktion til Statistik Forelæsning 9: Multipel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark Efterår 2018 DTU Compute Introduktion til Statistik Efterår / 42

2 Kapitel 6: Multipel lineær regressions analyse Multipel lineær regressionsmodel Flere variabler: Y, x 1, x 2,... (y afhængig/respons var. og x er er forklarende/uafhængige var.) Mindstekvadraters rette plan (et plan da der er >2 dimensioner) Inferens for en multipel lineær regressionmodel Statistisk model: Y i = β 0 + β 1 x 1,i + β 2 x 2,i β 2 x p,i + ε i Estimation af konfidensintervaller og tests for β er Konfidensintervaller for modellen (middelplanet) Prædiktionsintervaller for nye punkter R 2 er andelen af den totale variationen som er forklaret af modellen Model validering af antagelser ved residual analyse Normalfordeling? q-q plots af residualer Uafhængighed? Plot residualer mod prædikterede værdier ŷ i og inputs x j,i DTU Compute Introduktion til Statistik Efterår / 42

3 Chapter 6: Multiple linear Regression Analysis Multipel lineær regressionsmodel Many quantitative variables: y, x 1, x 2,... (y is the dependent/response var. and x s are explanatory/independent var.) Calculating least squares surface (a plane surface since there are >2 dimensions) Inferences for a the multiple linear regression model Statistical model: y i = β 0 + β 1 x 1,i + β 2 x 2,i β 2 x p,i + ε i Confidence interval estimation and test for the β s Confidence interval for the model (the mean surface) Prediction interval for new points R 2 expresses the proportion of the total variation explained by the linear fit Model validation of assumptions with residual analysis Normal distribution? q-q plots of residuals Independence? Plot residuals against predicted values ŷ i and inputs x j,i DTU Compute Introduktion til Statistik Efterår / 42

4 Oversigt 1 Warm up med lidt simpel lineær reg. 2 Multipel lineær regression 3 Modeludvælgelse 4 Residual analyse (model kontrol) 5 Kurvelinearitet 6 Konfidens- og prædiktionsintervaller 7 Kollinearitet DTU Compute Introduktion til Statistik Efterår / 42

5 Warm up med lidt simpel lineær reg. Eksempel: Ozon koncentration Vi har givet et sæt af sammenhængende målinger af: ozon koncentration (ppb), temperatur, solindstråling og vindhastighed: ozone radiation wind temperature month day DTU Compute Introduktion til Statistik Efterår / 42

6 Warm up med lidt simpel lineær reg. Eksempel: Ozon koncentration Se info om data?airquality Indlæs data Air <- airquality Fjern rækker hvor der er mindst en NA værdi Air <- na.omit(air) Fjern en outlier Air <- Air[-which(Air$Ozone == 1), ] Se lige på empirisk tæthedsfunktion hist(air$ozone, probability=true, xlab="ozon", main="") Koncentrationer er positive og meget højre-skæv fordeling, derfor log transformer Air$logOzone <- log(air$ozone) Bedre epdf? hist(air$logozone, probability=true, xlab="log Ozon", main="") airquality data Lav en tid (R tidsklasse, se?posixct) Air$t <- ISOdate(1973, Air$Month, Air$Day) Behold kun nogle af kolonnerne Air <- Air[,c(7,4,3,2,8)] Nye navne på kolonnerne names(air) <- c("logozone","temperature","wind","radiation","t") Hvad er der i Air? str(air) Air head(air) tail(air) Typisk vil man starte med et pairs plot pairs(air, panel = panel.smooth, main = "airquality data") logozone temperature wind radiation May Jul Sep t May Jul Sep DTU Compute Introduktion til Statistik Efterår / 42

7 Warm up med lidt simpel lineær reg. Eksempel: Ozonkoncentration Lad os se på sammenhængen mellem log ozon koncentrationen og temperaturen Brug en simpel lineær regressionsmodel hvor Y i = β 0 + β 1 x i + ε i, ε i N(0,σ 2 ) og i.i.d. Y i er log ozonkoncentrationen for måling i x i er temperaturen ved måling i DTU Compute Introduktion til Statistik Efterår / 42

8 Warm up med lidt simpel lineær reg. Fit simpel lineær regressions model i R Antag at vi kun havde de første 20 datapunkter Er der afhængighed? Start med at sige at vi har 20 datapunkter Air20 <- Air[1:20, ] Se på sammenhængen mellem log(ozon) og temperatur plot(air20$temperature, Air20$logOzone, xlab="temperatur", ylab="log Ozon") Korrelation cor(air20$logozone, Air20$temperature) log Ozon Temperatur DTU Compute Introduktion til Statistik Efterår / 42

9 Warm up med lidt simpel lineær reg. Spørgsmål om signifikant korrelation (socrative.com-room:pbac) Se om der er signifikant korrelation med 20 observationer summary(lm(logozone ~ temperature, data=air20)) Call: lm(formula = logozone ~ temperature, data = Air20) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) temperature Residual standard error: 0.6 on 18 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 1.74 on 1 and 18 DF, p-value: Er der signifikant korrelation mellem logozone og temperature på 5% signifikansniveau? A: Ja B: Nej C: Ved ikke Svar B: Nej, da p-værdien for H 0 : β 1 = 0 er 0.20 > 0.05, dvs. H 0 accepteres DTU Compute Introduktion til Statistik Efterår / 42

10 Warm up med lidt simpel lineær reg. Tilføj en vektor med tilfældige værdier Simuler 20 uafhængige stokastiske variable og tilføj til data.frame Er der sammenhæng? Er der signifikant lineær sammenhæng (korrelation)? Air20$noise <- rnorm(20) plot(air20$noise, Air20$logOzone, xlab="noise", ylab="log Ozon") cor(air20$noise, Air20$logOzone) log Ozon Noise DTU Compute Introduktion til Statistik Efterår / 42

11 Warm up med lidt simpel lineær reg. Spørgsmål om signifikant korrelation (socrative.com-room:pbac) Se om der er signifikant korrelation med 20 observationer summary(lm(logozone ~ noise, data=air20)) Call: lm(formula = logozone ~ noise, data = Air20) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-13 *** noise Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.62 on 18 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 18 DF, p-value: Er der signifikant korrelation mellem logozone og noise på 5% signifikansniveau? A: Ja B: Nej C: Ved ikke Svar B: Nej, da p-værdien for H 0 : β 1 = 0 er 0.41 > 0.05, dvs. H 0 accepteres DTU Compute Introduktion til Statistik Efterår / 42

12 Warm up med lidt simpel lineær reg. Fit simpel lineær regressions model i R Nu tager vi alle observationer med. Er der sammenhæng? Er der signifikant lineær sammenhæng (korrelation)? plot(air$temperature, Air$logOzone, xlab="noise", ylab="log Ozon") cor(air$temperature, Air$logOzone) log Ozon Temperatur DTU Compute Introduktion til Statistik Efterår / 42

13 Warm up med lidt simpel lineær reg. Spørgsmål om signifikant korrelation (socrative.com-room:pbac) Se om der er signifikant korrelation med ALLE 110 OBSERVATIONER summary(lm(logozone ~ temperature, data=air)) Call: lm(formula = logozone ~ temperature, data = Air) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-04 *** temperature <2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.54 on 108 degrees of freedom Multiple R-squared: 0.549,Adjusted R-squared: F-statistic: 131 on 1 and 108 DF, p-value: <2e-16 Er der signifikant korrelation mellem logozone og temperature på 5% signifikansniveau? A: Ja B: Nej C: Ved ikke Svar A: Ja, da p-værdien for H 0 : β 1 = 0 er < 0.05, dvs. H 0 forkastes DTU Compute Introduktion til Statistik Efterår / 42

14 Warm up med lidt simpel lineær reg. Tilføj en vektor med tilfældige værdier Simuler 110 uafhængige stokastiske variabler og tilføj. Er der sammenhæng? Tilføj en vektor med normalfordelte tilfældige værdier Er der signifikant lineær sammenhæng (korrelation)? Air$noise <- rnorm(nrow(air)) plot(air$noise, Air$logOzone, xlab="noise", ylab="log Ozon") cor(air$noise, Air$logOzone) log Ozon Noise DTU Compute Introduktion til Statistik Efterår / 42

15 Warm up med lidt simpel lineær reg. Spørgsmål om signifikant korrelation (socrative.com-room:pbac) Test om der er signifikant korrelation med ALLE 110 OBSERVATIONER summary(lm(logozone ~ noise, data=air)) Call: lm(formula = logozone ~ noise, data = Air) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** noise Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.81 on 108 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 108 DF, p-value: Er der signifikant korrelation mellem logozone og noise på 5% signifikansniveau? A: Ja B: Nej C: Ved ikke Svar B: Nej, da p-værdien for H 0 : β 1 = 0 er 0.44 > 0.05, dvs. H 0 accepteres DTU Compute Introduktion til Statistik Efterår / 42

16 Warm up med lidt simpel lineær reg. Simpel lineær regressionsmodel til de to andre Vi kan også lave en simpel lineær regressionsmodel med de to andre Simpel lineær regressionsmodel med vindhastigheden plot(air$wind, Air$logOzone, xlab="vindhastighed", ylab="log Ozon") cor(air$wind, Air$logOzone) summary(lm(logozone ~ wind, data=air)) Simpel lineær regressionsmodel med indstrålingen plot(air$radiation, Air$logOzone, ylab="log Ozon", xlab="indstraaling") cor(air$radiation, Air$logOzone) summary(lm(logozone ~ radiation, data=air)) DTU Compute Introduktion til Statistik Efterår / 42

17 Multipel lineær regression Multipel lineær regression Y er den afhængige variabel (dependent variable) Vi er interesseret i at modellere Y s afhængighed af de forklarende eller uafhængige variabler (explanatory eller independent variables) x 1,x 2,...,x p Vi undersøger en lineær sammenhæng mellem Y og x 1,x 2,...,x p, ved en regressionsmodel på formen Y i = β 0 + β 1 x 1,i + + β p x p,i + ε i, ε i N(0,σ 2 ) og i.i.d. Y i og ε i er stokastiske variabler og x j,i er variabler Vi har altså i = 1,2,...,n observationer og tilsvarende Y i og ε i stokastiske variabler DTU Compute Introduktion til Statistik Efterår / 42

18 Multipel lineær regression Mindste kvadraters metode (least squares) Residualerne findes ved at prædiktionen indsættes og trækkes fra ŷ i = ˆβ 0 + ˆβ 1 x i,1 + + ˆβ p x i,p y i = ŷ i + e i observation = prædiktion + residual e i = y i ŷ i residual = observation prædiktion DTU Compute Introduktion til Statistik Efterår / 42

19 Multipel lineær regression Mindste kvadraters metode (least squares) Ved det bedste estimat for β 0,β 1,...,β p forstås de værdier ( ˆβ 0, ˆβ 1,..., ˆβ p ) der minimerer residual sum of squares (RSS) n i=1 e 2 i = n i=1 (y i ŷ i ) 2 og estimatet for afvigelsernes (ε i ) standard afvigelse er σ 2 1 = n (p + 1) n e 2 i i=1 DTU Compute Introduktion til Statistik Efterår / 42

20 Multipel lineær regression Mindste kvadraters metode ˆβ 0, ˆβ 1,..., ˆβ p findes ved at løse de såkaldte normalligninger, der for p = 2 er givet ved n n i =n i=1y ˆβ 0 + ˆβ n 1 i,1 + i=1x ˆβ n 2 x i,2 i=1 x i,1 x i,2 i,1 y i = i=1x ˆβ n 0 i,1 + i=1x ˆβ n 1 i,1 i=1x 2 + ˆβ n 2 i=1 n i,2 y i = i=1x ˆβ n 0 i,2 + i=1x ˆβ n 1 i,1 x i,2 + i=1x ˆβ n 2 xi,2 2 i=1 Man skal simpelthen gange nogle matricer sammen! DTU Compute Introduktion til Statistik Efterår / 42

21 Modeludvælgelse Udvid modellen (forward selection) Forward selection (ikke beskrevet i bogen): Start med mindste model med den mest signifikante (mest forklarende) variabel Udvid modellen med de andre forklarende variabler (inputs) en ad gangen Stop når der ikke er flere signifikante udvidelser Forward selection: Tilføj vind, indstråling eller støj input til modellen summary(lm(logozone ~ temperature + wind, data=air)) summary(lm(logozone ~ temperature + radiation, data=air)) summary(lm(logozone ~ temperature + noise, data=air)) Tilføj indstråling eller støj input til modellen summary(lm(logozone ~ temperature + wind + radiation, data=air)) summary(lm(logozone ~ temperature + wind + noise, data=air)) Udvid yderligere med støj input? summary(lm(logozone ~ temperature + wind + radiation + noise, data=air)) DTU Compute Introduktion til Statistik Efterår / 42

22 Modeludvælgelse Formindsk modellen (model reduction eller backward selection) Backward selection (beskrevet i bogen, Method 6.16): Start med den fulde model Fjern den mest insignifikante forklarende variabler Stop hvis alle prm. estimater er signifikante Fit den fulde model summary(lm(logozone ~ temperature + wind + radiation + noise, data=air)) Fjern det mest ikke-signifikante input, er alle nu sigifikante? summary(lm(logozone ~ temperature + wind + radiation, data=air)) DTU Compute Introduktion til Statistik Efterår / 42

23 Modeludvælgelse Modeludvælgelse Der er ikke noget sikker metode til automatisk at finde den bedste model! Det vil kræve subjektive beslutninger at udvælge en model Bedste procedure (forward eller backward): det afhænger af forholdene Statistiske tests og mål til at sammenligne modeller Her i kurset kun backward procedure inkluderet DTU Compute Introduktion til Statistik Efterår / 42

24 Modeludvælgelse Simulate an MLR model with 2 inputs aspect3d(c(1,1,1)) axes3d(c('x--','y--','z--')) mtext3d('x1', edge=c('x--'), line=2) mtext3d('x2', edge=c('y--'), line=2) mtext3d('y', edge=c('z--'), line=2) Estimate a plane fit <- lm(y ~ x1 + x2) Make predictions for a grid to see the estimated plane nplot <- 20 x1plot <- seq(min(x1),max(x1),len=nplot) x2plot <- seq(min(x2),max(x2),len=nplot) yprd <- outer(x1plot, x2plot, function(x1,x2){predict(fit, data.frame(x1=x1, x2=x2))}) 'jet.colors' is "as in Matlab", alternatives see?rainbow jet.colors <- colorramppalette(c("#00007f", "blue", "#007FFF", "cyan", "#7FFF7F", "yellow", "#FF7F00", "red", "#7F0000")) Use 100 different colors colors <- jet.colors(100) Set the colors for z values color <- colors[(yprd-min(yprd))/(max(yprd)-min(yprd))*100] rgl.viewpoint(fov=40, theta=0, phi=-90) Make a surface with jet colors and grid surface3d(x1plot, x2plot, yprd, color=color, alpha=0.5) surface3d(x1plot, x2plot, yprd, front="lines", back="lines", alpha=0.5) DTU Compute Introduktion til Statistik Efterår / 42

25 Modeludvælgelse Spørgsmål om MLR estimat (socrative.com-room:pbac) Hvordan ligger estimaterne af β 0, β 1 og β 2? A: ˆβ 0 < 0, ˆβ 1 < 0 og ˆβ 2 < 0 B: ˆβ 0 > 0, ˆβ 1 > 0 og ˆβ 2 > 0 C: ˆβ 0 > 0, ˆβ 1 > 0 og ˆβ 2 < 0 D: ˆβ 0 < 0, ˆβ 1 > 0 og ˆβ 2 > 0 E: ˆβ 0 > 0, ˆβ 1 < 0 og ˆβ 2 > 0 Svar C: ˆβ 0 > 0, ˆβ 1 > 0 og ˆβ 2 < 0 Planet skærer y-aksen over 0 Planet går op når x 1 går op Planet går ned når x 2 går op DTU Compute Introduktion til Statistik Efterår / 42

26 Modeludvælgelse Spørgsmål om modelreduktion (socrative.com-room:pbac) Call: lm(formula = y ~ x1 + x2 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) x * x x ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.37 on 16 degrees of freedom Multiple R-squared: 0.507,Adjusted R-squared: F-statistic: 5.48 on 3 and 16 DF, p-value: Skal modellen reduceres i backward selection step? A: Nej B: Ja, x 1 skal væk C: Ja, x 2 skal væk D: Ja, x 3 skal væk Svar C: Ja, x 2 skal væk, den er ikke signifikant forskellig fra 0 og mest insignifikant DTU Compute Introduktion til Statistik Efterår / 42

27 Modeludvælgelse Spørgsmål om σ på afvigelserne (socrative.com-room:pbac) Call: lm(formula = y ~ x1 + x2 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) x * x x ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.37 on 16 degrees of freedom Multiple R-squared: 0.507,Adjusted R-squared: F-statistic: 5.48 on 3 and 16 DF, p-value: Hvad er den estimerede standard deviation på afvigelserne ˆσ? A: ˆσ = B: ˆσ = C: ˆσ = 0.37 D: Ved ikke Svar C: ˆσ = 0.37 DTU Compute Introduktion til Statistik Efterår / 42

28 Residual analyse (model kontrol) Residual analyse (model kontrol) Model kontrol: Analyser residualerne for at checke at forudsætningerne er opfyldt ε i N(0,σ 2 ) og er independent and identically distributed (i.i.d.) Husk: ε i er afvigelsen (en stokastisk variabel) Husk: e i = ˆε i er residualet (realisationen eller observationen af afvigelsen) Samme som for simpel lineær model, dog også plot med residualer vs. inputs DTU Compute Introduktion til Statistik Efterår / 42

29 Residual analyse (model kontrol) Antagelse om normalfordelte residualer Lav et q-q plot for at se om de ikke afviger fra at være normalfordelt Gem det udvalgte fit fitsel <- lm(logozone ~ temperature + wind + radiation,data=air) qq-normalplot qqnorm(fitsel$residuals) qqline(fitsel$residuals) Normal Q-Q Plot Sample Quantiles Theoretical Quantiles DTU Compute Introduktion til Statistik Efterår / 42

30 Residual analyse (model kontrol) Antagelse om identisk distribution Plot residualerne (e i ) mod de prædikterede (fittede) værdier (ŷ i ) plot(fitsel$fitted.values, fitsel$residuals, xlab="prædikteret værdi", ylab="residualer") Det ser ud som om modellen godt kan forbedres... Residualer Praedikteret vaerdi Plot residualer mod de forklarende variabler pairs(cbind(fitsel$residuals, Air[,c("temperature","wind", "radiation")]), panel = panel.smooth) residuals temperature wind radiation DTU Compute Introduktion til Statistik Efterår / 42

31 Kurvelinearitet Kurvelineær (Curvilinear) Hvis vi ønsker at estimere en model af typen Y i = β 0 + β 1 x i + β 2 xi 2 + ε i kan vi benytte multipel lineær regression i modellen Y i = β 0 + β 1 x i,1 + β 2 x i,2 + ε i hvor x i,1 = x i x i,2 = xi 2 og benytte samme metoder som ved multipel lineær regression. DTU Compute Introduktion til Statistik Efterår / 42

32 Kurvelinearitet Udvid ozon modellen med passende kurvelineær regression Lav den kvadrerede vind Air$windSq <- Air$wind^2 Tilføj den til modellen fitwindsq <- lm(logozone ~ temperature + wind + windsq + radiation, data=air) summary(fitwindsq) Gør tilsvarende for temperatur Air$temperatureSq <- Air$temperature^2 Tilføj fittemperaturesq <- lm(logozone ~ temperature + temperaturesq + wind + radiation, data=air) summary(fittemperaturesq) Gør tilsvarende for indstråling Air$radiationSq <- Air$radiation^2 Tilføj fitradiationsq <- lm(logozone ~ temperature + wind + radiation + radiationsq, data=air) summary(fitradiationsq) Hvilken en var bedst!? summary(fitwindsq) summary(fittemperaturesq) Her kunne man prøve at udvide yderligere fitwindsqtemperaturesq <- lm(logozone ~ temperature + temperaturesq + wind + windsq + radiation, data=air) summary(fitwindsqtemperaturesq) Model kontrol qqnorm(fitwindsq$residuals) qqline(fitwindsq$residuals) plot(fitwindsq$fitted.values, fitwindsq$residuals, pch=19) Plot residualerne vs. de forklarende variabler pairs(cbind(fitwindsq$residuals, Air[,c("temperature","wind","radiation")]), panel=panel.smooth) DTU Compute Introduktion til Statistik Efterår / 42

33 Konfidens- og prædiktionsintervaller Konfidens- og prædiktionsintervaller Generer et nyt data.frame med konstant temperatur og instråling, men varierende vindhastighed wind <- seq(1,20.3,by=0.1) settemperature <- 78 setradiation <- 186 AirForPred <- data.frame(temperature=settemperature, wind=wind, windsq=wind^2, radiation=setradiation) Udregn konfidens- og prædiktionsintervaller (-bånd) Læg mærke til at der transformeres tilbage CI <- exp(predict(fitwindsq, newdata=airforpred, interval="confidence", level=0.95)) PI <- exp(predict(fitwindsq, newdata=airforpred, interval="prediction", level=0.95)) Plot them Air$ozone <- exp(air$logozone) plot(air$wind, Air$ozone, ylim=range(ci,pi,air$ozone), xlab="", ylab="") title(xlab="vindhastighed (MpH)", ylab="ozon (ppb)", main=paste("ved temperatur =",settemperature, "F og indstr lines(wind, CI[,"fit"]) lines(wind, CI[,"lwr"], lty=2, col=2) lines(wind, CI[,"upr"], lty=2, col=2) lines(wind, PI[,"lwr"], lty=2, col=3) lines(wind, PI[,"upr"], lty=2, col=3) legend legend("topright", c("prædiktion","95% konfidensbånd","95% prædiktionsbånd"), lty=c(1,2,2), col=1:3) DTU Compute Introduktion til Statistik Efterår / 42

34 Kollinearitet Kollinearitet (Colinearity) Der er opstår problemer hvis de forklarende variabler er stærkt korrelerede Lav en variabel, som er meget korreleret f.eks. endnu en vindmåling set.seed(367) Air$wind2 <- Air$wind + rnorm(nrow(air), sd=1) cor(air$wind, Air$wind2) plot(air$wind, Air$wind2) Tilføj den til modellen fitwind2 <- lm(logozone ~ temperature + wind + wind2 + radiation, data=air) summary(fitwind2) Sammenlign med modellen med kun den ene fitwind <- lm(logozone ~ temperature + wind + radiation, data=air) summary(fitwind) DTU Compute Introduktion til Statistik Efterår / 42

35 Kollinearitet Få feedback fra TA om jeres projekt 1 DTU Compute Introduktion til Statistik Efterår / 42

Kursus 02402/02323 Introducerende Statistik. Forelæsning 9: Multipel lineær regression. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Introducerende Statistik. Forelæsning 9: Multipel lineær regression. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introducerende Statistik Forelæsning 9: Multipel lineær regression Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Oversigt. 1 Warm up med lidt simpel lineær reg. 2 Multipel lineær regression. 3 Modeludvælgelse. 4 Residual analyse (model kontrol) 5 Kurvelinearitet

Oversigt. 1 Warm up med lidt simpel lineær reg. 2 Multipel lineær regression. 3 Modeludvælgelse. 4 Residual analyse (model kontrol) 5 Kurvelinearitet Itroduktio til Statistik Forelæsig 9: Multipel lieær regressio Peder Bacher DTU Compute, Dyamiske Systemer Bygig 303B, Rum 009 Damarks Tekiske Uiversitet 2800 Lygby Damark e-mail: pbac@dtudk Efterår 2016

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Forelæsning 11: Tovejs variansanalyse, ANOVA

Forelæsning 11: Tovejs variansanalyse, ANOVA Introduktion til Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Introduktion til Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Udarbejdet af frivillige Frederik Carl Windfeld og Kim Alexander Byrial Juárez Jensen samt sekretariatet i Transparency

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

I dag. Kursus Hvad er PCR? Eksempel, Data 1. Statistik. PCR: Principal component regression. Anna Helga Jónsdóttir. 25.

I dag. Kursus Hvad er PCR? Eksempel, Data 1. Statistik. PCR: Principal component regression. Anna Helga Jónsdóttir. 25. I dag Kursus 02593 Statistik Anna Helga Jónsdóttir ahj@imm.dtu.dk 25. november 2008 PCR: Principal component regression Motiverende eksempel Hvad er PCR? Hvordan går man? Splus Anna Helga Jónsdóttir (ahj@imm.dtu.dk)

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen Introduktion til Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Module 1: Introduktion til R, simpel regression

Module 1: Introduktion til R, simpel regression Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 1: Introduktion til R, simpel regression 1.1 Lineære modeller................................... 1 1.2 Simpel lineær regression..............................

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 1. december 2011 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Module 9: Residualanalyse

Module 9: Residualanalyse Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 15. december 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig. ELISA ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig. Teknikken er ganske snedig, og muliggør at man inddirekte

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere