Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Størrelse: px
Starte visningen fra side:

Download "Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences"

Transkript

1 Faculty of Health Sciences Multipel lineær regression Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 Regression med to kvantitative kovariater: Eksempel om ultralyd Eksempel om fedme hos børn Selektion, modelvalg Modelkontrol Diagnostics Hjemmesider: ltsk@sund.ku.dk : Siden er lidt teknisk 1 / 86 2 / 86 Multipel regression Problemstillinger ved multipel regression Ét outcome, mange forklarende variable Vi har allerede set eksempler på dette: Sammenligning af vægt for mænd og kvinder, korrigeret for højde Vurdering af skuldersmerter efter to behandlinger, korrigeret for baseline smerter Effekt af P-piller på hormon-niveauet, med korrektion for alder I begge disse situationer havde vi netop to kovariater: Én kvantitativ (højde, baseline smerter, alder) Én kategorisk kovariat (køn, behandling, P-piller) Prediktion: Konstruktion af normalområde til diagnostisk brug (som i eksemplet om ultralyds scanning, s. 5) Udredning af årsagssammenhænge, til brug for interventioner (mere som eksemplet s. 36ff) Videnskabelig indsigt, f.eks. eksemplet om P-pillers indvirkning på hormoner, fra sidste forelæsning 3 / 86 4 / 86

2 Eksempel med to kvantitative kovariater 107 kvinder er blevet ultralyds scannet få dage inden fødslen, og der ønskes etableret en prediktion af fostervægt/fødselsvægt ud fra BPD (hoved-diameter) og AD (maveomfang). Data er: > head(secher) vaegt bpd ad nr Kilde: Secher, N.J., Århus Kommunehospital 5 / 86 > tail(secher) vaegt bpd ad nr Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1... x p y 1 x x 1p y 1 2 x x 2p y 2 3 x x 3p y n x n1... x np y n Den lineære regressionsmodel med p forklarende variable skrives: Parametre: β 0 β 1,, β p 6 / 86 y = β 0 + β 1 x β p x p + ε afskæring, intercept regressionskoefficienter Grafik er lidt vanskelig, her et par forsøg på 3-dimensionalt plots: Middelværdistruktur install.packages("scatterplot3d") library(scatterplot3d) attach(secher) scatterplot3d(ad,bpd,vaegt, pch=16, highlight.3d=true, type="h") install.packages("ggplot2") library(ggplot2) ggplot(secher, aes(x=bpd, y=ad, size=vaegt)) + geom_point(aes(colour = vaegt))+ scale_size_continuous( range = c(0.5, 12)) β 0 + β 1 x β p x p vaegt bpd ad vaegt vaegt Mindste kvadraters metode: Minimer størrelsen S(β 0, β 1,, β p ) = (y i β 0 β 1 x i1 β p x ip ) 2 7 / 86 ad bpd 8 / 86

3 Multipel regression uden transformation Fortolkning af output model1 = lm(vaegt ~ bpd + ad, data=secher) med output: > summary(model1) Call: lm(formula = vaegt ~ bpd + ad, data = secher) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** bpd e-06 *** ad e-16 *** --- Residual standard error: on 104 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 104 DF, p-value: < 2.2e-16 med fortolkning på næste side 9 / 86 Stærk signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 1mm større end foster B, så vil vi forvente, at A vejer 37.1g mere end B Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er 1mm større end foster B, så vil vi forvente, at A vejer 39.8g mere end B Residual standard error=306.57, så usikkerheden på prediktionen af fødselsvægt er ± g, altså ganske betragtelig (næsten til lagkage) 10 / 86 Modelkontrol Grafisk modelkontrol: residualer Hvilke antagelser skal vi checke? Uafhængighed: Tænk: Er der flere observationer på hvert individ? Søskende el.lign? Linearitet i begge kovariater Varianshomogenitet (residualer har samme spredning) Normalfordelte residualer Obs: Intet krav om normalfordeling på kovariaterne!! residualerne = modelafvigelserne = observeret værdi - fittet værdi: ˆε i = y i ŷ i Der er flere typer residualer at vælge imellem: 1. De sædvanlige = observeret - fittet værdi: ˆε i = y i ŷ i i R kaldet resid(model1) 2. de sædvanlige, normeret med spredning i R kaldet rstandard(model1) 3. observeret minus predikteret, normeret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen i R kaldet rstudent(model1) 11 / / 86

4 Hvilke residualer skal man benytte? Residualplots til modelkontrol Fordele og ulemper Rart med residualer, der bevarer enhederne (type 1) Lettest at finde outliers ud fra de residualer, hvor observationerne udelades en ad gangen (type 4) Bedst at normere, når observationen selv er med og man ikke kan tegne rådata, dvs. for multipel regression bør man nok foretrække type 2 for type 1 (eller se på begge) Residualer (af passende type) plottes mod 1. den forklarende variabel x i for at checke linearitet (se efter krumninger, buer) 2. de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) 3. fraktildiagram eller histogram for at checke normalfordelingsantagelsen (se efter afvigelse fra en ret linie) Disse plots ses på s. 16 og 17, og kommenteres s / / 86 Residualplots i praksis Residualplots: De automatiske plots i R En del modelkontroltegninger (type 2 og 3 fra s. 14) fås automatisk i R ved blot at skrive plot(model1) Residuals Residuals vs Fitted Standardized residuals Normal Q Q Blandt disse er også et bedre check af varianshomogeniteten, nemlig et plot af kvadratroden af den numeriske værdi af normerede residualer, mod de predikterede værdier (se noterne til den simple regression fra tidligere, s. 54) Disse plots ses på side 16 Standardized residuals Fitted values Scale Location Fitted values 31 Cook's distance Theoretical Quantiles 9 Cook's distance Obs. number / / 86

5 Residualplots mod kovariater, med indlagte udglattede kurver (Loess-kurver): bpd residualer ad residualer Se kode s / 86 Mere modelkontrol se også s. 15 eller kode s bpd sqrtes ad sqrtes 18 / 86 Vurdering af modellen Normalfordelingen halter en anelse, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, men husk på, at observationerne ikke er ligeligt fordelt over x-aksen. Figurerne s. 18 viser ingen oplagte tendenser. Linearitet er ikke helt god, men det skyldes hovedsageligt de tidligst fødte børn. Teoretiske argumenter fra den faglige ekspertice foreslår en samtidig logaritmetransformation af såvel outcome som kovariater 19 / 86 Analyse af logaritmerede data Vi benytter forskellige logaritmer til outcome og kovariater: logvaegt=log(vaegt); logbpd=log(bpd/90)/log(1.1); /* 1 enhed er 10% */ logad=log(ad/100)/log(1.1); /* mere om dette s. 21 og 25 */ Koden svarende til s. 9 (se også s. 80) giver outputtet: > summary(model2) Call: lm(formula = logvaegt ~ logbpd + logad, data = secher) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** logbpd e-10 *** logad < 2e-16 *** Residual standard error: on 104 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 104 DF, p-value: < 2.2e-16 > confint(model2) 2.5 % 97.5 % (Intercept) logbpd logad / 86

6 Fortolkning af resultater Stærkt signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.16 gange så meget som B, dvs. 16% mere. Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.15 gange så meget som B, dvs. 15% mere. 21 / 86 Fortolkning af resultater, fortsat Residual standard error=0.1068, så usikkerheden på prediktionen af log(fødselsvægt) er ± = , svarende til faktorerne (exp( ), exp(0.2136)) = (0.808, 1.238), altså en variation gående fra -19.2% op til +23.8%, igen en ganske betragtelig biologisk variation. Bemærk asymmetrien i denne kvantificering! Bemærk, at vi i denne model har konstant relativ usikkerhed. Variationskoefficienten kan faktisk nu aflæses som Residual standard error, fordi vi arbejder med naturlige logaritmer. Vi finder tallet (se s. 20), svarende til CV=10.7% 22 / 86 Residualplots for transformerede data Fitted values Residuals Residuals vs Fitted Theoretical Quantiles Standardized residuals Normal Q Q Fitted values Standardized residuals Scale Location Obs. number Cook's distance Cook's distance / 86 Residualplots for transformerede data, II logbpd residualer logad residualer Her ses ikke de store ændringer fra s , så vi skipper de sidste modelkontroltegninger 24 / 86

7 Sammenligning af modeller nemlig de to marginale modeller (hver med sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (logbpd) β 2 (logad) s R (0.019) (0.011) (0.022) (0.014) Bemærk fortolkningen af interceptet: På grund af konstruktionen af logbpd og logad på s. 20, svarer interceptet til den forventede fødselsvægt for et barn med bpd=90 og ad= / 86 Fortolkning af koefficienter f.eks. effekten af bpd: Marginal model: Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, dvs. når bpd øges med 10% Multipel regressionsmodel Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast 26 / 86 I sidstnævnte situation siger vi, at vi har korrigeret for effekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også Goodness-of-fit mål: R-i-anden Fittede = predikterede værdier R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? Her finder vi , dvs % (se s. 20) Dette mål har Fortolkningsproblemer når kovariaterne er styret (ganske som for korrelationskoefficienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Derfor ser man ofte i stedet på Adjusted R 2 : R adj 2 Mean Sq(Residual) = 1 (her , se s. 20) Mean Sq(Total) kan udregnes som (se estimater s. 20) log(vaegt) = logad logbpd vaegt = ad 1.47 bpd 1.55 I praksis vil man dog benytte predict i R, f.eks. ved at skrive yhat = predict(model2) således at de predikterede værdier bliver lagt som variablen yhat. Denne kan også lægges ind i selve data-framen som secher$yhat 27 / / 86

8 Prediktioner til brug for illustrationer Predikterede værdier Lav 3 nye datasæt svarende til bpd=80, 90 og 100, og med mange ad-værdier fra 70 til 130 Transformer disse ligesom vi gjorde på s. 20 Predikter outcome for disse datasæt, ud fra modellen model2 fra s. 20 Tilbagetransformer til original skala Tegn Se eksempelvis kode s , der danner figurerne s. 30 På logaritmisk skala: Tilbagetransformeret til oprindelig skala: 29 / / 86 Regression diagnostics Regression diagnostics, fortsat Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Leverage = potentiel indflydelse (hat-matrix, i R bare kaldet hat) Hvis der kun er én kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indflydelse på resultaterne, men de har det ikke nødvendigvis! ikke hvis de ligger pænt i forhold til regressionslinien, dvs. har et lille residual, så derfor...--> 31 / 86 Udelad den i te person og find nye estimater for regressionskoefficienterne Udregn Cook s afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ1, når den i te person udelades? Se kode s. 83 Hvad gør vi ved indflydelsesrige observationer? udelader dem? anfører et mål for deres indflydelse? 32 / 86

9 Cooks afstand som mål for indflydelse Outliers 3D Scatterplot Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual cooks.distance(model2) secher$bpd De mest indflydelsesrige observationer er dem med en usædvanlig kombination af kovariater. (kode s. 83) 33 / secher$ad Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen 34 / 86 og da skal alle sådanne udelades! Interaktion mellem kvantitative kovariater Nyt eksempel: Fedme i skolealderen er lidt svært... Hvis modellen ikke beskrives ved en plan, hvad gør man så? Hvis man blot inkluderer et produktled mellem x 1 og x 2, svarer det til, at antage, at effekten af x 1 ændrer sig lineært med værdien af x 2 : Effekten af x 1 er β 1 + γx 2 µ = β 0 + β 1 x 1 + β 2 x 2 + γx 1 x 2 = β 0 + (β 1 + γx 2 )x 1 + β 2 x 2, dvs. Alternativt må man opdele den ene variabel i grupper... Spørgsmål: Hvordan hænger fedmegraden i skolealderen sammen med højde og vægt i 1-årsalderen? For 197 børn har vi sammenhørende registreringer af Højde og vægt i 1-års alderen Fedmescore i skolealderen, dvs. en score, der udtrykker barnets vægt i forhold til alder og højde Det er en normeret størrelse, der typisk vil ligge mellem -2 og 2 Da fedmescoren kan ses som et slags bmi-mål, er det rimeligt at forestille sig, at det hænger sammen med bmi i 1-års alderen. 35 / / 86

10 Fedme i skolealderen vs. body mass index, evt. logaritmeret (se kode til venstre figur s. 84): Fedme i skolealderen Hvis vi logaritmerer bmi, får vi log(bmi) = log(vaegt) - 2 log(hoejde) så en oplagt mulighed ville være at forsøge en multipel regression, med log(vaegt) og log(hoejde) som kovariater, dvs. med multiplikative effekter af højde og vægt i 1-årsalderen. Vi bruger igen 1.1-logaritmen: Det ser nogenlunde pænt lineært ud, omend der er et par observationer, der ser for store ud... Måske skal vi bruge en anden kombination af højde og vægt end lige body mass index? (som ikke plejer at virke så godt for børn...) 37 / 86 loghoejde=log(hoejde/0.75)/log(1.1) logvaegt=log(vaegt/10)/log(1.1) og har samtidig normeret, således at interceptet kommer til at svare til et 1-årigt barn på 75 cm, der vejer 10 kg. 38 / 86 Fedme i skolealderen Fortolkning af resultater fedme$loghoejde <- log(fedme$hoejde/0.75)/log(1.1) fedme$logvaegt <- log(fedme$vaegt/10)/log(1.1) model3 = lm(fedmescore ~ logvaegt + loghoejde, na.action=na.exclude, data=fedme) med output > summary(model3) Call: lm(formula = fedmescore ~ logvaegt + loghoejde, data = fedme, na.action = na.exclude) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) logvaegt e-10 *** loghoejde ** Residual standard error: on 194 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 194 DF, p-value: 5.342e-12 Stærkt signifikant effekt af begge kovariater (P < hhv. P = ) Hvis vi sammenligner to børn med samme højde, men hvor barn A vejer 10% mere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er større end B s. Hvis vi sammenligner to børn med samme vægt, men hvor barn A er 10% højere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er lavere end B s. 39 / / 86

11 Fortolkning af resultater, fortsat Hvis det var bmi, der var den relevante kovariat, skulle vi have haft ca. men det har vi ikke koeff til vægt = 2koeff til højde Vi ser på outputtet s. 39, at de to koefficienter snarere er lige store, blot med modsat fortegn, altså at koeff til vægt = koeff til højde, således at samme procentvise stigning i højde og vægt giver uforandret fedmescore i skolealderen. 41 / 86 Sammenligning af modeller nemlig de to marginale modeller (med hver sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (loghoejde) β 2 (logvaegt) s R (0.1107) (0.0435) (0.1567) (0.0671) Bemærk: Koefficienterne ændres ved overgang til multipel regression specielt den for højde, som ligefrem skifter fortegn! Usikkerhederne på estimaterne bliver større, selvom residualspredningen s bliver mindre. 42 / 86 VIGTIGT Fortolkning af estimater Koefficienten β 1 til loghoejde: Hvordan kan man forstå to så forskellige estimater for loghoejde som og ? Fordi: Den biologiske fortolkning af parameterestimaterne er helt forskellig Det videnskabelige spørgsmål, der besvares, er ikke det samme spørgsmål! Simpel/univariat regressionsmodel: Forventet øgning i fedmescore er 0.36 for 1 enheds øgning af kovariaten loghoejde, dvs. for en 10% forøgelse af 1-års højden. Multipel regressionsmodel: Forventet fald i fedmescore er 0.46 for en 10% forøgelse af 1-års højden for to individer, hvor alle andre kovariater (her kun logvaegt) er identiske ( holdes fast ). Det kaldes, at vi har korrigeret ( adjusted ) for effekten af de andre kovariater. Forskellen er her meget markant, fordi kovariaterne er stærkt relaterede: Når en af dem ændres, ændres den anden typisk også 43 / / 86

12 Fortolkning af højde i marginal model Fortolkning af højde i multipel regressionsmodel Når højden er den eneste kovariat, er den et udtryk for, hvor stort barnet er, så det videnskabelige spørgsmål, der belyses, er, Er børn, der er store i 1-årsalderen, i gennemsnit federe i skolealderen? Den positive koefficient til højden betyder, at fedmegraden i skolealderen vokser signifikant med størrelsen i 1-års alderen. Biologisk mekanisme: Overernæring i barnealderen bruges til at vokse, så barnet bliver stort af sin alder, men det kan øjensynligt øge risikoen for fedme senere. Heldigvis er det ikke en stærkt deterministisk sammenhæng (residualspredningen er relativt stor). Når vægten i 1-års alderen fastholdes, ved vi noget mere om det højeste af de to 1-årige børn: Det højeste barn må også være det slankeste barn! Så det nye videnskabelige spørgsmål, der belyses, er, Er børn, der er slanke i 1-årsalderen, i gennemsnit slankere i skolealderen? Den negative koefficient til højden betyder, at slanke småbørn generelt er slankere i skolealderen. 45 / / 86 Fortolkning af højde i multipel regressionsmodel, II Eksempel: Lungefunktion og cystisk fibrose Koefficienterne til de logaritme-transformerede højde og vægt er lige store og med modsat fortegn. Det betyder: 1. at vægt/højde (altså ikke BMI=vægt/højde 2 ) i 1-års alderen er prædiktivt for fedme i skolealderen 2. at to småbørn med samme vægt/højde-ratio har samme forventede fedmegrad i skolealderen Et lille studie, af 25 patienter, hvor outcome er pemax (et udtryk for lungefunktion) og hvor vi har hele 9 potentielle kovariater: Ex. O Neill et.al. (Am Rev Respir Dis, 1983) 47 / / 86

13 Univariate analyser også kaldet marginale analyser, hvor man ser på en enkelt kovariat ad gangen: Valg af model kommer helt og holdent an på, hvad spørgsmålet er! De univariate analyser kan være stærkt misvisende pga korrelationer mellem de enkelte variable, f.eks. 4 af de 5 signifikante variable: Age, Height, Weight og FEV 1 : Her er der 5 signifikante variable Er det så disse variable, der skal med i modellen? 49 / 86 Bemærk især sammenhængene mellem alder, højde og vægt. 50 / 86 Videnskabelig variabelselektion Automatisk variabelselektion Endnu en gang: Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer hvilke variable, der skal inkluderes i modellen. Det er svært men den eneste måde at opnå egentlig videnskabelig indsigt! (og så bliver det i øvrigt lettere bagefter at skrive en god artikel og lettere at svare på reviewernes kommentarer... ) Undgå så vidt muligt dette! Der findes forskellige fremgangsmåder (se kode s. 85): Forlæns selektion: Medtag hver gang den mest signifikante Slutmodel: Weight BMP FEV1 Baglæns elimination: Start med alle, udelad hver gang den mindst signifikante Slutmodel: Weight BMP FEV1 step(fullmodel, direction = "backward") Forskellige hybrid-metoder Det ser da meget stabilt ud!? 51 / / 86

14 men men men... Advarsel ved variabelselektion Hvis nu observation nr. 25 tilfældigvis ikke havde været med? Så ville forlæns selektion have taget højde ind som den første, og baglæns elimination ville have smidt højde ud som den første! Tommelfingerregel (vedrører kun stabiliteten) Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre! Massesignifikans! Enhver variabelselektion baseret på signifikansvurderinger (dvs. også når I selv fjerner enkelte variable pga. statistisk insignifikans) vil give følgende effekt: Signifikanserne overvurderes! Regressionsparametrene er for store, dvs. for langt væk fra 0. Automatisk variabelselektion: Hvad kan vi sige om vinderne? Var de hele tiden signifikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignifikante / / 86 Model med alle 9 kovariater Model med alle 9 kovariater, II > summary(fuld) Call: lm(formula = pemax ~ age + factor(sex) + height + weight + bmp + fev1 + rv + frc + tlc, data = pemax) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age factor(sex) height weight bmp fev rv frc tlc Residual standard error: on 15 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 9 and 15 DF, p-value: Bemærk på outputtet s. 55: Alle kovariater er enkeltvis non-signifikante Overall F-test giver signifikans (P=0.032) Og hvad kan vi overhovedet bruge modellen til...? 55 / / 86

15 Baglæns elimination P-værdier ved baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age sex height weight bmp fev rv frc tlc Altman stopper ved skridt nr. 7, se figur næste side Ingen kode til denne figur 57 / / 86 Krydsvalidering = Cross validation Sammenligning af modeller Hvis man har en tilstrækkelig stor mængde data, er det en god fremgangsmåde at: Foretage modelfittet på en del af data, f.eks. to trediedele Afprøve modellen på resten bagefter, og måske blive lidt chokeret Hvis modellen predikterer dårligt på den sidste trediedel, predikterer den nok også dårligt i nye situationer. Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dvs. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde (fordi vi dividerer med frihedsgraderne) %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoefficient R 2 adj Som kriterium for, om modellen er god kan vi altså bruge s 2 eller R 2 adj 59 / / 86

16 Sammenligning af modeller nemlig de to marginale modeller for height og weight, samt den multiple regressionsmodel med disse: β 0 β 1 (height) β 2 (weight) s R 2 Adj. R (0.260) (0.301) (0.655) 1.024(0.787) Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. Mindst en af dem har en betydning, men det er svært at sige hvilken. (Det ser dog mest ud til at være vægten.) 61 / 86 Sammenligning af modeller, II Flere kommentarer til sammenligningen på forrige side: Størrelsen R 2 stiger næsten ikke fra den marginale model med kun weight som kovariat, til den multiple regressionsmodel (fra til , dvs. uændret med 2 decimaler). Den justerede R 2 favoriserer derfor den simpleste af disse to modeller, hvor usikkerheden på parameterestimatet også er betydeligt lavere. Intercepterne i de 3 modeller kan ikke sammenlignes, da de refererer til helt forskellige individer, som i øvrigt alle er meget uinteressante: hhv. height=0, weight=0 og height=weight=0 Modelkontrol: giver ikke frygtelig meget mening med den ratio af observationer/kovariater: 62 / 86 Sammenligning af kovariat-effekter er vanskelig, bare at formulere: Er effekten af vægt større end effekten af alder? Øh... Sammenligner vi P-værdier? Det har kun noget med evidensen for en effekt at gøre, ikke med selve størrelsen af effekten. Man kan udregne såkaldte standardiserede koefficienter, som angiver effekten af 1 SD svarende til denne kovariat, i enheder af SD i outcome-variablen. Er dette fornuftigt? Næppe: Den biologiske effekt er nok ligeglad med, hvordan resten af personerne ser ud... En sådan standardiseret koefficient vil afhænge af det aktuelle sample - ligesom en korrelation. 63 / 86 Kollinearitet: Kovariaterne er lineært relaterede Det vil de altid til en vis grad være, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignifikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet 64 / 86

17 Ekstra udskrifter fra regressionsanalysen Kollinearitet i praksis Variance Inflation Factor: Den faktor, som variansen af regressionskoefficienten er blevet ganget op med, på grund af kollineariteten mellem kovariaterne. Tolerance: Blot den reciprokke af VIF, altså 1/VIF. Standardiserede koefficienter: som forklaret s. 63. Ud fra koden s. 86: > cbind(stand.beta,tolerance,var.inflation) stand.beta tolerance var.inflation ny.xage ny.xsex ny.xheight ny.xweight ny.xbmp ny.xfev ny.xrv ny.xfrc ny.xtlc Tommelfingerregel: vif større end 5-10 stykker (dvs. tol mindre end ) er kriminelt / / 86 Bemærk Vigtige pointer Hvad gør man så, når der er kollinearitet? 1. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes (= er med i modellen) Overvej også, om responsvariablen ændrer fortolkning 2. Lav analyser af fokusvariablen med og uden justering for forskellige grupper af de andre variable og prøv at forstå forskellene i resultaterne Præsenter gerne begge/alle analyser i artiklen med fortolkning af forskellene 3. Spar eventuelt på antallet af variable for grupper af variable, der hænger sammen: Drejer det sig om ét fælles aspekt af interesse, så kan man måske nøjes med én af variablene og begrunde, hvorfor man vælger netop den 4. Fortolk med stor forsigtighed 67 / 86 Man må ikke nøjes med at præsentere univariate analyser for alle variablene! Som f.eks. s. 49 Problemet med fortolkningen forsvinder nemlig ikke af, at man tillægger hver enkelt variabel al forklaringsevnen en ad gangen. Man må ikke tro, at det er ligemeget hvilke effekter, man justerer for - for det videnskabelige spørgsmål ændrer sig jo. 68 / 86

18 Bemærk Bemærk Den statistiske model bestemmes af det videnskabelige spørgsmål. Eneste undtagelse fra denne regel er fordelingsantagelserne, der bestemmes af data. Nogle kilder til forkerte modelvalg Forsimple virkeligheden for meget, eksempelvis tro, at frasen alt andet lige giver mening (og ikke bare er en bekvem undskyldning for ikke at tænke det ordentligt igennem) tro, at det giver mening at tale om sammenhængen mellem exposure og respons, som om der kun kan eksistere ét eneste videnskabeligt spørgsmål, der involverer denne exposure og dette respons tro, at confounderne er givet ud fra exposure og respons, så man kan vælge sine kovariater uden at overveje konsekvenserne for fortolkningen 69 / / 86 Et par falske påstande Et par falske påstande, II Påstand: Når man skal vurdere effekten af en forklarende variabel ( exposure ) på et bestemt outcome, så skal man så vidt muligt justere for alle confoundere. Sandhed: Nej! Man skal kun justere for de variable, som man gerne ville have kunnet holde fast og man skal kunne gennemskue, hvilken konsekvens justering for hver eneste af de inkluderede confoundere har for fortolkningen af den estimerede effekt af exposure på outcome! Påstand: Man må ikke inkludere mediator variable, dvs. variable, der er en del af virkningsmekanismen. Sandhed: Mediator variable er ligesom alle andre variable: Hvis man inkluderer dem, ændrer man det videnskabelige spørgsmål, der besvares ved analysen! Når man inkluderer en eller flere mediator variable, undersøger man størrelsen af den del af effekten, der ikke går via effekten på disse mediator variable, altså styrken af eventuelle andre virkningsmekanismer. 71 / / 86

19 Eksempel på fejlslutning Bemærk Kan et øget fedtindtag være gavnligt for hjertet? f.eks reducere risikoen for hjerteinfarkt, eller sænke kolesterol i blodet? Tja...: Øget motion giver øget fødeindtag og dermed formentlig øget fedtindtag, så hvis man har fedtindtag som eneste kovariat, så kan det se gavnligt ud at spise meget fedt... Påstand: Signifikansen for den enkelte variabel bliver altid svagere, når de andre tages med. Sandhed: Ofte, men ikke altid. Nogle gange bliver signifikanserne væsentligt stærkere. Vi så dette ved forelæsningen om kovariansanalyse, hvor effekten af P-piller først kom frem, da vi justerede for alderen. 73 / / 86 APPENDIX Tredimensionalt plot Slide 7 med R-programbidder svarende til nogle af slides Figurer: s. 76, 78-79, Regressionsanalyse: s. 77, 80, Modelkontrol: s. 78 Prediktion: s Diagnostics: s. 83 install.packages("scatterplot3d") library(scatterplot3d) attach(secher) scatterplot3d(bpd,ad,vaegt, pch=16, highlight.3d=true, type="h", main="3d Scatterplot") eller med outcome som symbolstørrelse: install.packages("ggplot2") library(ggplot2) ggplot(secher, aes(x=bpd, y=ad, size=vaegt)) + geom_point(aes(colour = vaegt))+ scale_size_continuous(range = c(0.5, 12)) 75 / / 86

20 Regressionsanalyse Modelkontrol Slide 9 Den minimale kode: Slide 17 lm(vaegt ~ bpd + ad, data=secher) Men det er lettere at kalde modellen noget, f.eks. model1 = lm(vaegt ~ bpd + ad, data=secher) hvorefter man kan benytte summary(model1) confint(model1) par(mfrow=c(1,2)) with(secher, scatter.smooth(bpd, resid(model1), ylab="residualer", xlab="bpd", cex.lab=1.5, lpars = list(col = "red", lwd = 3, lty = 1))) abline(0,0,lty=2,col="blue") with(secher, scatter.smooth(ad, resid(model1), ylab="residualer", xlab="ad", cex.lab=1.5, lpars = list(col = "red", lwd = 3, lty = 1))) abline(0,0,lty=2,col="blue") 77 / / 86 Modelkontrol, II Regressionsanalyse på logaritmer Slide 18 Venstre figur: Slide 20 par(mfrow=c(1,1)) hist(resid(model1)) Højre figur: sqrt.res <- sqrt(abs(rstandard(model1))) par(mfrow=c(2,1)) with(secher, scatter.smooth(bpd, sqrt.res, cex.lab=1.5, ylab="sqrtes", xlab="bpd", lpars = list(col = "red", lwd = 3, lty = 1))) with(secher, scatter.smooth(ad, sqrt.res, cex.lab=1.5, ylab="sqrtes", xlab="ad", lpars = list(col = "red", lwd = 3, lty = 1))) secher$logvaegt=log(secher$vaegt) secher$logbpd=log(secher$bpd/90)/log(1.1) secher$logad=log(secher$ad/100)/log(1.1) model2 = lm(logvaegt ~ logbpd + logad, data=secher) summary(model2) confint(model2) 79 / / 86

21 Prediktioner til brug for illustrationer Prediktioner til brug for illustrationer, II Slide 29 og 30 Slide 29 og 30 Venstre figur: Lav det nye datasæt som beskrevet s. 29 ny.80 = data.frame(ad=seq(70,135,0.02),bpd=80,logbpd=log(80/90)/log(1.1)) ny.80$logad=log(ny.80$ad/100)/log(1.1) ny.90 = data.frame(ad=seq(70,135,0.02),bpd=90,logbpd=log(90/90)/log(1.1)) ny.90$logad=log(ny.80$ad/100)/log(1.1) ny.100 = data.frame(ad=seq(70,135,0.02),bpd=100,logbpd=log(100/90)/log(1.1)) ny.100$logad=log(ny.80$ad/100)/log(1.1) Predikter outcome ud fra modellen: pred.80 = predict(model2, ny.80) pred.90 = predict(model2, ny.90) pred.100 = predict(model2, ny.100) Tegn (næste side) 81 / 86 plot(ny.100$logad, pred.100, ylab="predicteret logvaegt", xlab="logad", type="n", col=2:4, cex.lab=1.5) legend(-3, 8.4, legend=c("80","90","100"), pch=16, col=c("blue", "red", "green"), cex=1.5) lines(ny.80$logad, pred.80, type = "l", col="blue") lines(ny.90$logad, pred.90, type = "l", col="red") lines(ny.100$logad, pred.100, type = "l", col="green") Højre figur: plot(ny.100$ad, exp(pred.100), ylab="predicteret vaegt", xlab="ad", type="n", col=2:4, cex.lab=1.5) legend(80, 4000, legend=c("80","90","100"), pch=16, col=c("blue", "red", "green"), cex=1.5) lines(ny.80$ad, exp(pred.80), type = "l", col="blue") lines(ny.90$ad, exp(pred.90), type = "l", col="red") lines(ny.100$ad, exp(pred.100), type = "l", col="green") 82 / 86 Diagnostics Konfidens- og prediktionsgrænser Slide 32 Slide 37 Kode til venstre figur: Cooks afstand i koordinater, svarende til hver kovariat: dfbetas(model2) Plottet, slide 33 scatterplot3d(bpd,ad,cooks.distance(model2), pch=16, highlight.3d=true, type="h", main="3d Scatterplot") fedme <- read.table(" header=t,na.strings=c(".")) fedme$fedmescore <- fedme$fedme/ fedme$bmi <- fedme$vaegt/(fedme$hoejde)^2 model1 = lm(fedmescore ~ bmi, na.action=na.exclude, data=fedme) summary(model1) confint(model1) ny = data.frame(bmi=seq(14,22,0.01)) pred <- predict(model1, ny, se.fit = TRUE) predl <- predict(model1, ny, interval = "prediction") confl <- predict(model1, ny, interval = "confidence") matplot(ny$bmi, cbind(predl, confl[,-1]), lty = c(1,2,2,3,3), col = c(1,2,2,3,3), type = "l", cex.lab=1.5, ylab = "fedmescore", xlab="bmi") points(fedme$bmi, fedme$fedmescore) 83 / / 86

22 Variabelselektion Slide 52, 57 Den fulde model: fuld=lm(pemax~age+factor(sex)+height+weight+bmp+fev1+rv+frc+tlc,data=pemax) Backwards elimination: step(fuld, direction = "backward", trace=t) Ekstra størrelser fra regressionsanalyse Slide 66 Først skaleres alle kovariaterne ny.x=scale(pemax[2:10], center=true, scale = TRUE) Disse bruges derefter i regressionsmodellen, hvorefter koefficienterne divideres med SD af outcome: Forwards selection: tom=lm(pemax~1, data=pemax) step(tom, direction = "forward", scope=list(upper=fuld,lower=tom), trace=t) Hybrid mellem de to: step(tom, direction = "both", scope=list(upper=fuld,lower=tom), trace=t) 85 / 86 fuld.ny=lm(pemax$pemax~ny.x) stand.beta=summary(fuld.ny)$coef[2:10,1]/sd(pemax$pemax) Til sidst flettes det hele sammen: library(car) var.inflation=vif(fuld) tolerance=1/vif(fuld) cbind(stand.beta,tolerance,var.inflation) 86 / 86

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 1 / 86 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om

Læs mere

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 8. oktober 2018 1 / 84 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019 Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............

Læs mere

Kursus i basal statistik: Multipel regression

Kursus i basal statistik: Multipel regression Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable Problemstillingen kan eksempelvis være: Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det

Læs mere

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Repetition af simpel lineær regression Først ser vi på en enkelt kovariat,

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Kovariansanalyse, Interaktion, i R Lene Theil Skovgaard 4. marts 2019 Parret sammenligning af målemetoder, med logaritmer

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Klasseaktiviteter Dag 4

Klasseaktiviteter Dag 4 Klasseaktiviteter Dag 4 Bemærk at jeg i denne løsning ikke altid har output med. Tanken er, at I skal se løsningen og selv prøve at køre kommandoerne (og dermed undgår jeg også at dette dokument bliver

Læs mere

Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S

Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S Multipel regression Birthe Lykke Thomsen H. Lundbeck A/S 1 Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober 2007 Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 30. oktober Den generelle lineære model Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. i R. Lene Theil Skovgaard. 18. marts / 106

Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. i R. Lene Theil Skovgaard. 18. marts / 106 Faculty of Health Sciences Basal statistik Den generelle lineære model mv. i R Lene Theil Skovgaard 18. marts 2019 1 / 106 Den generelle lineære model mv. Ikke-lineære sammenhænge Opbygning af modeller

Læs mere

Dikotom 2*2-tabeller χ 2 -test Logistisk regression parret Mc Nemar svært, mixed models Mixed models

Dikotom 2*2-tabeller χ 2 -test Logistisk regression parret Mc Nemar svært, mixed models Mixed models Faculty of Health Sciences Den generelle lineære model mv. Basal statistik Den generelle lineære model mv. i R Lene Theil Skovgaard 18. marts 2019 Ikke-lineære sammenhænge Opbygning af modeller Sammenligning

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 26. februar 2018 1 / 28 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Biokemisk

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Statistisk modellering og regressionsanalyse

Statistisk modellering og regressionsanalyse Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2019

Vejledende besvarelse af hjemmeopgave, forår 2019 Vejledende besvarelse af hjemmeopgave, forår 2019 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (26. marts.-28. marts). På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal19_1/hjemmeopgave.html

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat.

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 1. oktober 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Basal statistik. 25. september 2007

Basal statistik. 25. september 2007 Basal statistik 25. september 2007 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Lene Theil Skovgaard, Biostatistisk

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere