Logistisk regression

Størrelse: px
Starte visningen fra side:

Download "Logistisk regression"

Transkript

1 Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet Kursushjemmeside: 29. maj 2012

2 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder, odds og odds-ratio Logistisk regression: En binær forklarende variabel En kategorisk forklarende variabel To binære forklarende variable En kvantitativ forklarende variabel Flere forklarende variable Prædiktion Kirkwood & Sterne: Kapitel 14, 16, 17, 19 og / 42

3 Regressionsanalyse Formålet med en regressionsanalyse er at beskrive fordelingen af én responsvariabel som en funktion af en eller flere forklarende variable Typen af respons-variablen bestemmer regressionsmodellen Respons Kvantitativ (kontinuert) Binær (0/1) Levetid (> 0, censurering) Model lineær regression logistisk regression Cox (Poisson) regression. og fortolkningen af effekten af en forklarende variabel Regressionsmodel Lineær Logistisk Cox (Poisson) Effect forskelle mellem middelværdier odds-ratio (OR), ln(or) rate / hazard ratio, ln(rate ratio). 3 / 42

4 Logistisk regression Analyse af en binær responsvariabel, e.g. syg/rask, død/levende, højt/lavt blodtryk, etc. ud fra en eller flere forklarende variable behandling, rygning, vægt, alder, køn, etc. For individ i observerer vi: Responsen { 1 hvis i er syg Y i = 0 hvis i ikke er syg og forklarende variable: x i1,..., x ip. Simpel logistisk regression: Én forklarende variabel. Multipel logistisk regression: Flere forklarende variable. 4 / 42

5 Eksempler Hvordan afhænger risikoen for hjertesygdom af køn, alder, rygning og blodtryk? Hvordan afhænger sandsynligheden for menarke af alder? Hvorledes afhænger risikoen for graft-vs-host disease af diverse forhold omkring knoglemarvstransplantationen? 5 / 42

6 χ 2 -testet Benyttes til at evaluere association mellem to kategoriske variable. Lad R and S være kategoriske variable med hhv k og m inddelinger. Uafhængighed er defineret som P(R = r, S = s) = P(R = r)p(s = s) hvorfor svarende til Andel rs Andel r Andel s Observeret rs Total antal Andel r Andel s = Forventet rs χ 2 -testet måler afstanden mellem observerede og forventede værdier. 6 / 42

7 χ 2 -testet (fortsat) Definition: Evaluering: χ 2 = r,s (Observeret rs Forventet rs ) 2 Forventet rs. Store værdier peger på manglende uafhængighed. Hvis de forventede antal alle er større end 5, kan p-værdien bestemmes i en χ 2 fordeling med (k 1) (m 1) frihedsgrader. Dette test kaldes for Pearson s chi-i-anden-test. Hvis nogle af de forventede antal er mindre end 5, benyttes i stedet Fishers eksakte test. 7 / 42

8 Framinghamstudiet Planlagt som 20-årigt kohorte studie af indbyggere i alderen i Framingham Town, Massachusetts, i Vi har data på 1406 indbyggere i alderen år. 13 variable: Baseline: sex, age, frw, sbp, dbp, chol, cig Follow-up: sbp10, chd, yrschd, death, yrsdth, cause 8 / 42

9 Framingham: Kodning af variable sex 1 for mænd, 2 for kvinder age alder (år) ved baseline (45-62) frw Framingham relative weight (pct) ved baseline (52-222) sbp systolisk blodtryk ved baseline (mmhg) (90-300) dbp diastolisk blodtryk ved baseline (mmhg) ) chol kolesterol ved baseline (mg/100ml) (96-430) cig cigaretter per dag ved baseline (0-60) chd 0 hvis ej coronary heart disease i løbet af follow-up, 1 hvis coronary heart disease ved baseline, x=2-10 hvis coronary heart disease blev diagnosticeret ved follow-up no. x. 9 / 42

10 Eksempel 1: køn og CHD Er der forskel på hyppigheden af CHD blandt mænd og kvinder? Køn vs CHD > framing$chdi<-ifelse(framing$chd>0,1,0) > framing$mand<-ifelse(framing$sex==1,1,0) > framingchd<-subset(framing,chd!=1) > attach(framingchd) > table(mand,chdi) chdi mand > chisq.test(mand,chdi) Pearson s Chi-squared test with Yates continuity correction data: mand and chdi X-squared = , df = 1, p-value = 4.175e-07 > fisher.test(mand,chdi) Fisher s Exact Test for Count Data data: mand and chdi p-value = 3.831e-07 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: sample estimates: odds ratio / 42

11 Beskrivelse af effekten Risikoen for CHD for mænd: p 1 164/643 = 0.26 Risikoen for CHD for kvinder: p 2 104/720 = 0.14 Odds for CHD for mænd: p 1 /(1 p 1 ) 164/479 = 0.34( 1 : 3) Odds for CHD for kvinder: p 2 /(1 p 2 ) 104/616 = 0.17( 1 : 6) Mulige effektmål: Absolut differens i risiko (ARR): p 1 p Relativ risiko (RR) : p 1 /p Odds-ratio (OR): p 1 /(1 p 1 )/(p 2 /(1 p 2 )) Når p 1 og p 2 er små (<0.1) er RR OR. Vi har konstateret, at der er forskel på mænd og kvinder: p 1 p 2 dvs. ARR > 0, RR 1, OR 1 11 / 42

12 Regressionsanalyse for binær respons Formålet er relatere f.eks. Y i = { 1 if i får CHD 0 if i ej får CHD til forklarende variable for det i te individ. Sæt p i = Prob (individ i får CHD) = Prob (Y i = 1) = E(Y i ). Køn som forklarende variabel, dvs. Lineær regression? x i = { 1 hvis i er en mand 0 hvis i er en kvinde p i = a + bx i Potentielt kan denne model tilskrive nogle individer sandsynligheder 12 / 42 uden for [0, 1].

13 log-odds Vi ser på ln(odds i ) = logit(p i ) = ln ( pi 1 p i ) som er ubegrænset: logit(p) / 42 p

14 Den logistiske regressionsmodel Model: ( ) pi ln = a + bx i = 1 p i { a kvinder a + b mænd. Det betyder at kønsparameteren b får følgende fortolkning b = (a + b) a = ln (odds for mænd) - ln (odds for kvinder) = ln (OR for mænd vs. kvinder) og tilsvarende b = a (a + b) = ln(or for kvinder vs. mænd). Dermed er OR = exp(b) for mænd vs kvinder. For b > 0 er der øget risiko for mænd: OR > 1. For b < 0 er der lavere risiko for mænd: OR < 1. For b = 0 er der ingen forskel: OR < / 42

15 Estimation af simpel logistisk regression med køn Data er: Y = 0 (ej CHD) Y = 1 (CHD) Z = 0 (kvinder) Z = 1 (mænd) Vi kan selv trylle estimater for regressionsparametrene frem: OR = ( ) = 2.03, b = ln(or) = ln ( ) 104 a = ln(odds for kvinder) = ln = Men hvad med usikkerheden? = / 42

16 Simpel logistisk regression i R Logistisk regression i R laves vha funktionen glm: Estimation > glm1<-glm(chdi~mand,family=binomial) > summary(glm1) Call: glm(formula = chdi ~ mand, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-07 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1361 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 16 / 42

17 Test af kønseffekten Nulhypotesen er at sandsynligheden for CHD ikke afhænger af køn: Dette kan testes med et Wald-test: z = estimat SE H 0 : b = 0. N (0, 1). Her er b = , SE = , z=5.073, p < Bemærk at z 2 = = χ 2 (df = 1) stemmer overens med standard χ 2 -testet i 2 2-tabellen: (df = 1). Der er en stærkt signifikant forskel på kønnene mht risikoen for CHD. 17 / 42

18 Kvantificering af kønseffekten OR for CHD for mænd vs kvinder er exp(0.707) = Hvor sikre er vi på dette estimat? Vi kan få et 95% KI for b ved b ± 1.94 SE. Dermed fås et KI for OR ved exp(b ± 1.94 SE). Konfidensinterval for OR > confint(glm1) Waiting for profiling to be done % 97.5 % (Intercept) mand > round( c( exp(glm1$coef[-1]), exp(confint(glm1))[-1,] ),2 ) Waiting for profiling to be done... mand 2.5 % 97.5 % > 18 / 42

19 Logistisk regression i R Logistisk regression laves i R vha funktionen glm (Generaliserede Lineære Modeller). HUSK family=binomial for logistisk regression. På et glm-objekt kan vi benytte de samme funktioner, som vi har benyttet på lm-objekter: summary confint drop1 anova predict 19 / 42

20 Forklarende variable med flere niveauer Spørgsmål: Hvorledes stiger risikoen for CHD med alderen? Inddel alder i 4 grupper: x i = Kategoriseret alder mod responsen: 1 hvis i er år 2 hvis i er år 3 hvis i er år 4 hvis i er år x = 1 x = 2 x = 3 x = Y = Y = / 42

21 Beskrivelse af alderseffekten Alderseffekten kan undersøges ved at se på odds-ratio erne: OR 1 (X = 2 vs. X = 1) = = 1.24 = exp(0.21) OR 2 (X = 3 vs. X = 1) = = exp(0.42) OR 3 (X = 4 vs. X = 1) = = exp(0.86) Vi kan benytte et sædvanligt χ 2 -test til at undersøge om OR 1 = OR 2 = OR 3 = 1: Chi-i-anden test > agegrp<-factor(1+i(age>48)+i(age>52)+i(age>56)) > chisq.test(agegrp,chdi) Pearson s Chi-squared test data: agegrp and chdi X-squared = , df = 3, p-value = 3.515e-05 > 21 / 42

22 Logistisk regression på kategorisk variabel For hver kategori estimeres ln(or) relativt til en referencekategori: ( ) pi ln = 1 p i b 1 = ln(or)(2 vs. 1) = 0.21 b 2 = ln(or)(3 vs. 1) = 0.42 b 3 = ln(or)(4 vs. 1) = 0.86 a hvis i er år a + b 1 hvis i er år a + b 2 hvis i er år a + b 3 hvis i er år. NB: Computerprogrammerne vælger referencekategorien forskelligt. R vælger laveste niveau som reference. Jævnfør ensidet variansanalyse. 22 / 42

23 Logistisk regression på kategorisk variabel i R Estimation > glm2<-glm(chdi~agegrp,family=binomial) > summary(glm2) Call: glm(formula = chdi ~ agegrp, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** agegrp agegrp * agegrp e-05 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > 23 / 42

24 Test af alderseffekten Vi kan også lave et test for effekt af alder vha anova eller drop1. Her skal vi ALTID benytte et chi-i-anden-test (Likelihood Ratio Test): Test af alderseffekt > glm2red<-glm(chdi~1,family=binomial) > anova(glm2,glm2red,test="chisq") Analysis of Deviance Table Model 1: chdi ~ agegrp Model 2: chdi ~ 1 Resid. Df Resid. Dev Df Deviance P(> Chi ) e-05 *** -- > drop1(glm2,test="chisq") Single term deletions Model: chdi ~ agegrp Df Deviance AIC LRT Pr(Chi) <none> agegrp e-05 *** -- > 24 / 42

25 Kvantificering af alderseffekten OR incl konfidensintervaller > confint(glm2) Waiting for profiling to be done % 97.5 % (Intercept) agegrp agegrp agegrp > round( cbind( exp(glm2$coef[-1]), exp(confint(glm2))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % agegrp agegrp agegrp > Risikoen for CHD stiger med alderen. De ældste har mere end dobbelt så stor odds for CHD end de yngste (OR=2.4, 95% CI ). 25 / 42

26 Valg af anden referencekategori Nogle gange ønsker vi sammenligningen en anden vej, f.eks. kunne vi sammenligne de yngre ifht de ældre. I R kan vi ændre referencekategorien vha relevel: Ny referencekategori > agegrpny<-relevel(agegrp,ref=4) > table(agegrpny) agegrpny > ref=4 specificerer at kategori nummer 4 skal være referencen (ikke værdien 4). 26 / 42

27 Kvantificering af alderseffekten OR incl konfidensintervaller > glm3<-glm(chdi~agegrpny,family=binomial) > summary(glm3) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-14 *** agegrpny e-05 *** agegrpny *** agegrpny * -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1362 degrees of freedom Residual deviance: on 1359 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > round( cbind( exp(glm3$coef[-1]), exp(confint(glm3))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % agegrpny agegrpny agegrpny > 27 / 42

28 Logistisk regression med to kategoriske variable Spørgsmål: Hvorledes afhænger sandsynligheden for CHD af køn og aldersgruppe? ln ( pi 1 p i ) = a + b 1 mand i + b 2 ryger i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 M ryger. Bemærk: b 1 = (a + b 1 ) a = (a + b 1 + b 2 ) (a + b 2 ) = ln OR (mænd vs. kvinder for givet rygestatus), b 2 = (a + b 2 ) a = (a + b 1 + b 2 ) (a + b 1 ) = ln OR (rygere vs. ikke-rygere for givet køn) NB: Dette er en additiv model / ingen interaktion. Jævnfør tosidet variansanalyse 28 / 42

29 To kategoriske variable i R Estimation > ryger<-factor(ifelse(cig>=1,1,0)) > table(ryger) ryger > glm5<-glm(chdi~mand+ryger,family=binomial) > summary(glm5) Call: glm(formula = chdi ~ mand + ryger, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-06 *** ryger (Dispersion parameter for binomial family taken to be 1) Null deviance: on 1361 degrees of freedom Residual deviance: on 1359 degrees of freedom (1 observation deleted due to missingness) AIC: Number of Fisher Scoring iterations: 4 29 / 42

30 OR er med to forklarende variable I den logistiske regressionsmodel med to forklarende variable, er de estimerede ln(or) er indbyrdes justeret. De estimeres begge med det laveste niveau som referencekategori. OR er incl konfidensintervaller > round( cbind( exp(glm5$coef[-1]), exp(confint(glm5))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % mand ryger > OR for CHD for mænd vs kvinder er 2.0 ( ). OR for rygere vs ikke-rygere er 1.03 ( ). 30 / 42

31 Kvantitativ forklarende variabel Eksempel 2: juul-datasættet i ISwR-pakken. Spørgsmål: Hvordan afhænger sandsynligheden for menarke af alder? Respons: Menarke (ja/nej) Forklarende variabel: alder. Alder vs menarke > install.packages("iswr") > library(iswr) > data(juul) > > juul2<-subset(juul,age>8 &age<=18) > juul2$agegrp<-cut(juul2$age,c(8,10,12,13,14,15,16,18)) > juul2$menarke<-ifelse(juul2$menarche==2,1,0) > attach(juul2) > table(agegrp,menarke) menarke agegrp 0 1 (8,10] (10,12] 97 4 (12,13] (13,14] (14,15] 5 36 (15,16] 0 31 (16,18] > 31 / 42

32 Plot af hyppighederne Sandsynlighed for menarke Linien angiver den estimerede regressionslinie fra en lineær model. 32 / 42 Alder

33 En kvantitativ forklarende variabel Model med alder som kvantitativ: ( ) pi ln 1 p i = a + bage i Her er b øgningen / reduktionen i log-odds per år. Hvad er forskellen i log-odds for to piger med alder a 1 og a 2? svarende til ( ) ( ) p1 p2 ln ln 1 p 1 1 p 2 = a + ba 1 (a + ba 2 ) = b(a 1 a 2 ) = log(or). OR = exp(b(a 1 a 2 )) = exp(b) (a 1 a 2 ) 33 / 42

34 Kvantitativ forklarende variabel i R Estimation > glm1a<-glm(menarke~age,family="binomial") > summary(glm1a) Call: glm(formula = menarke ~ age, family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** age <2e-16 *** -- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 472 degrees of freedom Residual deviance: on 471 degrees of freedom (389 observations deleted due to missingness) AIC: Number of Fisher Scoring iterations: 7 > 34 / 42

35 Beskrivelse af alderseffekten Konfidensintervaller > glm1a$coef (Intercept) age > confint(glm1) Waiting for profiling to be done % 97.5 % (Intercept) age > # OR incl CI > round( c(exp(glm1a$coef[-1]), exp(confint(glm1a)[-1,])),2 ) Waiting for profiling to be done... age 2.5 % 97.5 % > Når alderen øges med et år, stiger log-odds med 1.51 ( ). Når alderen øges med et år, øges odds med en faktor 4.55 ( ). Interceptet a = er log-odds for en pige på 0 år (!). 35 / 42

36 Sandsynlighed for menarke som funktion af alder Sandsynlighed for menarke Alder Kurven er baseret på den logistiske regressionsmodel. 36 / 42

37 Multipel logistisk regression Hvordan afhænger risikoen for CHD af køn, alder, rygning og SBP? ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Estimation > glm6<-glm(chdi~mand+ryger+age+i(log2(sbp)),family=binomial) > summary(glm6) Call: glm(formula = chdi ~ mand + ryger + age + I(log2(sbp)), family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** mand e-08 *** ryger age *** I(log2(sbp)) e-13 *** > 37 / 42

38 Kvantificering af effekterne ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) Her er a=log-odds for et individ med værdi 0 af alle kovariater. OR er incl konfidensintervaller > round( cbind( exp(glm6$coef[-1]), exp(confint(glm6))[-1,] ),2 ) Waiting for profiling to be done % 97.5 % mand ryger age I(log2(sbp)) > Odds for CHD er mere end dobbelt så stor for mænd. Der er ingen øget risiko for rygere (OR=1.2, CI= ). Risikoen stiger med alder, OR=1.06 per år (CI= ). Odds 8-dobles ved en fordobling af SBP (OR=7.9, CI= ). 38 / 42

39 Den logistiske regressionsmodel på odds-skala Modellen er lineær på log-odds-skala: ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i ) og derfor multiplikativ på odds-skala: p i 1 p i = exp(a + b 1 mand i + b 2 ryger i + b 3 alder i + b 4 log 2 (SBP i )) = exp(a) exp(b 1 mand i ) exp(b 2 ryger i ) exp(b 3 alder i ) exp(b 4 log 2 (SBP i )) = exp(a) OR mandi mand ORryger i rygning ORalderi alder OR log 2 (SBPi) SBP 39 / 42

40 Fra regressionsmodel til prædiktion Den generelle model er ( ) pi ln 1 p i = a + b 1 x i1 + + b p x ip Der er en én-til-én relation mellem log-odds og sandsynlighed: p i = exp(a + b 1 x i1 + + b p x ip ) 1 + exp(a + b 1 x i1 + + b p x ip ) 40 / 42

41 Prædiktion Vi ønsker at sammenligne sandsynligheden for CHD for en ikke-rygende mand på 50 år med sandsynligheden for en ikke-rygende kvinde på 50 år som funktion af SBP. Prædiktion i R > Mdata<-data.frame(mand=1,ryger="0",age=50,sbp=90:300) > head(mdata,3) mand ryger age sbp > pm<-predict(glm6,mdata,type="response") > head(pm) > > Kdata<-data.frame(mand=0,ryger="0",age=50,sbp=90:300) > pk<-predict(glm6,kdata,type="response") > > plot(90:300,pm,xlab="sbp",ylab="sandsynlighed for CHD",ylim=c(0,1),col="blue",type="l") > lines(90:300,pk,col="red") > legend(100,1,c("mand, ikke-ryger, 50 aar","kvinde, ikke-ryger, 50 aar"), > col=c("blue","red"),lty=1) > 41 / 42

42 Sandsynlighed for CHD som funktion af SBP Sandsynlighed for CHD Mand, ikke ryger, 50 aar Kvinde, ikke ryger, 50 aar SBP 42 / 42

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Morten Frydenberg 25. april 2006

Morten Frydenberg 25. april 2006 . gang: Introduktion til Logistisk Regression Morten Frydenberg 26 Afdeling for Biostatistik, Århus Universitet MPH. studieår specialmodul 4 Cand. San. uddannelsen. studieår Hvorfor logistisk regression

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes 25. april 2. gang: Introduktion til Logistisk Regression Morten Frydenberg 22 Institut for Biostatistik, Århus Universitet MPH. studieår specialmodul Cand. San. uddannelsen. studieår Hvorfor logistisk

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Epidemiologiske associationsmål

Epidemiologiske associationsmål Epidemiologiske associationsmål Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 16. april 2015 l Dias nummer 1 Sidste gang

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside:

Læs mere

2 Logaritme- og eksponentialfunktion 6

2 Logaritme- og eksponentialfunktion 6 Indhold 1 Kontingenstabeller 2 1.1 Krydstabeller....................................... 2 1.2 Forventede under nulhypotesen............................. 4 1.3 Ki-kvadrat test......................................

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal Statistik for medicinske PhD-studerende November 2008

Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Tye og Tye 2 fejl Statistisk styrke Biostatistik uge 2 mandag Morten Frydenberg, Afdeling for Biostatistik Styrkeovervejelser i lanlægning af et studie Logistisk regression Præterm fødsel, rygning, alder,

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation

Læs mere

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik. Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal,

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier Faculty of Health Sciences Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier Forsøgsplanlægning Sammenligning af to grupper : Hvor mange personer skal vi bruge? Det kommer

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Confounding og stratificeret analyse

Confounding og stratificeret analyse Faculty of Health Sciences Confounding og stratificeret analyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursets form Seks fredage

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Epidemiologiske associationsmål

Epidemiologiske associationsmål Epidemiologiske associationsmål Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 21. april 2016 l Dias nummer 1 Sidste gang

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression III Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside:

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion . februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Korrelation Pearson korrelationen

Korrelation Pearson korrelationen -9- Eidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Korrelation Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0.

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0. Opgave 6 Vi sætter P = 1000 og isolerer x i ligningen Se Bilag 2! P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0.6 ( 10 y 0.4 )1 /0.6 = x 10 1 /0.6 y 0.4 /0.6 = x x = 10 5 /3

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik ... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere