Introduktion til overlevelsesanalyse

Størrelse: px
Starte visningen fra side:

Download "Introduktion til overlevelsesanalyse"

Transkript

1 Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression II Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet Kursushjemmeside:

2 Program for dag 2 Repetition: Hazard funktionen Cox modellen med en kategorisk variabel. Likelihood Ratio testet To kategoriske variable Interaktion mellem to kategoriske variable En kontinuert variabel. Herunder modelkontrol. Interaktion mellem en kategorisk og en kontinuert variabel Gennemgående eksempel: Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 3. Til næste gang skal I have pakken timereg installeret. 2 / 43

3 Hazardfunktionen Hazardfunktionen (eller hazard raten / intensitet): for et lille h > 0. λ(t) P(t T < t + h T t). h Vi fokuserer på hazard ratio mellem to individer i og j λ i (t) λ j (t) = P(t T i < t + h T t) P(t T j < t + h T t). Fortolkning: Til ethvert tidspunkt angiver HR hvor meget større / mindre sandsynligheden er for at individ i dør i forhold til individ j. 3 / 43

4 Cox-modellen Med behandlingsgruppe som forklarende variabel lyder modellen: λ i (t) = λ 0 (t) exp(βx i ) hvor X i = I(patient i fik 6MP). Dvs λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(β) patient i fik 6MP. I Cox-modellen afhænger HR=exp(β) ikke af t, dvs. vi har proportionale hazards formulerer vi ikke en model for baseline hazard λ 0 (t) HR = exp(β) udtrykker risikoen for at en behandlet patient får tilbagefald i forhold til en patient i placebogruppen. 4 / 43

5 Cox s (partielle) Likelihood Funktion Lad t 1,..., t k være de ordnede observerede levetider. Den partielle likelihood er L(β) = k exp(βx j ) h R(t j ) exp(βx h) j=1 hvor R(t j ) er mængden af individer under risiko for død umiddelbart før tid t j. Likelihood en angiver sandsynligheden for at observere de data vi har observeret, for alle mulige værdier af β. Når vi skal beskrive data vha. modellen vælger vi det β som gør vores observerede data mest sandsynligt vi vælger β som maksimaliserer likelihoodfunktionen. 5 / 43

6 (Partielt) Likelihood Ratio test Når vi har estimeret β ved β kan vi beregne likelihood en for modellen, L( β). Vi ønsker at teste en hypotese, f.eks. H 0 : β = 0. Vi kan da sammenligne likelihood en for modellen (L( β)) med likelihood en for hypotesen (L(0)). Er de tæt på hinanden vælger vi at tro på hypotesen : hypotesen stemmer lige så godt overens med data som den oprindelige model. I praksis sammenligner vi -2 log(likelihood) for modellen og hypotesen vha Likelihood Ratio testet: LLR = 2 ( log-likelihood for H 0 log-likelihood for modellen ) = 2 ( L(0) L( β) ) som følger en χ 2 -fordeling med antal frihedsgrader lig forskellen mellem antal parametre i modellen og hypotesen (her=1). 6 / 43

7 Hvornår kan vi lave et Likelihood Ratio test? Vi kan udføre Likelihood Ratio testet når hypotesen er en simplificering af modellen. Det svarer til at hypotesen skal være indeholdt i modellen. For remissionsdata med behandling er modellen: λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(β) patient i fik 6MP mens modellen under hypotesen H 0 : β = 0 er λ i (t) = { λ0 (t) patient i fik placebo λ 0 (t) exp(0) patient i fik 6MP = λ 0 (t). Idet hypotesen kan skrives på samme form som modellen er hypotesen indeholdt i modellen og vi kan udføre LLR-testet. 7 / 43

8 LLR for behandling i R For at udføre LLR-testet har vi brug for 1) likelihood L( β) under modellen 2) likelihood L(0) under hypotesen. R gemmer log-likelihood (LL) som hentes ud vha. $loglik: > treatment<-1-placebo > cox2<-coxph(surv(time,event) ~ treatment) > LL<-cox2$loglik > LL [1] Bemærk at der er to tal: Det første element er LL for modellen helt uden kovariater (her H 0 ), andet element er LL for modellen. LLR beregnes som to gange differensen: > -2*(LL[1]-LL[2]) [1] > 1-pchisq( ,df=1) [1] e-05 Sammenlign med summary(cox2). 8 / 43

9 LLR for kategoriseret logwbc Her er modellen λ i (t) = λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 1 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 2 ) logwbc i Vi ønsker at teste hypotesen H 0 : β 1 = β 2 (= β 12 ) svarende til at der ikke er nogen forskel på mellem og høj logwbc. Under hypotesen lyder modellen { λ0 (t) logwbc λ i (t) = i < 3.23 = λ 0 (t) exp(β 12 ) logwbc i λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 12 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 12 ) logwbc i og hypotesen er derfor indeholdt i modellen og vi kan lave et LLR-test. 9 / 43

10 LLR for kategoriseret logwbc i R Vi estimerer først det fælles β 12 under hypotesen H 0 : β 1 = β 2 (= β 12 ). Derfor defineres en ny variabel, som svarer til inddelingen af logwbc under hypotesen (dvs. i grupper lav, mellem-høj) og derefter fittes denne model: > cox4<-coxph(surv(time,event)~factor(logwbc3)) # fuld model > logwbc2<-logwbc3; logwbc2[logwbc3==3]<-2 > cox4r<-coxph(surv(time,event)~factor(logwbc2)) # hypotesen Nu kan log-likelihood hentes for begge modeller > cox4$loglik [1] > cox4r$loglik [1] / 43

11 Vi skal kun bruge log-likelihood for modellerne indholdende parametrene, dvs vi skal sammenligne element 2 i hver af de to vektorer med log-likelihoods: > LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) > LLR [1] > p<-1-pchisq(llr,df=1) > p [1] Bemærk at denne hypotese ikke automatisk efterprøves i R. Hvordan kan vi tvinge R til det? 11 / 43

12 To kategoriske variable Vi ønsker at beskrive effekten af behandling justeret for (kategoriseret) logwbc. Cox modellen bliver λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3)) λ 0 (t) placebo, logwbc i < 2.37 λ 0 (t) exp(β 2 ) placebo, logwbc i [2.37; 3.23) λ 0 (t) exp(β 3 ) placebo, logwbc i = λ 0 (t) exp(β 1 ) behandling, logwbc i < 2.37 λ 0 (t) exp(β 1 + β 2 ) behandling, logwbc i [2.37; 3.23) λ 0 (t) exp(β 1 + β 3 ) behandling, logwbc i Fortolkning af regressionsparametrene: 12 / 43 β 1 er effekten af behandling for fastholdt (givet) logwbc-gruppe. Effekten af behandling er den samme for alle niveauer af logwbc-gruppe. Tilsvarende er effekten af logwbc-gruppen den samme uanset behandlingsgruppe.

13 Log-hazard for to kategoriske variable Vi kan også angive modellen på log-hazard-skalaen: log(λ i (t)) = log(λ 0 (t)) + β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3) log(λ 0 (t)) placebo, logwbc i < 2.37 log(λ 0 (t)) + β 2 placebo, logwbc i [2.37; 3.23) log(λ 0 (t)) + β 3 placebo, logwbc i = log(λ 0 (t)) + β 1 behandling, logwbc i < 2.37 log(λ 0 (t)) + β 1 + β 2 behandling, logwbc i [2.37; 3.23) log(λ 0 (t)) + β 1 + β 3 behandling, logwbc i / 43

14 Den additive model Vi kan illustrere modellen i følgende tabel på log-hazard-skalaen: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 Forskellen mellem placebo og behandling er den samme for hvert niveau af logwbc-gruppe (β 1 ). Forskellen mellem logwbc-grupperne er den samme for hver behandlingsgruppe. HR for behandling vs placebo er exp(β 1 ) uanset logwbc-gruppe. HR for logwbc-gruppe 2 vs 1 er exp(β 2 ) uanset behandling. HR for logwbc-gruppe 3 vs 1 er exp(β 3 ) uanset behandling. Denne model kaldes også den additive model. 14 / 43

15 Den additive model i R På højre side af ~ i survfit inkluderes begge variable adskilt af +: > cox5<-coxph(surv(time,event)~factor(treatment)+factor(logwbc3)) > summary(cox5) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) *** factor(logwbc3) factor(logwbc3) e-05 *** --- Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 factor(treatment) factor(logwbc3) factor(logwbc3) Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 34.8 on 3 df, p=1.341e-07 Wald test = on 3 df, p=1.604e-06 Score (logrank) test = 39.9 on 3 df, p=1.12e / 43

16 Interaktion mellem kategoriske variable Den additive model Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 β 1 + β 3 forudsætter, at der ikke er interaktion (vekselvirkning). Interaktionsmodellen tillader at effekten af behandling afhænger af logwbc: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β4 β5 dvs. en model hvor parametrene varierer fuldstændigt frit. 16 / 43

17 Omparameterisering af interaktionsmodellen Vi skal kontrollere, om der er interaktion. Det er nyttigt at skrive interaktionsmodellen på formen: Kategoriseret logwbc Z = 1 Z = 2 Z = 3 Placebo 0 β 2 β 3 Behandling β 1 β 1 + β 2 + β 4 β 1 + β 3 + β 5 Hypotesen om manglende interaktion kan da formuleres: H 0 : β 4 = β 5 = 0. Hypotesen kan testes ved et LLR-test, hvor teststørrelsen følger en χ 2 -fordeling med 2 frihedsgrader. 17 / 43

18 Parameterisering af interaktionsmodel Vi definerer to interaktionsled ved V i = W i = { 1 Xi = 1 og Z i = 2 0 ellers { 1 Xi = 1 og Z i = 3 0 ellers Cox modellen med interaktionsled er λ i (t) = λ 0 (t) exp(β 1 X i + β 2 I(Z i = 2) + β 3 I(Z i = 3) + β 4 V i + β 5 W i ) 18 / 43

19 Interaktionsmodellen i R Interaktioner mellem 2 variable angives med en *: > cox6<-coxph(surv(time,event)~factor(treatment)*factor(logwbc3)) > summary(cox6) Call: coxph(formula = Surv(time, event) ~ factor(treatment) * factor(logwbc3)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) * factor(logwbc3) factor(logwbc3) ** factor(treatment)1:factor(logwbc3) factor(treatment)1:factor(logwbc3) Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 factor(treatment) factor(logwbc3) factor(logwbc3) factor(treatment)1:factor(logwbc3) factor(treatment)1:factor(logwbc3) Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 5 df, p=8.557e-07 Wald test = 27.1 on 5 df, p=5.444e-05 Score (logrank) test = on 5 df, p=1.09e / 43

20 En kontinuert forklarende variabel Vi har set, at effekten af logwbc ser ud til at være monoton: Jo højere logwbc, jo højere risiko. I stedet for at kategorisere logwbc (arbitrært) kan vi f.eks. inkludere WBC (i antal 10 9 pr L). Antal wbc Antal logwbc 20 / 43

21 Cox-modellen med WBC Cox-modellen er λ i (t) = λ 0 (t) exp(βwbc i ) Sammenlignes to patienter med en forskel på 1 i WBC, når det laveste er referencen, fås HR = λ 0(t) exp(β(wbc + 1) λ 0 (t) exp(βwbc) = exp(β). Sammenlignes to patienter med en forskel på 5 i WBC fås HR = λ 0(t) exp(β(wbc + 5) λ 0 (t) exp(βwbc) = exp(β 5). = exp(β) 5. Dvs fortolkningen er : for hver gang WBC øges med 1, skal HR ganges med exp(β). 21 / 43

22 Log-hazard for en kontinuert variabel Cox-modellen på log-hazard-skala lyder log(λ i (t)) = log(λ 0 (t)) + βwbc i dvs. effekten af WBC er lineær på log-hazard-funktionen: baseline log hazard WBC 22 / 43

23 Cox-modellen med WBC i R > wbc<-exp(logwbc) > cox7<-coxph(surv(time,event) ~ wbc) > summary(cox7) Call: coxph(formula = Surv(time, event) ~ wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) wbc e-08 *** --- Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 wbc Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= 30.3 on 1 df, p=3.702e-08 Wald test = on 1 df, p=3.877e-08 Score (logrank) test = on 1 df, p=5.04e-14 Men er dette en rimelig model? 23 / 43

24 Test af trend I første omgang kan vi undersøge modellen indeholdende den kategoriserede version af WBC nærmere - er der en monoton sammenhæng, og hvordan ser den ud? λ i (t) = λ 0 (t) logwbc i < 2.37 λ 0 (t) exp(β 1 ) logwbc i [2.37; 3.23) λ 0 (t) exp(β 2 ) logwbc i Et test for trend kan udføres ved at sammenligne denne model med modellen hvor kategoriseret logwbc opfattes som kvantitativ: λ 0 (t) logwbc i < 2.37 λ i (t) = λ 0 (t) exp(β) logwbc i [2.37; 3.23) λ 0 (t) exp(2β) logwbc i dvs. hypotesen er H 0 : β 2 = 2β 1 = 2β. 24 / 43

25 Grafisk check af mulig trend Illustration af modellerne på log-hazard-skalaen: baseline log hazard Fuld model Hypotesen logwbc Det er altid en god idé at starte med at se på den kategoriserede version af en kontinuert variabel. 25 / 43

26 LLR test af trend i R > logwbc3<-1 + ifelse(logwbc > 2.37,1,0) + ifelse(logwbc > 3.23,1,0) > cox4<-coxph(surv(time,event) ~ factor(logwbc3)) > logwbc3kvant<-logwbc3-1 > cox4r<-coxph(surv(time,event) ~ logwbc3kvant) > LLR<--2*(cox4r$loglik[2]-cox4$loglik[2]) > LLR [1] > p<-1-pchisq(llr,df=1) > p [1] > Vi accepterer hypotesen og ser en monotont (voksende) sammenhæng mellem WBC og risikoen for tilbagefald. 26 / 43

27 Test for linearitet En måde at foretage et test for, om WBC kan inkluderes lineært er at tilføje et kvadratled i Cox-modellen: λ i (t) = λ 0 (t) exp(β 1 WBC i + β 2 WBC 2 i ). på log-hazard-skalaen er dette en parabel, log(λ i (t)) = log(λ 0 (t)) + β 1 WBC i + β 2 WBC 2 i. Et test af H 0 : β 2 = 0 er et test for (afvigelse fra) linearitet. 27 / 43

28 Test for linearitet i R > wbc2<-wbc^2 > cox8<-coxph(surv(time,event) ~ wbc+wbc2) > summary(cox8) Call: coxph(formula = Surv(time, event) ~ wbc + wbc2) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) wbc *** wbc Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 wbc wbc Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 2 df, p=8.793e-08 Wald test = on 2 df, p=8.258e-08 Score (logrank) test = on 2 df, p=9.104e-14 Dvs vi kan ikke påvise en eventuel ikke-lineær effekt af WBC. 28 / 43

29 WBC eller logwbc som forklarende variabel Vi kan ud fra de foregående tests ikke umiddelbart afvise, at effekten af WBC er lineær. Men biologisk giver modellen ikke så meget mening: Effekten af en øgning af WBC på 1 er den samme, uanset om man har højt eller lavt WBC: HR(5 vs 4) = HR(100 vs 99) = exp( β) (= ). Det er formentligt værre at stige 1 for lave WBC-tal end for høje. En log-transformation mindsker afstanden mellem de store målinger og spreder de små. 29 / 43

30 WBC vs logwbc som forklarende variabel Bemærk at vi ikke kan teste modellen indholdende WBC mod modellen indeholdende logwbc med et likelihood-ratio-test. Men vi kan prøve at inkludere begge variable for at se, om den ene kan undværes, når vi kontrollerer for den anden: > cox9<-coxph(surv(time,event) ~ logwbc + wbc) > summary(cox9) Call: coxph(formula = Surv(time, event) ~ logwbc + wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc * wbc Vi vælger modellen indeholdende logwbc alene. 30 / 43

31 logwbc som forklarende variabel i R > cox10<-coxph(surv(time,event) ~ logwbc) > summary(cox10) Call: coxph(formula = Surv(time, event) ~ logwbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) logwbc e-08 *** --- Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 logwbc Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 1 df, p=3.577e-09 Wald test = on 1 df, p=3.294e-08 Score (logrank) test = on 1 df, p=1.433e / 43

32 Fortolkning af effekten af WBC på log-skala HR øges med en faktor for hver gang logwbc øges med 1. Hvad betyder det? det vil sige at 1 = log(wbc 1 ) log(wbc 2 ) = log( WBC 1 WBC 2 ) WBC 1 WBC 2 = exp(1) = Dermed er fortolkningen, at HR øges med en faktor for hver gang WBC øges med en faktor Løsning: Brug logaritme med base 2 i stedet. 32 / 43

33 Cox-modellen med log 2 (WBC) > log2wbc<-log2(wbc) > cox11<-coxph(surv(time,event) ~ log2wbc) > summary(cox11) Call: coxph(formula = Surv(time, event) ~ log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) log2wbc e-08 *** --- Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 log2wbc Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 1 df, p=3.577e-09 Wald test = on 1 df, p=3.294e-08 Score (logrank) test = on 1 df, p=1.433e-09 Ved en fordobling af WBC øges HR med en faktor 3.13 (95% KI ). Bemærk at teststørrelserne og p-værdierne er uændrede. 33 / 43

34 En binær og en kontinuert forklarende variabel Vi kan nu vurdere effekten af behandling justeret for log 2 WBC: > treatment<-1-placebo > cox12<-coxph(surv(time,event) ~ factor(treatment)+log2wbc) > summary(cox12) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) ** log2wbc e-07 *** --- Signif. codes: 0 *** ** 0.01 * exp(coef) exp(-coef) lower.95 upper.95 factor(treatment) log2wbc Concordance= (se = ) Rsquare= (max possible= ) Likelihood ratio test= on 2 df, p=7.187e-11 Wald test = 33.6 on 2 df, p=5.061e-08 Score (logrank) test = on 2 df, p=9.921e / 43

35 Interaktion mellem binær og kontinuert variabel Interaktionsmodellen lyder (med placebo som baseline) λ i (t) = = { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP (1) λ 0 (t) exp(β 3 log 2 WBC i ) hvis i får placebo { λ0 (t) exp(β 1 + β 2 log 2 WBC i ) hvis i får 6MP λ 0 (t) exp((β 2 + β 3 ) log 2 WBC i ) hvis i får placebo (2) eller på log-hazard-skalaen: log(λ i (t)) = { log(λ0 (t)) + β 1 + β 2 log 2 WBC i hvis i får 6MP log(λ 0 (t)) + β 3 log 2 WBC i hvis i får placebo. Effekten af log 2 WBC afhænger af behandlingsgruppe. Effekten af behandling afhænger af log 2 WBC. Hypotesen om manglende interaktion lyder 35 / 43 H 0 : β 2 = β 3 (model (1)) β 3 = 0 (model (2)).

36 Illustration af interaktionsmodellen baseline log hazard Placebo Behandling Placebo H_0 Behandling H_ logwbc På log-hazard-skalaen svarer manglende interaktion (H 0 ) til parallelle linier. 36 / 43

37 Interaktionsmodellen i R Model (1): > cox13<-coxph(surv(time,event) ~ factor(treatment)+factor(treatment):log2wbc) > summary(cox13) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + factor(treatment):log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) factor(treatment)0:log2wbc e-05 *** factor(treatment)1:log2wbc e-05 *** --- Model (2): > cox14<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(treatment)*log2wbc) > summary(cox14) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(treatment) * log2wbc) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) log2wbc e-05 *** factor(treatment)1:log2wbc / 43

38 Flere variable Vi kan vurdere effekten af behandling justeret for køn og logwbc: > cox15<-coxph(surv(time,event) ~ factor(treatment)+log2wbc+factor(female)) > summary(cox15) Call: coxph(formula = Surv(time, event) ~ factor(treatment) + log2wbc + factor(female)) n= 42, number of events= 30 coef exp(coef) se(coef) z Pr(> z ) factor(treatment) ** log2wbc e-07 *** factor(female) Hvad er baselinegruppen i denne model? Hvilken model skal vi vælge som den endelige model? 38 / 43

39 Øvelser Maligne melanomer: 1. Aktivér timereg pakken og gør data tilgængelige med kommandoen data(melanoma). Vi vil fortsat fokusere på død pga melanomer, dvs. død af andre årsager skal betragtes som censurering. 2. Lav en inddeling af thick i 4 nogenlunde lige store grupper. Fit modellen med thick som kategorisk variabel. Hvordan er mønsteret? Lav evt et plot på log-hazard-skalaen som på slide Lav et trend-test. Hvad er konklusionen? 4. Lav en inddeling af tykkelse i grupper 0-2 / 2-5 / > 5 mm og gentag 2-3. Hvad er moralen? 39 / 43

40 5. Lav et test for linearitet ved at inkludere thick som kontinuert incl. et kvadratled. Hvad er konklusionen? Illustrér effekten på log-hazard-skalaen ved et plot. Kan du foreslå en nyttig - og biologisk fortolkelig - transformation af tykkelse? Fit modellen. 6. Undersøg om der er en interaktion mellem køn og den transformerede tykkelse (samme transformation som benyttet under punkt 5). Estimér i interaktionsmodellen effekten af (transformeret) tykkelse for hvert køn for sig. 40 / 43

41 Tid til graviditet. 423 par blev fulgt fra start graviditetsforsøg frem til graviditet eller end-of-follow-up (til og med 6. cyklus). 137 par blev censureret i 6. cyklus, 3, 5, 6, 12 og 4 blev censureret i henholdsvis cyklus 1 til 5. Flere detaljer i Bonde et al (1998), Journal of Reprod. Toxicol, 12, Vi vil her undersøge effekten af rygning og alkohol på tid til graviditet. Vi skal bruge følgende variable i ttp.txt (fra hjemmesiden): Observationsnummer TTP (time to pregnancy) Kgravid (1=gravid, 0=censurering) Kryg (1=Kvinde ryger, 0=Kvinde ej ryger) Mryg (1=Mand ryger, 0=Mand ej ryger) Kalk (antal genstande pr uge (kvinde)) 41 / 43

42 1. Lav Kaplan-Meier kurver for henholdsvis Kryg og Mryg. Kommentér. 2. Kvantificer effekten (ujusteret) af henholdsvis Kryg og Mryg. 3. Undersøg om der er en interaktion mellem Kryg og Mryg. 4. I den additive model indeholdende Kryg og Mryg, udfyld tabellen med effekterne på log-hazard skala. Estimer HR for (Kryg=1,Mryg=1) vs (Kryg=0,Mryg=0). Hvis vi skal have et konfidensinterval for denne HR, er vi nødt til at få R til at bestemme det. Det kan gøres vha funktionen glht i pakken multcomp således. cox4<-coxph(surv(ttp,kgravid)~kryg+mryg) K2<-rbind("beta1+beta2"=c(1,1)) summary(glht(cox4,linfct=k2)) Dvs R beregner her β 1 + β 2 incl. standardafvigelse (check med estimaterne i cox4). Bestem nu konfidensintervallet for HR. 42 / 43

43 5. Definer en ny rygevariabel MKryg: 0= K ej ryger, M ej ryger, 1= M ryger, K ej ryger, 2= M ej ryger, K ryger, 3= M ryger, K ryger (dosis-respons effekt). Lav et trend-test. 6. Inddél alkohol i grupper 1= 0, 2= 1-5, 3= 6-10,4= 10+ og lav et trend-test. 7. Benyt Kalk som kvantitativ forklarende variabel. Lav et test for linearitet. Prøv at bruge kvadratroden af Kalk. 8. Analyser effekten af Kryg og kradratroden af Kalk, indbyrdes justerede. Afhænger effekten af alkohol af rygning? 43 / 43

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression III Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside:

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside:

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

Dag 6: Interaktion. Overlevelsesanalyse

Dag 6: Interaktion. Overlevelsesanalyse Dag 6: Interaktion. Overlevelsesanalyse How does CHD depend on gender and hypertension? Males: hypertension chd01 Females: Frequency Row Pct 0 1 Total ---------+--------+--------+ 0 352 95 447 78.75 21.25

Læs mere

Eksamen Efterår 2013

Eksamen Efterår 2013 Eksamen Efterår 2013 Opgave En måde at sammenlægge svarene fra de fem EQ-5D items er igennem et indeks, der angiver værdien samfundet giver en bestemt svarkombination. EURV = 1-0.081*(D=1) 0.069*(MOVE=2)

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Opgavebesvarelse vedr. overlevelsesanalyse

Opgavebesvarelse vedr. overlevelsesanalyse Opgavebesvarelse vedr. overlevelsesanalyse Opgaven går ud på at vurdere effekten af azathioprine på overlevelsen hos 216 patienter med primær biliær cirrhose (PBC), ref. Christensen et al. (1985). Data

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier

Faculty of Health Sciences. Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier Faculty of Health Sciences Miscellaneous: Styrkeberegninger Overlevelsesanalyse Analyse af matchede studier Forsøgsplanlægning Sammenligning af to grupper : Hvor mange personer skal vi bruge? Det kommer

Læs mere

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018 Faculty of Health Sciences Basal Statistik Overlevelsesanalyse Lene Theil Skovgaard 12. marts 2018 1 / 12 APPENDIX vedr. SPSS svarende til diverse slides: Kaplan-Meier kurver, s. 3 Kumulerede incidenser

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen. 1 Levetidsanalyse Overlevelsesfunktionen Censurering Kaplan-Meier estimatoren Hazard funktionen Proportionale hazards Multipel regression PSE (I17) FSV1 Statistik - 5. lektion 1 / 19 Overlevelsesfunktionen

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion . februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Cox regression IV. Competing risks. Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik ... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Introduktion til R. Faculty of Health Sciences

Introduktion til R. Faculty of Health Sciences Faculty of Health Sciences Introduktion til R Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk 21. marts 2013 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder,

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere Epidemiologi og biostatistik. Uge 5, torsdag 5. september 003 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver

Læs mere

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Logistis regression Statisti Kandidatuddannelsen i Folesundhedsvidensab Multipel logistis regression Antagelser: Binære observationer (Y i, i=,.,n) f.es Ja/Nej Høj/Lav Død/Levende Kodet: / 0 Y i uafhængige

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 ( Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (10.-12. april) I et randomiseret forsøg sammenlignes vitamin D behandling

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom. MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom. For at I skal kunne regne på tallene fra undersøgelsen har vi taget en delmængde af variablene

Læs mere

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse

Faculty of Health Sciences. Styrkeberegninger Poisson regression Overlevelsesanalyse Faculty of Health Sciences Styrkeberegninger Poisson regression Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Forsøgsplanlægning

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Opgavebesvarelse vedr. overlevelsesanalyse

Opgavebesvarelse vedr. overlevelsesanalyse Opgavebesvarelse vedr. overlevelsesanalyse Opgaven går ud på at vurdere effekten af azathioprine på overlevelsen hos 216 patienter med primær biliær cirrhose (PBC), ref. Christensen et al. (1985). Data

Læs mere

Hjemmeopgave, efterår 2009

Hjemmeopgave, efterår 2009 Hjemmeopgave, efterår 2009 Basal statistik for sundhedsvidenskabelige forskere Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-29. oktober) I alt 112 piger har fået målt bone mineral

Læs mere

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Basal statistik Overlevelsesanalyse Lene Theil Skovgaard & Susanne Rosthøj 1. april 2019 Levetider og censurerede observationer Kaplan-Meier kurver Log-rank

Læs mere

Synopsis til eksamen i Statistik

Synopsis til eksamen i Statistik Synopsis til eksamen i Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Københavns Universitet december 2010 Eksamensnummer: 12 Antal anslag: 23.839 (svarende til 9,9 normalsider) - 1 - Indholdsfortegnelse

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

8.2 Statistiske analyse af hver enkelt indikator

8.2 Statistiske analyse af hver enkelt indikator 8.2 Statistiske analyse af hver enkelt indikator Basale ideer De avancerede statistiske metoder, som anvendes i denne rapport, fokuserer primært på vurdering af eventuel geografisk heterogenitet på regions-,

Læs mere

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1 Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere

Læs mere

Eksamen i Statistik og skalavalidering

Eksamen i Statistik og skalavalidering Eksamen i Statistik og skalavalidering 2009-studieordning Til aflevering d. 22. december 2010 Efterårssemestret 2010, Kandidatuddannelsen i Folkesundhedsvidenskab Opgaven er udarbejdet af: Eksamensnummer

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Opgavebesvarelse, logistisk regression

Opgavebesvarelse, logistisk regression Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvalitative egenskaber og dummyvariabler Kvantitative metoder 2 Dummyvariabler 28. marts 2007 Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative

Læs mere

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Basal statistik Overlevelsesanalyse Lene Theil Skovgaard 5. november 2018 Levetider og censurerede observationer Kaplan-Meier kurver Log-rank test Cox regression

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere