Analyse af tid-til-event data i store kohorte studier analyseret med SAS/STAT

Transkript

1 Analyse af tid-til-event data i store kohorte studier analyseret med SAS/STAT Jacob Simonsen, Afdeling for Epidemiologisk Forskning Statens Serum Institut

2 Register baseret forskning Kendetegn: Baseret på landsdækkende registre, derfor store datasæt Udfald er oftest binære eller tid-til-event Prædefinerede og veldefinerede statistiske hypoteser Centralpersonregistret Psykiatriskregistret Analyse data Landspatientregistret Patalogiregistret Lægemiddelregistret Sygesikringsregistret Lægemiddelregistret Cancerregistret

3 Tid til event modeller (overlevelses analyse) I disse analyser gælder det om at finde sammenhænge mellem forklarende faktorer og tid-til-event. Tiderne kan være censoreret, dvs for nogle observationer kendes kun en nedre grænse. Kan skyldes studietids ophør. Og observationer kan være venstre trunkeret, dvs med forsinket entry. Tid

4 Procedurer specialiseret til overlevelses analyse Rate modeller: l(t)=f(xb) PROC PHREG PROC ICPHREG PROC SURVEYPHREG Accelerated Failure time models: E(T)=f(Xb) PROC LIFEREG Ikke-parametriske analyser: Kaplan Meier kurver, Log rank test, etc PROC LIFETEST PROC ICLIFETEST Percentil regression: fx Median(T)=Xb PROC QUANTLIFE

5 Generelle procedure der også finder anvendelse i overlevelses analyser Generaliserede lineære modeller PROC GENMOD PROC GLIMMIX PROC HPGENSELECT Ikke lineære modeller PROC HPNLMOD PROC NLMIXED

6 Rate modeller Her konstrueres modeller for raten (groft sagt: rate= 1 ) tid til event Mest populære rate modelle er Poisson regression (fuld parametrisk model): l(t)=e X(t)b, X(t) er stykvise konstant Cox regression (semi parametrisk model): l(t)=e X(t)b l 0 (t), hvor l 0 (t) er en baggrundsrate Mindre populært, men langt mere generel er Lin-Yings model: l(t)=g(x(t)b) + h(z(t)g) l 0 (t)

7 Poisson regression Man kan nøjes med at regne på aggregerede persontider og events i kombinationer af forklarende faktorer: Person ID Data på individ niveau Køn Eksponeret Alder Start Slut Event 1 Mand Nej Jan Jan Mand Nej Jan Dec Man Ja Dec Dec 86 1 Aggregeret data Alder Køn Eksponeret Personår Events Mand Ja Mand Nej Kvinde Ja Kvinde Nej Med flere tidsafhænge faktorer er det et besværligt tælle-arbejde at danne det aggregerede data Heldigvis findes %stratify-makroen 1 der udfører arbejdet. 1) Rostgaard K. Methods for stratification of person-time and events a prerequisite for Poisson regression and SIR estimation. Epidemiologic Perspectives & Innovations : EP+I. 2008;5:7. doi: /

8 Likelihood-funktionen får en form magen til Poisson fordelte data s likelihood funktion. Derfor kan procedurer til generaliserede lineære modeller benyttes. PROC HPGENSELECT data=aggregeret; CLASS alder koen eksponering; MODEL events=alder koen eksponering/dist=poisson LINK=LOG offset=logpersontid; RUN; PROC HPGENSELECT er en multi-kerne procedure. Hurtig på store datasæt med mange forklarende variable. Til gengæld har PROC GENMOD flere features end HPGENSELECT (fx REPEATED der tillader stokastisk afhængige observationer). Beregningstiden er proportional med antal kombinationer af forklarende variable.

9 Inden analyse skal data opstilles på formen Cox-regression Person ID Eksponeret Start (alder) Slut (alder) event 1 Nej Nej Ja 57 57½ 1 Bemærk, der er ikke en alder-klasse-variabel. Til gengæld siger start og slut hvornår personen indgår i analysen. Man kan selvfølgelig vælge en andent tidsakse en alder. Data kan nu analyseres med PROC PHREG...

10 Estimering i Cox-regression med PROC PHREG PHREG anno 2002: PROC PHREG data=mydata; MODEL (entry exit)*event(0)=kon medicin; RUN; PHREG anno 2015: PROC PHREG data=mydata fast; CLASS kon medicin(ref= placebo ) site; MODEL (entry exit)*event(0)=kon medicin/eventcode=1; RANDOM site; ASSESS PROPORTIONALHAZARDS; WEIGHT myweight; RUN; Optimering af hastighed Ved venstre trunkerede data SAS/STAT 14.1 (9.4 M3) Multiple event typer. SAS/STAT 13.1 (SAS 9.4 M1) Class statement (fra version 9.2) Tillader stokastisk afhængige data SAS/STAT 9.3 Goodness of fit SAS 9.2 Vægte smart ved aggregering SAS/STAT 13.2 (9.4 M2)

11 Aggregering i Cox-regression I Cox regression er det tilstrækkeligt at vide hvor mange der er i risiko og antal døde på hvert riskset riskset Tid Eksponeret Riskset Tid (målt i alder) dummytid Antal Der findes SAS-makroer til dannelse af det aggregerede datasæt. %coxaggregate(data=,entry=,exit=,covariate=..) Nej Nej Ja Nej Ja Ja PROC PHREG data=aggregated; CLASS eksponeret; MODEL dummytime*dummytime(2)= eksponeret; WEIGHT antal; STRATA riskset; RUN;

12 Cox regression med tidsafhængie faktorer Uden aggregering: Her tillades eksponerings-effekteen at ændre værdi ved fx tid=10. Eksponerings effekten kan splittes således: PROC PHREG data=ikke_aggregeret_data; tidlig=(eksponeret= yes )*(tid<=10); sen=(eksponeret= yes )*(tid>10); MODEL tid*event(0)=tidlig sen; RUN; Dette give desværre en beregningstid der er kvadratisk med antal individer. Med? λ aggregering 0.8 Aggregeringen gør det muligt at definere en tidsmarkør i et datastep. Herefter modelleres tidsafhængigheden som en interaktion: %coxaggregate(data=,entry=,exit=,covariate=..) 0.7 Data aggregated; 0.6 set aggregated; if (riskset_tid<=10) then tid2= tidlig ; 0.5 else tid2= sen ; Run; 0.4 PROC PHREG data=aggregated; 0.3 CLASS eksponeret tid2/param=glm; 0.2 MODEL dummytime*dummytime(2)= eksponeret*tid2; WEIGHT antal; 0.1 STRATA riskset; hazardratio eksponeret/at(tid2=all); RUN; Dette reducere beregningstiden til at være lineær afhængig af antal individer. Eksponeret Ueksponeret Tid

13 Beregningstid i Cox-regression n=antal individer. Venstre-trunkering Tidsafhængige faktorer Beregningstid uden aggregering Beregningstid Med aggregering Nej Nej O(n) O(n) Nej Ja O(n 2 ) O(n) Ja Nej O(n 2 ) eller O(n) med FAST option O(n) Ja Ja O(n 2 ) O(n)

14

15

16 Lin Yings Ikke lineære model Lad os forestille os at raten formen l(t)=g(xb) + h(xa) l 0 (t) b og a er parametre, der skal estimeres. X og Z er vektorer med forklarende variable l 0 (t) er en baggrundsrate (parametrisk eller ikke-parametrisk). g og h er selvvalgte link-funtioner. En ekstrem fleksibel model! Modellen tillader additive komponenter, g(xb), som udtrykker rate-differencer og multiplikative komponenter, h(za), som udtrykker rate-ratioer.

17 Estimering med parametrisk baggrundsrate Antag modellen l(t)=g(xb) + h(za) l 0 (t) Med fx g(x)=x og h(x)=e x, og at baggrundsraten fx har formen: l 0 (t)= k r t r k 1. Estimering foretages ved maksimere log-likelihood-funktionen. Hver observation har et bidrag på formen t exit l i (b,g,s)=1 event log(l i (t))- tentry l i (s) ds, som er et rent parametrisk udtryk.

18 Bidraget til likelihood-funktionen kan programmeres ind i HPNLMOD: PROC HPNLMOD DATA=simulation ; lambda=beta1*w1+exp(gamma1*x1)*(k/r)*(t/r)**(k-1) integrale=t*beta1*w1+exp(gamma1*x1)*(t/r)**k likelihood=event*log(lambda)-integrale; BOUNDS k r>0; MODEL t ~ GENERAL (likelihood); RUN; Chancerne for konvergens øges hvis man har et fornuftigt bud på startværdier parameters beta gamma1 0.5 k 1 r 1; Har man tilfældige effekter i modellen kan man benytte sig af PROC NLMIXED.

19 Estimering med ikke-parametrisk baggrundsrate l i (t)=g(x i b) + h(z i a) l 0 (t) Nu antages ikke nogen parametrisk form på l 0 (t). Modellen er derfor mere fleksibel på trods af færre parametre. Parametrene kan estimeres ved at løse et sæt estimerings ligninger (Se Lin-Yings artikel for den præcise form 1 ): F b, g = 0 t f a, b, data s dm i (s) = 0. Generelt kan dette ikke opstilles som et maksimerings problem. - PROC HPNLMOD eller nogen anden procedure virker derfor ikke hér. Heldigvis kan alt løses i SAS/BASE (kræver dog lidt arbejde ) 1 Lin, D. Y.; Ying, Zhiliang. Semiparametric Analysis of General Additive-Multiplicative Hazard Models for Counting Processes. Ann. Statist. 23 (1995), no. 5, doi: /aos/

20 Numerisk løsning til estimerings ligningen F b, g = 0 t f a, b, data s dm i (s) = 0 Kan løses med Newton Raphsons algoritme δ F θ i = θ i 1 δ θ (θ i 1) F θ i 1, Hvor θ er hele parameter vektoren θ = a b. Dvs, vælg passende startværdi θ 0 og iterér indtil der er konvergens. 1

21 Sådan kan en Newton-Raphson algoritme implementeres i et datastep Proc sort data=mydata; by t; Run; Data estimater; /***initialiser parametre****/ array parameters{&dimension.,1} _temporary_; array afledte{&dimension.,&dimension.} _temporary_; do until (konvergens=1); ***sæt integrand og afledte til 0****; do i=1 to nobs; set mydata point=i; ****opdater hjælpevariable end; ****Udregn F(q) og df(q)/dq ****Newton Rapson opdatering af parametre; *** if (parameterændring<delta) then konvergens=1;***; end; keep parametre; Run; Parametre og afledte erklæres i 2x2 arrays; Newton-Raphson algoritme Datasættet løbes igennem, Hvorved integralet og dens afledte bliver løst 1 δ F θ i = θ i 1 F θ δ θ (Mere om matrix-operationer på næste slide) Algoritmen stoppes når Der er opnået konvergens

22 Matrix funktioner Tilsvarende med andre matrix funktioner (addér, multiplicér osv.). Matrix-funktioner kan ikke kaldes direkte fra et datastep, men de kan gøres (permanent) tilgængelige via PROC FCMP således.. option cmplib=function.func; libname function 'd:\sasdata\sasfunctions'; proc fcmp outlib=function.func.matrix; subroutine invers(m[*,*],inv[*,*]); outargs m,inv; call inv(m,inv); endsub; run; Herefter funktionen kaldes fra datastep: array A{4,4} _temporary_; array B{4,4} _temporary_; call invers(a,b);

23 PROC FCMP kan også bruges til at definere de to link-funktioner proc fcmp outlib=work.function.gh; function g(x); y=x; return (y); endsub; function h(x); y=exp(x); return (y); endsub; run; På samme måde skal 1. og 2. afledte af g og h defineres.

24 Hvis estimerings-datasteppet pakkes ind i en makro, %macro lin_ying(data,model ); %mend; så skal brugeren kun definere link-funktioner g og h (og afledte) med PROC FCMP, og derefter kalde makroen %lin_ying(data=simulation, )

25 Eksempel simulerede levetider, med en rate på formen l(t)= xb + e za l 0 (t), hvor baggrundsraten er l 0 (t)= k r t r k 1, (dvs en Weibull form) Link-funktionerne er g(x)=x, og h(x)=e x z og x er binære (0 eller 1), b=0.25 a=0.25

26 Eksempel fortsat Sammenligning mellem makro og PROC HPNLMOD Begge giver gode estimater hvis modellen er specificeret korrekt Sande værdi PROC HPNLMOD Parametrisk model Lin-Ying makro Semi-parametrisk model b ( std err) (0.0022) a (0.0107) (0.0125) Beregningstid (real) 5.0 sec 7:08.92 Beregningstid (CPU) 1: :09:21 PROC HPNLMOD er (meget) hurtigere end makroen. Lin-Ying makroen har dog lineær beregningstid. HPNLMOD kræver en fuld-parametrisk model. Dvs flere model-antagelser, hvilket kan medføre bias. Makroen er mindre følsom over for valg af start værdier, da den semi-parametriske baggrundsrate sikrer pænt fit fra start. -Hvorimod de potentielt mange parametre i en fuld-parametrisk model gør valg af startværdier svær/umulig.

27 Slut