Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1
Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed har medført, at man ikke kan skelne mellem meget lave værdier, dvs. man ved bare, at de er under en given grænse. Man tør godt gøre antagelser om fordelingen af de sande målinger, eksempelvis at den tilfældige variation er normalt fordelt. 2
Eksempel på venstrecensurerede data Målinger af NO 2 indendørs og udendørs Vi har 85 sæt af samhørende mål for NO 2 1. udenfor gadedøren 2. i soveværelset med en detektionsgrænse på 0.75. (Raaschou-Nielsen et al., 1997). Vi ønsker at undersøge, hvor stor indydelse udendørsniveauet har på indendørsniveauet. 3
Eksempel på venstrecensurerede data Samhørende mål for NO 2 inde og ude 4
Estimation af sammenhæng Hvad med bare at udelade de ukendte? Selektion baseret på responsvariablen: DATA no2; SET no2; ude_25 = ude - 2.5; * Centrering af variabel ; RUN; PROC REG DATA=no2; WHERE inde>0.75; Udensmaa: MODEL inde = ude_25; RUN; 5
The REG Procedure Model: Udensmaa Dependent Variable: INDE Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 9.18865 9.18865 107.71 <.0001 Error 58 4.94781 0.08531 Corrected Total 59 14.13645 Root MSE 0.29207 R-Square 0.6500 Dependent Mean 1.52430 Adj R-Sq 0.6440 Coeff Var 19.16120 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.60065 0.03842 41.66 <.0001 ude_25 1 0.60009 0.05782 10.38 <.0001 6
Fit uden data under detektionsgrænsen Samhørende mål for NO 2 inde og ude Duer ikke på grund af bias. 7
Estimation af sammenhæng Kan vi ikke bare sætte alle observationer under detektionsgrænsen lig med detektionsgrænsen (ligesom i tegningen)? PROC REG DATA=no2; Naiv: MODEL inde = ude_25; RUN; 8
The REG Procedure Model: Naiv Dependent Variable: INDE Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 18.15521 18.15521 229.66 <.0001 Error 83 6.56128 0.07905 Corrected Total 84 24.71649 Root MSE 0.28116 R-Square 0.7345 Dependent Mean 1.29656 Adj R-Sq 0.7313 Coeff Var 21.68511 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.55732 0.03502 44.48 <.0001 ude_25 1 0.64260 0.04240 15.15 <.0001 9
Fit for naiv model Samhørende mål for NO 2 inde og ude Duer heller ikke på grund af bias. 10
Estimation af sammenhæng Alternativ (lidt bedre, men stadig tvivlsomt): Observationer under detektionsgrænsen sættes lig et gæt på gennemsnitsværdien for observationer under detektionsgrænsen: DATA no2; SET no2; IF inde=0.75 THEN justeret = 0.75*2/3; RUN; ELSE justeret = inde; PROC REG DATA=no2; Adhoc: RUN; MODEL justeret = ude_25; 11
The REG Procedure Model: Adhoc Dependent Variable: justeret Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 23.92209 23.92209 227.45 <.0001 Error 83 8.72937 0.10517 Corrected Total 84 32.65146 Root MSE 0.32430 R-Square 0.7326 Dependent Mean 1.22303 Adj R-Sq 0.7294 Coeff Var 26.51639 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.52235 0.04039 37.69 <.0001 ude_25 1 0.73763 0.04891 15.08 <.0001 12
Fit med gæt på gennemsnitsværdi Samhørende mål for NO 2 inde og ude 13
Estimation af sammenhæng Optimal udnyttelse af data ved at inkludere præcis den viden, vi har: De censurerede data er mindre end detektionsgrænsen. For givne værdier af parametrene, kan det udregnes hvad sandsynligheden er for at ligge under detektionsgrænsen, mens de øvrige observationer indgår på sædvanlig vis. DATA no2; SET no2; IF inde=0.75 THEN nedre =.; ELSE nedre = inde; RUN; PROC LIFEREG DATA=no2; MODEL (nedre, inde) = ude_25 / DIST=NORMAL NOLOG; RUN; 14
The LIFEREG Procedure Model Information Data Set WORK.NO2 Dependent Variable nedre Dependent Variable INDE Number of Observations 85 Noncensored Values 60 Right Censored Values 0 Left Censored Values 25 Interval Censored Values 0 Name of Distribution Normal Log Likelihood -35.88065877 Algorithm converged. Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq ude_25 1 177.8626 <.0001 Analysis of Parameter Estimates Standard 95% Confidence Parameter DF Estimate Error Limits Intercept 1 1.5203 0.0431 1.4359 1.6047 ude_25 1 0.7845 0.0588 0.6692 0.8997 Scale 1 0.3403 0.0320 0.2830 0.4092 Parameter Chi- Pr>ChiSq Intercept Square <.0001 ude_25 1245.07 <.0001 Scale 177.86 15
Optimalt t Samhørende mål for NO 2 inde og ude 16
Estimation af standard deviation scale = maximum likelihood estimat for standard deviationen (SD) (=residualspredning=prediktionsspredning). For at få noget, der er sammenligneligt med det sædvanlige estimat (ROOT MSE i SAS output) skal der justeres: SD* = scale n n k 1 (n = antal obs., k = antal kovariater). Her fås SD*= 0.340 85 83 = 0.344. 17
Sammenligning af resultater Oversigt over resultaterne af de 4 analyser: Parameter Standard Estimate Error SD Udensmaa 0.600 0.058 0.292 Naiv 0.643 0.042 0.281 Adhoc 0.738 0.049 0.324 Optimal 0.785 0.059 0.344 18