Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Relaterede dokumenter
Reeksamen i Statistik for Biokemikere 6. april 2009

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Lineær regression i SAS. Lineær regression i SAS p.1/20

Besvarelse af juul2 -opgaven

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af vitcap -opgaven

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Reeksamen i Statistik for biokemikere. Blok

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen i Statistik for Biokemikere, Blok januar 2009

Opgavebesvarelse, brain weight

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Eksamen i Statistik for biokemikere. Blok

k normalfordelte observationsrækker (ensidet variansanalyse)

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Regressionsanalyse i SAS

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

En Introduktion til SAS. Kapitel 6.

Løsning til opgave i logistisk regression

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Opgavebesvarelse, brain weight

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Skriftlig eksamen Science statistik- ST501

Postoperative komplikationer

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Besvarelse af opgave om Vital Capacity

Statistiske Modeller 1: Kontingenstabeller i SAS

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Logistisk Regression - fortsat

Afdeling for Anvendt Matematik og Statistik December 2006

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

En Introduktion til SAS. Kapitel 5.

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Reeksamen i Statistik for biokemikere. Blok

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Restsaltmængdernes afhængighed af trafikken,

To-sidet varians analyse

Generelle lineære modeller

Vejledende besvarelse af hjemmeopgave

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Vejledende besvarelse af hjemmeopgave, efterår 2018

Opgavebesvarelse, korrelerede målinger

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Vejledende besvarelse af hjemmeopgave, forår 2017

Modul 11: Simpel lineær regression

Løsning eksamen d. 15. december 2008

Vejledende besvarelse af hjemmeopgave, forår 2015

Eksamen i Statistik for biokemikere. Blok

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af opgave om Vital Capacity

Vejledende besvarelse af hjemmeopgave, efterår 2016

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Uge 13 referat hold 4

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Opgavebesvarelse, logistisk regression

Estimation og usikkerhed

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Basal statistik. 30. januar 2007

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Kommentarer til øvelser i basalkursus, 2. uge

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Alternativ estimering af nøgletal for arbejdstidsforbruget til Produktionsgrenstatistikken Andersen, Johnny Michael

Opgavebesvarelse, Basalkursus, uge 2

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

Tema. Dagens tema: Indfør centrale statistiske begreber.

Basal statistik. 21. oktober 2008

Forelæsning 11: Envejs variansanalyse, ANOVA

Vejledende besvarelse af hjemmeopgave, forår 2018

Epidemiologi og Biostatistik

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Lineær og logistisk regression

Vejledende besvarelse af hjemmeopgave, efterår 2017

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Simpel og multipel logistisk regression

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Module 12: Mere om variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistisk modellering af meldugangreb i vinterhvede. Analyse på baggrund af observationer i Registreringsnettet

Transkript:

Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1

Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed har medført, at man ikke kan skelne mellem meget lave værdier, dvs. man ved bare, at de er under en given grænse. Man tør godt gøre antagelser om fordelingen af de sande målinger, eksempelvis at den tilfældige variation er normalt fordelt. 2

Eksempel på venstrecensurerede data Målinger af NO 2 indendørs og udendørs Vi har 85 sæt af samhørende mål for NO 2 1. udenfor gadedøren 2. i soveværelset med en detektionsgrænse på 0.75. (Raaschou-Nielsen et al., 1997). Vi ønsker at undersøge, hvor stor indydelse udendørsniveauet har på indendørsniveauet. 3

Eksempel på venstrecensurerede data Samhørende mål for NO 2 inde og ude 4

Estimation af sammenhæng Hvad med bare at udelade de ukendte? Selektion baseret på responsvariablen: DATA no2; SET no2; ude_25 = ude - 2.5; * Centrering af variabel ; RUN; PROC REG DATA=no2; WHERE inde>0.75; Udensmaa: MODEL inde = ude_25; RUN; 5

The REG Procedure Model: Udensmaa Dependent Variable: INDE Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 9.18865 9.18865 107.71 <.0001 Error 58 4.94781 0.08531 Corrected Total 59 14.13645 Root MSE 0.29207 R-Square 0.6500 Dependent Mean 1.52430 Adj R-Sq 0.6440 Coeff Var 19.16120 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.60065 0.03842 41.66 <.0001 ude_25 1 0.60009 0.05782 10.38 <.0001 6

Fit uden data under detektionsgrænsen Samhørende mål for NO 2 inde og ude Duer ikke på grund af bias. 7

Estimation af sammenhæng Kan vi ikke bare sætte alle observationer under detektionsgrænsen lig med detektionsgrænsen (ligesom i tegningen)? PROC REG DATA=no2; Naiv: MODEL inde = ude_25; RUN; 8

The REG Procedure Model: Naiv Dependent Variable: INDE Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 18.15521 18.15521 229.66 <.0001 Error 83 6.56128 0.07905 Corrected Total 84 24.71649 Root MSE 0.28116 R-Square 0.7345 Dependent Mean 1.29656 Adj R-Sq 0.7313 Coeff Var 21.68511 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.55732 0.03502 44.48 <.0001 ude_25 1 0.64260 0.04240 15.15 <.0001 9

Fit for naiv model Samhørende mål for NO 2 inde og ude Duer heller ikke på grund af bias. 10

Estimation af sammenhæng Alternativ (lidt bedre, men stadig tvivlsomt): Observationer under detektionsgrænsen sættes lig et gæt på gennemsnitsværdien for observationer under detektionsgrænsen: DATA no2; SET no2; IF inde=0.75 THEN justeret = 0.75*2/3; RUN; ELSE justeret = inde; PROC REG DATA=no2; Adhoc: RUN; MODEL justeret = ude_25; 11

The REG Procedure Model: Adhoc Dependent Variable: justeret Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr>F Model 1 23.92209 23.92209 227.45 <.0001 Error 83 8.72937 0.10517 Corrected Total 84 32.65146 Root MSE 0.32430 R-Square 0.7326 Dependent Mean 1.22303 Adj R-Sq 0.7294 Coeff Var 26.51639 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr> t Intercept 1 1.52235 0.04039 37.69 <.0001 ude_25 1 0.73763 0.04891 15.08 <.0001 12

Fit med gæt på gennemsnitsværdi Samhørende mål for NO 2 inde og ude 13

Estimation af sammenhæng Optimal udnyttelse af data ved at inkludere præcis den viden, vi har: De censurerede data er mindre end detektionsgrænsen. For givne værdier af parametrene, kan det udregnes hvad sandsynligheden er for at ligge under detektionsgrænsen, mens de øvrige observationer indgår på sædvanlig vis. DATA no2; SET no2; IF inde=0.75 THEN nedre =.; ELSE nedre = inde; RUN; PROC LIFEREG DATA=no2; MODEL (nedre, inde) = ude_25 / DIST=NORMAL NOLOG; RUN; 14

The LIFEREG Procedure Model Information Data Set WORK.NO2 Dependent Variable nedre Dependent Variable INDE Number of Observations 85 Noncensored Values 60 Right Censored Values 0 Left Censored Values 25 Interval Censored Values 0 Name of Distribution Normal Log Likelihood -35.88065877 Algorithm converged. Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq ude_25 1 177.8626 <.0001 Analysis of Parameter Estimates Standard 95% Confidence Parameter DF Estimate Error Limits Intercept 1 1.5203 0.0431 1.4359 1.6047 ude_25 1 0.7845 0.0588 0.6692 0.8997 Scale 1 0.3403 0.0320 0.2830 0.4092 Parameter Chi- Pr>ChiSq Intercept Square <.0001 ude_25 1245.07 <.0001 Scale 177.86 15

Optimalt t Samhørende mål for NO 2 inde og ude 16

Estimation af standard deviation scale = maximum likelihood estimat for standard deviationen (SD) (=residualspredning=prediktionsspredning). For at få noget, der er sammenligneligt med det sædvanlige estimat (ROOT MSE i SAS output) skal der justeres: SD* = scale n n k 1 (n = antal obs., k = antal kovariater). Her fås SD*= 0.340 85 83 = 0.344. 17

Sammenligning af resultater Oversigt over resultaterne af de 4 analyser: Parameter Standard Estimate Error SD Udensmaa 0.600 0.058 0.292 Naiv 0.643 0.042 0.281 Adhoc 0.738 0.049 0.324 Optimal 0.785 0.059 0.344 18