Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges i forlængelse af hinanden (kun oplysninger fra 1 person på hver linie!). 1. Vi skal sammenligne før- og efter-målingerne i salt-gruppen. Vi vil derfor først filtrere, så vi kun arbejder med salt=1 -gruppen, og vi klikker derfor Data/Filter/Subset Data og vælger salt IN ( 1 ). Hvis vi skal foretage et parametrisk test, bliver der tale om et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne dif=post-pre. Disse defineres ved at gå i Edit-mode og klikke Data/Transform/Compute. Et fraktildiagram fås nu ved at klikke Graphs/Probability Plot: Vi ser her ingen særlige tegn på afvigelse fra normalfordelingen. En anden vigtig forudsætning er, at differenserne er lige store over hele skalaen, altså at der ikke er nogen sammenhæng mellem differenser og niveau, dvs. gennemsnit af observationerne. Vi må derfor først definere snit=(pre+post)/2 i Data/Transform/Compute. Et scatter plot konstrueres nu i Graphs/Scatter Plot/Two-Dimensional: 1
Da dette heller ikke viser udprægede tegn på sammenhæng (eller gør det?), vil vi fortsætte med et parret t-test. Dette fås f.eks. ved at klikke Statistics/Hypothesis Tests og herefter vælge enten /Two-Sample Paired t-test for Means (her bruges pre hhv. post) eller One-Sample t-test for a Mean (her bruges dif). Vi finder resultatet Where salt IN( 1 ) Two Sample Paired t-test for the Means of pre and post Sample Statistics Group N Mean Std. Dev. Std. Error ---------------------------------------------------- pre 17 56.88235 7.2963 1.7696 post 17 63.76471 8.8567 2.1481 Hypothesis Test Null hypothesis: Mean of (pre - post) = 0 Alternative: Mean of (pre - post) ^= 0 t Statistic Df Prob > t --------------------------------- -2.652 16 0.0174 2
P-værdien for test af identiske middelværdier for puls før og efter flyvningen ses at være 0.017, hvilket er signifikant på et 5% niveau og altså viser, at der formentlig sker en pulsstigning. Hvis vi føler os usikre på normalfordelingsantagelsen, kunne vi i stedet udføre et non-parametrisk test (Wilcoxon signed-rank test) ved at klikke Statistics/Descriptive/Distributions (se output nedenfor). Herved finder vi en P-værdi på 0.024, som understøtter konklusionen fra t-testet. Vi kan også i ovennævnte opsætning i Fit afkrydse Normal Parameters, hvorved vi får et test for normalitet (P>0.15). Dette giver altså ikke anledning til at betvivle konklusionerne fra den parametriske analyse. The UNIVARIATE Procedure Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 2.65208 Pr > t 0.0174 Sign M 4 Pr >= M 0.0768 Signed Rank S 43 Pr >= S 0.0241 The UNIVARIATE Procedure Fitted Distribution for dif Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 6.882353 Std Dev Sigma 10.69978 Goodness-of-Fit Tests for Normal Distribution Test ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.11222759 Pr > D >0.150 Cramer-von Mises W-Sq 0.02267113 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.15416454 Pr > A-Sq >0.250 2. Ved udregning af et konfidensinterval for middelværdien af pulsstigningen i salt-gruppen benytter vi nu (tildels for afvekslingens skyld) et 3
t-test direkte som et one-sample test på differenserne dif. Klik derfor Statistics/Hypothesis Tests/One-Sample t-test for a Mean og gå ind itests og hak af i Confidence interval (og evt. iplots/t distribution plot). Herved fås outputtet Where salt IN( 1 ) One Sample t-test for a Mean Sample Statistics for dif N Mean Std. Dev. Std. Error ------------------------------------------------- 17 6.88 10.70 2.60 Hypothesis Test Null hypothesis: Mean of dif = 0 Alternative: Mean of dif ^= 0 t Statistic Df Prob > t --------------------------------- 2.652 16 0.0174 95 % Confidence Interval for the Mean Lower Limit: 1.38 Upper Limit: 12.38 Udfra ovenstående resultater kvantificeres stigningen i puls til 6.88 (med en standard error på 2.60), dvs. med 95% konfidensintervallet (1.38,12.38), altså ganske bredt! Testet gav signifikans på et 5% niveau, svarende til, at 0 ikke er inkluderet i konfidensintervallet. Vi er dog meget usikre på, hvor stor denne pulsstigning er! 3. Vi skal nu se på en sammenligning af differenserne i de to grupper og må altså ophæve filtreringen. Klik Data/Filter/None. I kontrolgruppen har vi kun 9 personer, hvilket er lige i underkanten til at vurdere rimeligheden af en normalfordelingsantagelse. Vi tillader os derfor at gå ud fra, at differenserne post-pre er ligeså normalfordelte i denne gruppe som i salt -gruppen. Et scatter plot af differenserne i de to grupper giver billedet 4
og dermed ingen særlig støtte til denne antagelse, men vi fortsætter alligevel med at basere en sammenligning af de to gruppers differenser på et uparret t-test. Dette fås ved at klikke Statistics/Hypothesis Tests/Two-Sample t- test for Means og sætte dif Dependent salt Group Gå desuden over i Tests ag afkryds Confidence interval (og evt. i Plots for at afkrydse Means Plot og 2 SE er). Så får vi Two Sample t-test for the Means of dif within salt Sample Statistics Group N Mean Std. Dev. Std. Error ------------------------------------------------------ 0 9 17.44444 10.113 3.3711 1 17 6.882353 10.7 2.5951 Hypothesis Test Null hypothesis: Mean 1 - Mean 2 = 0 Alternative: Mean 1 - Mean 2 ^= 0 5
If Variances Are t statistic Df Pr > t ---------------------------------------------------- Equal 2.438 24 0.0225 Not Equal 2.483 17.26 0.0236 95% Confidence Interval for the Difference between Two Means Lower Limit Upper Limit ----------- ----------- 1.62 19.50 Vi ser, at P-værdien for sammenligning af middelværdierne for differenserne i de to grupper er 0.0225, svarende til, at de er signifikant forskellige på et 5% niveau. Det betyder, at de astronauter, der ikke traf nogen foranstaltninger havde en mere udtalt pulsøgning end de, der gjorde noget. Denne øgede stigning var på 10.56 med et 95% konfidensinterval på (1.62,19.50). Ikke særligt overbevisende, men alligevel... 4. Vi ved ikke hvilke par af observationer, der stammer fra samme astronauter, så helt konkret kan vi ikke stille noget op med vores viden. Men hvis vi havde kunnet identificere dem, ville det nok være klogest kun at benytte første flyvetur for disse. Hvis pulsøgningen er meget personspecifik skaber det nemlig problemer for antagelsen om uafhængighed mellem observationerne, at der er flere målinger for hver person. Herudover kunne man tænke sig at det er nogle selekterede personer, der tager afsted flere gange at personer, der allerede har været afsted en gang, er blevet varigt ændret, så de anden gang adskiller sig fra de øvrige Den konkrete betydning for analyseresultaterne er svær at sige ret meget om. Det afhænger f.eks. af om personerne er med i samme gruppe begge gange. 5. Frivilligheden i gruppeopdelingen kan tænkes at skabe problemer, som kan gå begge veje Måske er det de overforsigtige/velovervejede, der tager deres forholdsregler, og hvis disse samtidig er i fysisk bedst form, kan de tænkes i forvejen at ville opleve en mindre pulsstigning 6
eller måske er det dem med en kendt risiko for pulsstigning, der vælger at tage forholdsregler, og så er det sandsynligt, at forskellen på de to grupper bliver mindre udtalt. For at få en valid sammenligning, burde grupperne have været randomiseret. En lille indsigt i en evt. skævvridning kan fås ved at sammenligne preværdierne i de 2 grupper. Bemærk, at et t-test nu vil kræve normalitet af disse pre-målinger i hver gruppe og ikke som tidligere kun af differenserne. Vi finder Mann-Whitney (Kruskal-Wallis) test: P=0.94 T-test, med ens varianser: P=0.92 T-test, med forskellige varianser: P=0.92 Der er altså ikke her nogen indikation af selektion. Et totalt SAS-program kunne se ud som følger: data a1; infile space.tal firstobs=2; input salt pre post; dif=post-pre; snit=(pre+post)/2; run; /* histogram og fraktildiagram */ proc univariate; where salt IN ( 1 ); var dif; histogram / height=3 normal(mu=est sigma=est); probplot / height=3 normal(mu=est sigma=est l=33); run; /* sortering nødvendig for at bruge by salt nedenfor */ proc sort; by salt; run; 7
/* parret t-test for pre og post for hver gruppe for sig */ proc ttest; by salt; paired pre*post; run; /* uparrede t-test til sammenligning af grupperne */ proc ttest; class salt; var dif pre; run; /* uparrede non-parametriske test til sammenligning af grupperne */ proc npar1way wilcoxon; class salt; var pre dif; run; hvor filen space.tal ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65 1 69 69 1 49 50............ 0 53 77 0 78 103 0 52 77 0 54 80 0 52 79 8
Opgave 3 For 17 patienter er der målt peak expiratory flow rate på to forskellige måder, dels ved at anvende det traditionelle Wright peak flow meter, og dels med det nye såkaldte mini Wright flow meter (Bland and Altman, 1986). Med begge apparater er der foretaget dobbeltbestemmelser, således at der i alt foreligger 4 observationer for hver person. Målingerne fremgår af tabellen i appendix og kan hentes på nettet på www.biostat.ku.dk/~lts/basal ved at højreklikke på hjemmeopgave.tal og gemme den i en tekstfil et passende sted på maskinen, h- vorefter den direkte kan hentes ind i Analyst ved hjælp af File/Open. Vi får derved et datasæt bestående af 17 observationer og fire variable, nemlig wright1, wright2, mini1 og mini2. Til en start kan vi se på et plot af dobbeltbestemmelser mod hinanden, for hver af de to målemetoder: Det ses, at observationerne fordeler sig rimeligt omkring identitetslinien. De efterfølgende spørgsmål skal lede igennem forskellige betragtninger vedrørende vurdering af hver af målemetoderne samt sammenligning af de to målemetoder. Det endelige formål er at kvantificere overensstemmelsen mellem de to målemetoder (hhv. Wright og Mini Wright). 1. Vurder grafisk (Bland-Altman plot) om variationen af forskellen mellem gentagne måleresultater afhænger af niveauet, for hver af de to metoder. 9
Efter at have gemt datasættet i f.eks. wright under sasuser, kan vi gå over i Edit-mode og danne nogle nye variable, nemlig de to sæt differenser (difw=wright1-wright2 hhv. difm=mini1-mini2) samt de to sæt gennemsnit (wright=(wright1+wright2)/2 hhv. mini=(mini1+mini2)/2). Vi laver herefter (for hver af målemetoderne for sig) et plot af differenserne mod gennemsnittet, hvorved vi finder figurerne Disse figurer går under betegnelsen Bland-Altman plots, efter Bland&Altman(1986). Vi ser af disse plots, at differenserne generelt ligger i et bånd omkring 0 af nogenlunde lige stor bredde hele vejen, omend det lille antal observationer ikke tillader alt for kategoriske konklusioner. 2. Udregn og fortolk limits of agreement for hver af metoderne, uden at transformere. Gør rede for de nødvendige antagelser og vurder rimeligheden af disse. Limits of agreement er normalområder for differenserne, så vi skal finde gennemsnit og spredning for disse. I Statistics/Descriptive kan vi udregne Summary Statistics til The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------- difw 17-4.9411765 21.7240379-51.0000000 54.0000000 difm 17 2.8823529 28.8723102-33.0000000 96.0000000 ------------------------------------------------------------------------- 10
Vi går ud fra, at de 17 personer ikke er familiemæssigt relateret og at de 17 differenser derfor er uafhængige. For at anvende ovenstående spredninger til at udregne normalområder, skal vi yderligere sikre os, at differenserne er rimeligt normalfordelte og nogenlunde af samme størrelsesorden uanset niveau. Det sidste var netop hvad vi vurderede i spørgsmålet ovenfor, så tilbage står antagelsen om normalitet. Nedenfor ses histogrammer og fraktildiagrammer (probability plots) for hhv. difw og difm og vi ser, at der er nogen afvigelse fra en normalfordeling. Usikkerheden i vurderingen er imidlertid stor med så få observationer, så vi supplerer med formelle test. Test for bl.a. normalitet, Wright: 11
The UNIVARIATE Procedure Variable: difw Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.93781 Pr > t 0.3623 Sign M -2.5 Pr >= M 0.3323 Signed Rank S -31.5 Pr >= S 0.1418 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.899039 Pr < W 0.0655 Kolmogorov-Smirnov D 0.180881 Pr > D 0.1429 Cramer-von Mises W-Sq 0.135555 Pr > W-Sq 0.0346 Anderson-Darling A-Sq 0.780059 Pr > A-Sq 0.0358 og for Mini Wright: The UNIVARIATE Procedure Variable: difm Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 0.411614 Pr > t 0.6861 Sign M -1 Pr >= M 0.8036 Signed Rank S -2.5 Pr >= S 0.9091 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.791298 Pr < W 0.0015 Kolmogorov-Smirnov D 0.176293 Pr > D >0.1500 Cramer-von Mises W-Sq 0.158384 Pr > W-Sq 0.0175 Anderson-Darling A-Sq 1.082043 Pr > A-Sq 0.0058 12
Hvis vi benytter Kolmorogov-Smirnov testet for normalitet, finder vi en rimelig normalfordelingstilpasning (P=0.14 hhv.p>0.15), medens de øvrige test, samt figurerne, synes at tyde på nogen afvigelse, specielt for Mini Wright. Vi skal derfor nok tage de nedenfor udregnede grænser med et vist forbehold. Vi finder limits of agreement til Wright: 4.94 ± 2 21.72 = ( 48.38, 38.50) Mini Wright: 2.88 ± 2 28.87 = ( 54.86, 60.62) Vi kunne også have valgt at bruge en passende t-fraktil til at udregne disse normalområder, det ville i så fald være med 16 frihedsgrader, altså 2.12. Man kunne ligeledes overveje, om man skulle kræve, at differenserne havde middelværdi 0 og dermed estimere spredningen ved 1 17 p=1 dif2 p i stedet for 1 16 17 p=1 (dif p dif) 2 Herved ville vi få normalområderne (limits of agreement) til Wright: 0 ± 2 21.65 = ( 43.30, 43.30) Mini Wright: 0 ± 2 28.16 = ( 56.32, 56.32) Betydningen af limits of agreement er, at differenserne mellem dobbeltbestemmelser med 95% sandsynlighed vil ligge indenfor disse grænser, dvs. de udtrykker troværdigheden af en enkelt måling med hver af apparaterne. 17 3. Tegn et scatter plot af de to sæt differenser (differenser mellem dobbeltbestemmelser for hver af de to metoder), og vurder på baggrund af dette, om der er nogen personer, der ser ud til at være mere ustabile at måle på end andre. Den venstre af figurerne nedenfor viser de to sæt differenser (med fortegn) plottet mod hinanden, medens den højre figur plotter de tilsvarende numeriske (absolutte) differenser. Hvis fortegnet på differensen skønnes at være vigtigt (hvis der f.eks. ses en generel stigning fra første til anden måling) bør venstre figur benyttes, ellers er højre lettere at se på. 13
Vi skal vurdere om der er enkelte personer, der har store differenser mellem dobbeltbestemmelserne for begge målemetoder, og dette ses ikke umiddelbart at være tilfældet. Det nærmeste, vi kan komme det, må være de to med de største numeriske afvigelser for Mini Wright. Sådanne personer, der er svære at måle på ses i andre sammenhænge, såsom vurdering af leverstørrelse, hvor overvægtige personer er sværere at vurdere. 4. Sammenlign nu de to målemetoder udfra gennemsnit af dobbeltbestemmelserne, dvs. tegn igen Bland-Altman plot og udregn limits of agreement. Kommenter den kliniske anvendelighed af disse grænser. Vi arbejder nu videre med de to gennemsnit, ovenfor simpelthen kaldet wright hhv. mini. Igen skal vi se på et plot af differenser mod gennemsnit samt udregne normalområder for differenserne. 14
og vi finder størrelserne The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------- dif 17-6.0294118 33.2041369-92.0000000 51.5000000 ------------------------------------------------------------------------- Igen bør vi overbevise os selv om, at differenserne er rimeligt normalfordelte. De relevante tegninger er 15
og det supplerende test for normalitet fremgår af nedenstående The UNIVARIATE Procedure Variable: dif Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.7487 Pr > t 0.4649 Sign M -2 Pr >= M 0.4545 Signed Rank S -9 Pr >= S 0.6593 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.929235 Pr < W 0.2113 Kolmogorov-Smirnov D 0.190462 Pr > D 0.0976 Cramer-von Mises W-Sq 0.067289 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.467097 Pr > A-Sq 0.2265 Det ser jo ikke så galt ud og vi udregner derfor limits of agreement til Wright vs. Mini Wright: 6.03 ± 2 33.20 = ( 72.43, 60.37) Når vi anvender disse grænser i praksis, skal vi huske på, at de er udregnet på baggrund af gennemsnit af to dobbeltbestemmelser. Hvis dette ikke er sædvanlig klinisk praksis, dvs. hvis man i praksis kun foretager en enkelt måling, så vil disse grænser være for snævre! 5. Er der systematisk forskel på de to målemetoder? Kvantificer! Vi interesserer os her for middelværdierne af de to målemetoder, nærmere betegnet om disse afviger signifikant fra hinanden. Igen er der tale om parrede observationer (W p hhv M p ), så vi ser enten på differenserne D p = W p M p og tester om disse har middelværdi 0 eller foretager et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne, som vi allerede checkede ovenfor. 16
Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.7487 Pr > t 0.4649 Sign M -2 Pr >= M 0.4545 Signed Rank S -9 Pr >= S 0.6593 Vi ser altså, at T-testet giver T=-0.75, svarende til P=0.46, og altså ingen signifikant forskel på de to målemetoder. En tilsvarende konklusion opnås fra de nonparametriske tests. Hermed kan vi imidlertid ikke være sikre på, at der ingen forskel er, så vi kvantificerer den sandsynlige forskel ved at lave et konfidensinterval for forskellen mellem middelværdier. Hertil skal vi bruge standard error The MEANS Procedure Variable Mean Std Dev Std Error -------------------------------------------------------- dif -6.0294118 33.2041369 8.0531861 -------------------------------------------------------- hvorfra vi udregner konfidensintervallet til 6.03 ± 2 8.05 = ( 22.13, 10.07) eller mere præcist 6.03 ± 2.12 8.05 = ( 23.10, 11.04) Vi kan altså ikke udelukke at forskellen på middelværdierne kan være op til ca. 10 den ene vej eller lidt over 20 den anden vej. 6. Hvis en forskel på 75 l/min skønnes at have klinisk betydning, kan vi så erstatte Wright med det nye mini Wright? 17
Her skal vi vurdere om der hyppigt forekommer forskelle på 75 l/min, når man måler to gange på samme person med de to forskellige apparater. Ud fra limits of agreement ser vi, at 75 l/min ligger udenfor det, der normalt forekommer, dvs. det, der forekommer i 95% af tilfældene. Det vil således være relativt sjældent, at vi blot ved et tilfælde ser klinisk betydelige afvigelser mellem de to målemetoder, igen forudsat at vi til daglig virkelig benytter gennemsnit af dobbeltbestemmelser! Sluttelig skal vi se en figur, der forsøger at medtage alle observationer på en gang: For hver person råder vi over 4 observationer, 2 med hver målemetode. Disse 4 er opsat som et kors, idet dobbeltbestemmelser foretaget med samme målemetode er forbundet med et liniestykke. Reference: Bland, J.M. and Altman, D.G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet, i, 307-310. 18