Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge



Relaterede dokumenter
Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Basal statistik. 30. januar 2007

Phd-kursus i Basal Statistik, Opgaver til 1. uge

En Introduktion til SAS. Kapitel 5.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Opgavebesvarelse, Basalkursus, uge 2

Kommentarer til øvelser i basalkursus, 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Basal statistik. 16. september 2008

Besvarelse af vitcap -opgaven

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Klasseøvelser dag 2 Opgave 1

Basal statistik. 18. september 2007

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Basal statistik. 18. september 2007

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Modul 5: Test for én stikprøve

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basal Statistik - SPSS

Løsning til øvelsesopgaver dag 4 spg 5-9

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

MPH specialmodul Epidemiologi og Biostatistik

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Epidemiologi og Biostatistik

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Konfidensintervaller og Hypotesetest

Løsning eksamen d. 15. december 2008

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Eksamen i Statistik for Biokemikere, Blok januar 2009

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Reeksamen i Statistik for Biokemikere 6. april 2009

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Opgavebesvarelse, brain weight

Basal statistik. 2. september 2008

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Ikke-parametriske tests

Vejledende besvarelse af hjemmeopgave, efterår 2018

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Modelkontrol i Faktor Modeller

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Seniorkursus i Biostatistik og Stata, Dag 2

Note til styrkefunktionen

Generelle lineære modeller

Hjemmeopgave, efterår 2009

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Opgavebesvarelse, Basalkursus, uge 3

Epidemiologi og Biostatistik

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

1 Hb SS Hb Sβ Hb SC = , (s = )

Opgavebesvarelse, brain weight

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af opgave om Vital Capacity

Løsning til eksaminen d. 29. maj 2009

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Postoperative komplikationer

Vejledende besvarelse af hjemmeopgave, forår 2017

Basal Statistik - SPSS

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Følgende tabel (fra Fisher) giver forøgelsen af sovetiden i timer fra et eksperiment med 10 patienter vedrørende 2 sovemidler A og B.

Løsning til eksaminen d. 14. december 2009

Logistisk Regression - fortsat

Note om Monte Carlo eksperimenter

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Basal statistik. 29. januar 2008

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

Statistik viden eller tilfældighed

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Transkript:

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges i forlængelse af hinanden (kun oplysninger fra 1 person på hver linie!). 1. Vi skal sammenligne før- og efter-målingerne i salt-gruppen. Vi vil derfor først filtrere, så vi kun arbejder med salt=1 -gruppen, og vi klikker derfor Data/Filter/Subset Data og vælger salt IN ( 1 ). Hvis vi skal foretage et parametrisk test, bliver der tale om et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne dif=post-pre. Disse defineres ved at gå i Edit-mode og klikke Data/Transform/Compute. Et fraktildiagram fås nu ved at klikke Graphs/Probability Plot: Vi ser her ingen særlige tegn på afvigelse fra normalfordelingen. En anden vigtig forudsætning er, at differenserne er lige store over hele skalaen, altså at der ikke er nogen sammenhæng mellem differenser og niveau, dvs. gennemsnit af observationerne. Vi må derfor først definere snit=(pre+post)/2 i Data/Transform/Compute. Et scatter plot konstrueres nu i Graphs/Scatter Plot/Two-Dimensional: 1

Da dette heller ikke viser udprægede tegn på sammenhæng (eller gør det?), vil vi fortsætte med et parret t-test. Dette fås f.eks. ved at klikke Statistics/Hypothesis Tests og herefter vælge enten /Two-Sample Paired t-test for Means (her bruges pre hhv. post) eller One-Sample t-test for a Mean (her bruges dif). Vi finder resultatet Where salt IN( 1 ) Two Sample Paired t-test for the Means of pre and post Sample Statistics Group N Mean Std. Dev. Std. Error ---------------------------------------------------- pre 17 56.88235 7.2963 1.7696 post 17 63.76471 8.8567 2.1481 Hypothesis Test Null hypothesis: Mean of (pre - post) = 0 Alternative: Mean of (pre - post) ^= 0 t Statistic Df Prob > t --------------------------------- -2.652 16 0.0174 2

P-værdien for test af identiske middelværdier for puls før og efter flyvningen ses at være 0.017, hvilket er signifikant på et 5% niveau og altså viser, at der formentlig sker en pulsstigning. Hvis vi føler os usikre på normalfordelingsantagelsen, kunne vi i stedet udføre et non-parametrisk test (Wilcoxon signed-rank test) ved at klikke Statistics/Descriptive/Distributions (se output nedenfor). Herved finder vi en P-værdi på 0.024, som understøtter konklusionen fra t-testet. Vi kan også i ovennævnte opsætning i Fit afkrydse Normal Parameters, hvorved vi får et test for normalitet (P>0.15). Dette giver altså ikke anledning til at betvivle konklusionerne fra den parametriske analyse. The UNIVARIATE Procedure Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 2.65208 Pr > t 0.0174 Sign M 4 Pr >= M 0.0768 Signed Rank S 43 Pr >= S 0.0241 The UNIVARIATE Procedure Fitted Distribution for dif Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 6.882353 Std Dev Sigma 10.69978 Goodness-of-Fit Tests for Normal Distribution Test ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.11222759 Pr > D >0.150 Cramer-von Mises W-Sq 0.02267113 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.15416454 Pr > A-Sq >0.250 2. Ved udregning af et konfidensinterval for middelværdien af pulsstigningen i salt-gruppen benytter vi nu (tildels for afvekslingens skyld) et 3

t-test direkte som et one-sample test på differenserne dif. Klik derfor Statistics/Hypothesis Tests/One-Sample t-test for a Mean og gå ind itests og hak af i Confidence interval (og evt. iplots/t distribution plot). Herved fås outputtet Where salt IN( 1 ) One Sample t-test for a Mean Sample Statistics for dif N Mean Std. Dev. Std. Error ------------------------------------------------- 17 6.88 10.70 2.60 Hypothesis Test Null hypothesis: Mean of dif = 0 Alternative: Mean of dif ^= 0 t Statistic Df Prob > t --------------------------------- 2.652 16 0.0174 95 % Confidence Interval for the Mean Lower Limit: 1.38 Upper Limit: 12.38 Udfra ovenstående resultater kvantificeres stigningen i puls til 6.88 (med en standard error på 2.60), dvs. med 95% konfidensintervallet (1.38,12.38), altså ganske bredt! Testet gav signifikans på et 5% niveau, svarende til, at 0 ikke er inkluderet i konfidensintervallet. Vi er dog meget usikre på, hvor stor denne pulsstigning er! 3. Vi skal nu se på en sammenligning af differenserne i de to grupper og må altså ophæve filtreringen. Klik Data/Filter/None. I kontrolgruppen har vi kun 9 personer, hvilket er lige i underkanten til at vurdere rimeligheden af en normalfordelingsantagelse. Vi tillader os derfor at gå ud fra, at differenserne post-pre er ligeså normalfordelte i denne gruppe som i salt -gruppen. Et scatter plot af differenserne i de to grupper giver billedet 4

og dermed ingen særlig støtte til denne antagelse, men vi fortsætter alligevel med at basere en sammenligning af de to gruppers differenser på et uparret t-test. Dette fås ved at klikke Statistics/Hypothesis Tests/Two-Sample t- test for Means og sætte dif Dependent salt Group Gå desuden over i Tests ag afkryds Confidence interval (og evt. i Plots for at afkrydse Means Plot og 2 SE er). Så får vi Two Sample t-test for the Means of dif within salt Sample Statistics Group N Mean Std. Dev. Std. Error ------------------------------------------------------ 0 9 17.44444 10.113 3.3711 1 17 6.882353 10.7 2.5951 Hypothesis Test Null hypothesis: Mean 1 - Mean 2 = 0 Alternative: Mean 1 - Mean 2 ^= 0 5

If Variances Are t statistic Df Pr > t ---------------------------------------------------- Equal 2.438 24 0.0225 Not Equal 2.483 17.26 0.0236 95% Confidence Interval for the Difference between Two Means Lower Limit Upper Limit ----------- ----------- 1.62 19.50 Vi ser, at P-værdien for sammenligning af middelværdierne for differenserne i de to grupper er 0.0225, svarende til, at de er signifikant forskellige på et 5% niveau. Det betyder, at de astronauter, der ikke traf nogen foranstaltninger havde en mere udtalt pulsøgning end de, der gjorde noget. Denne øgede stigning var på 10.56 med et 95% konfidensinterval på (1.62,19.50). Ikke særligt overbevisende, men alligevel... 4. Vi ved ikke hvilke par af observationer, der stammer fra samme astronauter, så helt konkret kan vi ikke stille noget op med vores viden. Men hvis vi havde kunnet identificere dem, ville det nok være klogest kun at benytte første flyvetur for disse. Hvis pulsøgningen er meget personspecifik skaber det nemlig problemer for antagelsen om uafhængighed mellem observationerne, at der er flere målinger for hver person. Herudover kunne man tænke sig at det er nogle selekterede personer, der tager afsted flere gange at personer, der allerede har været afsted en gang, er blevet varigt ændret, så de anden gang adskiller sig fra de øvrige Den konkrete betydning for analyseresultaterne er svær at sige ret meget om. Det afhænger f.eks. af om personerne er med i samme gruppe begge gange. 5. Frivilligheden i gruppeopdelingen kan tænkes at skabe problemer, som kan gå begge veje Måske er det de overforsigtige/velovervejede, der tager deres forholdsregler, og hvis disse samtidig er i fysisk bedst form, kan de tænkes i forvejen at ville opleve en mindre pulsstigning 6

eller måske er det dem med en kendt risiko for pulsstigning, der vælger at tage forholdsregler, og så er det sandsynligt, at forskellen på de to grupper bliver mindre udtalt. For at få en valid sammenligning, burde grupperne have været randomiseret. En lille indsigt i en evt. skævvridning kan fås ved at sammenligne preværdierne i de 2 grupper. Bemærk, at et t-test nu vil kræve normalitet af disse pre-målinger i hver gruppe og ikke som tidligere kun af differenserne. Vi finder Mann-Whitney (Kruskal-Wallis) test: P=0.94 T-test, med ens varianser: P=0.92 T-test, med forskellige varianser: P=0.92 Der er altså ikke her nogen indikation af selektion. Et totalt SAS-program kunne se ud som følger: data a1; infile space.tal firstobs=2; input salt pre post; dif=post-pre; snit=(pre+post)/2; run; /* histogram og fraktildiagram */ proc univariate; where salt IN ( 1 ); var dif; histogram / height=3 normal(mu=est sigma=est); probplot / height=3 normal(mu=est sigma=est l=33); run; /* sortering nødvendig for at bruge by salt nedenfor */ proc sort; by salt; run; 7

/* parret t-test for pre og post for hver gruppe for sig */ proc ttest; by salt; paired pre*post; run; /* uparrede t-test til sammenligning af grupperne */ proc ttest; class salt; var dif pre; run; /* uparrede non-parametriske test til sammenligning af grupperne */ proc npar1way wilcoxon; class salt; var pre dif; run; hvor filen space.tal ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65 1 69 69 1 49 50............ 0 53 77 0 78 103 0 52 77 0 54 80 0 52 79 8

Opgave 3 For 17 patienter er der målt peak expiratory flow rate på to forskellige måder, dels ved at anvende det traditionelle Wright peak flow meter, og dels med det nye såkaldte mini Wright flow meter (Bland and Altman, 1986). Med begge apparater er der foretaget dobbeltbestemmelser, således at der i alt foreligger 4 observationer for hver person. Målingerne fremgår af tabellen i appendix og kan hentes på nettet på www.biostat.ku.dk/~lts/basal ved at højreklikke på hjemmeopgave.tal og gemme den i en tekstfil et passende sted på maskinen, h- vorefter den direkte kan hentes ind i Analyst ved hjælp af File/Open. Vi får derved et datasæt bestående af 17 observationer og fire variable, nemlig wright1, wright2, mini1 og mini2. Til en start kan vi se på et plot af dobbeltbestemmelser mod hinanden, for hver af de to målemetoder: Det ses, at observationerne fordeler sig rimeligt omkring identitetslinien. De efterfølgende spørgsmål skal lede igennem forskellige betragtninger vedrørende vurdering af hver af målemetoderne samt sammenligning af de to målemetoder. Det endelige formål er at kvantificere overensstemmelsen mellem de to målemetoder (hhv. Wright og Mini Wright). 1. Vurder grafisk (Bland-Altman plot) om variationen af forskellen mellem gentagne måleresultater afhænger af niveauet, for hver af de to metoder. 9

Efter at have gemt datasættet i f.eks. wright under sasuser, kan vi gå over i Edit-mode og danne nogle nye variable, nemlig de to sæt differenser (difw=wright1-wright2 hhv. difm=mini1-mini2) samt de to sæt gennemsnit (wright=(wright1+wright2)/2 hhv. mini=(mini1+mini2)/2). Vi laver herefter (for hver af målemetoderne for sig) et plot af differenserne mod gennemsnittet, hvorved vi finder figurerne Disse figurer går under betegnelsen Bland-Altman plots, efter Bland&Altman(1986). Vi ser af disse plots, at differenserne generelt ligger i et bånd omkring 0 af nogenlunde lige stor bredde hele vejen, omend det lille antal observationer ikke tillader alt for kategoriske konklusioner. 2. Udregn og fortolk limits of agreement for hver af metoderne, uden at transformere. Gør rede for de nødvendige antagelser og vurder rimeligheden af disse. Limits of agreement er normalområder for differenserne, så vi skal finde gennemsnit og spredning for disse. I Statistics/Descriptive kan vi udregne Summary Statistics til The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------- difw 17-4.9411765 21.7240379-51.0000000 54.0000000 difm 17 2.8823529 28.8723102-33.0000000 96.0000000 ------------------------------------------------------------------------- 10

Vi går ud fra, at de 17 personer ikke er familiemæssigt relateret og at de 17 differenser derfor er uafhængige. For at anvende ovenstående spredninger til at udregne normalområder, skal vi yderligere sikre os, at differenserne er rimeligt normalfordelte og nogenlunde af samme størrelsesorden uanset niveau. Det sidste var netop hvad vi vurderede i spørgsmålet ovenfor, så tilbage står antagelsen om normalitet. Nedenfor ses histogrammer og fraktildiagrammer (probability plots) for hhv. difw og difm og vi ser, at der er nogen afvigelse fra en normalfordeling. Usikkerheden i vurderingen er imidlertid stor med så få observationer, så vi supplerer med formelle test. Test for bl.a. normalitet, Wright: 11

The UNIVARIATE Procedure Variable: difw Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.93781 Pr > t 0.3623 Sign M -2.5 Pr >= M 0.3323 Signed Rank S -31.5 Pr >= S 0.1418 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.899039 Pr < W 0.0655 Kolmogorov-Smirnov D 0.180881 Pr > D 0.1429 Cramer-von Mises W-Sq 0.135555 Pr > W-Sq 0.0346 Anderson-Darling A-Sq 0.780059 Pr > A-Sq 0.0358 og for Mini Wright: The UNIVARIATE Procedure Variable: difm Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 0.411614 Pr > t 0.6861 Sign M -1 Pr >= M 0.8036 Signed Rank S -2.5 Pr >= S 0.9091 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.791298 Pr < W 0.0015 Kolmogorov-Smirnov D 0.176293 Pr > D >0.1500 Cramer-von Mises W-Sq 0.158384 Pr > W-Sq 0.0175 Anderson-Darling A-Sq 1.082043 Pr > A-Sq 0.0058 12

Hvis vi benytter Kolmorogov-Smirnov testet for normalitet, finder vi en rimelig normalfordelingstilpasning (P=0.14 hhv.p>0.15), medens de øvrige test, samt figurerne, synes at tyde på nogen afvigelse, specielt for Mini Wright. Vi skal derfor nok tage de nedenfor udregnede grænser med et vist forbehold. Vi finder limits of agreement til Wright: 4.94 ± 2 21.72 = ( 48.38, 38.50) Mini Wright: 2.88 ± 2 28.87 = ( 54.86, 60.62) Vi kunne også have valgt at bruge en passende t-fraktil til at udregne disse normalområder, det ville i så fald være med 16 frihedsgrader, altså 2.12. Man kunne ligeledes overveje, om man skulle kræve, at differenserne havde middelværdi 0 og dermed estimere spredningen ved 1 17 p=1 dif2 p i stedet for 1 16 17 p=1 (dif p dif) 2 Herved ville vi få normalområderne (limits of agreement) til Wright: 0 ± 2 21.65 = ( 43.30, 43.30) Mini Wright: 0 ± 2 28.16 = ( 56.32, 56.32) Betydningen af limits of agreement er, at differenserne mellem dobbeltbestemmelser med 95% sandsynlighed vil ligge indenfor disse grænser, dvs. de udtrykker troværdigheden af en enkelt måling med hver af apparaterne. 17 3. Tegn et scatter plot af de to sæt differenser (differenser mellem dobbeltbestemmelser for hver af de to metoder), og vurder på baggrund af dette, om der er nogen personer, der ser ud til at være mere ustabile at måle på end andre. Den venstre af figurerne nedenfor viser de to sæt differenser (med fortegn) plottet mod hinanden, medens den højre figur plotter de tilsvarende numeriske (absolutte) differenser. Hvis fortegnet på differensen skønnes at være vigtigt (hvis der f.eks. ses en generel stigning fra første til anden måling) bør venstre figur benyttes, ellers er højre lettere at se på. 13

Vi skal vurdere om der er enkelte personer, der har store differenser mellem dobbeltbestemmelserne for begge målemetoder, og dette ses ikke umiddelbart at være tilfældet. Det nærmeste, vi kan komme det, må være de to med de største numeriske afvigelser for Mini Wright. Sådanne personer, der er svære at måle på ses i andre sammenhænge, såsom vurdering af leverstørrelse, hvor overvægtige personer er sværere at vurdere. 4. Sammenlign nu de to målemetoder udfra gennemsnit af dobbeltbestemmelserne, dvs. tegn igen Bland-Altman plot og udregn limits of agreement. Kommenter den kliniske anvendelighed af disse grænser. Vi arbejder nu videre med de to gennemsnit, ovenfor simpelthen kaldet wright hhv. mini. Igen skal vi se på et plot af differenser mod gennemsnit samt udregne normalområder for differenserne. 14

og vi finder størrelserne The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------- dif 17-6.0294118 33.2041369-92.0000000 51.5000000 ------------------------------------------------------------------------- Igen bør vi overbevise os selv om, at differenserne er rimeligt normalfordelte. De relevante tegninger er 15

og det supplerende test for normalitet fremgår af nedenstående The UNIVARIATE Procedure Variable: dif Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.7487 Pr > t 0.4649 Sign M -2 Pr >= M 0.4545 Signed Rank S -9 Pr >= S 0.6593 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.929235 Pr < W 0.2113 Kolmogorov-Smirnov D 0.190462 Pr > D 0.0976 Cramer-von Mises W-Sq 0.067289 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.467097 Pr > A-Sq 0.2265 Det ser jo ikke så galt ud og vi udregner derfor limits of agreement til Wright vs. Mini Wright: 6.03 ± 2 33.20 = ( 72.43, 60.37) Når vi anvender disse grænser i praksis, skal vi huske på, at de er udregnet på baggrund af gennemsnit af to dobbeltbestemmelser. Hvis dette ikke er sædvanlig klinisk praksis, dvs. hvis man i praksis kun foretager en enkelt måling, så vil disse grænser være for snævre! 5. Er der systematisk forskel på de to målemetoder? Kvantificer! Vi interesserer os her for middelværdierne af de to målemetoder, nærmere betegnet om disse afviger signifikant fra hinanden. Igen er der tale om parrede observationer (W p hhv M p ), så vi ser enten på differenserne D p = W p M p og tester om disse har middelværdi 0 eller foretager et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne, som vi allerede checkede ovenfor. 16

Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t -0.7487 Pr > t 0.4649 Sign M -2 Pr >= M 0.4545 Signed Rank S -9 Pr >= S 0.6593 Vi ser altså, at T-testet giver T=-0.75, svarende til P=0.46, og altså ingen signifikant forskel på de to målemetoder. En tilsvarende konklusion opnås fra de nonparametriske tests. Hermed kan vi imidlertid ikke være sikre på, at der ingen forskel er, så vi kvantificerer den sandsynlige forskel ved at lave et konfidensinterval for forskellen mellem middelværdier. Hertil skal vi bruge standard error The MEANS Procedure Variable Mean Std Dev Std Error -------------------------------------------------------- dif -6.0294118 33.2041369 8.0531861 -------------------------------------------------------- hvorfra vi udregner konfidensintervallet til 6.03 ± 2 8.05 = ( 22.13, 10.07) eller mere præcist 6.03 ± 2.12 8.05 = ( 23.10, 11.04) Vi kan altså ikke udelukke at forskellen på middelværdierne kan være op til ca. 10 den ene vej eller lidt over 20 den anden vej. 6. Hvis en forskel på 75 l/min skønnes at have klinisk betydning, kan vi så erstatte Wright med det nye mini Wright? 17

Her skal vi vurdere om der hyppigt forekommer forskelle på 75 l/min, når man måler to gange på samme person med de to forskellige apparater. Ud fra limits of agreement ser vi, at 75 l/min ligger udenfor det, der normalt forekommer, dvs. det, der forekommer i 95% af tilfældene. Det vil således være relativt sjældent, at vi blot ved et tilfælde ser klinisk betydelige afvigelser mellem de to målemetoder, igen forudsat at vi til daglig virkelig benytter gennemsnit af dobbeltbestemmelser! Sluttelig skal vi se en figur, der forsøger at medtage alle observationer på en gang: For hver person råder vi over 4 observationer, 2 med hver målemetode. Disse 4 er opsat som et kors, idet dobbeltbestemmelser foretaget med samme målemetode er forbundet med et liniestykke. Reference: Bland, J.M. and Altman, D.G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet, i, 307-310. 18