Basal statistik. 16. september 2008

Transkript

1 Basal statistik 16. september 2008

2 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test Mann-Whitney test

3 Per Kragh Andersen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på

4 En- og to-stikprøve problemer, september Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi SV: Left ventricular stroke volume, bestemt ved crosssectional ekkokardiografi person MF SV gennemsnit SD SEM Er der forskel på de to målemetoder?

5 En- og to-stikprøve problemer, september Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. Parret situation: Se på differenserne men på hvilken skala? Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0

6 En- og to-stikprøve problemer, september

7 En- og to-stikprøve problemer, september Statistisk model for differenser mellem parrede observationer: X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Differenser d i = X i Y i (i = 1,, 21) uafhængige, normalfordelte E(d i ) = δ, V ar(d i ) = σ 2 d OBS: Intet krav om fordeling af selve flowmålingerne!

8 En- og to-stikprøve problemer, september Estimation: Gennemsnit: ˆδ = d = 0.24 cm 3 Spredning: s d = 6.96 cm 3 Spredning på ˆδ: SEM = s d n = 6.96 cm3 21 = % sikkerhedsinterval for δ: d ± ca. 2 SEM eller mere præcist d ± t 97.5% (20) SEM = 0.24 ± = ( 2.93,3.41) idet er t 97.5% (20), den relevante t-fraktil.

9 En- og to-stikprøve problemer, september Test af nulhypotesen H 0 : δ = 0 (ingen bias) t = ˆδ 0 SEM = = t(20) P = 0.88, altså ingen indikation af bias (hvilket også fremgår af sikkerhedsintervallet, der indeholder 0) Test og sikkerhedsintervaller er ækvivalente!

10 En- og to-stikprøve problemer, september Indlæsning fra data-filen mf_sv.tal en tekstfil med 2 kolonner a 21 linier, en for hver person, med variabelnavne i første linie. Definer nye variable: dif=mf-sv average=(mf+sv)/2 Herefter bruges Statistics/Descriptive/Summary Statistics: The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t mf <.0001 sv <.0001 dif average <

11 En- og to-stikprøve problemer, september Parret t-test i SAS ANALYST: Statistics/Hypothesis Tests/Two-Sample Paired t-test for Means, klik af i Interval under Tests for at få et 95% konfidensområde for forskellen: Two Sample Paired t-test for the Means of mf and sv Sample Statistics Group N Mean Std. Dev. Std. Error mf sv Hypothesis Test Null hypothesis: Mean of (mf - sv) = 0 Alternative: Mean of (mf - sv) ^= 0 t Statistic Df Prob > t

12 En- og to-stikprøve problemer, september % Confidence Interval for the Difference between Two Paired Means Lower Limit Upper Limit Statistics/Hypothesis Tests/One-Sample t-test for a Mean næsten uændret output, dog: One Sample t-test for a Mean Sample Statistics for dif N Mean Std. Dev. Std. Error

13 En- og to-stikprøve problemer, september Direkte programmering: data a1; infile mf_sv.tal ; input mf sv; /* definition af nye variable */ dif=mf-sv; average=(mf+sv)/2; run; /* summary statistics */ proc means mean std stderr data=mf_sv; run;

14 En- og to-stikprøve problemer, september /* fordelingsbeskrivelse, herunder test af normalfordeling */ proc univariate normal data=mf_sv; var dif; run; /* parret t-test */ proc ttest data=mf_sv; paired mf*sv; run;

15 En- og to-stikprøve problemer, september Antagelser for det parrede t-test: Differenserne d i : er uafhængige: personerne har ikke noget med hinanden at gøre har samme varians: vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit er normalfordelte: vurderes grafisk eller numerisk histogram har vi set, hmm... formelt test??

16 En- og to-stikprøve problemer, september Formelt test af normalfordeling for differenser (proc univariate normal fra side??) Statistics/Descriptive/Distributions Fit: normal parameters Goodness-of-Fit Tests for Normal Distribution Test ---Statistic p Value----- Kolmogorov-Smirnov D Pr > D >0.150 Cramer-von Mises W-Sq Pr > W-Sq Anderson-Darling A-Sq Pr > A-Sq 0.206

17 En- og to-stikprøve problemer, september Hvis normalfordelingen ikke er en god beskrivelse, sker der følgende: Test og konfidensinterval bliver stadigvæk nogenlunde OK i flg. den centrale grænseværdisætning Normalområder bliver misvisende! Normalområdet kaldes i dette specialtilfælde (sammenligning af målemetoder) for limits-of-agreement: d ± ca. 2 s d Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden.

18 En- og to-stikprøve problemer, september Nonparametriske test: Test, der ikke bygger på en normalfordelingsantagelse Ikke forudsætningsfri Ulemper tab af efficiens (sædvanligvis lille) uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre ingen estimater! og ingen sikkerhedsintervaller kan kun anvendes i simple problemstillinger med mindre man har godt med computerkraft

19 En- og to-stikprøve problemer, september Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) sign test, fortegnstest udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om store og små forskelle kan påvirkes af transformation

20 En- og to-stikprøve problemer, september Sign testet (fortegnstest) X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Vi ønsker at teste hypotesen Vi tæller P(X > Y ) = P(X < Y ) = 1 2 Hvor mange af de 21 differenser er positive? n + (=12) Hvor mange af de 21 differenser er negative? n (=7) Hvor mange af de 21 differenser er præcis 0? n 0 (=2) Blandt dem, der ikke er 0 (n = n + + n = 19), er der da signifikant flest af den ene slags?

21 En- og to-stikprøve problemer, september Er 12 vs. 7 signifikant skævt? Binomialtest: X Bin(n, p) H 0 : p = 0.5 Her er n = 19, x = 12 og dermed P=0.36 Geigy tabeller giver 95% konfidensgrænser: (0.38,0.84)

22 En- og to-stikprøve problemer, september Wilcoxon signed rank test: størrelsen af differenserne rangordnes person MF SV differens positiv diff. negativ diff Sum

23 En- og to-stikprøve problemer, september R: summen af positive (eller negative) range, n=19, R=103 Rangene giver ingen signifikans på 5% niveau (Tabel B9)

24 En- og to-stikprøve problemer, september Nonparametriske parrede tests i SAS, approksimation for n > 25 OBS: Disse kan kun foretages direkte på de udregnede differenser! ANALYST: Statistics/Descriptive /Distributions Direkte programmering: proc univariate normal data=mf_sv; var dif; run; Tests for Location: Mu0=0 Test -Statistic p Value Student s t t Pr > t Sign M 2.5 Pr >= M Signed Rank S 8 Pr >= S Forskellige programmer benytter forskellige teststørrelser!

25 En- og to-stikprøve problemer, september Eksempel: To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, REFE: Farvetest, der kan forurenes af urinsyre TEST: Enzymatisk test, mere specifikt for glucose. nr. REFE TEST X SD

26 En- og to-stikprøve problemer, september Scatter plot:

27 En- og to-stikprøve problemer, september Vi skal se på differenser: d i = refe i test i N(δ, σ 2 d ) Er der systematisk forskel? Test δ=0 ˆδ=9.89, s d =9.70, t= ˆδ sem = ˆδ s d / =6.91 t(45) P< n Stærk indikation af bias. The MEANS Procedure Variable N Mean Std Dev t Value Pr > t dif <

28 En- og to-stikprøve problemer, september Limits of agreement siger, at de typiske differenser ligger i intervallet 9.89 ± = ( 9.51, 29.29) På tegningen ses, at dette er en dårlig beskrivelse, idet differenserne stiger med niveauet (gennemsnittet) variationen stiger også med niveauet

29 En- og to-stikprøve problemer, september Limits of agreement Relative afvigelser giver ide til tage logaritmer

30 En- og to-stikprøve problemer, september Scatter plot, efter logaritmetransformation:

31 En- og to-stikprøve problemer, september Bemærk: Det er de oprindelige målinger, der skal logaritmetransformeres, ikke differenserne! Det er ligegyldigt, hvilken logaritmefunktion, der vælges (der er proportionalitet mellem alle logaritmer) For den naturlige logaritme gælder Var(log(Y)) Var(Y) Y 2 CV 2 Efter logaritmering gentages proceduren med differenser og konstruktion af limits of agreement

32 En- og to-stikprøve problemer, september Der findes uafhængig information om reproducerbarheden, ud fra gentagne målinger på samme prøve: Spredning mod gennemsnit giver nogenlunde proportionalitet:

33 En- og to-stikprøve problemer, september Limits of agreement, for logaritmer Der er en tydelig outlier (den mindste observation)

34 En- og to-stikprøve problemer, september Efter logaritmetransformation (og udeladelse af den laveste måling), får vi en acceptabel figur

35 En- og to-stikprøve problemer, september Limits of agreement ± = ( 0.018, 0.150) Det betyder, at der i 95% af tilfældene vil gælde < log(refe) log(test) = log( REFE TEST ) < hvilket ved tilbagetransformation giver, at < REFE TEST < eller omvendt < TEST REFE < Fortolkning: TEST ligger typisk mellem 14% under og 2% over REFE.

36 En- og to-stikprøve problemer, september Limits of agreement, omsat til oprindelig skala:

37 En- og to-stikprøve problemer, september Vi benytter Statistics/Descriptive/Summary Statistics (proc means;) for at få en oversigt over de logaritmiske differenser The MEANS Procedure Variable N Mean Std Dev t Value Pr > t ldif < Der er helt klart en signifikant bias mellem de to målemetoder: t = = = som vurderet i en t-fordeling med 44 frihedsgrader giver P < Som det ses af tegningen, er denne bias ikke helt konstant, idet den afhænger (svagt) af niveauet.

38 En- og to-stikprøve problemer, september Vi kunne også have arbejdet direkte på en ratio-skala: The MEANS Procedure ratio = refe test Variable Mean Std Dev Std Error ratio som giver limits of agreement: ± = (0.979, 1.159) altså refe fra 2% under til 16% over test (på 2 decimaler identisk med resultatet for logaritmerne) Dette er ikke altid tilfældet!!

39 En- og to-stikprøve problemer, september Limits of agreement på ratio-skala

40 En- og to-stikprøve problemer, september Ny problemstilling: Er der forskel på energiindtaget for magre og fede kvinder?

41 En- og to-stikprøve problemer, september Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi To uafhængige stikprøver, uparret sammenligning Statistics/Descriptive/Summary Statistics med figur som Class-variabel, eller proc means N mean std stderr data=lean_obese; class figur; var energi; run; Analysis Variable : energi N figur Obs N Mean Std Dev Std Error lean obese

42 En- og to-stikprøve problemer, september Traditionelle antagelser: X 1.1,, X 1.13 N(µ 1, σ 2 ) X 2.1,, X 2.9 N(µ 2, σ 2 ) alle observationerne er uafhængige personerne har ikke noget med hinanden at gøre der er samme populationsvarians i de to grupper bør checkes observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi normalfordelingen checkes ligesom tidligere, hvis det kan lade sig gøre

43 En- og to-stikprøve problemer, september To-stikprøve t-test H 0 : µ 1 = µ 2 t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 1 s = = 3.95 n n 2 hvilket i en t-fordeling med 20 frihedsgrader giver P =

44 En- og to-stikprøve problemer, september Begrundelse for teststørrelse: X 1 normalfordelt N(µ 1, 1 n 1 σ 2 ) X 2 normalfordelt N(µ 2, 1 n 2 σ 2 ) X 1 X 2 N(µ 1 µ 2, ( 1 n n 2 )σ 2 ) σ 2 estimeres ved s 2, et poolet variansskøn, og antallet af frihedsgrader er df=(n 1-1)+(n 2-1)=(13-1)+(9-1)=20

45 En- og to-stikprøve problemer, september Hvad betyder teststørrelsens fordeling? Vi forestiller os mange ens undersøgelser af de samme to populationer: magre, 9 fede = t magre, 9 fede = t magre, 9 fede = t 3.. Fordeling af t erne? Hvorfor ikke bare x 1 x 2? Fordi fordelingen så afhænger af σ 2 og derfor ikke kan slås op i en tabel

46 En- og to-stikprøve problemer, september Indlæsning af 22 datalinier, en for hver kvinde, men to variable for hver kvinde: status energi Når data er gemt i sasuser, defineres en ny variabel (i dette tilfælde en karaktervariabel) ved hjælp af /Data/Transform/Recode status=1 figur= lean status=2 figur= obese

47 En- og to-stikprøve problemer, september Et uparret t-test i SAS ANALYST: Statistics/Hypothesis Tests/Two-Sample t-test for Means kryds af i Confidence Interval under Tests > < Hypothesis Test Null hypothesis: Mean 1 - Mean 2 = 0 Alternative: Mean 1 - Mean 2 ^= 0 If Variances Are t statistic Df Pr > t Equal Not Equal % Confidence Interval for the Difference between Two Means Lower Limit Upper Limit Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om varianserne kan antages at være ens eller ej.

48 En- og to-stikprøve problemer, september data lean_obese; infile lean_obese.tal ; input nr status energi rang; Direkte programmering: if status=2 then figur= obese ; if status=1 then figur= lean ; run; proc means N mean std stderr; class figur; var energi; run; proc ttest data=lean_obese; class figur; var energi; run; proc npar1way wilcoxon data=lean_obese; class figur; var energi; run;

49 En- og to-stikprøve problemer, september Rimeligheden af ens varianser undersøges ved F = s2 2 s 2 1 = = 1.27 Hvis de to varianser faktisk er ens, skal denne størrelse være F-fordelt med (8,12) frihedsgrader. Vi finder P=0.68 og kan altså med god samvittighed anvende et poolet variansskøn. Hvad skulle vi ellers have gjort? Dette ville give os: t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 s 2 1 n 1 + s2 2 n 2 t(??) t = 3.86 t(15.9), P =

50 En- og to-stikprøve problemer, september Test for varianshomogenitet i SAS: Statistics/Hypothesis Tests/Two-Sample test for Variances kryds af i Confidence Interval under Tests Two Sample Test for Variances of energi within figur Sample Statistics figur Group N Mean Std. Dev. Variance lean obese Hypothesis Test Null hypothesis: Variance 1 / Variance 2 = 1 Alternative: Variance 1 / Variance 2 ^= 1 - Degrees of Freedom - F Numer. Denom. Pr > F Den tidligere viste teststørrelse er den reciprokke, 1/0.78=1.27, samme P-værdi.

51 En- og to-stikprøve problemer, september Forskel, ja...men hvor stor? Estimeret forskel = gennemsnitlig forskel = = 2.23 Den sande forskel er nok ikke lige 2.23, men et sted i nærheden. 95% sikkerhedsinterval = interval, der med 95% sandsynlighed omslutter den sande forskel = (1.05, 3.41)

52 En- og to-stikprøve problemer, september Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept H 0 sand 1-α α H 0 falsk β 1-β fejl af type II forkast fejl af type I 1-β kaldes styrken, denne angiver sandsynligheden for at forkaste en falsk hypotese.

53 En- og to-stikprøve problemer, september Men hvad betyder H 0 falsk? Hvor store forskelle er der? Styrken er en funktion af forskellen! Styrkefunktion: Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage den på 5% niveau?? power size of difference Bemærk: styrken udregnes for at dimensionere en undersøgelse når resultaterne er i hus, præsenteres konfidensintervaller

54 En- og to-stikprøve problemer, september Statistisk signifikans afhænger af: sand forskel antal observationer den tilfældige variation, dvs. den biologiske variation signifikansniveau Klinisk signifikans afhænger af: størrelsen af den påviste forskel

55 En- og to-stikprøve problemer, september To aktive behandlinger: A og B, vs. Placebo: P Resultater fra to trials: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B??? Nej, ikke nødvendigvis.

56 En- og to-stikprøve problemer, september Ingen signifikans? Hvad kan det skyldes? At der ikke er en forskel At forskellen er så lille, at den er vanskelig at opdage At variationen er så stor, at en evt. forskel drukner At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Inden undersøgelsens gennemførelse bør man Fastsætte MIREDIF (mindste relevante differens) foretage styrkeberegninger (power) beregne det nødvendige patientantal

57 En- og to-stikprøve problemer, september Variation Hvordan kan vi nedbringe variationen, så vi bliver i stand til at se evt. differenser klarere? Benytte personen som sin egen kontrol. Begrænse effekten af uønskede kovariater: foretage alle målinger på samme tidspunkt af dagen, evt. også på samme ugedag. begrænse aldersvariationen (eller lave regression på alderen) benytte skrappere inklusionskriterier for f.eks. vægt for at undgå outliers. randomisere tage flere målinger lige efter hinanden på samme person og benytte gennemsnittet i beregningerne

58 En- og to-stikprøve problemer, september Nonparametrisk test (uden normalfordelingsantagelsen): Mann-Whitney test (Kruskal-Wallis test) Det totale materiale rangordnes, rangværdi rangværdi person figur energi lean obese 1 lean lean lean lean lean obese obese Sum Forventet sum

59 En- og to-stikprøve problemer, september herefter Tabel B10, s. 534: n s =9, n l =13 (mindste gruppe skal først ved opslag). Rangsum: R=150

60 En- og to-stikprøve problemer, september Nonparametrisk uparret test i SAS, approksimation for n > 25 Statistics/ANOVA/Nonparametric One-Way ANOVA/ med energi som Dependent og figur som Independent The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable energi Classified by Variable figur Sum of Expected Std Dev Mean figur N Scores Under H0 Under H0 Score lean obese Average scores were used for ties.

61 En- og to-stikprøve problemer, september Wilcoxon Two-Sample Test Statistic (S) Normal Approximation Z One-Sided Pr > Z Two-Sided Pr > Z t Approximation One-Sided Pr > Z Two-Sided Pr > Z Kruskal-Wallis Test Chi-Square DF 1 Pr > Chi-Square Exact Test One-Sided Pr >= S 5.287E-04 Two-Sided Pr >= S - Mean Z includes a continuity correction of 0.5.

62 En- og to-stikprøve problemer, september Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. Men det er vigtigt at respektere sit design! Eks: Målemetoderne MF og SV: Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm 3, 3.41 cm 3 ) Uparret T-test: t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: ( cm 3, cm 3 )