Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Transkript

1 Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september / 67

2 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test Wilcoxon signed rank test Logaritmetransformation Sammenligning af to grupper Uparret t-test Mann-Whitney test Dimensionering Hjemmesider: / 67

3 Eksempel på parrede data To metoder til bestemmelse af flow: MF: bestemt ved Doppler ekkokardiografi SV: bestemt ved cross-sectional ekkokardiografi person MF SV gennemsnit SD SEM Måler de to målemetoder det samme? 3 / 67

4 Eksempel på parrede data Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. Se på differenserne men på hvilken skala? Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0 4 / 67

5 5 / 67

6 Statistisk model for parrede data X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Differenser D i = X i Y i (i = 1,, 21) uafhængige, normalfordelte med middelværdi δ og spredning σ d Bemærk: Intet krav om fordeling af selve flowmålingerne! Kun antagelser om differenser fordi det er et parret design 6 / 67

7 Estimation af forskellen dvs. middelværdien δ af differenserne D i Vi har et en-stikprøve problem : 21 uafhængige målinger af samme (normalfordelte) variabel, D: Gennemsnit: ˆδ = D = 0.24 cm 3 Spredning: SD = 6.96 cm 3 Spredning på ˆδ: SEM = SD n = 6.96 cm3 21 = / 67

8 Sikkerhedsinterval = konfidensinterval 95% sikkerhedsinterval for δ: D ± ca. 2 SEM eller mere præcist D ± t 97.5% (20) SEM = 0.24 ± = ( 2.93, 3.41) idet er t 97.5% (20), den relevante t-fraktil. 8 / 67

9 Fortolkning af sikkerhedsinterval Sikkerhedinterval for middel forskel δ er estimeret til Det betyder: ( 2.93, 3.41) Der kan ikke påvises nogen systematisk forskel (bias) mellem de to typer målinger Vi kan dog heller ikke afvise, at der kan være forskel En evt. forskel vil med stor sikkerhed (her 95%) være mindre end. ca til hver side 9 / 67

10 Test af ingen bias dvs. H 0 : δ = 0 t = ˆδ 0 SEM = = t(20) 1.52 P = 0.88, altså ingen indikation af bias (hvilket også fremgår af sikkerhedsintervallet, der indeholder 0) Test og sikkerhedsintervaller er ækvivalente: Hvis sikkerhedsintervallet indeholder 0, er testet ikke signifikant Hvis sikkerhedsintervallet ikke indeholder 0, er testet signifikant 10 / 67

11 Hvor kom t-fordelingen fra? Gennemsnittet er normalfordelt Hvis spredningen var en kendt størrelse, ville teststørrelsen også være normalfordelt I stedet estimerer vi spredningen, og denne ekstra usikkerhed må vi bøde for ved at bruge (den noget bredere) t-fordeling 11 / 67

12 Indlæsning Data-filen mf_sv.txt, (f.eks. beliggende i mappen C:\Basalstatistik\,) er en tekstfil med 2 kolonner a 21 linier, en for hver person, med variabelnavne i første linie. Vi indlæser og definerer derefter to nye variable: data mf_sv; infile C:\Basalstatistik\mf_sv.txt ; input mf sv; /* definition af nye variable */ dif=mf-sv; average=(mf+sv)/2; run; 12 / 67

13 Udregning af summary statistics /* summary statistics */ proc means mean std stderr t probt data=mf_sv; run; The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t mf <.0001 sv <.0001 dif average < / 67

14 Parret t-test i SAS: proc ttest data=mf_sv; paired mf*sv; run; The TTEST Procedure Difference: mf - sv N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t / 67

15 Alternativt parret t-test Test af middelværdi 0 for differenser: proc ttest data=mf_sv; var dif; run; giver samme output, medens s. 13 viser, at man også kan få P-værdien direkte i proc means; 15 / 67

16 Antagelser for det parrede t-test: Differenserne D i : er uafhængige: personerne har ikke noget med hinanden at gøre har samme varians: vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit er normalfordelte: vurderes grafisk eller numerisk histogram har vi set, hmm... formelt test?? nix... ikke særligt vigtigt bare man har tilstrækkeligt mange observationer 16 / 67

17 Limits-of-agreement Dette er en speciel betegnelse for normalområdet for differenser, dvs. D ± ca. 2 SD Her: 0.24 ± = ( 13.68, 14.16) Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden. Det er nemlig ikke nok, at der ikke er nogen systematisk forskel!! Og her er normalfordelingen vigtig! 17 / 67

18 Nonparametriske test Test, der ikke bygger på en normalfordelingsantagelse Ikke forudsætningsfri Ulemper tab af efficiens (sædvanligvis lille) uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre ofte ingen estimater! og ingen sikkerhedsintervaller kan kun anvendes i simple problemstillinger med mindre man har godt med computerkraft 18 / 67

19 Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) Sign test, fortegnstest udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om store og små forskelle kan påvirkes af transformation 19 / 67

20 Nonparametriske parrede tests i SAS Disse kan kun foretages på de udregnede differenser! proc univariate data=mf_sv; var dif; run; Tests for Location: Mu0=0 Test -Statistic p Value Student s t t Pr > t Sign M 2.5 Pr >= M Signed Rank S 8 Pr >= S Forskellige programmer benytter lidt forskellige teststørrelser! (approksimation for n > 25) 20 / 67

21 Nyt eksempel, af samme slags To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980 REFE: Farvetest, der kan forurenes af urinsyre TEST: Enzymatisk test, mere specifikt for glucose. nr. REFE TEST X SD / 67

22 Scatter plot af de to metoder 22 / 67

23 Vi ser igen på differenser D i = refe i test i N (δ, σ 2 d ) Er der systematisk forskel? Estimater: ˆδ = D=9.89, SD=9.70, SEM= = 1.43 D Test δ=0 : t = SEM = = 6.91 t(45) P< , dvs: Stærk indikation af bias. The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t dif < / 67

24 Limits of agreement På basis af en normalfordelingsantagelse på differenserne finder vi referenceintervallet (normalområdet): 9.89 ± = ( 9.51, 29.29) med fortolkningen: Når vi måler med begge metoder på samme person, vil differensen typisk ligge i intervallet (-9.5, 29.3) På tegningen ses, at dette er en dårlig beskrivelse, idet differenserne stiger med niveauet (gennemsnittet) variationen stiger også med niveauet differenserne er ikke normalfordelt 24 / 67

25 Bland-Altman plot Plot af differenser mod gennemsnit (af de to målinger på samme person): Relative afvigelser giver ide til tage logaritmer 25 / 67

26 Scatter plot efter logaritmetransformation 26 / 67

27 Bemærk Det er de oprindelige målinger, der skal logaritmetransformeres, ikke differenserne! Efter logaritmering gentages proceduren med differenser og konstruktion af limits of agreement Det er ligegyldigt, hvilken logaritmefunktion, der vælges (der er proportionalitet mellem alle logaritmer) For den naturlige logaritme gælder Var(log(Y)) Var(Y) Y CV 2 2 CV kaldes variationskoefficienten 27 / 67

28 Bland-Altman plot for logaritmer Der er en tydelig outlier (den mindste observation) 28 / 67

29 Vi udelader outlieren... og laver igen et Bland-Altman plot som bliver acceptabelt / 67

30 Er det tilladt at udelade en outlier? Ja, hvis der er noget påviseligt galt med den hvis den har et specielt karakteristika og så skal vi begrænse konklusionerne tilsvarende og udelade alle andre med dette karakteristika Nej, hvis det bare er for at få det til at se pænere ud Her: Udtal jer kun om overensstemmelsen for målinger over / 67

31 De praktiske udregninger The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t ldif < Der er helt klart en signifikant bias mellem de to målemetoder: t = = som i en t-fordeling med 44 frihedsgrader giver P < / 67

32 Konklusion Limits of agreement på logaritmisk skala: ± = ( 0.018, 0.150) Det betyder, at der i 95% af tilfældene vil gælde < log(refe) log(test) = log( REFE TEST ) < Men hvad kan vi bruge det til? 32 / 67

33 Konklusion, fortsat Vi kan tilbagetransformere med anti-logaritmen og få < REFE TEST < < TEST REFE < eller omvendt Det betyder: TEST ligger typisk mellem 14% under og 2% over REFE. 33 / 67

34 Limits of agreement tilbagetransformeret til oprindelig skala 34 / 67

35 Ratio-skala Med definitionen ratio = test refe, finder vi direkte: The MEANS Procedure Variable N Mean Std Dev Std Error ratio svarende til limits of agreement: ± = (0.979, 1.159) altså refe fra 2% under til 16% over test, på 2 decimaler identisk med resultatet for logaritmerne Dette er ikke altid tilfældet!! Det er fordi overensstemmelsen er så god... og ofte er ratio ikke særligt symmetrisk fordelt 35 / 67

36 Limits of agreement på ratio-skala 36 / 67

37 Ny problemstilling: Er der forskel på energiindtaget for magre og kraftige kvinder? 37 / 67

38 Praktisk håndtering af data Indlæsning af 22 datalinier, en for hver kvinde, men to variable for hver kvinde: data a1; input status energi; datalines; ; run; Definer evt ny variabel: data lean_obese; set a1; if status=1 then figur= lean ; if status=2 then figur= obese ; run; 38 / 67

39 Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi To uafhængige stikprøver, uparret sammenligning: proc means N mean std stderr data=lean_obese; class figur; var energi; run; Analysis Variable : energi figur N Mean Std Dev Std Error lean obese / 67

40 Model for uparret sammenligning To grupper, med hver sin normalfordeling: X 1.1,, X 1.13 N (µ 1, σ 2 ) X 2.1,, X 2.9 N (µ 2, σ 2 ) Alle observationerne er uafhængige personerne har ikke noget med hinanden at gøre Der er samme spredning i de to grupper bør checkes Observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi 40 / 67

41 Normalfordelingsmodel for to grupper Husk: Totalt set er det slet ikke en normalfordeling!! 41 / 67

42 Estimeret forskel på middelværdier: Estimat: X 1 X 2 = = Hvad er usikkerheden på dette estimat? St.Err.( X 1 X 2 ) = σ ( 1 n n 2 σ estimeres ved SD, et poolet spredningsskøn, og antallet af frihedsgrader er df=(n 1-1)+(n 2-1)=(13-1)+(9-1)=20 ) 42 / 67

43 Konfidensinterval for forskel: Estimeret St.Err( X 1 X 2 ): 95% konfidensinterval: SD 1 n n 2 = X 1 X 1 2 ± ca. 2 SD + 1 n 1 n 2 = ± = ( 3.41, 1.05) 43 / 67

44 Uparret t-test, for ens middelværdier Hypotese: H 0 : µ 1 = µ 2 t = x 1 x 2 St.Err.( x 1 x 2 ) = x 1 x 2 SD n1 n2 = = 3.95 hvilket i en t-fordeling med 20 frihedsgrader giver P = / 67

45 Uparret t-test i SAS proc ttest data=lean_obese; class figur; var energi; run; Lower CL Upper CL Variable figur N Mean Mean Mean Std Dev energi lean energi obese energi Diff (1-2) T-Tests Variable Method Variances DF t Value Pr > t energi Pooled Equal energi Satterthwaite Unequal Equality of Variances Variable Method Num DF Den DF F Value Pr > F energi Folded F Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om varianserne kan antages at være ens eller ej. 45 / 67

46 Hvad betyder teststørrelsens fordeling? under H 0 Vi forestiller os mange ens undersøgelser af stikprøver på 22 personer fra samme population: i en gruppe, 9 i en anden, tilfældigt valgt = t i en gruppe, 9 i en anden, tilfældigt valgt = t i en gruppe, 9 i en anden, tilfældigt valgt = t 3 osv. osv. Fordeling af t erne? Vores faktiske t sammenlignes nu med denne fordeling, Passer den pænt? 46 / 67

47 Konklusion Der ser ud til at være en reel forskel på de to grupper Vi fandt nemlig en signifikant teststørrelse, som kun sjældent vil fremkomme ved tilfældighedernes spil Estimeret forskel = gennemsnitlig forskel = = 2.23 Den sande forskel er nok ikke lige 2.23, men et sted i nærheden. 95% sikkerhedsinterval = (1.05,3.41) De magre kvinder har formentlig (dvs. med 95% sikkerhed) et energi indtag, der i middel ligger et sted mellem 1.05 og 3.41 under niveauet blandt de kraftige 47 / 67

48 Teknikaliteter Rimeligheden af ens varianser undersøges ved at se på ratio: F = s2 2 s 2 1 = = 1.27 F(8, 12) P = (eller den reciprokke, 1/1.27=0.78, samme P-værdi.) Vi kan altså med god samvittighed anvende et poolet variansskøn. Hvad skulle vi ellers have gjort? Dette ville give os: t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 s1 2 n 1 + s2 2 n 2 t(??) t = 3.86 t(15.9), P = / 67

49 Statistisk signifikans afhænger af: sand forskel antal observationer den tilfældige variation, dvs. den biologiske variation signifikansniveau Klinisk signifikans afhænger af: størrelsen af den påviste forskel 49 / 67

50 Tænkt eksempel To aktive behandlinger: A og B, vs. Placebo: P Resultater fra to trials: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B??? Nej, ikke nødvendigvis. 50 / 67

51 Hvis der ikke er signifikans kan det skyldes At der ikke er en forskel At forskellen er så lille, at den er vanskelig at opdage At variationen er så stor, at en evt. forskel drukner At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Kan vi så konkludere, at der ikke er forskel?? Nej!!, ikke nødvendigvis Se på konfidensintervallet for forskellen 51 / 67

52 Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept forkast H 0 sand 1-α α fejl af type I H 0 falsk β 1-β fejl af type II 1-β kaldes styrken, den angiver sandsynligheden for at forkaste en falsk hypotese. 52 / 67

53 Men hvad betyder H 0 falsk? Hvor store forskelle er der? Styrken er en funktion af forskellen! Styrkefunktion: Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage den på 5% niveau?? 53 / 67

54 Bemærk: Styrken udregnes for at dimensionere en undersøgelse Når resultaterne er i hus, præsenteres i stedet konfidensintervaller 54 / 67

55 Dimensionering af undersøgelser Hvor mange patienter skal vi medtage? Dette afhænger naturligvis af datas beskaffenhed, samt af, hvad man vil opnå: Hvilken forskel i respons er vi interesserede i at opdage? fastsæt MIREDIF (mindste relevante differens) Med hvilken sandsynlighed (styrke = power)? På hvilket signifikansniveau? Hvor stor er den biologiske spredning? 55 / 67

56 Hvordan skaffer man de nødvendige oplysninger? Klinisk relevant forskel (MIREDIF): praktiske forhold økonomiske forhold relation til biologisk variation Styrke: bør være stor, mindst 80% Signifikansniveau: Sædvanligvis 5% I tilfælde af mange sammenligninger bør det sættes lavere, f.eks. 1% Spredning: tidligere undersøgelser, evt. med et lignende stof pilotforsøg rent gætteri 56 / 67

57 Eksempel Nyt stof: XX 2 grupper: E u 1 E u 1 og E u 1 E a 1 Outcome Tid til 1. respons efter en dosis på 0.1 mg/kg. Vi vil gerne kunne påvise en evt. forskel på de to grupper. Hvor stor skal forskellen være, før den er vigtig? Miredif: 3 minutter Hvor mange patienter skal vi så undersøge? 57 / 67

58 Miredif δ=3. Styrke: Hvilken sandsynlighed kræver vi at opdage δ med, hvis den faktisk er der? Denne bør være høj, mindst 80%, altså 1 β = 0.80, β = type 2 fejls risiko Signifikansniveau (type-1 fejls risiko, dvs. sandsynligheden for at finde en forskel, der i virkeligheden ikke er der). Traditionelt fastsættes dette til 5% eller 1%, α=0.05. Hvor stor er den biologiske spredning? Altså variationen mellem personer i samme gruppe? Det ved vi jo ikke / 67

59 Skøn over biologisk spredning Hvor får vi det fra? Pilot-studie med det aktuelle stof Tidligere studie med et lignende stof: E1 ue 1 a : n=4, 16.3±2.6 E1 ue 1 u : n=10, 10.1±3.0 Herudfra gætter vi på biologisk spredning = 3 min. Så er vi klar til at dimensionere 59 / 67

60 Dimensionering i SAS proc power; twosamplemeans test=diff groupmeans = stddev = 3 npergroup =. power = 0.8,0.9; run; Det er uden betydning, om groupmeans er 10 og 13 eller ethvert andet talpar med differens 3 60 / 67

61 Output fra dimensionering i SAS The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Normal Method Exact Group 1 Mean 10 Group 2 Mean 13 Standard Deviation 3 Number of Sides 2 Null Difference 0 Alpha 0.05 Computed N Per Group Nominal Actual N Per Index Power Power Group / 67

62 Dimensionering med nomogram 62 / 67

63 Dimensionering med nomogram, fortsat Forklaring til nomogrammet: Venstre lodrette akse: Standardiseret forskel: δ s Højre lodrette akse: power På de to skrå akser aflæses N, det totale nødvendige patientantal, enten for signifikansniveau 5% (øverste akse) signifikansniveau 1% (nederste akse) 63 / 67

64 Nonparametrisk uparret test i SAS Mann-Whitney test eller Kruskal-Wallis test proc npar1way wilcoxon data=lean_obese; exact hl; class figur; var energi; run; The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable energi Classified by Variable figur Sum of Expected Std Dev Mean figur N Scores Under H0 Under H0 Score lean obese Average scores were used for ties. (approksimation for n > 25) 64 / 67

65 Wilcoxon Two-Sample Test Statistic (S) Normal Approximation Z One-Sided Pr > Z Two-Sided Pr > Z t Approximation One-Sided Pr > Z Two-Sided Pr > Z Exact Test One-Sided Pr >= S 5.287E-04 Two-Sided Pr >= S - Mean Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square DF 1 Pr > Chi-Square / 67

66 Nonparametrisk konfidensinterval Hodges-Lehmann option: proc npar1way wilcoxon data=lean_obese; exact hl; class figur; var energi; run; giver ekstra output: Hodges-Lehmann Estimation Location Shift Interval Asymptotic Type 95% Confidence Limits Midpoint Standard Error Asymptotic (Moses) Exact og altså konfidensintervallet (1.26, 3.56) for forskel i location. Til sammenligning fik vi (1.05, 3.41) før. 66 / 67

67 Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. Men det er vigtigt at respektere sit design! Eks: Målemetoderne MF og SV: Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm 3, 3.41 cm 3 ) Uparret T-test: t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: ( cm 3, cm 3 ) 67 / 67