Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Relaterede dokumenter
Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Basal statistik. 16. september 2008

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

En Introduktion til SAS. Kapitel 5.

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Opgavebesvarelse, Basalkursus, uge 2

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Konfidensintervaller og Hypotesetest

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Opgavebesvarelse, Basalkursus, uge 3

Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Løsning eksamen d. 15. december 2008

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Besvarelse af vitcap -opgaven

MPH specialmodul Epidemiologi og Biostatistik

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Basal Statistik - SPSS

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Forsøgsplanlægning Stikprøvestørrelse

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Løsning til eksamen d.27 Maj 2010

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Phd-kursus i Basal Statistik, Opgaver til 2. uge

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Ikke-parametriske tests

Løsning til eksaminen d. 29. maj 2009

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Løsning til eksaminen d. 14. december 2009

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksamen i Statistik for Biokemikere, Blok januar 2009

Klasseøvelser dag 2 Opgave 1

Vejledende besvarelse af hjemmeopgave, efterår 2018

Modelkontrol i Faktor Modeller

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Epidemiologi og Biostatistik

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Normalfordelingen og Stikprøvefordelinger

Tema. Dagens tema: Indfør centrale statistiske begreber.

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Basal statistik. 30. januar 2007

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 15. januar 2018

Modul 11: Simpel lineær regression

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Eksamen i Statistik for biokemikere. Blok

Opgaver til kapitel 3

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger.

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger i R. Lene Theil Skovgaard. 4. februar 2019

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Kapitel 7 Forskelle mellem centraltendenser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger i R

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Transkript:

Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67

En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test Wilcoxon signed rank test Logaritmetransformation Sammenligning af to grupper Uparret t-test Mann-Whitney test Dimensionering Hjemmesider: http://staff.pubhealth.ku.dk/~lts/basal13_2 E-mail: ltsk@sund.ku.dk 2 / 67

Eksempel på parrede data To metoder til bestemmelse af flow: MF: bestemt ved Doppler ekkokardiografi SV: bestemt ved cross-sectional ekkokardiografi person MF SV 1 47 43 2 66 70 3 68 72 4 69 81 5 70 60............ 17 104 94 18 105 98 19 112 108 20 120 131 21 132 131 gennemsnit 86.05 85.81 SD 20.32 21.19 SEM 4.43 4.62 Måler de to målemetoder det samme? 3 / 67

Eksempel på parrede data Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. Se på differenserne men på hvilken skala? Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0 4 / 67

5 / 67

Statistisk model for parrede data X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Differenser D i = X i Y i (i = 1,, 21) uafhængige, normalfordelte med middelværdi δ og spredning σ d Bemærk: Intet krav om fordeling af selve flowmålingerne! Kun antagelser om differenser fordi det er et parret design 6 / 67

Estimation af forskellen dvs. middelværdien δ af differenserne D i Vi har et en-stikprøve problem : 21 uafhængige målinger af samme (normalfordelte) variabel, D: Gennemsnit: ˆδ = D = 0.24 cm 3 Spredning: SD = 6.96 cm 3 Spredning på ˆδ: SEM = SD n = 6.96 cm3 21 = 1.52 7 / 67

Sikkerhedsinterval = konfidensinterval 95% sikkerhedsinterval for δ: D ± ca. 2 SEM eller mere præcist D ± t 97.5% (20) SEM = 0.24 ± 2.086 1.52 = ( 2.93, 3.41) idet 2.086 er t 97.5% (20), den relevante t-fraktil. 8 / 67

Fortolkning af sikkerhedsinterval Sikkerhedinterval for middel forskel δ er estimeret til Det betyder: ( 2.93, 3.41) Der kan ikke påvises nogen systematisk forskel (bias) mellem de to typer målinger Vi kan dog heller ikke afvise, at der kan være forskel En evt. forskel vil med stor sikkerhed (her 95%) være mindre end. ca. 3 3.5 til hver side 9 / 67

Test af ingen bias dvs. H 0 : δ = 0 t = ˆδ 0 SEM = 0.24 0 = 0.158 t(20) 1.52 P = 0.88, altså ingen indikation af bias (hvilket også fremgår af sikkerhedsintervallet, der indeholder 0) Test og sikkerhedsintervaller er ækvivalente: Hvis sikkerhedsintervallet indeholder 0, er testet ikke signifikant Hvis sikkerhedsintervallet ikke indeholder 0, er testet signifikant 10 / 67

Hvor kom t-fordelingen fra? Gennemsnittet er normalfordelt Hvis spredningen var en kendt størrelse, ville teststørrelsen også være normalfordelt I stedet estimerer vi spredningen, og denne ekstra usikkerhed må vi bøde for ved at bruge (den noget bredere) t-fordeling 11 / 67

Indlæsning Data-filen mf_sv.txt, (f.eks. beliggende i mappen C:\Basalstatistik\,) er en tekstfil med 2 kolonner a 21 linier, en for hver person, med variabelnavne i første linie. Vi indlæser og definerer derefter to nye variable: data mf_sv; infile C:\Basalstatistik\mf_sv.txt ; input mf sv; /* definition af nye variable */ dif=mf-sv; average=(mf+sv)/2; run; 12 / 67

Udregning af summary statistics /* summary statistics */ proc means mean std stderr t probt data=mf_sv; run; The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t --------------------------------------------------------------- mf 21 86.0476190 20.3211126 4.4344303 19.40 <.0001 sv 21 85.8095238 21.1863613 4.6232431 18.56 <.0001 dif 21 0.2380952 6.9635103 1.5195625 0.16 0.8771 average 21 85.9285714 20.4641673 4.4656474 19.24 <.0001 --------------------------------------------------------------- 13 / 67

Parret t-test i SAS: proc ttest data=mf_sv; paired mf*sv; run; The TTEST Procedure Difference: mf - sv N Mean Std Dev Std Err Minimum Maximum 21 0.2381 6.9635 1.5196-13.0000 10.0000 Mean 95% CL Mean Std Dev 95% CL Std Dev 0.2381-2.9317 3.4078 6.9635 5.3275 10.0558 DF t Value Pr > t 20 0.16 0.8771 14 / 67

Alternativt parret t-test Test af middelværdi 0 for differenser: proc ttest data=mf_sv; var dif; run; giver samme output, medens s. 13 viser, at man også kan få P-værdien direkte i proc means; 15 / 67

Antagelser for det parrede t-test: Differenserne D i : er uafhængige: personerne har ikke noget med hinanden at gøre har samme varians: vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit er normalfordelte: vurderes grafisk eller numerisk histogram har vi set, hmm... formelt test?? nix... ikke særligt vigtigt bare man har tilstrækkeligt mange observationer 16 / 67

Limits-of-agreement Dette er en speciel betegnelse for normalområdet for differenser, dvs. D ± ca. 2 SD Her: 0.24 ± 2 6.96 = ( 13.68, 14.16) Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden. Det er nemlig ikke nok, at der ikke er nogen systematisk forskel!! Og her er normalfordelingen vigtig! 17 / 67

Nonparametriske test Test, der ikke bygger på en normalfordelingsantagelse Ikke forudsætningsfri Ulemper tab af efficiens (sædvanligvis lille) uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre ofte ingen estimater! og ingen sikkerhedsintervaller kan kun anvendes i simple problemstillinger med mindre man har godt med computerkraft 18 / 67

Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) Sign test, fortegnstest udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om store og små forskelle kan påvirkes af transformation 19 / 67

Nonparametriske parrede tests i SAS Disse kan kun foretages på de udregnede differenser! proc univariate data=mf_sv; var dif; run; Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 0.156687 Pr > t 0.8771 Sign M 2.5 Pr >= M 0.3593 Signed Rank S 8 Pr >= S 0.7603 Forskellige programmer benytter lidt forskellige teststørrelser! (approksimation for n > 25) 20 / 67

Nyt eksempel, af samme slags To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980 REFE: Farvetest, der kan forurenes af urinsyre TEST: Enzymatisk test, mere specifikt for glucose. nr. REFE TEST 1 155 150 2 160 155 3 180 169......... 44 94 88 45 111 102 46 210 188 X 144.1 134.2 SD 91.0 83.2 21 / 67

Scatter plot af de to metoder 22 / 67

Vi ser igen på differenser D i = refe i test i N (δ, σ 2 d ) Er der systematisk forskel? Estimater: ˆδ = D=9.89, SD=9.70, SEM= 9.70 46 = 1.43 D Test δ=0 : t = SEM = 9.89 1.43 = 6.91 t(45) P< 0.0001, dvs: Stærk indikation af bias. The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t ---------------------------------------------------------------- dif 46 9.8913043 9.7027562 1.4305934 6.91 <.0001 ---------------------------------------------------------------- 23 / 67

Limits of agreement På basis af en normalfordelingsantagelse på differenserne finder vi referenceintervallet (normalområdet): 9.89 ± 2 9.70 = ( 9.51, 29.29) med fortolkningen: Når vi måler med begge metoder på samme person, vil differensen typisk ligge i intervallet (-9.5, 29.3) På tegningen ses, at dette er en dårlig beskrivelse, idet differenserne stiger med niveauet (gennemsnittet) variationen stiger også med niveauet differenserne er ikke normalfordelt 24 / 67

Bland-Altman plot Plot af differenser mod gennemsnit (af de to målinger på samme person): Relative afvigelser giver ide til tage logaritmer 25 / 67

Scatter plot efter logaritmetransformation 26 / 67

Bemærk Det er de oprindelige målinger, der skal logaritmetransformeres, ikke differenserne! Efter logaritmering gentages proceduren med differenser og konstruktion af limits of agreement Det er ligegyldigt, hvilken logaritmefunktion, der vælges (der er proportionalitet mellem alle logaritmer) For den naturlige logaritme gælder Var(log(Y)) Var(Y) Y CV 2 2 CV kaldes variationskoefficienten 27 / 67

Bland-Altman plot for logaritmer Der er en tydelig outlier (den mindste observation) 28 / 67

Vi udelader outlieren... og laver igen et Bland-Altman plot som bliver acceptabelt... 29 / 67

Er det tilladt at udelade en outlier? Ja, hvis der er noget påviseligt galt med den hvis den har et specielt karakteristika og så skal vi begrænse konklusionerne tilsvarende og udelade alle andre med dette karakteristika Nej, hvis det bare er for at få det til at se pænere ud Her: Udtal jer kun om overensstemmelsen for målinger over 50 30 / 67

De praktiske udregninger The MEANS Procedure Variable N Mean Std Dev Std Error t Value Pr > t ---------------------------------------------------------------- ldif 45 0.0657295 0.0419547 0.0062542 10.51 <.0001 ---------------------------------------------------------------- Der er helt klart en signifikant bias mellem de to målemetoder: t = 0.066 0.0063 = 10.51 som i en t-fordeling med 44 frihedsgrader giver P < 0.0001 31 / 67

Konklusion Limits of agreement på logaritmisk skala: 0.066 ± 2 0.042 = ( 0.018, 0.150) Det betyder, at der i 95% af tilfældene vil gælde 0.018 < log(refe) log(test) = log( REFE TEST ) < 0.150 Men hvad kan vi bruge det til? 32 / 67

Konklusion, fortsat Vi kan tilbagetransformere med anti-logaritmen og få 0.982 < REFE TEST < 1.162 0.861 < TEST REFE < 1.018 eller omvendt Det betyder: TEST ligger typisk mellem 14% under og 2% over REFE. 33 / 67

Limits of agreement tilbagetransformeret til oprindelig skala 34 / 67

Ratio-skala Med definitionen ratio = test refe, finder vi direkte: The MEANS Procedure Variable N Mean Std Dev Std Error ---------------------------------------------------- ratio 45 1.0688607 0.0451184 0.0067259 ---------------------------------------------------- svarende til limits of agreement: 1.069 ± 2 0.045 = (0.979, 1.159) altså refe fra 2% under til 16% over test, på 2 decimaler identisk med resultatet for logaritmerne Dette er ikke altid tilfældet!! Det er fordi overensstemmelsen er så god... og ofte er ratio ikke særligt symmetrisk fordelt 35 / 67

Limits of agreement på ratio-skala 36 / 67

Ny problemstilling: Er der forskel på energiindtaget for magre og kraftige kvinder? 37 / 67

Praktisk håndtering af data Indlæsning af 22 datalinier, en for hver kvinde, men to variable for hver kvinde: data a1; input status energi; datalines; 1 6.13 1 7.05...... 2 11.85 2 12.79 ; run; Definer evt ny variabel: data lean_obese; set a1; if status=1 then figur= lean ; if status=2 then figur= obese ; run; 38 / 67

Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi To uafhængige stikprøver, uparret sammenligning: proc means N mean std stderr data=lean_obese; class figur; var energi; run; Analysis Variable : energi figur N Mean Std Dev Std Error -------------------------------------------------- lean 13 8.0661538 1.2380801 0.3433816 obese 9 10.2977778 1.3978714 0.4659571 -------------------------------------------------- 39 / 67

Model for uparret sammenligning To grupper, med hver sin normalfordeling: X 1.1,, X 1.13 N (µ 1, σ 2 ) X 2.1,, X 2.9 N (µ 2, σ 2 ) Alle observationerne er uafhængige personerne har ikke noget med hinanden at gøre Der er samme spredning i de to grupper bør checkes Observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi 40 / 67

Normalfordelingsmodel for to grupper Husk: Totalt set er det slet ikke en normalfordeling!! 41 / 67

Estimeret forskel på middelværdier: Estimat: X 1 X 2 = 8.066 10.298 = 2.232 Hvad er usikkerheden på dette estimat? St.Err.( X 1 X 2 ) = σ ( 1 n 1 + 1 n 2 σ estimeres ved SD, et poolet spredningsskøn, og antallet af frihedsgrader er df=(n 1-1)+(n 2-1)=(13-1)+(9-1)=20 ) 42 / 67

Konfidensinterval for forskel: Estimeret St.Err( X 1 X 2 ): 95% konfidensinterval: SD 1 n 1 + 1 n 2 = 0.5656 X 1 X 1 2 ± ca. 2 SD + 1 n 1 n 2 = 2.232 ± 2.086 0.5656 = ( 3.41, 1.05) 43 / 67

Uparret t-test, for ens middelværdier Hypotese: H 0 : µ 1 = µ 2 t = x 1 x 2 St.Err.( x 1 x 2 ) = x 1 x 2 SD 1 + 1 n1 n2 = 2.232 0.5656 = 3.95 hvilket i en t-fordeling med 20 frihedsgrader giver P = 0.0008 44 / 67

Uparret t-test i SAS proc ttest data=lean_obese; class figur; var energi; run; Lower CL Upper CL Variable figur N Mean Mean Mean Std Dev energi lean 13 7.318 8.0662 8.8143 1.2381 energi obese 9 9.2233 10.298 11.372 1.3979 energi Diff (1-2) -3.411-2.232-1.052 1.3043 T-Tests Variable Method Variances DF t Value Pr > t energi Pooled Equal 20-3.95 0.0008 energi Satterthwaite Unequal 15.9-3.86 0.0014 Equality of Variances Variable Method Num DF Den DF F Value Pr > F energi Folded F 8 12 1.27 0.6797 Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om varianserne kan antages at være ens eller ej. 45 / 67

Hvad betyder teststørrelsens fordeling? under H 0 Vi forestiller os mange ens undersøgelser af stikprøver på 22 personer fra samme population: 1. 13 i en gruppe, 9 i en anden, tilfældigt valgt = t 1 2. 13 i en gruppe, 9 i en anden, tilfældigt valgt = t 2 3. 13 i en gruppe, 9 i en anden, tilfældigt valgt = t 3 osv. osv. Fordeling af t erne? Vores faktiske t sammenlignes nu med denne fordeling, Passer den pænt? 46 / 67

Konklusion Der ser ud til at være en reel forskel på de to grupper Vi fandt nemlig en signifikant teststørrelse, som kun sjældent vil fremkomme ved tilfældighedernes spil Estimeret forskel = gennemsnitlig forskel = 10.30 8.07 = 2.23 Den sande forskel er nok ikke lige 2.23, men et sted i nærheden. 95% sikkerhedsinterval = (1.05,3.41) De magre kvinder har formentlig (dvs. med 95% sikkerhed) et energi indtag, der i middel ligger et sted mellem 1.05 og 3.41 under niveauet blandt de kraftige 47 / 67

Teknikaliteter Rimeligheden af ens varianser undersøges ved at se på ratio: F = s2 2 s 2 1 = 1.3982 = 1.27 F(8, 12) P = 0.68 1.2382 (eller den reciprokke, 1/1.27=0.78, samme P-værdi.) Vi kan altså med god samvittighed anvende et poolet variansskøn. Hvad skulle vi ellers have gjort? Dette ville give os: t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 s1 2 n 1 + s2 2 n 2 t(??) t = 3.86 t(15.9), P = 0.0014 48 / 67

Statistisk signifikans afhænger af: sand forskel antal observationer den tilfældige variation, dvs. den biologiske variation signifikansniveau Klinisk signifikans afhænger af: størrelsen af den påviste forskel 49 / 67

Tænkt eksempel To aktive behandlinger: A og B, vs. Placebo: P Resultater fra to trials: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B??? Nej, ikke nødvendigvis. 50 / 67

Hvis der ikke er signifikans kan det skyldes At der ikke er en forskel At forskellen er så lille, at den er vanskelig at opdage At variationen er så stor, at en evt. forskel drukner At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Kan vi så konkludere, at der ikke er forskel?? Nej!!, ikke nødvendigvis Se på konfidensintervallet for forskellen 51 / 67

Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept forkast H 0 sand 1-α α fejl af type I H 0 falsk β 1-β fejl af type II 1-β kaldes styrken, den angiver sandsynligheden for at forkaste en falsk hypotese. 52 / 67

Men hvad betyder H 0 falsk? Hvor store forskelle er der? Styrken er en funktion af forskellen! Styrkefunktion: Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage den på 5% niveau?? 53 / 67

Bemærk: Styrken udregnes for at dimensionere en undersøgelse Når resultaterne er i hus, præsenteres i stedet konfidensintervaller 54 / 67

Dimensionering af undersøgelser Hvor mange patienter skal vi medtage? Dette afhænger naturligvis af datas beskaffenhed, samt af, hvad man vil opnå: Hvilken forskel i respons er vi interesserede i at opdage? fastsæt MIREDIF (mindste relevante differens) Med hvilken sandsynlighed (styrke = power)? På hvilket signifikansniveau? Hvor stor er den biologiske spredning? 55 / 67

Hvordan skaffer man de nødvendige oplysninger? Klinisk relevant forskel (MIREDIF): praktiske forhold økonomiske forhold relation til biologisk variation Styrke: bør være stor, mindst 80% Signifikansniveau: Sædvanligvis 5% I tilfælde af mange sammenligninger bør det sættes lavere, f.eks. 1% Spredning: tidligere undersøgelser, evt. med et lignende stof pilotforsøg rent gætteri 56 / 67

Eksempel Nyt stof: XX 2 grupper: E u 1 E u 1 og E u 1 E a 1 Outcome Tid til 1. respons efter en dosis på 0.1 mg/kg. Vi vil gerne kunne påvise en evt. forskel på de to grupper. Hvor stor skal forskellen være, før den er vigtig? Miredif: 3 minutter Hvor mange patienter skal vi så undersøge? 57 / 67

Miredif δ=3. Styrke: Hvilken sandsynlighed kræver vi at opdage δ med, hvis den faktisk er der? Denne bør være høj, mindst 80%, altså 1 β = 0.80, β = type 2 fejls risiko Signifikansniveau (type-1 fejls risiko, dvs. sandsynligheden for at finde en forskel, der i virkeligheden ikke er der). Traditionelt fastsættes dette til 5% eller 1%, α=0.05. Hvor stor er den biologiske spredning? Altså variationen mellem personer i samme gruppe? Det ved vi jo ikke... 58 / 67

Skøn over biologisk spredning Hvor får vi det fra? Pilot-studie med det aktuelle stof Tidligere studie med et lignende stof: E1 ue 1 a : n=4, 16.3±2.6 E1 ue 1 u : n=10, 10.1±3.0 Herudfra gætter vi på biologisk spredning = 3 min. Så er vi klar til at dimensionere 59 / 67

Dimensionering i SAS proc power; twosamplemeans test=diff groupmeans = 10 13 stddev = 3 npergroup =. power = 0.8,0.9; run; Det er uden betydning, om groupmeans er 10 og 13 eller ethvert andet talpar med differens 3 60 / 67

Output fra dimensionering i SAS The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Normal Method Exact Group 1 Mean 10 Group 2 Mean 13 Standard Deviation 3 Number of Sides 2 Null Difference 0 Alpha 0.05 Computed N Per Group Nominal Actual N Per Index Power Power Group 1 0.8 0.807 17 2 0.9 0.912 23 61 / 67

Dimensionering med nomogram 62 / 67

Dimensionering med nomogram, fortsat Forklaring til nomogrammet: Venstre lodrette akse: Standardiseret forskel: δ s Højre lodrette akse: power På de to skrå akser aflæses N, det totale nødvendige patientantal, enten for signifikansniveau 5% (øverste akse) signifikansniveau 1% (nederste akse) 63 / 67

Nonparametrisk uparret test i SAS Mann-Whitney test eller Kruskal-Wallis test proc npar1way wilcoxon data=lean_obese; exact hl; class figur; var energi; run; The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable energi Classified by Variable figur Sum of Expected Std Dev Mean figur N Scores Under H0 Under H0 Score --------------------------------------------------------------------- lean 13 103.0 149.50 14.970751 7.923077 obese 9 150.0 103.50 14.970751 16.666667 Average scores were used for ties. (approksimation for n > 25) 64 / 67

Wilcoxon Two-Sample Test Statistic (S) 150.0000 Normal Approximation Z 3.0727 One-Sided Pr > Z 0.0011 Two-Sided Pr > Z 0.0021 t Approximation One-Sided Pr > Z 0.0029 Two-Sided Pr > Z 0.0058 Exact Test One-Sided Pr >= S 5.287E-04 Two-Sided Pr >= S - Mean 0.0010 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 9.6476 DF 1 Pr > Chi-Square 0.0019 65 / 67

Nonparametrisk konfidensinterval Hodges-Lehmann option: proc npar1way wilcoxon data=lean_obese; exact hl; class figur; var energi; run; giver ekstra output: Hodges-Lehmann Estimation Location Shift 1.9100 Interval Asymptotic Type 95% Confidence Limits Midpoint Standard Error Asymptotic (Moses) 1.2600 3.6100 2.4350 0.5995 Exact 1.2600 3.5600 2.4100 og altså konfidensintervallet (1.26, 3.56) for forskel i location. Til sammenligning fik vi (1.05, 3.41) før. 66 / 67

Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. Men det er vigtigt at respektere sit design! Eks: Målemetoderne MF og SV: Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm 3, 3.41 cm 3 ) Uparret T-test: t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: (-12.71 cm 3, 13.19 cm 3 ) 67 / 67