Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Relaterede dokumenter
Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

Basal statistik. 16. september 2008

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

En Introduktion til SAS. Kapitel 5.

Besvarelse af vitcap -opgaven

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Forsøgsplanlægning Stikprøvestørrelse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Konfidensintervaller og Hypotesetest

Opgavebesvarelse, Basalkursus, uge 2

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Løsning eksamen d. 15. december 2008

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

1 Hb SS Hb Sβ Hb SC = , (s = )

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Forsøgsplanlægning Stikprøvestørrelse

Løsning til eksaminen d. 29. maj 2009

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Ikke-parametriske tests

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kommentarer til øvelser i basalkursus, 2. uge

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Epidemiologi og Biostatistik

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Løsning til eksaminen d. 14. december 2009

Basal statistik. 30. januar 2007

Opgavebesvarelse, brain weight

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kapitel 7 Forskelle mellem centraltendenser

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Modul 11: Simpel lineær regression

Klasseøvelser dag 2 Opgave 1

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Basal statistik. 29. januar 2008

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Generelle lineære modeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Reeksamen i Statistik for Biokemikere 6. april 2009

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

MPH specialmodul Epidemiologi og Biostatistik

Løsning til eksamen d.27 Maj 2010

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Eksamen i Statistik for biokemikere. Blok

Forelæsning 11: Envejs variansanalyse, ANOVA

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Opgaver til kapitel 3

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Kapitel 12 Variansanalyse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Modelkontrol i Faktor Modeller

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Multipel Lineær Regression

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Normalfordelingen og Stikprøvefordelinger

Phd-kursus i Basal Statistik, Opgaver til 2. uge

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Basal Statistik - SPSS

Eksamen i Statistik for Biokemikere, Blok januar 2009

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Nanostatistik: Opgavebesvarelser

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Kapitel 12 Variansanalyse

(studienummer) (underskrift) (bord nr)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Transkript:

En- og to-stikprøve problemer 1 En- og to-stikprøve problemer 2 Basal statistik 13. februar 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test Mann-Whitney test Christian Pipper Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet e-mail: C.Pipper@biostat.ku.dk http://staff.pubhealth.ku.dk/~lts/basal07_1 Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi SV: Left ventricular stroke volume, bestemt ved cross-sectional ekkokardiografi person MF SV 1 47 43 2 66 70 3 68 72 4 69 81 5 70 60............ 17 104 94 18 105 98 19 112 108 20 120 131 21 132 131 gennemsnit 86.05 85.81 SD 20.32 21.19 SEM 4.43 4.62 Er der forskel på de to målemetoder? Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. Parret situation: Se på differenserne men på hvilken skala? Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0

En- og to-stikprøve problemer 3 En- og to-stikprøve problemer 4 En- og to-stikprøve problemer 5 Simulerede data for to ens målemetoder: Simulerede data for to målemetoder med konstant (additiv) forskel:: mf 60 80 120 60 80 100 120 140 sv mf difference 15 5 5 60 80 100 120 70 80 90 100 110 120 130 sv difference 5 15 25 60 80 100 120 70 80 90 100 110 120 average average

En- og to-stikprøve problemer 6 En- og to-stikprøve problemer 7 En- og to-stikprøve problemer 8 Simulerede data for to målemetoder med proportionale forskelle: Statistisk model for differenser mellem parrede observationer: 95% sikkerhedsinterval for δ: d ± ca. 2 SEM mf 60 100 140 60 80 100 120 140 160 sv X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Differenser d i = X i Y i (i = 1,, 21) uafhængige, normalfordelte E(d i ) = δ, V ar(d i ) = σ 2 d eller mere præcist d ± t 97.5% (20) SEM = 0.24 ± 2.086 6.96 21 = ( 2.93,3.41) idet 2.086 er t 97.5% (20), den relevante t-fraktil. Test af nulhypotesen H 0 : δ = 0 (ingen bias) OBS: Intet krav om fordeling af selve flowmålingerne! t = ˆδ 0 SEM = 0.24 0 6.96 = 0.158 t(20) 21 difference 20 5 5 60 80 100 120 140 160 average Estimation: Gennemsnit: ˆδ = d = 0.24 cm 3 Spredning: s d = 6.96 cm 3 Spredning på ˆδ: SEM = s d n = 6.96 cm3 21 = 1.52 P = 0.88, altså ingen indikation af bias (hvilket også fremgår af sikkerhedsintervallet, der indeholder 0) Test og sikkerhedsintervaller er ækvivalente!

En- og to-stikprøve problemer 9 En- og to-stikprøve problemer 10 En- og to-stikprøve problemer 11 Indlæsning fra data-filen mf_sv.tal en tekstfil med 2 kolonner a 21 linier en for hver person, med variabelnavne i første linie. Vælg /File/Open/ Gå herefter i Edit-mode og definer nye variable: /Data/Transform/Compute/ dif=mf-sv average=(mf+sv)/2 Herefter bruges Statistics/Descriptive/Summary Statistics for at få en oversigt over materialet Variable Mean Std Dev Std Error -------------------------------------------------------- mf 86.0476190 20.3211126 4.4344303 sv 85.8095238 21.1863613 4.6232431 dif 0.2380952 6.9635103 1.5195625 average 85.9285714 20.4641673 4.4656474 -------------------------------------------------------- Parret t-test i SAS ANALYST: Statistics/Hypothesis Tests/Two-Sample Paired t-test for Means, klik af i Interval under Tests for at få et 95% konfidensområde for forskellen: Two Sample Paired t-test for the Means of mf and sv Sample Statistics Group N Mean Std. Dev. Std. Error ---------------------------------------------------- mf 21 86.04762 20.321 4.4344 sv 21 85.80952 21.186 4.6232 Hypothesis Test Null hypothesis: Mean of (mf - sv) = 0 Alternative: Mean of (mf - sv) ^= 0 t Statistic Df Prob > t --------------------------------- 0.157 20 0.8771 95% Confidence Interval for the Difference between Two Paired Means Lower Limit Upper Limit ----------- ----------- -2.93 3.41 Statistics/Hypothesis Tests/One-Sample t-test for a Mean næsten uændret output, dog: One Sample t-test for a Mean Sample Statistics for dif N Mean Std. Dev. Std. Error ------------------------------------------------- 21 0.24 6.96 1.52 Direkte programmering: data a1; infile mf_sv.tal ; input mf sv; dif=mf-sv; average=(mf+sv)/2; proc means mean std stderr data=mf_sv; proc univariate normal data=mf_sv; var dif; proc ttest data=mf_sv; paired mf*sv;

En- og to-stikprøve problemer 12 En- og to-stikprøve problemer 13 En- og to-stikprøve problemer 14 Antagelser for det parrede t-test: Differenserne d i : er uafhængige: personerne har ikke noget med hinanden at gøre har samme varians: vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit er normalfordelte: vurderes grafisk eller numerisk histogram har vi set, hmm... formelt test: Statistics/Descriptive/Distributions Fit: normal parameters Goodness-of-Fit Tests for Normal Distribution Test ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.15302875 Pr > D >0.150 Cramer-von Mises W-Sq 0.07566425 Pr > W-Sq 0.230 Anderson-Darling A-Sq 0.48963127 Pr > A-Sq 0.206 Hvis normalfordelingen ikke er en god beskrivelse, sker der følgende: Test og konfidensinterval bliver stadigvæk nogenlunde OK i flg. den centrale grænseværdisætning Normalområder bliver misvisende! Normalområdet kaldes i dette specialtilfælde for limits-of-agreement: d ± ca. 2 s d Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden. Nonparametriske test: Test, der ikke bygger på en normalfordelingsantagelse Ikke forudsætningsfri Ulemper tab af efficiens (sædvanligvis lille) uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre ingen estimater! - og ingen sikkerhedsintervaller kan kun anvendes i simple problemstillinger med mindre man har godt med computerkraft

En- og to-stikprøve problemer 15 En- og to-stikprøve problemer 16 En- og to-stikprøve problemer 17 Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) sign test, fortegnstest udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om store og små forskelle kan påvirkes af transformation Sign testet (fortegnstest) X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Vi ønsker at teste hypotesen Vi tæller P(X > Y ) = P(X < Y ) = 1 2 Hvor mange af de 21 differenser er positive? n + (=12) Hvor mange af de 21 differenser er negative? n (=7) Hvor mange af de 21 differenser er præcis 0? n 0 (=2) Blandt dem, der ikke er 0 (n = n + + n = 19), er der da signifikant flest af den ene slags? Er 12 vs. 7 signifikant skævt? Binomialtest: X Bin(n, p) H 0 : p = 0.5 Her er n = 19, x = 12 Geigy tabeller giver 95% konfidensgrænser: (0.38,0.84)

En- og to-stikprøve problemer 18 En- og to-stikprøve problemer 19 En- og to-stikprøve problemer 20 Large-sample approksimation (n > 25): Z = Her finder vi Z = og dermed P=0.36, ( x np 0.5) np(1 p) N(0, 1) ( 12 9.5 0.5) 19 0.5 2 = 0.92 men samplet er for lille Wilcoxon signed rank test Her ser vi på størrelsen af differenserne, dog kun for at rangordne dem indbyrdes person MF SV differens positiv diff. negativ diff. 1 47 43 4 7.5 2 66 70-4 7.5 3 68 72-4 7.5 4 69 81-12 18.0 5 70 60 10 15.5 6 70 67 3 4.0 7 73 72 1 1.5 8 75 72 3 4.0 9 79 92-13 19.0 10 81 76 5 10.5 11 85 85 0 - - 12 87 82 5 10.5 13 87 90-3 4.0 14 87 96-9 14.0 15 90 82 8 13.0 16 100 100 0 - - 17 104 94 10 15.5 18 105 98 7 12.0 19 112 108 4 7.5 20 120 131-11 17.0 21 132 131 1 1.5 Sum 103 87 R: summen af positive (eller negative) range, n=19, R=103 Tabel B9: Rangene 46-144 giver ingen signifikans på 5% niveau

En- og to-stikprøve problemer 21 En- og to-stikprøve problemer 22 En- og to-stikprøve problemer 23 Large-sample approksimation (n > 25): M = Her finder vi R N(M, S 2 ) n(n + 1) n(n + 1)(2n + 1), S = 4 24 Z = R M 1 2 S og dermed P=0.76, N(0, 1) M = 95, S = 24.85, Z = 0.30... men igen: samplet er for lille Nonparametriske parrede tests i SAS OBS: Disse kan kun foretages direkte på de udregnede differenser! ANALYST: Statistics/Descriptive/Distributions Direkte programmering: proc univariate normal data=mf_sv; var dif; Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student s t t 0.156687 Pr > t 0.8771 Sign M 2.5 Pr >= M 0.3593 Signed Rank S 8 Pr >= S 0.7603 Forskellige programmer benytter forskellige teststørrelser! Eksempel: To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980. REFE: Farvetest, der kan forurenes af urinsyre TEST: Enzymatisk test, mere specifikt for glucose. nr. REFE TEST 1 155 150 2 160 155 3 180 169......... 44 94 88 45 111 102 46 210 188 X 144.1 134.2 SD 91.0 83.2

En- og to-stikprøve problemer 24 En- og to-stikprøve problemer 25 En- og to-stikprøve problemer 26 Scatter plot: Vi skal se på differenser D i = REFE i TEST i N(δ, σ 2 d ) Limits of agreement Er der systematisk forskel? Test δ=0 ˆδ=9.89, s d =9.70, t= ˆδ sem = ˆδ s d / =8.27 t(45) P< 0.0001 n Stærk indikation af bias. Limits of agreement siger, at de typiske differenser ligger i intervallet 9.89 ± 2 9.70 = ( 9.51, 29.29) På tegningen ses, at dette er en dårlig beskrivelse, idet differenserne stiger med niveauet (gennemsnittet) variationen stiger også med niveauet Relative afvigelser giver ide til tage logaritmer

En- og to-stikprøve problemer 27 En- og to-stikprøve problemer 28 En- og to-stikprøve problemer 29 Scatter plot, efter logaritmetransformation: Bemærk: Det er de oprindelige målinger, der skal logaritmetransformeres, ikke differenserne! Det er ligegyldigt, hvilken logaritmefunktion, der vælges (der er proportionalitet mellem alle logaritmer) For den naturlige logaritme gælder Var(log(Y)) Var(Y) Y 2 CV 2 Efter logaritmering gentages proceduren med differenser og konstruktion af limits of agreement Der findes uafhængig information om reproducerbarheden, ud fra gentagne målinger på samme prøve: Hvis man plotter spredningen mod gennemsnittet ses en nogenlunde proportionalitet

En- og to-stikprøve problemer 30 En- og to-stikprøve problemer 31 En- og to-stikprøve problemer 32 Limits of agreement, for logaritmer Der er en tydelig outlier (den mindste observation) Efter logaritmetransformation (og udeladelse af den laveste måling), får vi en acceptabel figur Limits of agreement 0.066 ± 2 0.042 = ( 0.018, 0.150) Det betyder, at der i 95% af tilfældene vil gælde 0.018 < log(refe) log(test) = log( REFE TEST ) < 0.150 hvilket ved tilbagetransformation giver, at 0.982 < REFE TEST < 1.162 eller omvendt 0.861 < TEST REFE < 1.018 Fortolkning: TEST ligger typisk mellem 14% under og 2% over REFE.

En- og to-stikprøve problemer 33 En- og to-stikprøve problemer 34 En- og to-stikprøve problemer 35 Limits of agreement, omsat til oprindelig skala: Vi benytter Statistics/Descriptive/Summary Statistics (proc means;) for at få en oversigt over de logaritmiske differenser Ny problemstilling: Er der forskel på energiindtaget for magre og fede kvinder? The MEANS Procedure Variable Mean Std Dev Std Error -------------------------------------------------------- refe 146.7555556 90.2028410 13.4466456 test 136.5111111 82.6527848 12.3211497 dif 10.2444444 9.5087413 1.4174795 lrefe 4.8291867 0.5521598 0.0823111 ltest 4.7634573 0.5392964 0.0803936 ldif 0.0657295 0.0419547 0.0062542 -------------------------------------------------------- Der er helt klart en signifikant bias mellem de to målemetoder: t = 0.066 0.042 = 0.066 0.0063 = 10.51 45 som vurderet i en t-fordeling med 44 frihedsgrader giver P < 0.0001 Som det ses af tegningen, er denne bias ikke helt konstant, idet den afhænger (svagt) af niveauet. Her kan vi ikke benytte personen som sin egen kontrol. I stedet har vi To uafhængige stikprøver tostikprøve-problemet, uparret sammenligning

En- og to-stikprøve problemer 36 En- og to-stikprøve problemer 37 En- og to-stikprøve problemer 38 Statistics/Descriptive/Summary Statistics med figur som Class-variabel, eller proc means N mean std stderr data=lean_obese; class figur; var energi; Analysis Variable : energi N figur Obs N Mean Std Dev Std Error ------------------------------------------------------------------ lean 13 13 8.0661538 1.2380801 0.3433816 obese 9 9 10.2977778 1.3978714 0.4659571 ------------------------------------------------------------------ Traditionelle antagelser: X 1.1,, X 1.13 N(µ 1, σ 2 ) X 2.1,, X 2.9 N(µ 2, σ 2 ) alle observationerne er uafhængige personerne har ikke noget med hinanden at gøre der er samme populationsvarians i de to grupper bør checkes observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi normalfordelingen checkes ligesom tidligere, hvis det kan lade sig gøre To-stikprøve t-test H 0 : µ 1 = µ 2 t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 1 s = 2.232 0.5656 = 3.95 n 1 + 1 n 2 hvilket i en t-fordeling med 20 frihedsgrader giver P = 0.0008 Begrundelse for teststørrelse: X 1 normalfordelt N(µ 1, 1 n 1 σ 2 ) X 2 normalfordelt N(µ 2, 1 n 2 σ 2 ) X 1 X 2 N(µ 1 µ 2, ( 1 n 1 + 1 n 2 )σ 2 ) σ 2 estimeres ved s 2, et poolet variansskøn, og antallet af frihedsgrader er df=(n 1-1)+(n 2-1)=(13-1)+(9-1)=20

En- og to-stikprøve problemer 39 En- og to-stikprøve problemer 40 En- og to-stikprøve problemer 41 Hvad betyder teststørrelsens fordeling? Vi forestiller os mange ens undersøgelser af de samme to populationer: 1. 13 magre, 9 fede = t 1 2. 13 magre, 9 fede = t 2 3. 13 magre, 9 fede = t 3 4. 5. 6. Fordeling af t erne? Hvorfor ikke bare x 1 x 2? Fordi fordelingen så afhænger af σ 2 og derfor ikke kan slås op i en tabel Indlæsning af 22 datalinier, en for hver kvinde, men to variable for hver kvinde: status energi 1 6.13 1 7.05...... 2 11.85 2 12.79 Når data er gemt i sasuser, skiftes til Edit-mode for at definere en ny variabel (i dette tilfælde en karaktervariabel) ved hjælp af /Data/Transform/Recode status=1 figur= lean status=2 figur= obese Et uparret t-test i SAS ANALYST: Statistics/Hypothesis Tests/Two-Sample t-test for Means kryds af i Confidence Interval under Tests Two Sample t-test for the Means of energi within figur Sample Statistics Group N Mean Std. Dev. Std. Error ---------------------------------------------------- lean 13 8.066154 1.2381 0.3434 obese 9 10.29778 1.3979 0.466 Hypothesis Test Null hypothesis: Mean 1 - Mean 2 = 0 Alternative: Mean 1 - Mean 2 ^= 0 If Variances Are t statistic Df Pr > t ---------------------------------------------------- Equal -3.946 20 0.0008 Not Equal -3.856 15.92 0.0014 95% Confidence Interval for the Difference between Two Means Lower Limit Upper Limit ----------- ----------- -3.41-1.05 Bemærk, at der er 2 forskellige udgaver af t-testet, afhængig af, om varianserne kan antages at være ens eller ej.

En- og to-stikprøve problemer 42 En- og to-stikprøve problemer 43 En- og to-stikprøve problemer 44 Direkte programmering: data lean_obese; infile lean_obese.tal ; input nr status energi rang; if status=2 then figur= obese ; if status=1 then figur= lean ; proc means N mean std stderr; class figur; var energi; proc ttest data=lean_obese; class figur; var energi; proc npar1way wilcoxon data=lean_obese; class figur; var energi; Rimeligheden af ens varianser undersøges ved F = s2 2 s 2 = 1.3982 1 1.238 = 1.27 2 Hvis de to varianser faktisk er ens, skal denne størrelse være F-fordelt med (8,12) frihedsgrader. Vi finder P=0.68 og kan altså med god samvittighed anvende et poolet variansskøn. Hvad skulle vi ellers have gjort? t = x 1 x 2 se( x 1 x 2 ) = x 1 x 2 Dette ville give os: s 2 1 n 1 + s2 2 n 2 t(??) t = 3.86 t(15.9), P = 0.0014 Test for varianshomogenitet i SAS: Statistics/Hypothesis Tests/Two-Sample test for Variances kryds af i Confidence Interval under Tests Two Sample Test for Variances of energi within figur Sample Statistics figur Group N Mean Std. Dev. Variance -------------------------------------------------- lean 13 8.066154 1.2381 1.532842 obese 9 10.29778 1.3979 1.954044 Hypothesis Test Null hypothesis: Variance 1 / Variance 2 = 1 Alternative: Variance 1 / Variance 2 ^= 1 - Degrees of Freedom - F Numer. Denom. Pr > F ---------------------------------------------- 0.78 12 8 0.6797 Den tidligere viste teststørrelse er den reciprokke, 1/0.78=1.27, samme P-værdi.

En- og to-stikprøve problemer 45 En- og to-stikprøve problemer 46 En- og to-stikprøve problemer 47 Forskel, ja...men hvor stor? Estimeret forskel = gennemsnitlig forskel = 10.30 8.07 = 2.23 Den sande forskel er nok ikke lige 2.23, men et sted i nærheden. 95% sikkerhedsinterval = interval, der med 95% sandsynlighed omslutter den sande forskel 1 = 2.23 ± 2.086 1.3044 9 + 1 13 = (1.05, 3.41) 97.5% fraktil poolet i t(20)-fordeling spredning spredning på gennemsnitlig forskel Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept H 0 sand 1-α α H 0 falsk β 1-β fejl af type II forkast fejl af type I 1-β kaldes styrken, denne angiver sandsynligheden for at forkaste en falsk hypotese. Men hvad betyder H 0 falsk? Hvor store forskelle er der? Styrken er en funktion af forskellen! Styrkefunktion: Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage den på 5% niveau?? power 0.0 0.2 0.4 0.6 0.8 1.0 0.02 0.01 0.00 0.01 0.02 size of difference styrken udregnes for at dimensionere en undersøgelse når resultaterne er i hus, præsenteres konfidensintervaller

En- og to-stikprøve problemer 48 En- og to-stikprøve problemer 49 En- og to-stikprøve problemer 50 Statistisk signifikans afhænger af: sand forskel antal observationer den tilfældige variation, dvs. den biologiske variation signifikansniveau To aktive behandlinger: A og B Placebo: P Resultater: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B??? Nej, ikke nødvendigvis. Ingen signifikans? Hvad kan det skyldes? At der ikke er en forskel At forskellen er så lille, at den er vanskelig at opdage At variationen er så stor, at en evt. forskel drukner At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Klinisk signifikans afhænger af: størrelsen af den påviste forskel Inden undersøgelsens gennemførelse bør man Fastsætte MIREDIF (mindste relevante differens) foretage styrkeberegninger (power) beregne det nødvendige patientantal

En- og to-stikprøve problemer 51 En- og to-stikprøve problemer 52 En- og to-stikprøve problemer 53 Variation Hvordan kan vi nedbringe variationen, så vi bliver i stand til at se evt. differenser klarere? Benytte personen som sin egen kontrol. Begrænse effekten af uønskede kovariater: foretage alle målinger på samme tidspunkt af dagen, evt. også på samme ugedag. begrænse aldersvariationen (eller lave regression på alderen) benytte skrappere inklusionskriterier for f.eks. vægt for at undgå outliers. randomisere tage flere målinger lige efter hinanden på samme person og benytte gennemsnittet i beregningerne Hvis vi ikke vil benytte en normalfordelingsantagelse, kan vi lave et nonparametrisk test: Mann-Whitney test (Kruskal-Wallis test) Det totale materiale rangordnes, herefter Tabel B10, s. 534: n s =9, n l =13 (mindste gruppe skal først ved opslag). Rangsum: R=150 rangværdi rangværdi person figur energi lean obese 1 lean 6.13 1 2 lean 7.05 2 3 lean 7.48 3.5 4 lean 7.48 3.5 5 lean 7.53 5 6 lean 7.58 6 7 lean 7.90 7 8 lean 8.08 8 9 lean 8.09 9 10 lean 8.11 10 11 lean 8.40 11 12 lean 10.15 18 13 lean 10.88 19 14 obese 8.79 12 15 obese 9.19 13 16 obese 9.21 14 17 obese 9.68 15 18 obese 9.69 16 19 obese 9.97 17 20 obese 11.51 20 21 obese 11.85 21 22 obese 12.79 22 Sum 103 150 Forventet sum 149.5 103.5

En- og to-stikprøve problemer 54 En- og to-stikprøve problemer 55 En- og to-stikprøve problemer 56 Large-sample approksimation (n > 25): Her finder vi R N(M, S 2 ) M = n s(n s + n l + 1) nl M, S = 2 6 Z = R M 1 2 S N(0, 1) M = 103.5, S = 14.975, Z = 3.07 og dermed P=0.002 Korrektioner er nødvendige ved mange ties! Nonparametrisk uparret test i SAS Statistics/ANOVA/Nonparametric One-Way ANOVA/ med energi som Dependent og figur som Independent The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable energi Classified by Variable figur Sum of Expected Std Dev Mean figur N Scores Under H0 Under H0 Score --------------------------------------------------------------------- lean 13 103.0 149.50 14.970751 7.923077 obese 9 150.0 103.50 14.970751 16.666667 Wilcoxon Two-Sample Test Statistic 150.0000 Normal Approximation Z 3.0727 One-Sided Pr > Z 0.0011 Two-Sided Pr > Z 0.0021 t Approximation One-Sided Pr > Z 0.0029 Two-Sided Pr > Z 0.0058 Average scores were used for ties. Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 9.6476 DF 1 Pr > Chi-Square 0.0019 Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. Men det er vigtigt at respektere sit design! Eks: Målemetoderne MF og SV: Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm 3, 3.41 cm 3 ) Uparret T-test: t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: (-12.71 cm 3, 13.19 cm 3 )