enote 3: Hypotesetests for én gruppe/stikprøve Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher

Relaterede dokumenter
Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basic statistics for experimental medical researchers

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Konfidensintervaller og Hypotesetest

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Forelæsning 11: Envejs variansanalyse, ANOVA

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Løsning eksamen d. 15. december 2008

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Forelæsning 9: Inferens for andele (kapitel 10)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Løsning til eksaminen d. 14. december 2009

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Vejledende løsninger kapitel 8 opgaver

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Løsning til eksaminen d. 29. maj 2009

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Vejledende besvarelser til opgaver i kapitel 14

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistik for MPH: 7

q-værdien som skal sammenlignes med den kritiske Chi-i-Anden værdi p-værdien som skal sammenlignes med signifikansniveauet.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forsøgsplanlægning Stikprøvestørrelse

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Hypotesetests, fejltyper og p-værdier

Forelæsning 11: Kapitel 11: Regressionsanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Kursus 02402/02323 Introducerende Statistik

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

(studienummer) (underskrift) (bord nr)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

En Introduktion til SAS. Kapitel 5.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Besvarelser til øvelsesopgaver i uge 6

Kapitel 7 Forskelle mellem centraltendenser

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Question I.1 (1) We use Method 3.8 from Chapter 3 to achieve

Forelæsning 11: Tovejs variansanalyse, ANOVA

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

En intro til radiologisk statistik. Erik Morre Pedersen

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Eksamen i Statistik for biokemikere. Blok

Klasseøvelser dag 2 Opgave 1

Forsøgsplanlægning Stikprøvestørrelse

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion.

Transkript:

Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 enote 3: Hypotesetests for én gruppe/stikprøve Grundlæggende koncepter: Hypoteser (H 0 vs. H 1 ) p-værdi (sandsynlighed for observeret værdi eller mere ekstremt af teststørrelsen, hvis H 0 er sand, e.g. P(T > t obs )) Type I fejl: (i virkeligheden ingen effekt, men H 0 afvises) P(Type I) = α Type II fejl: (i virkeligheden effekt, men H 0 afvises ikke) P(Type II) = β Testens styrke er 1 β Specifikke metoder, én gruppe: t-test for middelværdiniveau Stikprøvestørrelse for ønsket styrke Modelkontrol med normal qq-plot DTU Compute Introduktion til Statistik Efterår 2016 1 / 57 DTU Compute Introduktion til Statistik Efterår 2016 2 / 57 enote 3: One sample hypothesis testing Oversigt General concepts: Hypotheses (H 0 vs. H 1 ) p-value (Probability for observing the test value or more extreme, if H 0 is true, e.g. P(T > t obs )) Type I error: P(Type I) = α (No effect in reality, but H 0 is rejected) Type II error: P(Type II) = β (In reality an effect, but H 0 is not rejected) Power of a test is 1 β Specific methods, one sample: t-test for mean difference Sample size for wanted power Model validation with normal qq-plot 1 Kritisk værdi og konfidensinterval Hypotesetest - generel metode 2 3 Type I og type II fejl 4 5 Transformation towards normality DTU Compute Introduktion til Statistik Efterår 2016 3 / 57 DTU Compute Introduktion til Statistik Efterår 2016 4 / 57

Spørgsmål om fordelingen af stikprøvegennemsnittet og standardisering (socrative.com - ROOM:PBAC) Spørgsmål om fordelingen af stikprøvegennemsnittet og standardisering (socrative.com - ROOM:PBAC) Hvilken representerer fordelingen af stikprøvegennemsnittet X A B Hvilken representerer fordelingen af X µ A B hvor µ = 15 (stikprøvestørrelse n = 16) (stikprøvespredning s = 8) C D hvor µ = 15 (stikprøvestørrelse n = 16) (stikprøvespredning s = 8) C D A B C eller D? Svar: A A B C eller D? Svar: D DTU Compute Introduktion til Statistik Efterår 2016 5 / 57 DTU Compute Introduktion til Statistik Efterår 2016 6 / 57 Spørgsmål om fordelingen af stikprøvegennemsnittet og standardisering (socrative.com - ROOM:PBAC) Metode 3.22: Hvilken representerer fordelingen af hvor T = X µ S/ n µ = 15 A B C Hvordan beregner man p-værdien? Man fremsætter nulhypotesen under hvilken man beregner teststørrelsen H 0 : µ = µ 0 t obs = µ 0 s/ n som man derefter bruger til at beregne p-værdien p-value = 2 P(T > t obs ) (stikprøvestørrelse n = 16) (stikprøvespredning s = 8) D Man siger altså: Hvis nu nulhypotesen er sand, hvor sandsynligt er det da at få udfaldet af teststørrelsen eller mere ekstremt A B C eller D? Svar: C DTU Compute Introduktion til Statistik Efterår 2016 7 / 57 DTU Compute Introduktion til Statistik Efterår 2016 9 / 57

p-værdi Definition og fortolkning af p-værdien (HELT generelt) Definition 3.12 af p-værdien: The p-value is the probability of obtaining a test statistic that is at least as extreme as the test statistic that was actually observed. This probability is calculated under the assumption that the null hypothesis is true. p-værdien udtrykker evidence imod nulhypotesen Tabel 3.1: P(T > t obs ) P(T > t obs ) p < 0.001 Very strong evidence against H 0 0.001 p < 0.01 Strong evidence against H 0 0.01 p < 0.05 Some evidence against H 0 0.05 p < 0.1 Weak evidence against H 0 p 0.1 Little or no evidence against H 0 0 t obs DTU Compute Introduktion til Statistik Efterår 2016 10 / 57 DTU Compute Introduktion til Statistik Efterår 2016 11 / 57 Motiverende eksempel - sovemedicin Eksempel - sovemedicin Forskel på sovemedicin? I et studie er man interesseret i at sammenligne 2 sovemidler A og B. For 10 testpersoner har man fået følgende resultater, der er givet i forlænget søvntid i timer (forskellen på effekten af de to midler er angivet): Hypotesen om ingen forskel på sovemedicin A og B ønskes undersøgt: H 0 : µ = 0 Stikprøve, n = 10: person x = Beffect - Aeffect 1 1.2 2 2.4 3 1.3 4 1.3 5 0.9 6 1.0 7 1.8 8 0.8 9 4.6 10 1.4 Sample mean og standard deviation: NYT: p-værdi: = 1.670 = ˆµ s = 1.13 = ˆσ p-værdi = 0.00117 (Beregnet under det scenarie, at H 0 er sand) Er data i overenstemmelse med nulhypotesen H 0? Er = 1.67 usandsynligt hvis H 0 : µ = 0 NYT: Konklusion: Idet data er usandsynligt under H 0, så forkaster vi H 0 - vi har påvist en signifikant effekt af middel B ift. middel A. DTU Compute Introduktion til Statistik Efterår 2016 12 / 57 DTU Compute Introduktion til Statistik Efterår 2016 13 / 57

Eksempel - sovemedicin Eksempel - sovemedicin - i R - manuelt Hypotesen om ingen forskel på sovemedicin A og B ønskes undersøgt: Beregne teststørrelsen: t obs = 1.67 0 1.13/ 10 = 4.67 Fortolkning af p-værdi i lyset af Tabel 3.1: Der er stærk evidence imod nulhypotesen. H 0 : µ = 0 Beregne p-værdien: 2 P(T > 4.67) = 0.00117 ## Angiv data x <- c(1.2, 2.4, 1.3, 1.3, 0.9, 1.0, 1.8, 0.8, 4.6, 1.4) n <- length(x) ## Beregn den observerede t værdi - den observerede test statistik tobs <- (mean(x) - 0) / (sd(x) / sqrt(n)) ## Beregn p-værdien, som sandsynligheden for at få tobs eller mere ekstremt pvalue <- 2 * (1-pt(abs(tobs), df=n-1)) pvalue ## [1] 0.0012 DTU Compute Introduktion til Statistik Efterår 2016 14 / 57 DTU Compute Introduktion til Statistik Efterår 2016 15 / 57 Eksempel - sovemedicin - i R - med indbygget funktion Definition af hypotesetest og signifikans (HELT generelt) ## Kald funktionen med data x t.test(x) ## ## One Sample t-test ## ## data: x ## t = 5, df = 9, p-value = 0.001 ## alternative hypothesis: true mean is not equal to 0 ## 95 percent confidence interval: ## 0.86 2.48 ## sample estimates: ## mean of x ## 1.7 Definition 3.23. Hypotesetest: We say that we carry out a hypothesis test when we decide against a null hypothesis or not, using the data. A null hypothesis is rejected if the p-value, calculated after the data has been observed, is less than some α, that is if the p-value < α, where α is some pre-specifed (so-called) significance level. And if not, then the null hypothesis is said to be accepted. Definition 3.28. Statistisk signifikans: An effect is said to be (statistically) significant if the p-value is less than the significance level α. (OFTE bruges α = 0.05) DTU Compute Introduktion til Statistik Efterår 2016 16 / 57 DTU Compute Introduktion til Statistik Efterår 2016 17 / 57

Kritisk værdi og konfidensinterval Eksempel - sovemedicin Kritisk værdi Konklusion for test af sovemedicin Fortolkning med p-værdien. Med α = 0.05 kan vi konkludere: Idet p-værdien er mindre end α så forkaster vi nulhypotesen. Og dermed: Vi har påvist en signifikant effekt af middel B ift. middel A. (Og dermed at B virker bedre end A) Definition 3.30 - de kritiske værdier for t-testet: The (1 α)100% critical values for the (non-directional) one-sample t-test are the (α/2)100% and (1 α/2)100% quantiles of the t-distribution with n 1 degrees of freedom: t α/2 and t 1 α/2 Metode 3.31: One-sample t-test vha. kritisk værdi: A null hypothesis is rejected if the observed test-statistic is more extreme than the critical values: If t obs > t 1 α/2 then reject H 0 otherwise accept. DTU Compute Introduktion til Statistik Efterår 2016 18 / 57 DTU Compute Introduktion til Statistik Efterår 2016 19 / 57 Den standardiserede skala Hvis t obs er i acceptområdet, så accepteres H 0 Den egentlige skala Hvis er i acceptområdet, så accepteres H 0 Kritisk værdi og konfidensinterval t0.025 0 t0.975 Kritisk værdi og konfidensinterval Kritisk værdi, konfidensinterval og hypotesetest Theorem 3.32: Kritisk-værdi-metode ækvivalent med konfidensinterval-metode We consider a (1 α) 100% confidence interval for µ: s ± t 1 α/2 n The confidence interval corresponds to the acceptance region for H 0 when testing the (non-directional) hypothesis µ0 H 0 : µ = µ 0 (Ny) fortolkning af konfidensintervallet: Nulhypoteser hvor µ 0 er udenfor konfidensintervallet ville være blevet afvist µ0 + t0.025 s n µ0 µ0 + t0.975 s n sim2 DTU Compute Introduktion til Statistik Efterår 2016 20 / 57 DTU Compute Introduktion til Statistik Efterår 2016 21 / 57

Kritisk værdi og konfidensinterval Kritisk værdi og konfidensinterval Den standardiserede skala Hvis t obs er i acceptområdet, så accepteres H 0 Spørgsmål om konfidensinterval (socrative.com - ROOM:PBAC) Man vil på signifikansniveau α = 5% afgøre om en type PC skærm lever op til specifikationen på et effektforbrug på µ = 83 W. Der er taget en stikprøve af denne type skærm og et 95% konfidensinterval for middelværdien af effektforbruget µ beregnes til: t0.025 0 t0.975 Den egentlige skala Hvis er i acceptområdet, så accepteres H 0 sim2 sim3 sim4 sim5 + t 0.025 s n = 85.5 = 88.3 + t 0.975 s n = 91.1 µ0 + t0.025 s n µ0 µ0 + t0.975 s n Konfidensintervallet Nulhypoteser med µ 0 udenfor konfidensintervallet ville være blevet afvist µ Hvilken af følgende hypoteser skal testes og hvilken konklusion er korrekt? A) H 0 : µ = 0 accepteres og signifikant højere effektforbrug end spec. er påvist B) H 0 : µ = 0 afvises og signifikant højere effektforbrug end spec. er påvist C) H 0 : µ = 83 accepteres og signifikant højere effektforbrug end spec. er ikke påvist D) H 0 : µ = 83 afvises og signifikant højere effektforbrug end spec. er påvist E) Ved ikke Svar D) da µ = 83 ligger udenfor og under konfidensintervallet DTU Compute Introduktion til Statistik Efterår 2016 22 / 57 DTU Compute Introduktion til Statistik Efterår 2016 23 / 57 Hypotesetest - generel metode Metode 3.36. Steps ved hypotesetests - et overblik sim2 + t0.025 s µ + t0.975 s n n Helt generelt består et hypotesetest af følgende trin: sim2 sim3 + t0.025 s µ + t0.975 s n n 1 Formulate the hypotheses and choose the level of significance α (choose the risk-level ) 2 Calculate, using the data, the value of the test statistic + t0.025 s µ + t0.975 s n n 3 Calculate the p-value using the test statistic and the relevant sampling distribution, and compare the p-value and the significance level α and make a conclusion sim2 sim3 (Alternatively, make a conclusion based on thesim4 relevant critical value(s)) Indtil nu - underforstået: (= non-directional) Alternativet til H 0 : µ = µ 0 er : H 1 : µ µ 0 MEN der kan være andre settings, e.g. one-sided (=directional), less : Alternativet til H 0 : µ µ 0 er H 1 : µ < µ 0 Eller one-sided (=directional), greater : Alternativet til H 0 : µ µ 0 er H 1 : µ > µ 0 + t0.025 s µ + t0.975 s n n sim2 sim3 sim4 sim5 DTU Compute Introduktion til Statistik Efterår 2016 24 / 57 DTU Compute Introduktion til Statistik Efterår 2016 26 / 57

Eksempel - PC skærme Det tosidede (non-directional) one-sample t-test igen Produktspecifikation En producent af pc skærme oplyser, at skærmen i gennemsnit bruger 83 W. (Og underforstået: under 83 er fint nok, mens over 83 IKKE er det) HVIS virksomheden skulle dokumentere deres påstand: Nulhypotese: H 0 : µ 83. Alternativet: H 1 : µ < 83 Med formålet at kunne afvise (reject eller falsify) at forbruget kan være større. HVIS en ekstern skulle moddokumentere påstanden: Nulhypotese: H 0 : µ 83. Alternativet: H 1 : µ > 83 Med formålet at kunne afvise (reject eller falsify) at forbruget højst er 83. Metode 3.37. Et level α test er: 1 Compute t obs as before 2 Compute the evidence against the null hypothesis H 0 : µ = µ 0 vs. the alternative hypothesis H 1 : µ µ 0 by the p-value = 2 P(T > t obs ) where the t-distribution with n 1 degrees of freedom is used. 3 If p-value < α: We reject H 0, otherwise we accept H 0. 4 The rejection/acceptance conclusion could alternatively, but equivalently, be made based on the critical value(s) ±t 1 α/2 : If t obs > t 1 α/2 we reject H 0, otherwise we accept H 0. DTU Compute Introduktion til Statistik Efterår 2016 27 / 57 DTU Compute Introduktion til Statistik Efterår 2016 28 / 57 Det ensidede (directional) one-sample t-test Det ensidede (directional) one-sample t-test Metode 3.38. Et level α ensidet ( less ) test er: 1 Compute t obs as before 2 Compute the evidence against the null hypothesis H 0 : µ µ 0 vs. the alternative hypothesis H 1 : µ < µ 0 by the p-value = P(T < t obs ) where the t-distribution with n 1 degrees of freedom is used. 3 If p-value < α: We reject H 0, otherwise we accept H 0. 4 The rejection/acceptance conclusion could alternatively, but equivalently, be made based on the critical value(s) t α : If t obs < t α we reject H 0, otherwise we accept H 0. Metode 3.39. Et level α ensidet ( greater ) test er: 1 Compute t obs as before 2 Compute the evidence against the null hypothesis H 0 : µ µ 0 vs. the alternative hypothesis H 1 : µ > µ 0 by the p-value = P(T > t obs ) where the t-distribution with n 1 degrees of freedom is used. 3 If p-value < α: We reject H 0, otherwise we accept H 0. 4 The rejection/acceptance conclusion could alternatively, but equivalently, be made based on the critical value(s) t 1 α : If t obs > t 1 α we reject H 0, otherwise we accept H 0. DTU Compute Introduktion til Statistik Efterår 2016 29 / 57 DTU Compute Introduktion til Statistik Efterår 2016 30 / 57

Transport tid Hypotesetests om studerendes transport tid til DTU fredag morgen Tag link Transporttid i Course Material og indtast jeres transporttid PAUSE Kan det påvises at tage mere end 15 minutter for studerende på cykel? Kan det påvises at tage mere end 15 minutter for studerende i bil? Find de kritiske værdier for studerende i tog og bus. DTU Compute Introduktion til Statistik Efterår 2016 31 / 57 DTU Compute Introduktion til Statistik Efterår 2016 32 / 57 Type I og type II fejl Mulige fejl ved hypotesetests Type I og type II fejl Mulige fejl ved hypotesetests Der findes to slags fejl (dog kun een af gangen!) Type I: of H 0 when H 0 is true Type II: Non-rejection of H 0 when H 1 is true To mulige sandheder vs. to mulige konklusioner: Reject H 0 Fail to reject H 0 H 0 is true Type I error (α) Correct acceptance of H 0 H 0 is false Correct rejection of H 0 Type II error (β) Risikoen for de to typer fejl kaldes sædvanligvis: P(Type I error) = α P(Type II error) = β Theorem 3.43: Signifikansniveauet = Risikoen for Type I fejl The significance level α in hypothesis testing is the overall Type I risk: P(Type I error) = P( of H 0 when H 0 is true) = α DTU Compute Introduktion til Statistik Efterår 2016 34 / 57 DTU Compute Introduktion til Statistik Efterår 2016 35 / 57

Eksempel - sovemedicin Type I og type II fejl Planlægning, Styrke (=Power) Hvad er styrken for et kommende studie/eksperiment: To mulige sandheder vs. to mulige konklusioner: Reject H 0 Fail to reject H 0 Sand H 0 : Ingen forskel på A og B Type I fejl (α) Korrekt accept af H 0 Falsk H 0 : Forskel på A og B Korrekt afvisning af H 0 Type II fejl (β) Sandsynligheden for at opdage en effekt (af en vis størrelse µ 0 µ 1 ) P(Forkaste H 0 ) når H 1 er sand Probability of correct rejection of H 0 Udfordring: Nulhypotesen kan være forkert på mange måder! I praksis: Scenarie-baseret approach: F.eks. Hvis nu sovemedicinen rent faktisk virker 2 timer bedre (altså µ 1 = 2) hvor godt vil mit studie være til at opdage dette? Eller, jeg vil gerne hvis min sovemediccin virker 3 timer bedre (µ 1 = 3) opdage dette med en bestemt sandsynlighed (power) DTU Compute Introduktion til Statistik Efterår 2016 36 / 57 DTU Compute Introduktion til Statistik Efterår 2016 38 / 57 Planlægning, Styrke (=Power) Når man har fastlagt hvilket test, der skal bruges: Kender man (eller fastlægger/gætter på) fire ud af følgende fem oplysninger, kan man regne sig frem til den femte: Stikprøvestørrelse (sample size) n Significance level α of the test A change in mean that you would want to detect (effect size) µ 0 µ 1 (dvs. µ 1 er her den middelværdi med afstand til µ 0 som vi mindst vil kunne påvise) The population standard deviation σ The power (1 β) X N(µ 1, σ 2 n ) er den antagede fordeling (dvs. om µ 1), H 0 : µ = µ 0 er nulhypotesen Dvs. spredningen for stikprøvegennemsnittet ses Vi kommer nu med en nulhypotese, dvs. Er X fordelt om µ 0? Vi finder de kritiske niveauer: Ved udfald over critvalupper afvises H 0 Vi kan nu se hvad power er: P(H 0 afvises korrekt) = Power Vi kan se hvad β er: P(H 0 accepteres forkert) = P(Type II) = β H0 accepted σ X = σ n H0 rejected β Power DTU Compute Introduktion til Statistik Efterår 2016 39 / 57 DTU Compute Introduktion til Statistik Efterår 2016 40 / 57 µ1

Spørgsmål om power (socrative.com - ROOM:PBAC) Vi antager at X N(µ 1, σ 2 n ) (dvs. fordelt om µ 1, som er effekten vi vil kunne påvise), H 0 : µ = µ 0 er nulhypotesen Hvordan kan vi opnå en større power uden at kompromitere noget ved testen (dvs. ikke ændre på hypotesen eller risikoen for type I fejl)? Vi antager X N(µ 1, σ 2 n ) (dvs. fordelt om µ 1, som er effekten vi vil kunne påvise) (dvs. om µ 1, som er effekten vi vil kunne påvise), H 0 : µ = µ 0 er nulhypotesen Flere observationer, dvs. større n H0 accepted H0 rejected H0 accepted H0 rejected σ X = σ n A: Mindske µ 0 så afstanden µ 0 µ 1 øges B: Øge α (på figur vil critvalupper mindskes) C: Øge n antallet af observationer D: Desværre kan det ikke lade sig gøre E: Ved ikke Svar C: Hvis antallet af observationer øges så stiger β σ X = σ n Power β Power µ1 µ0 power uden at kompromitere andet ved testen criticalvallower criticalvalupper µ0 µ1 DTU Compute Introduktion til Statistik Efterår 2016 41 / 57 criticalvallower criticalvalupper DTU Compute Introduktion til Statistik Efterår 2016 42 / 57 (dvs. fordelt om µ 1, som er effekten vi vil kunne påvise), H 0 : µ = µ 0 er nulhypotesen Endnu flere observationer, dvs. endnu større n Planlægning, Sample size n H0 accepted H0 rejected σ X = σ n Det store spørgsmål i praksis: HVAD skal n være? Forsøget skal være stort nok til at kunne opdage en relevant effekt med stor power (som regel mindst 80%): Metode 3.47: Tilnærmet svar for et en-sidet one-sample t-test: For the one-sided, one-sample t-test for given α, β and σ: ( n = σ z ) 1 β + z 2 1 α (µ 0 µ 1 ) β Power Where µ 0 µ 1 is the change in means that we would want to detect and z 1 β, z 1 α are quantiles of the standard normal distribution. µ0 µ1 criticalvallower criticalvalupper DTU Compute Introduktion til Statistik Efterår 2016 43 / 57 DTU Compute Introduktion til Statistik Efterår 2016 44 / 57

Eksempel - The sample size for power= 0.80 Eksempel - The power for n = 40 ## Stikprøvestørrelse for t-test power.t.test(power =.80, delta = 4, sd = 12.21, sig.level=0.05, type = "one.sample", alternative= "one.sided") ## ## One-sample t test power calculation ## ## n = 59 ## delta = 4 ## sd = 12 ## sig.level = 0.05 ## power = 0.8 ## alternative = one.sided ## Beregn power for t-test power.t.test(n = 40, delta = 4, sd = 12.21, sig.level=0.05, type = "one.sample", alternative= "one.sided") ## ## One-sample t test power calculation ## ## n = 40 ## delta = 4 ## sd = 12 ## sig.level = 0.05 ## power = 0.65 ## alternative = one.sided DTU Compute Introduktion til Statistik Efterår 2016 45 / 57 DTU Compute Introduktion til Statistik Efterår 2016 46 / 57 Normaltfordelt data? Højde af studerende - er de normalfordelt? ## Histogram af højde eksempel x <- c(168,161,167,179,184,166,198,187,191,179) hist(x, xlab="height", main="", freq = FALSE) lines(seq(160, 200, 1), dnorm(seq(160, 200, 1), mean(x), sd(x))) Teknikker til at undersøg om data kommer fra en normalfordeling: Empirisk fordelings funktion (ecdf) Normal QQ plot Brug log-transformation til at få mere normalfordelte observationer Density 0.00 0.01 0.02 0.03 0.04 160 170 180 190 200 Height DTU Compute Introduktion til Statistik Efterår 2016 48 / 57 DTU Compute Introduktion til Statistik Efterår 2016 49 / 57

100 observationer fra en normal fordeling: Højde af studerende - ecdf ## 100 observationer fra normalfordeling xr <- rnorm(100, mean(x), sd(x)) hist(xr, xlab="height", main="", freq = FALSE) lines(seq(130, 230, 1), dnorm(seq(130, 230, 1), mean(x), sd(x))) ## Empirisk cumulated distribution plot(ecdf(x), verticals = TRUE) xp <- seq(0.9*min(x), 1.1*max(x), length.out = 100) lines(xp, pnorm(xp, mean(x), sd(x))) ecdf(x) Density 0.000 0.005 0.010 0.015 0.020 0.025 Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 140 160 180 200 220 Height 160 170 180 190 200 x DTU Compute Introduktion til Statistik Efterår 2016 50 / 57 DTU Compute Introduktion til Statistik Efterår 2016 51 / 57 100 observationer fra en normal fordeling, ecdf: Højde af studerende - Normal Q-Q plot ## 100 observationer fra normal fordeling xr <- rnorm(100, mean(x), sd(x)) plot(ecdf(xr), verticals = TRUE) xp <- seq(0.9*min(xr), 1.1*max(xr), length.out = 100) lines(xp, pnorm(xp, mean(xr), sd(xr))) ## QQ-plot qqnorm(x) qqline(x) Normal Q-Q Plot ecdf(xr) Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Sample Quantiles 160 170 180 190 140 160 180 200 x -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles DTU Compute Introduktion til Statistik Efterår 2016 52 / 57 DTU Compute Introduktion til Statistik Efterår 2016 53 / 57

Transformation towards normality Normal Q-Q plot Eksempel - Radon data Metode 3.52 - Den formelle definition The ordered observations x (1),...,x (n) are plotted versus a set of expected normal quantiles z p1,...,z pn. Different definitions of p 1,...,p n exist: In R, when n > 10: In R, when n 10: p i = i 0.5 n + 1, i = 1,...,n p i = i 3/8 n + 1/4, i = 1,...,n ## READING IN THE DATA radon<-c(2.4, 4.2, 1.8, 2.5, 5.4, 2.2, 4.0, 1.1, 1.5, 5.4, 6.3, 1.9, 1.7, 1.1, 6.6, 3.1, 2.3, 1.4, 2.9, 2.9) ##A HISTOGRAM AND A QQ-PLOT par(mfrow=c(1,2)) hist(radon) qqnorm(radon,ylab = 'Sample quantiles',xlab = "Normal quantiles") qqline(radon) Frequency 0 1 2 3 4 5 6 7 Histogram of radon Sample quantiles 1 2 3 4 5 6 Normal Q-Q Plot 1 2 3 4 5 6 7 radon -2-1 0 1 2 Normal quantiles DTU Compute Introduktion til Statistik Efterår 2016 54 / 57 DTU Compute Introduktion til Statistik Efterår 2016 55 / 57 Transformation towards normality Eksempel - Radon data - log-transformed are closer to a normal distribution Transformation towards normality ##TRANSFORM USING NATURAL LOGARITHM logradon<-log(radon) hist(logradon) qqnorm(logradon,ylab = 'Sample quantiles',xlab = "Normal quantiles") qqline(logradon) Histogram of logradon Normal Q-Q Plot Midtvejsevaluering launches lige om lidt...skyd løs! Projekterne, går det fremad? Frequency 0 1 2 3 4 5 6 7 Sample quantiles 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 logradon -2-1 0 1 2 Normal quantiles DTU Compute Introduktion til Statistik Efterår 2016 56 / 57 DTU Compute Introduktion til Statistik Efterår 2016 57 / 57