Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Relaterede dokumenter
1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Forelæsning 11: Envejs variansanalyse, ANOVA

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Løsning til eksaminen d. 29. maj 2009

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Kursus 02402/02323 Introducerende Statistik

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Løsning til eksaminen d. 14. december 2009

Løsning eksamen d. 15. december 2008

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Forelæsning 11: Tovejs variansanalyse, ANOVA

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Statistik for MPH: 7

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik

Konfidensintervaller og Hypotesetest

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Forelæsning 10: Statistik ved hjælp af simulering

Ikke-parametriske tests

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Multipel Lineær Regression

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Basic statistics for experimental medical researchers

Hvorfor er det lige at vi skal lære det her?

En Introduktion til SAS. Kapitel 5.

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Besvarelse af vitcap -opgaven

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Normalfordelingen og Stikprøvefordelinger

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 9: Inferens for andele (kapitel 10)

Generelle lineære modeller

Forelæsning 1: Intro og beskrivende statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Skriftlig eksamen Science statistik- ST501

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Tema. Dagens tema: Indfør centrale statistiske begreber.

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

(studienummer) (underskrift) (bord nr)

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Økonometri Lektion 1 Simpel Lineær Regression 1/31

1 Hb SS Hb Sβ Hb SC = , (s = )

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Forsøgsplanlægning Stikprøvestørrelse

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Transkript:

Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: klaus@cancer.dk Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 1 / 39

Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 2 / 39

enote 1: Simple plots og deskriptive statistik Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 3 / 39

enote 1: Simple plots og deskriptive statistik enote 1: Simple plots og deskriptiv statistik Engelsk Teknikker til at se på data! (deskriptiv statistik) Opsummerende beregningsstørrelser Gennemsnittet: x Empirisk standard afvigelse: s Empirisk varians: s 2 Median, øvre- og nedre kvartiler Empririsk korrelation Simple plots Scatter plot (xy plot) Histogram (empirisk tæthed) Kumulativ fordeling (empirisk fordeling) Boxplots, søjlediagram, cirkeldiagram (lagkagediagram) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 4 / 39

enote2: Diskrete fordelinger Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 5 / 39

enote2: Diskrete fordelinger enote2: Diskrete fordelinger Engelsk Grundlæggende koncepter: Stokastisk variabel (udfaldet af et endnu ikke udført eksperiment) Tæthedsfunktion: f(x) = P (X = x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi: µ = E(X) Standard afvigelse: σ Varians: σ 2 Specifikke distributioner: Binomial (terningekast) Hypergeometrisk (trækning uden tilbagelægning) Poisson (antal hændelser i interval) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 6 / 39

enote 2: Kontinuerte fordelinger Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 7 / 39

enote 2: Kontinuerte fordelinger enote 2: Kontinuerte fordelinger Grundlæggende koncepter: Tæthedsfunktion: f(x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi (µ) og varians (σ 2 ) Regneregler for stokastiske variabler Specifikke fordelinger: Normal Log-Normal Uniform Exponential t χ 2 F Engelsk Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 8 / 39

enote 3: Konfidensintervaller for én gruppe/stikprøve Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 9 / 39

enote 3: Konfidensintervaller for én gruppe/stikprøve enote 3: Konfidensintervaller for én gruppe/stikprøve Grundlæggende koncepter Estimation Signifikans niveau α Konfidensintervaller (fanger rigtige prm. 1 α af gangene) Population og tilfældig stikprøve Stikprøvefordelinger (t og χ 2 ) Centrale grænseværdisætning Engelsk Specifikke metoder, én gruppe/stikprøve: Konfidensintervaller for middelværdi (t-fordeling) og varians (χ 2 fordeling) Forsøgsplanlægning: beregn stikprøvestørrelsen n for den ønskede præcision Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 10 / 39

enote 3: Hypotese tests for én gruppe/stikprøve Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 11 / 39

enote 3: Hypotese tests for én gruppe/stikprøve enote 3: Hypotese tests for én gruppe/stikprøve Grundlæggende koncepter: Engelsk Hypoteser p-værdi (sandsynlighed for teststørrelsen eller mere ekstremt, hvis H 0 er sand, e.g. P (T > t obs )) Type I fejl: (i virkeligheden ingen effekt, men H 0 afvises) P (Type I) = α Type II fejl: (i virkeligheden effekt, men H 0 afvises ikke) P (Type II) = β Testens styrke er β Specifikke metoder, én gruppe: t-test for middelværdiniveau Stikprøvestørrelse for ønsket styrke Normal qq-plot Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 12 / 39

enote 3: Statistik for to grupper/stikprøver Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 13 / 39

enote 3: Statistik for to grupper/stikprøver enote 3: Statistik for to grupper/stikprøver Engelsk Specifikke metoder, to grupper: Test og konfidensintervaller for forskel i middelværdi (t-test) Forsøgsplanlægning: Beregn sample størrelsen for den ønskede styrke Specifikke metoder, to PARREDE grupper: "Tag differencen for hver måling" "statistik for én gruppe" Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 14 / 39

enote 4: Statistik ved simulation Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 15 / 39

enote 4: Statistik ved simulation enote 4: Statistik ved simulation Introduktion til simulering (Beregn statistik mange gange) Engelsk Fejlforplantning (error propagation rules) (F.eks. igennem ikke-lineær funktion) Bootstrapping: Parametrisk (Simuler mange udfald af stokastisk var.) Ikke-parametrisk (Træk direkte fra data) Konfidensintervaller (og derfor også hypotesetest) Specifikke setups: (4 versioner af konfidensintervaller) Èn gruppe/stikprøve og to grupper/stikprøver data Parametrisk vs. ikke-parametrisk Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 16 / 39

enote 5: Simpel lineær regressions analyse Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 17 / 39

enote 5: Simpel lineær regressions analyse enote 5: Simpel lineær regressions analyse To variable: x og y Engelsk Beregn mindstekvadraters estimat af rette linje Inferens med simpel lineær regressionsmodel Statistisk model: Y i = β 0 + β 1 x i + ε i Estimation af konfidensintervaller og tests for β 0 og β 1 Konfidensintervaller for linjen (95% gange ligger linjen indenfor) Prædiktionsintervaller for punkter (95% af nye punkter ligger indenfor) ρ, R og R 2 ρ er korrelationen (= sign R R) beskriver graden af lineær sammenhæng mellem x og y R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 18 / 39

enote 6: Multipel lineær regressions analyse Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 19 / 39

enote 6: Multipel lineær regressions analyse enote 6: Multipel lineær regressions analyse Flere variabler: y, x 1, x 2,... (y afhængig/respons var. og x er er forklarende/uafhængige var.) Mindstekvadraters rette plan (et plan da der er >2 dimensioner) Inferens for en multipel lineær regressionmodel Statistisk model: Y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Estimation af konfidensintervaller og tests for β er Konfidensintervaller for modellen (For det forventede plan) Prædiktionsintervaller for nye punkter Engelsk R 2 er andelen af den totale variationen som er forklaret af modellen Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 20 / 39

enote 8: Envejs variansanalyse (envejs ANOVA) Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 21 / 39

enote 8: Envejs variansanalyse (envejs ANOVA) enote 8: Envejs variansanalyse (envejs ANOVA) Engelsk k UAFHÆNGIGE grupper Specifikke metoder, envejs variansanalyse: Test der sammenligner middelværdien af grupperne ANOVA-tabel: SST = SS(T r) + SSE F -test Post hoc test(s): parvise t-test med/uden Bonferroni korrektion Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 22 / 39

enote 8: Tovejs variansanalyse (ANOVA) Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 23 / 39

enote 8: Tovejs variansanalyse (ANOVA) enote 8: Tovejs variansanalyse (tovejs ANOVA) Engelsk Blokdesign giver to faktorer ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test SST, SS(T r) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test: parvise t-test med/uden Bonferroni korrektion Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 24 / 39

enote 7: Inferens for andele Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 25 / 39

enote 7: Inferens for andele enote 7: Inferens for andele Specifikke metoder, én, to og k > 2 grupper Binær/kategorisk respons Estimation og konfidensintervaller for andele Metoder til store stikprøver vs. til små stikprøver Engelsk Hypoteser for én andel Hypoteser for to andele Analyse af antalstabeller (χ 2 -test) (Alle forventede antal > 5) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 26 / 39

enote 7: Inferens for andele Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 27 / 39

enote 1: Simple Graphics and Summary Statistics enote 1: Simple Graphics and Summary Statistics Look at data as it is! (descriptive statistics) Dansk Summary Statistics Sample mean: x Sample standard deviation: s Sample variance: s 2 Median, upper- and lower quartiles Sample correlation Simple graphics Scatter plot (xy plot) Histogram (empirical density) Cumulative distribution (empirical distribution) Boxplots, Bar charts, Pie charts Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 28 / 39

enote 2: Discrete Distributions enote 2: Discrete Distributions Dansk General concepts: Random variable (Outcome of yet not carried out experiment) Density function: f(x) = P (X = x) (pdf) Distribution function: F (x) = P (X x) (cdf) Mean: µ = E(X) Standard deviation: σ Variance: σ 2 Specific distributions: The binomial distribution (Dice roll) The hypergeometric distribution (Draw without replacement) The Poisson distribution (Number of events in interval) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 29 / 39

enote 2: Continuous Distributions enote 2: Continuous Distributions General concepts: Density function: f(x) (pdf) Distribution: F (x) = P (X x) (cdf) Mean (µ) and variance (σ 2 ) Calculation rules for random variables Specific distributions: Normal Log-Normal Uniform Exponential t χ 2 F Dansk Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 30 / 39

enote 3: One sample confidence intervals enote 3: One sample confidence intervals General concepts Estimation Significance level α Confidence intervals (Catches true value 1 α times) Population and a random sample Sampling distributions (t and χ 2 ) Central Limit Theorem Dansk Specific methods, one sample: Confidence intervals for the mean (t-distribution) and variance (χ 2 distribution) Design of experiments: calculating the sample size n for wanted precision Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 31 / 39

enote 3: One sample hypothesis testing enote 3: One sample hypothesis testing General concepts: Dansk Hypotheses p-value (Probability for observing the test value or more extreme, if H 0 is true, e.g. P (T > t obs )) Type I error: (No effect in reality, but H 0 is rejected) P (Type I) = α Type II error: (In reality an effect, but H 0 is not rejected) P (Type II) = β Power of a test is β Specific methods, one sample: t-test for mean difference Sample size for wanted power Normal qq-plot Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 32 / 39

enote 3: Two Sample statistics enote 3: Two Samples Dansk Specific methods, two samples: Test and confidence interval for the mean difference (t-test) Planning: calculating the sample size for wanted power Specific methods, two PAIRED samples: "Take difference" "One sample" Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 33 / 39

enote 4: Statistics by simulation enote 4, Statistics by simulation Introduction to simulation (Calculate the statistic many times) Dansk Error propagation rules (e.g. through a non-linear function) Bootstrapping: Parametric (Simulate many outcomes of random var.) Non-parametric (Draw values directly from data) Confidence intervals (and hence also hypothesis testing) Specific situations: (4 versions of confidence intervals) One-sample and Two-sample data Parametric vs. non-parametric Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 34 / 39

enote 5: Simple linear Regression Analysis enote 5: Simple linear Regression Analysis Two quantitative variables: x and y Dansk Calculating least squares line Inferences for a simple linear regression model Statistical model: y i = β 0 + β 1 x i + ε i Interval estimation and test for β 0 and β 1. Confidence interval for the line (95% times the line will be inside) Prediction interval for punkter (95% times new points will be inside) ρ, R og R 2 ρ is the correlation (= sign R R) describes the strength of linear relation between x and y R 2 is the fraction of the total variation explained by the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 35 / 39

enote 6: Multiple linear Regression Analysis enote 6: Multiple linear Regression Analysis Many quantitative variables: y, x 1, x 2,... Dansk (y is the dependent/response var. and x s are explanatory/independent var.) Calculating least squares plane (A plane since there are >2 dimensions) Inferences for a the multiple linear regression model Statistical model: y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Confidence interval estimation and test for the β s Confidence interval for the expected fit (fitted line) Prediction interval for new points R 2 expresses the proportion of the total variation explained by the linear fit Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 36 / 39

enote 8: One-way Analysis of Variance enote 8: One-way Analysis of Variance Dansk Specific methods, k INDEPENDENT samples One-way analysis of variance Test for comparing the means of the groups ANOVA-table: SST = SS(T r) + SSE F -test Post hoc test: pairwise t-test with/without Bonferroni correction Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 37 / 39

enote 8: Two-way Analysis of Variance enote 8: Two-way Analysis of Variance Dansk Block design - two-way analysis of variance ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test. SST, SS(T r) and SS(Bl) calculated as one-way ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test: pairwise t-test with/without Bonferroni correction Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 38 / 39

enote 7: Inferences for Proportions enote 7: Inferences for Proportions Specific methods, one, two and k > 2 samples Binary/categorical response Estimation and confidence interval of proportions Large sample vs. small sample methods Hypotheses for one proportion Hypotheses for two proportions Dansk Analysis of contingency tables (χ 2 -test) (All expected > 5) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til statistik, Forelæsning 13 Efteråret 2016 39 / 39