1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger



Relaterede dokumenter
Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Forelæsning 11: Envejs variansanalyse, ANOVA

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Løsning til eksaminen d. 29. maj 2009

Forelæsning 9: Inferens for andele (kapitel 10)

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus 02402/02323 Introducerende Statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Løsning til eksaminen d. 14. december 2009

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Konfidensintervaller og Hypotesetest

Forelæsning 1: Intro og beskrivende statistik

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Løsning eksamen d. 15. december 2008

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Forelæsning 11: Tovejs variansanalyse, ANOVA

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Statistik for MPH: 7

Ikke-parametriske tests

Forelæsning 10: Statistik ved hjælp af simulering

Besvarelse af vitcap -opgaven

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

MPH specialmodul Epidemiologi og Biostatistik

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Skriftlig eksamen Science statistik- ST501

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Anvendt Statistik Lektion 8. Multipel Lineær Regression

En Introduktion til SAS. Kapitel 5.

Generelle lineære modeller

To-sidet varians analyse

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Basal statistik. 30. januar 2007

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Normalfordelingen og Stikprøvefordelinger

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Basic statistics for experimental medical researchers

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Fagplan for statistik, efteråret 2015

Transkript:

Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University 2800 Lyngby Denmark e-mail: perbb@dtu.dk Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 1 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 2 / 39 enote 1: Simple plots og deskriptive statistik enote 1: Simple plots og deskriptiv statistik Teknikker til at se på data! (deskriptiv statistik) Opsummerende beregningsstørrelser Gennemsnittet: x Empirisk standard afvigelse: s Empirisk varians: s 2 Median, øvre- og nedre kvartiler Empririsk korrelation Simple plots Scatter plot (xy plot) Histogram (empirisk tæthed) Kumulativ fordeling (empirisk fordeling) Boxplots, søjlediagram, cirkeldiagram (lagkagediagram) enote2: Diskrete fordelinger enote2: Diskrete fordelinger Grundlæggende koncepter: Stokastisk variabel (udfaldet af et endnu ikke udført eksperiment) Tæthedsfunktion: f(x) = P (X = x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi: µ = E(X) Standard afvigelse: σ Varians: σ 2 Specifikke distributioner: Binomial (terningekast) Hypergeometrisk (trækning uden tilbagelægning) Poisson (antal hændelser i interval) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 4 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 6 / 39

enote 2: Kontinuerte fordelinger enote 2: Kontinuerte fordelinger Grundlæggende koncepter: Tæthedsfunktion: f(x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi (µ) og varians (σ 2 ) Regneregler for stokastiske variabler Specifikke fordelinger: Normal Log-Normal Uniform Exponential t χ 2 F enote 3: Konfidensintervaller for én gruppe/stikprøve enote 3: Konfidensintervaller for én gruppe/stikprøve Grundlæggende koncepter Estimation Signifikans niveau α Konfidensintervaller (fanger rigtige prm. 1 α af gangene) Population og tilfældig stikprøve Stikprøvefordelinger (t og χ 2 ) Centrale grænseværdisætning Specifikke metoder, én gruppe/stikprøve: Konfidensintervaller for middelværdi (t-fordeling) og varians (χ 2 fordeling) Forsøgsplanlægning: beregn stikprøvestørrelsen n for den ønskede præcision Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 8 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 10 / 39 enote 3: Hypotese tests for én gruppe/stikprøve enote 3: Hypotese tests for én gruppe/stikprøve enote 3: Statistik for to grupper/stikprøver enote 3: Statistik for to grupper/stikprøver Grundlæggende koncepter: Hypoteser p-værdi (sandsynlighed for teststørrelsen eller mere ekstremt, hvis H 0 er sand, e.g. P (T > t obs )) Type I fejl: (i virkeligheden ingen effekt, men H 0 afvises) P (Type I) = α Type II fejl: (i virkeligheden effekt, men H 0 afvises ikke) P (Type II) = β Testens styrke er β Specifikke metoder, én gruppe: t-test for middelværdiniveau Stikprøvestørrelse for ønsket styrke Normal qq-plot Specifikke metoder, to grupper: Test og konfidensintervaller for forskel i middelværdi (t-test) Forsøgsplanlægning: Beregn sample størrelsen for den ønskede styrke Specifikke metoder, to PARREDE grupper: "Tag differencen for hver måling" "statistik for én gruppe" Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 12 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 14 / 39

enote 4: Statistik ved simulation enote 4: Statistik ved simulation Introduktion til simulering (Beregn statistik mange gange) Fejlforplantning (error propagation rules) (F.eks. igennem ikke-lineær funktion) Bootstrapping: Parametrisk (Simuler mange udfald af stokastisk var.) Ikke-parametrisk (Træk direkte fra data) Konfidensintervaller (og derfor også hypotesetest) Specifikke setups: (4 versioner af konfidensintervaller) Èn gruppe/stikprøve og to grupper/stikprøver data Parametrisk vs. ikke-parametrisk enote 5: Simpel lineær regressions analyse enote 5: Simpel lineær regressions analyse To variable: x og y Beregn mindstekvadraters estimat af rette linje Inferens med simpel lineær regressionsmodel Statistisk model: Y i = β 0 + β 1 x i + ε i Estimation af konfidensintervaller og tests for β 0 og β 1 Konfidensintervaller for linjen (95% gange ligger linjen indenfor) Prædiktionsintervaller for punkter (95% af nye punkter ligger indenfor) ρ, R og R 2 ρ er korrelationen (= sign R R) beskriver graden af lineær sammenhæng mellem x og y R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 16 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 18 / 39 enote 6: Multipel lineær regressions analyse enote 6: Multipel lineær regressions analyse Flere variabler: y, x 1, x 2,... (y afhængig/respons var. og x er er forklarende/uafhængige var.) Mindstekvadraters rette plan (et plan da der er >2 dimensioner) Inferens for en multipel lineær regressionmodel Statistisk model: Y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Estimation af konfidensintervaller og tests for β er Konfidensintervaller for modellen (For det forventede plan) Prædiktionsintervaller for nye punkter enote 8: Envejs variansanalyse (envejs ANOVA) enote 8: Envejs variansanalyse (envejs ANOVA) k UAFHÆNGIGE grupper Specifikke metoder, envejs variansanalyse: Test der sammenligner middelværdien af grupperne ANOVA-tabel: SST = SS(T r) + SSE F -test Post hoc test(s): parvise t-test med/uden Bonferroni korrektion R 2 er andelen af den totale variationen som er forklaret af modellen Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 20 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 22 / 39

enote 8: Tovejs variansanalyse (ANOVA) enote 8: Tovejs variansanalyse (tovejs ANOVA) Blokdesign giver to faktorer ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test SST, SS(T r) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test: parvise t-test med/uden Bonferroni korrektion enote 7: Inferens for andele enote 7: Inferens for andele Specifikke metoder, én, to og k > 2 grupper Binær/kategorisk respons Estimation og konfidensintervaller for andele Metoder til store stikprøver vs. til små stikprøver Hypoteser for én andel Hypoteser for to andele Analyse af antalstabeller (χ 2 -test) (Alle forventede antal > 5) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 24 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 26 / 39 Overview enote 7: Inferens for andele enote 1: Simple Graphics and Summary Statistics enote 1: Simple Graphics and Summary Statistics 1 enote 1: Simple plots og deskriptive statistik 2 enote2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Konfidensintervaller for én gruppe/stikprøve 5 enote 3: Hypotese tests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele Look at data as it is! (descriptive statistics) Summary Statistics Sample mean: x Sample standard deviation: s Sample variance: s 2 Median, upper- and lower quartiles Sample correlation Simple graphics Scatter plot (xy plot) Histogram (empirical density) Cumulative distribution (empirical distribution) Boxplots, Bar charts, Pie charts Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 27 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 28 / 39

enote 2: Discrete Distributions enote 2: Discrete Distributions General concepts: Random variable (Outcome of yet not carried out experiment) Density function: f(x) = P (X = x) (pdf) Distribution function: F (x) = P (X x) (cdf) Mean: µ = E(X) Standard deviation: σ Variance: σ 2 Specific distributions: The binomial distribution (Dice roll) The hypergeometric distribution (Draw without replacement) The Poisson distribution (Number of events in interval) enote 2: Continuous Distributions enote 2: Continuous Distributions General concepts: Density function: f(x) (pdf) Distribution: F (x) = P (X x) (cdf) Mean (µ) and variance (σ 2 ) Calculation rules for random variables Specific distributions: Normal Log-Normal Uniform Exponential t χ 2 F Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 29 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 30 / 39 enote 3: One sample confidence intervals enote 3: One sample confidence intervals General concepts Estimation Significance level α Confidence intervals (Catches true value 1 α times) Population and a random sample Sampling distributions (t and χ 2 ) Central Limit Theorem Specific methods, one sample: Confidence intervals for the mean (t-distribution) and variance (χ 2 distribution) Design of experiments: calculating the sample size n for wanted precision enote 3: One sample hypothesis testing enote 3: One sample hypothesis testing General concepts: Hypotheses p-value (Probability for observing the test value or more extreme, if H 0 is true, e.g. P (T > t obs )) Type I error: (No effect in reality, but H 0 is rejected) P (Type I) = α Type II error: (In reality an effect, but H 0 is not rejected) P (Type II) = β Power of a test is β Specific methods, one sample: t-test for mean difference Sample size for wanted power Normal qq-plot Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 31 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 32 / 39

enote 3: Two Sample statistics enote 3: Two Samples Specific methods, two samples: Test and confidence interval for the mean difference (t-test) Planning: calculating the sample size for wanted power Specific methods, two PAIRED samples: "Take difference" "One sample" enote 4: Statistics by simulation enote 4, Statistics by simulation Introduction to simulation (Calculate the statistic many times) Error propagation rules (e.g. through a non-linear function) Bootstrapping: Parametric (Simulate many outcomes of random var.) Non-parametric (Draw values directly from data) Confidence intervals (and hence also hypothesis testing) Specific situations: (4 versions of confidence intervals) One-sample and Two-sample data Parametric vs. non-parametric Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 33 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 34 / 39 enote 5: Simple linear Regression Analysis enote 5: Simple linear Regression Analysis Two quantitative variables: x and y Calculating least squares line Inferences for a simple linear regression model Statistical model: y i = β 0 + β 1 x i + ε i Interval estimation and test for β 0 and β 1. Confidence interval for the line (95% times the line will be inside) Prediction interval for punkter (95% times new points will be inside) ρ, R og R 2 ρ is the correlation (= sign R R) describes the strength of linear relation between x and y R 2 is the fraction of the total variation explained by the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 35 / 39 enote 6: Multiple linear Regression Analysis enote 6: Multiple linear Regression Analysis Many quantitative variables: y, x 1, x 2,... (y is the dependent/response var. and x s are explanatory/independent var.) Calculating least squares plane (A plane since there are >2 dimensions) Inferences for a the multiple linear regression model Statistical model: y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Confidence interval estimation and test for the β s Confidence interval for the expected fit (fitted line) Prediction interval for new points R 2 expresses the proportion of the total variation explained by the linear fit Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 36 / 39

enote 8: One-way Analysis of Variance enote 8: One-way Analysis of Variance enote 8: Two-way Analysis of Variance enote 8: Two-way Analysis of Variance Specific methods, k INDEPENDENT samples One-way analysis of variance Test for comparing the means of the groups ANOVA-table: SST = SS(T r) + SSE F -test Post hoc test: pairwise t-test with/without Bonferroni correction Block design - two-way analysis of variance ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test. SST, SS(T r) and SS(Bl) calculated as one-way ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test: pairwise t-test with/without Bonferroni correction Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 37 / 39 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 38 / 39 enote 7: Inferences for Proportions enote 7: Inferences for Proportions Specific methods, one, two and k > 2 samples Binary/categorical response Estimation and confidence interval of proportions Large sample vs. small sample methods Hypotheses for one proportion Hypotheses for two proportions Analysis of contingency tables (χ 2 -test) (All expected > 5) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til statistik, Forelæsning 13 Foråret 2015 39 / 39