1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger



Relaterede dokumenter
1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 11: Envejs variansanalyse, ANOVA

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Løsning til eksaminen d. 29. maj 2009

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Kursus 02402/02323 Introducerende Statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Forelæsning 11: Tovejs variansanalyse, ANOVA

Question I.1 (1) We use Method 3.8 from Chapter 3 to achieve

Konfidensintervaller og Hypotesetest

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Løsning til eksaminen d. 14. december 2009

Ikke-parametriske tests

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Løsning eksamen d. 15. december 2008

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

MPH specialmodul Epidemiologi og Biostatistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

En Introduktion til SAS. Kapitel 5.

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Forelæsning 9: Inferens for andele (kapitel 10)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Anvendt Statistik Lektion 8. Multipel Lineær Regression

To-sidet varians analyse

Besvarelse af vitcap -opgaven

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Statistik for MPH: 7

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Kvantitative Metoder 1 - Forår Dagens program

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen og Stikprøvefordelinger

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Basal statistik. 30. januar 2007

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Klasseøvelser dag 2 Opgave 1

Hvorfor er det lige at vi skal lære det her?

Forelæsning 1: Intro og beskrivende statistik

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

q-værdien som skal sammenlignes med den kritiske Chi-i-Anden værdi p-værdien som skal sammenlignes med signifikansniveauet.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Normalfordelingen. Statistik og Sandsynlighedsregning 2

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Skriftlig eksamen Science statistik- ST501

Indblik i statistik - for samfundsvidenskab

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Generelle lineære modeller

Forsøgsplanlægning Stikprøvestørrelse

Fagplan for statistik, efteråret 2015

Transkript:

Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby Denmark e-mail: pbac@dtu.dk Overview 1 enote 1: Simple plots og deskriptive statistik 2 enote 2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Kondensintervaller for én gruppe/stikprøve 5 enote 3: Hypotesetests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele 11. maj 2015 1 / 39 11. maj 2015 2 / 39 enote 1: Simple plots og deskriptive statistik enote 1: Simple plots og deskriptiv statistik Teknikker til at se på data! (deskriptiv statistik) Opsummerende beregningsstørrelser Gennemsnittet ( x) Empirisk standard afvigelse (s) Empirisk varians (s 2 ) Fraktiler og percentiler Median, øvre- og nedre kvartiler Empririsk kovarians og empirisk korrelation (r) Simple plots Scatter plot (xy plot) Histogram (empirisk tæthed) Kumulativ fordeling (empirisk fordeling) Boxplots, søjlediagram, cirkeldiagram (lagkagediagram) 11. maj 2015 4 / 39 enote 2: Diskrete fordelinger enote2: Diskrete fordelinger Grundlæggende koncepter: Stokastisk variabel (værdi afhængigt af udfald af endnu ikke udført eksperiment) Tæthedsfunktion: f(x) = P (X = x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi: µ = E(X) Standard afvigelse: σ Varians: σ 2 Specikke distributioner: Binomial (terningekast) Hypergeometrisk (trækning uden tilbagelægning) Poisson (antal hændelser i interval) 11. maj 2015 6 / 39

enote 2: Kontinuerte fordelinger enote 2: Kontinuerte fordelinger Grundlæggende koncepter: Tæthedsfunktion: f(x) (pdf) Fordelingsfunktion: F (x) = P (X x) (cdf) Middelværdi (µ) og varians (σ 2 ) Regneregler for stokastiske variabler Specikke fordelinger: Normal Log-Normal Uniform Exponential t χ 2 (Chi-i-anden) F enote 3: Kondensintervaller for én gruppe/stikprøve enote 3: Kondensintervaller for én gruppe/stikprøve Grundlæggende koncepter Estimation Signikans niveau α Kondensintervaller (fanger rigtige prm. 1 α af gangene) Population og tilfældig stikprøve Stikprøvefordelinger (stikprøvegennemsnit (t) og empirisk varians (χ 2 )) Centrale grænseværdisætning Specikke metoder, én gruppe/stikprøve: Kondensintervaller for middelværdi (t-fordeling) og varians (χ 2 fordeling) Forsøgsplanlægning: beregn stikprøvestørrelsen n for den ønskede præcision 11. maj 2015 8 / 39 11. maj 2015 10 / 39 enote 3: Hypotesetests for én gruppe/stikprøve enote 3: Statistik for to grupper/stikprøver enote 3: Hypotesetests for én gruppe/stikprøve enote 3: Statistik for to grupper/stikprøver Grundlæggende koncepter: Hypoteser p-værdi (sandsynlighed for observeret værdi eller mere ekstremt af teststørrelsen, hvis H 0 er sand, e.g. P (T > t obs )) Type I fejl: (i virkeligheden ingen eekt, men H 0 afvises) P (Type I) = α Type II fejl: (i virkeligheden eekt, men H 0 afvises ikke) P (Type II) = β Testens styrke er β Specikke metoder, to grupper: Test og kondensintervaller for forskel i middelværdi (t-test) Forsøgsplanlægning: Beregn sample størrelsen for den ønskede styrke Specikke metoder, to PARREDE grupper: "Tag dierencen for hver måling" "statistik for én gruppe" Specikke metoder, én gruppe: t-test for middelværdiniveau Stikprøvestørrelse for ønsket styrke Normal qq-plot 11. maj 2015 12 / 39 11. maj 2015 14 / 39

enote 4: Statistik ved simulation enote 4: Statistik ved simulation enote 5: Simpel lineær regressions analyse enote 5: Simpel lineær regressions analyse Introduktion til simulering (Beregn statistik mange gange) Fejlforplantning (error propagation rules) (F.eks. igennem ikke-lineær funktion) Bootstrapping: Parametrisk (Simuler mange udfald af stokastisk var.) Ikke-parametrisk (Træk direkte fra data) Kondensintervaller (og derfor også hypotesetest) Specikke setups: (4 versioner af kondensintervaller) Èn gruppe/stikprøve og to grupper/stikprøver data Parametrisk vs. ikke-parametrisk To variable: x og y Beregn mindstekvadraters estimat af rette linje Inferens med simpel lineær regressionsmodel Statistisk model: Y i = β 0 + β 1 x i + ε i Estimation af kondensintervaller og tests for β 0 og β 1 Kondensintervaller for linjen (95% gange ligger linjen indenfor) Prædiktionsintervaller for punkter (95% af nye punkter ligger indenfor) ρ, R og R 2 ρ er korrelationen (= sign β1 R) beskriver graden af lineær sammenhæng mellem x og y R 2 er andelen af den totale variation som er forklaret af modellen Afvises H 0 : β 1 = 0 så afvises også H 0 : ρ = 0 11. maj 2015 16 / 39 11. maj 2015 18 / 39 enote 6: Multipel lineær regressions analyse enote 6: Multipel lineær regressions analyse Flere variabler: y, x 1, x 2,... (y afhængig/respons var. og x'er er forklarende/uafhængige var.) Mindstekvadraters rette plan (et plan da der er >2 dimensioner) Inferens for en multipel lineær regressionmodel Statistisk model: Y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Estimation af kondensintervaller og tests for β'er Kondensintervaller for modellen (For det forventede plan) Prædiktionsintervaller for nye punkter R 2 er andelen af den totale variationen som er forklaret af modellen enote 8: Envejs variansanalyse (envejs ANOVA) enote 8: Envejs variansanalyse (envejs ANOVA) k UAFHÆNGIGE grupper Specikke metoder, envejs variansanalyse: Test der sammenligner middelværdien af grupperne ANOVA-tabel: SST = SS(T r) + SSE F -test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion 11. maj 2015 20 / 39 11. maj 2015 22 / 39

enote 8: Tovejs variansanalyse (ANOVA) enote 8: Tovejs variansanalyse (tovejs ANOVA) Blokdesign giver to faktorer ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test SST, SS(T r) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion enote 7: Inferens for andele enote 7: Inferens for andele Andel: p = x n (x successer ud af n observationer) Specikke metoder, én, to og k > 2 grupper Binær/kategorisk respons Estimation og kondensintervaller for andele Metoder til store stikprøver vs. til små stikprøver Hypoteser for én andel (p) Hypoteser for to andele Analyse af antalstabeller (χ 2 -test) (Alle forventede antal > 5) 11. maj 2015 24 / 39 11. maj 2015 26 / 39 Overview enote 7: Inferens for andele 1 enote 1: Simple plots og deskriptive statistik 2 enote 2: Diskrete fordelinger 3 enote 2: Kontinuerte fordelinger 4 enote 3: Kondensintervaller for én gruppe/stikprøve 5 enote 3: Hypotesetests for én gruppe/stikprøve 6 enote 3: Statistik for to grupper/stikprøver 7 enote 4: Statistik ved simulation 8 enote 5: Simpel lineær regressions analyse 9 enote 6: Multipel lineær regressions analyse 10 enote 8: Envejs variansanalyse (envejs ANOVA) 11 enote 8: Tovejs variansanalyse (ANOVA) 12 enote 7: Inferens for andele 11. maj 2015 27 / 39 enote 1: Simple Graphics and Summary Statistics enote 1: Simple Graphics and Summary Statistics Look at data as it is! (descriptive statistics) Summary Statistics Sample mean: x Sample standard deviation: s Sample variance: s 2 Quantiles and percentiles Median, upper- and lower quartiles Sample correlation (r) Simple graphics Scatter plot (xy plot) Histogram (empirical density) Cumulative distribution (empirical distribution) Boxplots, Bar charts, Pie charts 11. maj 2015 28 / 39

enote 2: Discrete Distributions enote 2: Discrete Distributions enote 2: Continuous Distributions enote 2: Continuous Distributions General concepts: Random variable (Value dependent on outcome of yet not carried out experiment) Density function: f(x) = P (X = x) (pdf) Distribution function: F (x) = P (X x) (cdf) Mean: µ = E(X) Standard deviation: σ Variance: σ 2 Specic distributions: The binomial distribution (Dice roll) The hypergeometric distribution (Draw without replacement) The Poisson distribution (Number of events in interval) General concepts: Density function: f(x) (pdf) Distribution: F (x) = P (X x) (cdf) Mean (µ) and variance (σ 2 ) Calculation rules for random variables Specic distributions: Normal Log-Normal Uniform Exponential t χ 2 (Chi-square) F 11. maj 2015 29 / 39 11. maj 2015 30 / 39 enote 3: One sample condence intervals enote 3: One sample condence intervals General concepts Estimation Signicance level α Condence intervals (Catches true value 1 α times) Population and a random sample Sampling distributions (sample mean (t) and sample vaiance (χ 2 )) Central Limit Theorem Specic methods, one sample: Condence intervals for the mean (t-distribution) and variance (χ 2 distribution) Design of experiments: calculating the sample size n for wanted precision enote 3: One sample hypothesis testing enote 3: One sample hypothesis testing General concepts: Hypotheses p-value (Probability for observing the test value or more extreme, if H 0 is true, e.g. P (T > t obs )) Type I error: (No eect in reality, but H 0 is rejected) P (Type I) = α Type II error: (In reality an eect, but H 0 is not rejected) P (Type II) = β Power of a test is β Specic methods, one sample: t-test for mean dierence Sample size for wanted power 11. maj 2015 31 / 39 Normal qq-plot 11. maj 2015 32 / 39

enote 3: Two Sample statistics enote 3: Two Samples enote 4: Statistics by simulation enote 4, Statistics by simulation Specic methods, two samples: Test and condence interval for the mean dierence (t-test) Planning: calculating the sample size for wanted power Specic methods, two PAIRED samples: "Take dierence" "One sample" Introduction to simulation (Calculate the statistic many times) Error propagation rules (e.g. through a non-linear function) Bootstrapping: Parametric (Simulate many outcomes of random var.) Non-parametric (Draw values directly from data) Condence intervals (and hence also hypothesis testing) Specic situations: (4 versions of condence intervals) One-sample and Two-sample data Parametric vs. non-parametric 11. maj 2015 33 / 39 11. maj 2015 34 / 39 enote 5: Simple linear Regression Analysis enote 5: Simple linear Regression Analysis Two quantitative variables: x and y Calculating least squares line Inferences for a simple linear regression model Statistical model: y i = β 0 + β 1 x i + ε i Interval estimation and test for β 0 and β 1. Condence interval for the line (95% times the line will be inside) Prediction interval for punkter (95% times new points will be inside) ρ, R og R 2 ρ is the correlation (= sign β1 R) describes the strength of linear relation between x and y R 2 is the fraction of the total variation explained by the model If H 0 : β 1 = 0 is rejected, then H 0 : ρ = 0 is also rejected 11. maj 2015 35 / 39 enote 6: Multiple linear Regression Analysis enote 6: Multiple linear Regression Analysis Many quantitative variables: y, x 1, x 2,... (y is the dependent/response var. and x's are explanatory/independent var.) Calculating least squares plane (A plane since there are >2 dimensions) Inferences for a the multiple linear regression model Statistical model: y i = β 0 + β 1 x 1,i + β 2 x 2,i +... + ε i Condence interval estimation and test for the β's Condence interval for the expected t (tted line) Prediction interval for new points R 2 expresses the proportion of the total variation explained by the linear t 11. maj 2015 36 / 39

enote 8: One-way Analysis of Variance enote 8: One-way Analysis of Variance enote 8: Two-way Analysis of Variance enote 8: Two-way Analysis of Variance Specic methods, k INDEPENDENT samples One-way analysis of variance Test for comparing the means of the groups ANOVA-table: SST = SS(T r) + SSE F -test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction Block design - two-way analysis of variance ANOVA-tabel: SST = SS(T r) + SS(Bl) + SSE F -test. SST, SS(T r) and SS(Bl) calculated as one-way ANOVA SSE = SST SS(T r) SS(Bl) Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction 11. maj 2015 37 / 39 11. maj 2015 38 / 39 enote 7: Inferences for Proportions enote 7: Inferences for Proportions Proportion: p = x n (x successes out of n observations) Specic methods, one, two and k > 2 samples Binary/categorical response Estimation and condence interval of proportions Large sample vs. small sample methods Hypotheses for one proportion Hypotheses for two proportions Analysis of contingency tables (χ 2 -test) (All expected > 5) 11. maj 2015 39 / 39