Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Relaterede dokumenter
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Forelæsning 11: Kapitel 11: Regressionsanalyse

Statistisk modellering og regressionsanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Tema. Dagens tema: Indfør centrale statistiske begreber.

Produkt og marked - matematiske og statistiske metoder

Nanostatistik: Konfidensinterval

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kvantitative Metoder 1 - Forår 2007

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

1 Regressionsproblemet 2

Højde af kvinder 2 / 18

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Hvorfor er normalfordelingen så normal?

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

StatDataN: Test af hypotese

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

StatDataN: Plot af data

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statistik Formelsamling. HA Almen, 1. semester

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition. Definitioner

Nanostatistik: Opgavebesvarelser

Kvantitative Metoder 1 - Forår 2007

Elementær sandsynlighedsregning

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Kapitel 4 Sandsynlighed og statistiske modeller

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Løsning eksamen d. 15. december 2008

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Nanostatistik: Test af hypotese

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

(studienummer) (underskrift) (bord nr)

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Kvantitative metoder 2

Statistik Lektion 16 Multipel Lineær Regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Estimation og usikkerhed

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Løsning til eksaminen d. 29. maj 2009

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Kvantitative Metoder 1 - Forår 2007

Kapitel 4 Sandsynlighed og statistiske modeller

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Løsninger til kapitel 6

Note om Monte Carlo metoden

Elementær sandsynlighedsregning

Statistiske modeller

Kvantitative metoder 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Løsninger til kapitel 14

Module 12: Mere om variansanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Danmarks Tekniske Universitet Side?? af 20 sider

Basal statistik. 11.september 2007

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Transkript:

Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1

Population og stikprøve 2

Stikprøvevariation Hvad er danskernes gennemsnitshøjde? N = 10 X 1 = 169 cm X 2 = 183 cm X 3 = 171 cm X 4 = 113 cm X 5 = 174 cm 3

Hvorfor er et estimates præcision vigtig? Sammenhængen mellem fødselsvægt og fostrets alder (i uger). ^β = 116. Estimater er de (biologisk/fysisk/...) relevante parametre. 4

Hvad sker der, hvis vi gentager forsøget? 5

Histogram af middelværdier 6

Hvad gør man i praksis? Hvis man nu kendte den data-genererende proces... Hvis X stokastisk var. med E(X) = μ og V(X) = σ 2 så vil a + bx have E(X) = a + bμ, og V(X) = b 2 σ 2 Hvis har middelværdi og spredning X 1,, X N μ 1,, μ N σ 1,, σ N E( i X i ) = i μ i V( i X i ) = i σ 2 i (hvis uafh.) 7

Den centrale grænseværdisætning Hvis X 1,, X N er ua hængige og identisk fordelte med samme middelværdi μ og spredning σ så vil der gælde for gennemsnittet, X = 1 N N i=1 X i, og at σ X N(μ, 2 ) N Approksimationen bliver bedre jo større N. 8

9

Måleusikkerhed Hvis den data-genererende proces er observation = μ sand værdi + ε støj E(ε) = 0 V(ε) = σ 2 τ hvor og så vil (for fast grænse ) X μ τ τ X μ τ Men CLT giver, at X μ N(0, σ 2 /N) 10

Egenskaber ved normalfordelingen 11

Intervaller For X N(μ, σ 2 ) vil P( X μ 2σ) 0.95 så P( 2σ X μ 2σ) P( X 2σ μ X + 2σ) P(X + 2σ μ X 2σ) P(X 2σ μ X + 2σ) = 0.95 12

Kon densintervaller Konfidensinterval for en parameter μ: 13

Kon densintervaller Hvis vi hver gang vi udfører et eksperiment hævder, at den ukendte parameter ligger i det beregnede 95% interval, så tager vi kun fejl i 5% af tilfældene. Et konfidensinterval er altid for en parameter. Kan gøre intervallerne bredere for at være mere sikre (men også mere upræcise). 14

Simulerede kon densintervaller 15

Fortolkning af kon densintervaller Jeg er 95% sikker på, at intervallet fra [165 ; 175] indeholder den sande gennemsnitlige højde for danskere. I virkeligheden: enten 0% eller 100%, men vi ved ikke hvilken. De 95% henviser derfor til den generelle procedure med at lave konfidensintervaller. 16

Nulhypotesen og kon densintervaller Når man tester en nulhypotese, netop de værdier, der ikke bliver forkastet. H 0 : μ = μ 0 så er 95% konfidensintervallet De værdier for nulhypotesen, som data ikke er i modstrid med. 17

Binomialfordelingen 18

19

Binomialfordelingen Antagelser om en binomialfordelt variabel N ua hængige forsøg To mulige udfald: succces og fiasko Samme successandsynlighed, θ, i hvert forsøg F S S S S F F S F S S S S S F F S F F F Estimat: ^y = # Gunstige # Mulige 20

Binomialfordelingen Antagelser om en binomialfordelt variabel N ua hængige forsøg To mulige udfald: succces og fiasko Samme successandsynlighed, θ, i hvert forsøg 0 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 0 0 0 Estimat: # Gunstige ^θ = = # Mulige i y i N 21

Approksimativt KI for binomialfordelingen For binomialfordelt variabel er ^σ 2 = ^θ(1 ^θ) så et 95% KI for θ er ca. [^θ 1.96 ^σ ; ^θ + 1.96 ^σ ] N N 22

Generel formel Et 95% konfidensinterval for en parameter μ har generelt formen [^μ 1.96 SE(^μ); ^μ + 1.96 SE(^μ)] Standardfejlen - standard error - er spredningen på estimatet. For horoskopdata: så og N = 87, Y = 27 ^θ = 0.32 0.32 ± 1.96 0.32 (1 0.32) = [0.22; 0.42] 84 23

Udvidelser 24

Lineær regression Antag Y 1,, Y N følger en regressionsmodel Y i = α + βx i + ε i, hvor er kendte og. x 1,, x N ε i N(0, σ 2 ) LS giver estimaterne ^β = i (x i x)(y i ȳ) i (x i x) 2, og ^α = ȳ ^β x Disse estimater er normalfordelte (lineære funktioner af data)! 25

Varianser ifm lineær regression ^α og ^β har varianser V(^α) = σ 2 i x 2 i σ og V( ^β) 2 = N i (x i x) 2 i (x i x) 2 σ 2 estimeres ved ^σ 2 = 1 N 2 i 2 (y i (^α + ^βxi )) residual Så følger KI direkte. 26

Fødselsdata lm(weight ~ age, data=birthweight) %>% tidy() ## # A tibble: 2 x 5 ## term estimate std.error statistic p.value ## <chr> <dbl> <dbl> <dbl> <dbl> ## 1 (Intercept) -1485. 853. -1.74 0.0955 ## 2 age 116. 22.1 5.23 0.0000304 95% KI for β : 116 ± 1.96 22.1 = [72.7; 159.3] 27

Kon densintervaller og prædiktionsintervaller Et konfidensinterval siger noget om realistiske værdier for en parameter. Et prædiktionsinterval siger noget om realistiske værdier for en enkelt observation. 28