Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit



Relaterede dokumenter
Estimation og test i normalfordelingen

Program. Konfidensinterval og hypotesetest en enkelt normalfordelt stikprøve. Eksempel: hjerneceller hos marsvin. Eksempel: hjerneceller hos marsvin

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Motivation. En tegning

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Statistik Lektion 8. Test for ens varians

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Generelle lineære modeller

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Stikprøvefordelinger og konfidensintervaller

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

6.7 Capital Asset Pricing Modellen

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Sammenligning af to grupper

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Løsninger til kapitel 7

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Program. Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte. χ 2 -fordelingen

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Estimation ved momentmetoden. Estimation af middelværdiparameter

antal gange krone sker i første n kast = n

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Konfidens intervaller

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

I dag. Binomialfordelingen Sandsynlighedsregning og statistik. Eksempel: cornflakessmagning. Binomialfordelingen

Kursus Introduktion til Statistik. Oversigt, Inferens for gennemsnit (One-sample setup)

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

1. Undersøg om den nye astma-medicin har en signifikant virkning.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Teoretisk Statistik, 9. februar Beskrivende statistik

Dansk. Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 2 Konfidensintervallet for µ Eksempel. 3 Den statistiske sprogbrug og formelle ramme

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Morten Frydenberg version dato:

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Formelsamling til statistik-del af metodekursus, 4. semester, lægevidenskab Version 3 (26/9-2011)

Opsamling. Lidt om det hele..!

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Program. Middelværdi af Y = t(x ) Transformationssætningen

Vejledende opgavebesvarelser

Asymptotisk optimalitet af MLE

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Den flerdimensionale normalfordeling

Hjemmeopgave 1 Makroøkonomi, 1. årsprøve, foråret 2005 Vejledende besvarelse

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Diskrete og kontinuerte stokastiske variable

STATISTIKNOTER Simple normalfordelingsmodeller

STATISTISKE GRUNDBEGREBER

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Vejledende besvarelser til opgaver i kapitel 15

Vanskelige vilkår for generationsskifte med nye regler - Afskaffelse af formueskattekursen samt svækkelse af sikkerheden trods bindende svar

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Facilitering ITU 15. maj 2012

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Maja Tarp AARHUS UNIVERSITET

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

STATISTISKE GRUNDBEGREBER

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Kvantitative metoder 2

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Simpel Lineær Regression - repetition

bestemmelse af karakteristiske værdier for materialeparametre og modstandsevner

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

TIL FORÆLDRE TIL BØRN I DAGTILBUD (DAGINSTITUTION, DAGPLEJE OG SÆRLIGE DAGTILBUD)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Opgave 1: Regressionsanalyse

Men tilbage til regression og Chi-i-anden. test. Begge begreber refererer til normalfordelingen med middelværdi μ og spredning σ.

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02402/02323 Introducerende Statistik

Transkript:

Faculty of Life Sciece Program Statitik ifere E ekelt tikprøve og lieær regreio Stat. modeller, etimatio og kofideitervaller Clau Ektrøm E-mail: ektrom@life.ku.dk Fordelig af geemit Statitik ifere for e ekelt tikprøve tatitik model etimatio og præciio af etimater t-fordelige kofideitervaller Statitik ifere for lieær regreio Slide 2 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Geemittet Krabbedata: Itereet i de geemitlige vægt i populatioe µ Har e tikprøve på 162 krabber: y 1,...,y 162. Stikprøvetørreler, ȳ = 12.76 og = 2.25. Specielt, ˆµ = ȳ = 12.76 Me: Hvor meget ka tole på dette etimat? Hvor præcit er det? Hvad ville der ke hvi vi idamlede 162 adre krabber? Hvi vi bruger ormalfordelige, ka vi faktik vare meget præcit på die pørgmål! Vil lave kofideiterval for µ. Dette kræver e tatitik model. Fordelig af geemit Hitogrammer over geemit af tk. N(0, 1)-fordelte variable. Deity 0.0 0.5 1.0 1.5 2.0 = 10 1.0 0.5 0.0 0.5 1.0 y Deity 0.0 0.5 1.0 1.5 2.0 = 25 1.0 0.5 0.0 0.5 1.0 y Middelværdi? Spredig? fordelig? Slide 3 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 4 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere

Fordelig af geemit De cetrale græeværdiætig Huk fra idt at um af to ormalfordelte variable og kalerig af ormalfordelte variable ige er ormalfordelt. Udvidele til um af uafhægige N(µ,σ 2 )-variable: y 1 + y 2 + + y N(µ,σ 2 ) ȳ = 1 (y 1 + y 2 + + y ) N(µ,σ 2 /) Altå: ˆµ = ȳ er ormalfordelt med middelværdi µ og predig σ/. Det fortæller o om variatioe af ȳ! Et af hovedreultatere idefor tatitik og årage til at ormalfordelige er å pokker vigtig. De cetrale græeværdiætig Lad Y 1,...,Y være uafhægige variable med amme fordelig med middelværdi µ og predig σ. Så er Specielt Ȳ = 1 Y i N(µ,σ 2 /) (Ȳ ) µ P σ/ z Φ(z) Slide 5 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 6 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Statitik model Etimatio Hitogram og N-tæthed QQ-plot Deity 0.00 0.05 0.10 0.15 Sample Quatile 8 10 12 14 16 18 20 8 10 12 14 16 18 20 Weight Theoretical Quatile Statitik model: y 1,...,y 162 er uafhægige og y i N(µ,σ 2 ) Normalfordelt Alle y i har amme middelværdi og amme predig Uafhægighed deler ikke iformatio Statitik model: Parametre i modelle y 1,...,y 162 N(µ,σ 2 ) uafhægige middelværdie µ geemittet i populatioe predige σ predige i populatioe Etimatio: populatioparametree etimere ved tikprøvetørrelere. ˆµ = ȳ det er faktik LS etimatet ˆσ = Slide 7 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 8 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere

Præciio af ˆµ Etimatet ˆµ iger ikke oget om præciioe. Me vi ved jo at d(ȳ) = σ/ ȳ ligger i µ ± 1.96 σ/ med 95% adylighed. å ȳ rammer rigtigt i geemit og bliver mere og mere præcit jo tørre bliver. Åh-åh: keder ikke σ ku etimatet! Stadard error af ȳ etimeret predig: SE(ȳ) = / ȳ ligger i µ±??? / med 95% adylighed. Fraktile kal ædre for at tage højde i uikkerhede i etimatet for σ. Deity 0.0 0.1 0.2 0.3 0.4 t-fordelige df = 1,4 og N(0,1) Stadardierig (ȳ µ) z = N(0,1), σ Fordelige ædre hvi σ ertatte med : (ȳ µ) T = t 1 4 2 0 2 4 T t-fordelige med 1 frihedgrader. Bredere haler ed N(0, 1) Liger N(0,1) mere og mere år df voker Slide 9 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 10 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Skål Kofideiterval for µ Øl Goet = Studet Hvi t 0.975, 1 er 97.5%-fraktile i t 1 -fordelige: ( ) (ȳ µ) P t 1,0.975 < < t 1,0.975 = 0.95. Hvi vi flytter rudt og iolerer µ: ( P ȳ t 1,0.975 < µ < ȳ + t 1,0.975 ) = 0.95 Altå: itervallet ȳ ± t 1,0.975 eller ˆµ ± t 1,0.975 SE(ˆµ) ideholder populatiomiddelværdie µ med h. 95%. Itervallet kalde et 95% kofideiterval for µ. Slide 11 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 12 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere

Kofideitervaller: krabbedata Kofideitervaller: fortolkig Huk: = 162, ȳ = 12.75 og = 2.25. Fraktiler: > qt(0.975,161) [1] 1.974808 > qt(0.95,161) [1] 1.654373 Bereg: Stadard error, SE( ˆµ)? 95% kofideiterval? 90% kofideiterval? 95%-kofideiterval for µ ȳ ± t 1,0.975 = ˆµ ± t 1,0.975 SE(ˆµ) Fortolkig: itervallet ideholder med 95% adylighed populatiogeemittet µ. Hvorda berege et 90%-kofideiterval? Bliver det bredere eller mallere? Hvad ker der hvi tikprøvetørrele voker? Bliver det tilvarede kofideiterval bredere eller mallere? Slide 13 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 14 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Kofideitervaller: fortolkig Hvi vi getog ekperimetet mage gage, å ville 95% af CI ere ideholde populatiogeemittet. Kofideitervaller for 50 dataæt fra N(0, 1). 95%, =10 75%, =10 95%, =40 Reumé: e tikprøve Statitik model: y 1,...,y 162 er uafhægige og y i N(µ,σ 2 ) Parametre, µ og σ: geemit og predig i populatioe Etimater: ˆµ = ȳ og ˆσ = Fordelig af etimat: ˆµ ormalfordelt med middelværdi µ og predig σ/ Stadard error, dv. etimeret predig for etimat: SE(ˆµ) = / 95%-kofideiterval: ȳ ± t 1,0.975 = ˆµ ± t 1,0.975 SE(ˆµ) Vi ka køre præci de amme pukter igeem for lieær regreio og eidet variaaalye (og mage adre modeller). µ µ µ Slide 15 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 16 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere

Hvorfor kal vi lære om ormalfordelige (u)? Har et tre typer af data/ekperimeter med kotiuerte data: Orgaic material 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 Eidet ANOVA Co Alp Er Fe Ive Spi Digetibility % 65 70 75 80 85 90 95 100 Lieær regreio E tikprøve: Blood preure 96 119 119 108 126 128 110 105 94 0 5 10 15 20 25 30 35 Stearic acid % Vi kal bruge ormalfordelige for alle tre forøgtyper/datatyper! Statitik model og parametre Statitik model: afvigelere fra de rette liie er ormalfordelt y i = α + β x i + e i, Atagelere er: Alle y i er ormalfordelte Middelværdie af y i er α + β x i Alle y i har amme predig Uafhægighed Parametre (populatiotørreler) Skærig α og hældig β Spredig σ om de rette liie e 1,...,e N(0,σ 2 ) uafhægige Slide 17 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 18 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Etimatio og fordelig af etimater Stadard error og kofideitervaller Etimatere ˆβ og ˆα å I allerede i uge 1... Etimat for predig: 1 = 2 (y i ˆα ˆβ x i ) 2 1 = 2 ˆβ og ˆα er ormalfordelte: ˆβ N (β, σ 2 ) ( 1, ˆα N (α,σ 2 SS + x 2 )), = x Ige: Etimatere rammer rigtigt i geemit, med e præciio der voker år voker. r 2 i (x i x) 2. Fordeliger: ˆβ N (β, σ 2 ) ( 1, ˆα N (α,σ 2 + x 2 )) Stadard error etimerede prediger SE( ˆβ) = 95% kofideitervaller: SSx, ˆβ ± t 0.975, 2 SE( ˆβ), SE(ˆα) = 1 + x 2 ˆα ± t 0.975, 2 SE(ˆα) Bemærk: t-fordelige med 2 frihedgrader fordi der er 2 middelværdiparametre. Samme om æver i formel for, df e! Slide 19 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 20 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere

Steariyredata Dage hovedpukter > model1 = lm(ford~yre) > ummary(model1) Coefficiet: Etimate Std. Error t value Pr(> t ) (Itercept) 96.53336 1.67518 57.63 1.24e-10 *** yre -0.93374 0.09262-10.08 2.03e-05 *** Reidual tadard error: 2.97 o 7 degree of freedom Cetrale græeværdiætig hvorfor er de cetral? Statitik model og parametre Etimater, fordelig af etimater, tadard error Kofideitervaller: etimat ± t-fraktil SE(etimat) og fortolkig Aalye: Statitik model? Fortolkig af parametre? Etimater? Kofideitervaller? Slide 21 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 22 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Ordlite Egelk average/mea cofidece iterval degree of freedom (df) leat quare method ample tadard deviatio (d) tadard error (SE) Dak geemit kofideiterval frihedgrader midte kvadrater metode tikprøve predig etimeret predig for etimat Slide 23 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere