Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Relaterede dokumenter
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Perspektiver i Matematik-Økonomi: Linær regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

To samhørende variable

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Modul 11: Simpel lineær regression

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Nanostatistik: Lineær regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Konfidensintervaller og Hypotesetest

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Regressionsproblemet 2

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Modul 6: Regression og kalibrering

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik II 4. Lektion. Logistisk regression

Module 3: Statistiske modeller

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Modul 12: Regression og korrelation

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Eksamen i Statistik for biokemikere. Blok

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Vejledende besvarelser til opgaver i kapitel 14

Module 4: Ensidig variansanalyse

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Løsning eksamen d. 15. december 2008

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Statistik Lektion 4. Variansanalyse Modelkontrol

Kapitel 11 Lineær regression

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Simpel Lineær Regression

(studienummer) (underskrift) (bord nr)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Simpel Lineær Regression: Model

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Opgaver til kapitel 3

Kvantitative metoder 2

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Nanostatistik: Lineær regression

Multipel Lineær Regression

Løsning til eksaminen d. 14. december 2009

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Skriftlig eksamen Science statistik- ST501

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Løsning til eksaminen d. 29. maj 2009

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistisk modellering og regressionsanalyse

Opgavebesvarelse, brain weight

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forsøgsplanlægning Stikprøvestørrelse

Den lineære normale model

Transkript:

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større afstand X µ 0 eller større Z = ( X µ 0 )/(σ/ n) des mere skeptisk er vi overfor H 0. Observeret afstand x µ 0 eller observeret z stor hvis lille sandsynlighed for at observere endnu større afstand eller z: H 1 : µ µ 0 : p = P(Z < z) + P(Z > z) H 1 : µ < µ 0 : p = P(Z < z) H 1 : µ > µ 0 : p = P(Z > z) Bemærk: p-værdi udregnes under antagelse af, at H 0 er sand. Lille p: enten er der sket noget meget usandsynligt eller også er H 0 falsk.

Fortolkning af p-værdi p \ H 0 sand falsk lille noget meget usandsynligt er indtruffet ingen modstrid stor ingen modstrid ingen modstrid Dvs. håndfaste konklusioner kun mulig hvis lille p. Stor p-værdi : kan konkludere, at der ikke er evidens mod H 0 men ikke at H 0 er sand. (Store p-værdier kan sagtens optræde under den alternative hypotese) HUSK: p-værdi ikke sandsynlighed for at H 0 er sand - men netop beregnet under antagelse, at H 0 er sand! 3/19

Eksempel Opgave 10.15 (soft drink). H 0 : µ = 200 Antag x = 186.1 hvorved z = (186.2 200)/(15/ 9) = 2.78. p = P(Z < 2.78) + P(Z > 2.78) = 0.5% Dvs. enten er der sket noget meget usandsynligt eller også er antagelsen µ = 200 forkert. 4/19

Lineær regression Sammenhørende x (regnmængde) og y (luftforurening) målinger: x 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5 y 126 121 116 118 114 118 132 141 108 Plot af målinger samt regressionslinie: y 110 120 130 140 2 3 4 5 6 7 x Simpel model for sammenhæng: y = α + βx Problem: passer ikke nøjagtigt pga. målefejl. 5/19

Notation Pas på: I denne sammenhæng er α og β ikke sandsynligheder for type I og type II fejl. (bogens notation er dog ikke specielt uheldig, for de fleste bøger bruger α og/eller β ved regression) 6/19

Den lineære regressionsmodel Forklarende/Uafhængige variable: x 1, x 2,...,x n (givne) Afhængige variable: y 1, y 2,...,y n (stokastiske) y i = α + βx i + ǫ i hvor ǫ i angiver uafhængige normalfordelte målefejl/støj: ǫ i N(0, σ 2 ) y i N(α + βx i, σ 2 ) 7/19

Statistiske problemstillinger: Estimation af α og β. Check af forudsætninger for lineær regressionsmodel. Test af hypoteser vedr. α og β. Prediktion. 8/19

Estimation af α og β For estimater ˆα og ˆβ er den predikterede værdi af y i givet ved ŷ i = ˆα + ˆβx i Residual (afvigelse mellem observation og prediktion): e i = y i ŷ i Mindste kvadraters metode: vælg ˆα og ˆβ så sum af kvadrerede residualer n i=1 e2 i minimeres. Dette giver ˆβ = n i=1 (x i x)(y i ȳ) n i=1 (x i x) og ˆα = ȳ ˆβ x I regnvejrseksemplet fås: ˆβ = 6.324 og ˆα = 153.2 9/19

Estimation af σ 2 Estimat af σ 2 : s 2 = 1 n 2 n (y i ŷ i ) 2 n 2: mister 2 frihedsgrader ved estimation af de 2 ukendte middelværdiparametre α og β. i=1 10/19

Check af modellens forudsætninger Husk ǫ i uafhængige og N(0, σ 2 ). ǫ i = y i (α + βx i ) estimeres af residualer e i = y i (ˆα + ˆβx i ) Histogram og QQ plot af e i : Histogram of res Normal Q Q Plot Frequency 0 1 2 3 4 Sample Quantiles 3 2 1 0 1 2 3 4 2 0 2 4 res 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Et par rigeligt store residualer - men ikke usædvanligt for så lille n. 11/19

Varianshomogenitet Ifølge modelantagelse har alle fejl ǫ i samme varians σ 2. Eksempel Typisk afvigelse er, at varians voksende/aftagende funktion af α + βx i : y vs. x residuals vs. ŷ 5 10 15 res 0 5 10 y 1 2 3 4 5 x 3 4 5 6 7 hat y 12/19

For regn/forureningsdata res 3 2 1 0 1 2 3 105 110 115 120 125 130 135 140 yhat Ingen systematisk sammenhæng 13/19

Statistisk inferens vedr. α og β ˆα og ˆβ funktioner af y 1,...,y n dvs. stokastiske variable. Fordeling af ˆα og ˆβ: ˆβ β S/ SS xx og ˆα α S SS x /(nss xx ) er begge t(n 2) fordelte (SS x = n i=1 x2 i og SS xx = n i=1 (x i x) 2 ). Dvs. konfidensintervaller og hypotese-test helt analog til konfidensintervaller og test for µ (σ ukendt). 14/19

Eksempel: Konfidensintervaller og hypoteser for β Konfidensinterval: t 1 α/2 ˆβ β S/ t α/2 SS xx S ˆβ + t 1 α/2 β ˆβ + t α/2 SSxx Hypotese-test: Hypotesen H 0 : β = β 0 accepteres hvis t 1 α/2 og t α/2 (n 2 frihedsgrader). S SSxx ˆβ β 0 S/ SS xx ligger mellem 15/19

Determinationskoefficient R 2 R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 mål for hvor megen variation, der beskrives af regressionslinie. Hvis lineær regressionsmodel ikke er forbedring i forhold til model hvor alle observationer har samme middelværdi µ gælder residualvariation fra regressionen totalvariation af y ( n ) n (y i ŷ i ) 2 (y i ȳ) 2 i=1 Dermed fås lille R 2, dvs. tæt på 0. Omvendt R 2 tæt på 1 hvis lineær regression god beskrivelse af data. i=1 16/19

Estimation/Prediktion Lad x 0 være en værdi af den forklarende variabel og antag y 0 uobserveret Vi kan nu være interesseret i at estimere µ y x0 = E(y 0 ) = α + βx 0 (deterministisk størrelse) eller prediktere y 0 = α + βx 0 + ǫ (stokastisk variabel). I begge tilfælde er bedste estimat/prediktor givet ved ŷ 0 = ˆα+ ˆβx 0. Konfidensinterval for E(y 0 ) (hvor ligger linjen): 1 ŷ 0 t α/2 s n + (x 0 x) 2 1 < µ S y x0 < ŷ 0 + t α/2 s xx n + (x 0 x) 2 S xx Prediktionsinterval for y 0 (hvor ligger ny observation): ŷ 0 t α/2 s 1 + 1 n + (x 0 x) 2 < y 0 < ŷ 0 +t S α/2 s 1 + 1 xx n + (x 0 x) 2 S xx 17/19

Estimation/Prediktion Bemærk: prediktionsfejlen er estimationsfejl af E(y 0 ) plus variation af ny observation. Derfor er prediktionsinterval for y 0 bredere end konfidensinterval for E(y 0 ). Regnvejrs/forureningsdata: y 110 120 130 140 2 3 4 5 6 7 x 18/19

Lineær regression i SPSS Gå ind i Analyze Regression Linear. Under Statistics og Plots kan konfidensintervaller, residual-plots osv. findes. Alternativt kan man bruge Analyze Regression Curve Estimation - den viser et plot af data med linjen. 19/19