To samhørende variable



Relaterede dokumenter
Modul 6: Regression og kalibrering

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Økonometri Lektion 1 Simpel Lineær Regression 1/31

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Forelæsning 11: Kapitel 11: Regressionsanalyse

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Modul 11: Simpel lineær regression

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Simpel Lineær Regression: Model

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kapitel 11 Lineær regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Rygtespredning: Et logistisk eksperiment

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Løsning til øvelsesopgaver dag 4 spg 5-9

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Module 1: Introduktion til R, simpel regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Multipel Lineær Regression

Modelkontrol i Faktor Modeller

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Kvantitative metoder 2

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Kursus 02402/02323 Introducerende Statistik

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Statistik II 4. Lektion. Logistisk regression

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Statistik Lektion 16 Multipel Lineær Regression

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Susanne Ditlevsen Institut for Matematiske Fag susanne

Ekstremregn i Danmark

Module 3: Statistiske modeller

Statistik Lektion 17 Multipel Lineær Regression

Repetition Stokastisk variabel

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Skriftlig eksamen Science statistik- ST501

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

En Introduktion til SAS. Kapitel 5.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Bilag 7. SFA-modellen

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Modul 12: Regression og korrelation

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Løsning til eksaminen d. 14. december 2009

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Modul 12: Exercises Sukkersygepatienters vægt

Reeksamen i Statistik for Biokemikere 6. april 2009

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Perspektiver i Matematik-Økonomi: Linær regression

Fokus på Forsyning. Datagrundlag og metode

Module 12: Mere om variansanalyse

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Appendiks A Anvendte test statistikker

Kvantitative metoder 2

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

En Introduktion til SAS. Kapitel 6.

Module 9: Residualanalyse

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Module 4: Ensidig variansanalyse

Statistik Formelsamling. HA Almen, 1. semester

Transkript:

To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen mellem x og y? Hvordan påvirkes x af y? Eller y af x?

1. x er årsag til y. Jo mere vind, jo mere vindmøllestrøm produceres. 2. x og y påvirker hinanden. Prisen på et produkt hænger tæt sammen med efterspørgslen. 3. x og y kan begge være forårsaget af en tredje variabel z. Større næringsindhold i jorden medfører øget vækst for både nytteplanter og ukrudt. 4. x og y kan hænge sammen ved rene tilfældigheder. Små datasæt har ofte "mærkelige" strukturer.

Empirisk kovarians og korrelation Empirisk kovarians: n s xy 1 n 1 i 1 x i x y i ȳ. Korrelationskoefficient: r xy 1, 1 r xy s xy s x s y n 1 n 1 i 1 x i x s x y i ȳ s y Determinationskoefficient: r xy 2 0, 1, udtrykkes ofte i procent. Mål for associationen mellem x og y.

Simpel lineær regression Antagatviharn observationspar x 1, y 1,, x n,y n. Angiver samhørende værdier for variablene x og y. Linear regression adskiller sig fra korrelation ved følgende: 1. Vi ønsker at prædiktere (forudsige) y fra x. 2. Vi skal vælge en responsvariabel y og en forklarende variabel x. Eksempel Vindenergi En undersøgelse blev lavet for at finde ud af, hvordan strømproduktionen (y) fra vindmøller afhænger af vindhastigheden (x).

Current output 2.0 1.5 1.0 0.5 0.0 4 6 8 10 Wind speed Strømproduktion og vindhastighed.

Vi ønsker at prædiktere y ud fra x. Der skelnes mellem to tilfælde: 1. x er kontrolleret (konstant), mens y svarer til en stokastisk variabel Y. 2. x svarer til en stokastisk variabel X ligesåvelsomy svarer til Y. Vi taler også om regression af y på x. I begge tilfælde (1. og 2.) behandler vi x som konstant og Y som stokastisk. Bemærk: r xy og s xy spiller en vis praktisk rolle i regression, men da x betragtes som konstant, giver X, Y ikke altid mening.

Eksempel Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x, hurtig, men ikke særlig præcis) Berg score (y, langsom, men præcis) Begge svarer til stokastiske variable, hhv. X og Y.

Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Berg score mod TUG score.

Den lineære regressionsmodel Data x 1, y 1,, x n, y n, hvor x 1,,x n er konstanter. y 1,, y n er observationer fra uafhængige stokastiske variable Y 1,, Y n. Sammenængen mellem x og Y er givet ved Y i x i e i, i 1,,n,, R er ukendte regressionsparametre. Om fejlleddet e i gælder e i N 0, 2 for i 1,, n uafhængige. 2 kaldes for variansparameteren, eller residualvariansen.

Model Y i x i e i, i 1,, n, uafhængige. Sammenfatning: Dererfireantagelserilineærregression: 1. Y 1,, Y n er indbyrdes uafhængige. 2. e i -erne er normalfordelte. 3. Lineær sammenhæng mellem x og y: y x 4. Variansen er konstant (den samme for alle i) Var Y i Var e i 2 for i 1,,n. Fortolkning af regressionsparametre: : Forventet værdi af Y, når x 0. : Forventet ændring i Y, når værdien af x øges til x 1.

2 : Den lodrette variation for hver givet værdi af x.

Estimation af parametre Find den rette linje som passer bedst med data: y x Her er og estimater for parametrene. Residualer: de lodrette afvigelser mellem data og linje ê i y i x i, i 1,,n. Vælg og så residualerne er små i absolut værdi.

Least squares (mindste kvadraters) metoden Minimer kvadratsummen af fejlled m.h.t. og : Løs n i 1 n i 1 n e i 2 i 1 e i 2 0og y i x i 2. n i 1 e i 2 0. Least squares (mindste kvadraters) estimater: n x i 1 i x y i ȳ n s xy x i x 2 i 1 ȳ x s x 2 r xy s y s x

Estimeret regressionslinje: y x. Fittede (prædikterede) værdier: ŷ i x i, i 1, 2,,n. Eksempel Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score x og Berg score Y. Least squares linjen: y 61. 314 1. 340x.

Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Mobilitetsdata: de observerede residualer.

Estimat af residualvarians: 2 s 2 1 n 2 y i 2 x i. i 1 (Residual Mean Square Error). Har n 2 frihedsgrader. Bemærk: Måler variationen omkring regressionslinjen. Unbiased estimat, dvs. har den korrekte middelværdi E S 2 2 n

Modelkontrol Modelantagelser for i 1,, n: Y i e i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E Y i x i E e i 0 4 Var Y i 2 Var e i 2 Check 2 med et QQ plot for standardiserede residualer Check 3 4 med residualplot for standardiserede residualer

Standardiserede residualer Check om e i N 0, 2 : 1. Skal bruge fejlledene e i Y i x i 2. Forslag: Brug residualerne ê i y i x i. 3. Problem: kanviseatê i kommer fra N 0, 2 1 h i,med h i 1 n x i x 2 n i 1 x i x 2 Standardiserede residualer fra N 0, 2 : ê i ê i. 1 h i Tegn standardiserede residualer mod forventede værdier:

Tegn: xi, ê i, i 1,2,,n.

Berg score 30 35 40 45 50 55 60 8 10 12 14 16 TUG score Mobilitetsdata: least squares linjen.

standardised residuals -4-2 0 2 4 6 normal quantiles -2-1 0 1 2 40 42 44 46 48 50 52-4 -2 0 2 4 6 fitted values observed quantiles Mobilitetsdata: modelcheck.

normal quantiles -2-1 0 1 2 residuals -0.6-0.4-0.2 0.0 0.2-0.6-0.4-0.2 0.0 0.2 1.0 1.5 2.0 2.5 observed quantiles fitted values Strøm og vind: modelcheck.

Current output 2.0 1.5 1.0 0.5 0.0 4 6 8 10 Wind speed Strømproduktion og vindhastighed.

output 0.5 1.0 1.5 2.0 0.10 0.15 0.20 0.25 0.30 0.35 0.40 in vspeed Strømproduktion og 1/vindhastighed.

normal quantiles -2-1 0 1 2 residuals -0.2-0.1 0.0 0.1-0.2-0.1 0.0 0.1 0.5 1.0 1.5 2.0 observed quantiles fitted values Strøm og 1/vindhastighed: modelcheck.

Modelkontrol Y i e i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E Y i x i E e i 0 4 Var Y i 2 Var e i 2 Hvis residualplottet viser: Krum form: Antagelse 3 forkert. Trompetform: Antagelse 4 forkert. Intet mønster ("skyform"): Antagelser OK.

Resumé: Model hvor Y i x i e i, i 1,,n, e i N 0, 2 uafhængige i 1,,n. Estimat for hældning n x i 1 i x y i ȳ n n y i 1 i x i x x i x 2 SS X i 1 hvor SS X n i 1 x i x 2. Følger af at

n i 1 For intercept x i x y i ȳ n i 1 n i 1 n x i x y i ȳ i 1 x i x y i ȳ x x i x og for varians med n 2 frihedsgrader. n s 2 1 n 2 i 1 y i x i 2