Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Relaterede dokumenter
1 Regressionsproblemet 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Kapitel 11 Lineær regression

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

1 Multipel lineær regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Perspektiver i Matematik-Økonomi: Linær regression

Simpel Lineær Regression

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Modul 11: Simpel lineær regression

1 Multipel lineær regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Lineær Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Simpel Lineær Regression: Model

Modul 6: Regression og kalibrering

To samhørende variable

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Lineær regression i SAS. Lineær regression i SAS p.1/20

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik Lektion 4. Variansanalyse Modelkontrol

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Modul 12: Regression og korrelation

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kvantitative metoder 2

Statistik Lektion 16 Multipel Lineær Regression

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsning eksamen d. 15. december 2008

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 3: Statistiske modeller

Kursus 02402/02323 Introducerende Statistik

Lineære normale modeller (4) udkast

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Løsninger til kapitel 14

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Løsning til eksaminen d. 29. maj 2009

Kvantitative metoder 2

Nanostatistik: Lineær regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Appendiks Økonometrisk teori... II

(studienummer) (underskrift) (bord nr)

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Opgavebesvarelse, brain weight

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Eksamen i Statistik for biokemikere. Blok

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Opgavebesvarelse, brain weight

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Transkript:

1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3 Korrelation 4 R-i-anden: Reduktion i prædiktionsfejl PSE (I17) ASTA - 10. lektion 1 / 17

Regressionsproblemet Vi vil gerne prædiktere Vi skal kigge på det indbyggede datasæt trees i pakken datasets, hvor hjælpesiden om datarammen fortæller om et forsøg, hvor der er foretaget målinger på 31 tilfældigt udvalgte træer: A data frame with 31 observations on 3 variables.,1 Girth numeric Tree diameter in inches,2 Height numeric Height in ft,3 Volume numeric Volume of timber in cubic ft Vi vil gerne forudsige trævolumen(volume), hvis vi måler træets højde(height) og/eller træets diameter(girth) i ca 1.5m s højde. Denne type af problemstilling kaldes regression Terminologi er i denne sammenhæng Vi måler en kvantitativ respons y, fex volumen. I sammenhæng med responsværdien y måles en(senere kigger vi på flere) potentielt forklarende variabel x. Et andet navn for den forklarende variabel er prædiktor(forudsiger). PSE (I17) ASTA - 10. lektion 2 / 17

Regressionsproblemet 8 10 12 14 16 18 20 65 70 75 80 85 10 20 30 40 50 60 70 Indledende grafik Al analyse starter med relevant grafik. Graphs/ scatterplot matrix... Girth 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 Kommentarer: I diagonalen kan vi se udglattede histogrammer af de tre variables fordeling. For hver kombination af variable plottes (x, y). Tillige indlægges en tendenslinie(sort) og en glat kurve(rød), som prøver at fange mønsteret i sammenhæng mellem respons og prædiktor. Det ser ud til at Girth er en god prædiktor for Volume. PSE (I17) ASTA - 10. lektion 3 / 17

Simpel regression Det er essentielt at have simple modeller. Vi vælger at bruge x=girth som prædiktor for y=volume. Når vi kun bruger en prædiktor taler vi om simpel regression. Den mest enkle model til at beskrive en sammenhæng mellem respons y og en prædiktor x er simpel lineær regression. Dvs at vi ideelt ser billedet y(x) = α + βx Hvor α kaldes Intercept - liniens skæring med y-aksen, svarende til respons på x = 0. Hvor β kaldes Slope - liniens hældning, svarende til ændringen i respons, når vi skruer en enhed op for prædiktoren. Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 Girth PSE (I17) ASTA - 10. lektion 4 / 17

Mindste kvadraters tilpasning Model for lineær regression Stikprøve med samhørende målinger (x, y) af prædiktor og respons. Ideelt set siger modellen at y(x) = α + βx, men pga tilfældig variation er der afvigelser fra linien. Ift træerne skyldes dette naturlige variationer i jordbund, mikroklima, lokalmiljø, osv. Det vi observerer kan således beskrives ved y = α + βx + ε hvor ε er en tilfældig fejl, som giver en afvigelse fra linien. Vi skal arbejde videre under følgende grundliggende antagelse: Fejlene ε er en stikprøve fra en population med middelværdi nul og standardafvigelse σ y x, dvs E(ε 2 ) = σ 2 y x. Vi kalder σ y x den betingede standardafvigelse givet x, idet den beskriver variationen i y, når vi kender x. PSE (I17) ASTA - 10. lektion 5 / 17

Mindste kvadraters tilpasning Mindste kvadrater Sammenfattende står vi med en model med 3 parametre: (α, β) som fastlægger linien σ y x som er standardafvigelsen på afvigelserne fra linien. Hvordan skal disse estimeres, når vi har en stikprøve af (x, y) værdier?? Vi fokuserer på fejlene ε = y α βx som helst skal være små for at linien er tilpasset data. Aktuelt vil vi vælge den linie, som minimerer kvadratsummen af fejlene: ε 2 = (y α βx) 2 Hvis vi sætter de partielle afledede lig nul fås 2 lineære ligninger for de ubekendte (α, β), hvor løsningen (a, b) er givet ved: b = (x x)(y ȳ) (x x) 2 og a = ȳ b x PSE (I17) ASTA - 10. lektion 6 / 17

Prædiktion og residualer Prædiktionsligningen Ligningen hørende til estimaterne (ˆα, ˆβ) = (a, b) ŷ = a + bx kaldes prædiktionsligningen, idet den kan bruges til at forudsige y for enhver værdi af x. Bemærk: Prædiktionsligningen er bestemt af den aktuelle stikprøve. Dvs behæftet med usikkerhed. En ny stikprøve vil uden tvivl give en anden prædiktionsligning. Vores bedste bud på fejlene er e = y ŷ = y a bx dvs de lodrette afvigelser fra prædiktionslinien. Disse størrelser kaldes residualer. Der gælder Prædiktionslinien går gennem punktet ( x, ȳ). Summen af residualerne er nul. PSE (I17) ASTA - 10. lektion 7 / 17

Estimation af betinget standardafvigelse Betinget standardafvigelse σ 2 y x er middelværdien af kvadratet på en fejl ε2. I forhold til at estimere σ 2 y x er det derfor relevant at kigge på SSE = e 2 = (y ŷ) 2 : Sum of Squared Errors. Vi estimerer σ y x ved størrelsen s y x = SSE n 2 I stedet for n divideres SSE med frihedsgradstallet df = n 2. Teori viser, at dette er fornuftigt. Bl.a. får man et unbiased estimat for σ 2 y x. df er bestemt ved stikprøvestørrelsen minus antallet af parametre i regressionsmodellen. Aktuelt har vi 2 parametre: (α, β). PSE (I17) ASTA - 10. lektion 8 / 17

Estimation af betinget standardafvigelse Eksempel Statistics/Fit models/ Linear regression... De estimerede residualer varierer fra -8.065 til 9.578 med median 0.152. Estimatet for Intercept er a = 36.9435 Estimatet for hældning til Girth er b = 5.0659 Estimatet for residualernes standardfejl er s y x = 4.252 med 31 2 = 29 frihedsgrader. PSE (I17) ASTA - 10. lektion 9 / 17

Test for uafhængighed Uafhængighed Vi betragter regressionsmodellen y = α + βx + ε hvor vi på basis af en stikprøve beregner estimater (a, b) for (α, β), estimat s y x for σ y x og frihedsgrader df = n 2. Vi skal teste H 0 : β = 0 mod H a : β 0 dvs nulhypotesen specificerer, at y er uafhængig af x. Spørgsmålet er mao: Ligger b langt væk fra nul? Det kan vises at b har standardfejl se b = s y x (x x) 2 med df frihedsgrader. Vi skal således basere testet på teststatistikken t = b se b som skal vurderes i en t-fordeling med df frihedsgrader. PSE (I17) ASTA - 10. lektion 10 / 17

Test for uafhængighed Eksempel Vi har tidligere aflæst b = 5.0659 s y x = 4.252 med df = 29 frihedsgrader I anden søjle(std. Error) kan vi aflæse se b = 0.2474 dvs følgende t-score t = b se b = 5.0659 0.2474 = 20.48 som også kan aflæses i tredie søjle(t value). Den tilhørende p-værdi findes som vanligt ved opslag i t-fordelingen med 29 frihedsgrader. Aktuelt vises fjerde søjle(pr(> t )) at p-værdien er mindre end 2 10 16. Det vidste vi godt med en t-score langt over 3. PSE (I17) ASTA - 10. lektion 11 / 17

Konfidensinterval for hældning Konfidensinterval Når vi har standardfejl og referencefordeling konstrueres et konfidensinterval på sædvanlig vis: b ± tse b hvor t-scoren bestemmes af konfidensgraden. I vort eksempel har vi 29 frihedsgrader og med en konfidensgrad på 95% er t = 2.045. Hvis man er doven: Models/Confidence intervals... dvs (4.56; 5.57) er et 95% konfidensinterval for hældningen til Girth. PSE (I17) ASTA - 10. lektion 12 / 17

Korrelation Korrelation Den estimerede hældning b i en lineær regression fortæller ikke noget om styrken af sammenhæng mellem y og x. Girth blev målt i inches, men hvis vi i stedet måler i kilometer bliver hældningen meget større: En tilvækst på 1km i Girth giver en gigantisk tilvækst i Volume. Lad s y hhv s x være stikprøve standardafvigelse på y hhv x. De tilhørende t-scores y t = y s y og x t = x s x er uafhængige af den valgte måleskala. Den tilhørende prædiktionsligning bliver så ŷ t = a s y + sx s y bx t dvs den standardiserede regressionskoefficient(hældning) er r = sx s y b hvilket også kaldes korrelationen mellem y og x. PSE (I17) ASTA - 10. lektion 13 / 17

Korrelation Korrelation Det kan vises at 1 r 1 den absolutte værdi af r måler styrken af afhængighed mellem y og x. Når r = 1 ligger alle punkterne på prædiktionslinien, som har positiv hældning. Når r = 1 ligger alle punkterne på prædiktionslinien, som har negativ hældning. Statistics/Summaries/Correlation matrix... Der er en kraftig positiv korrelation mellem Volume og Girth (r=0.967). PSE (I17) ASTA - 10. lektion 14 / 17

R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl Vi vil sammenligne to modeller til at forudsige responsen y. Model1: Vi udnytter ikke kendskabet til x, og bruger ȳ til at forudsige en y-måling. Den tilhørende prædiktionsfejl defineres som E 1 = (y ȳ) 2 Model2: Vi bruger prædiktionsligningen ŷ = a + bx til at forudsige y. Den tilhørende prædiktionsfejl bliver Vi definerer da E 2 = (y ŷ) 2 r 2 = E 1 E 2 E 1 dvs den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. PSE (I17) ASTA - 10. lektion 15 / 17

R-i-anden: Reduktion i prædiktionsfejl Grafisk illustration fra AGR PSE (I17) ASTA - 10. lektion 16 / 17

R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl r 2 = E 1 E 2 E 1 Den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. For den simple lineære regression gælder at E 1 E 2 E 1 er lig med kvadratet på korrelationen mellem y og x, så det giver god mening at benævne den r 2. Vi kan aflæse r 2 = 0.9353, som må siges at være en høj forklaringsgrad. PSE (I17) ASTA - 10. lektion 17 / 17