1 Regressionsproblemet 2

Relaterede dokumenter
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Kapitel 11 Lineær regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Perspektiver i Matematik-Økonomi: Linær regression

Simpel Lineær Regression

Modul 11: Simpel lineær regression

1 Multipel lineær regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Lineær Regression

1 Multipel lineær regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Simpel Lineær Regression: Model

Modul 6: Regression og kalibrering

To samhørende variable

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression i SAS. Lineær regression i SAS p.1/20

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

1 Hb SS Hb Sβ Hb SC = , (s = )

Modul 12: Regression og korrelation

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Statistik Lektion 4. Variansanalyse Modelkontrol

Kvantitative metoder 2

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsning eksamen d. 15. december 2008

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 16 Multipel Lineær Regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 3: Statistiske modeller

Kursus 02402/02323 Introducerende Statistik

Lineære normale modeller (4) udkast

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Løsninger til kapitel 14

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Løsning til eksaminen d. 29. maj 2009

Kvantitative metoder 2

Nanostatistik: Lineær regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Appendiks Økonometrisk teori... II

(studienummer) (underskrift) (bord nr)

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Eksamen i Statistik for biokemikere. Blok

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Opgavebesvarelse, brain weight

Kvadratisk regression

Kvantitative metoder 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Transkript:

Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation af betinget standardafvigelse........................ 5 2.4 Test for uafhængighed.................................. 6 2.5 Konfidensinterval for hældning.............................. 7 3 Korrelation 8 4 R-i-anden: Reduktion i prædiktionsfejl 9 1

1 Regressionsproblemet Vi vil gerne prædiktere Vi skal kigge på det indbyggede datasæt trees i pakken datasets, hvor hjælpesiden om datarammen fortæller om et forsøg, hvor der er foretaget målinger på 31 tilfældigt udvalgte træer: A data frame with 31 observations on 3 variables.,1 Girth numeric Tree diameter in inches,2 Height numeric Height in ft,3 Volume numeric Volume of timber in cubic ft Vi vil gerne forudsige trævolumen(volume), hvis vi måler træets højde(height) og/eller træets diameter(girth) i ca 1.5m s højde. Denne type af problemstilling kaldes regression Terminologi er i denne sammenhæng Vi måler en kvantitativ respons y, fex volumen. I sammenhæng med responsværdien y måles en(senere kigger vi på flere) potentielt forklarende variabel x. Et andet navn for den forklarende variabel er prædiktor(forudsiger). Indledende grafik Al analyse starter med relevant grafik. Graphs/ scatterplot matrix... Girth 65 70 75 80 85 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 Kommentarer: 8 10 12 14 16 18 20 10 20 30 40 50 60 70 I diagonalen kan vi se udglattede histogrammer af de tre variables fordeling. 2

For hver kombination af variable plottes (x, y). Tillige indlægges en tendenslinie(sort) og en glat kurve(rød), som prøver at fange mønsteret i sammenhæng mellem respons og prædiktor. Det ser ud til at Girth er en god prædiktor for Volume. 2 Simpel lineær regression Simpel regression Det er essentielt at have simple modeller. Vi vælger at bruge x=girth som prædiktor for y=volume. Når vi kun bruger en prædiktor taler vi om simpel regression. Den mest enkle model til at beskrive en sammenhæng mellem respons y og en prædiktor x er simpel lineær regression. Dvs at vi ideelt ser billedet y(x) = α + βx Hvor α kaldes Intercept - liniens skæring med y-aksen, svarende til respons på x = 0. Hvor β kaldes Slope - liniens hældning, svarende til ændringen i respons, når vi skruer en enhed op for prædiktoren. Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 Girth 2.1 Mindste kvadraters tilpasning Model for lineær regression Stikprøve med samhørende målinger (x, y) af prædiktor og respons. Ideelt set siger modellen at y(x) = α + βx, men pga tilfældig variation er der afvigelser fra linien. Ift træerne skyldes dette naturlige variationer i jordbund, mikroklima, lokalmiljø, osv. Det vi observerer kan således beskrives ved 3

y = α + βx + ε hvor ε er en tilfældig fejl, som giver en afvigelse fra linien. Vi skal arbejde videre under følgende grundliggende antagelse: Fejlene ε er en stikprøve fra en population med middelværdi nul og standardafvigelse σ y x, dvs E(ε 2 ) = σ 2 y x. Vi kalder σ y x den betingede standardafvigelse givet x, idet den beskriver variationen i y, når vi kender x. Mindste kvadrater Sammenfattende står vi med en model med 3 parametre: (α, β) som fastlægger linien σ y x som er standardafvigelsen på afvigelserne fra linien. Hvordan skal disse estimeres, når vi har en stikprøve af (x, y) værdier?? Vi fokuserer på fejlene ε = y α βx som helst skal være små for at linien er tilpasset data. Aktuelt vil vi vælge den linie, som minimerer kvadratsummen af fejlene: ε 2 = (y α βx) 2 Hvis vi sætter de partielle afledede lig nul fås 2 lineære ligninger for de ubekendte (α, β), hvor løsningen (a, b) er givet ved: b = (x x)(y ȳ) (x x) 2 og a = ȳ b x 4

2.2 Prædiktion og residualer Prædiktionsligningen Ligningen hørende til estimaterne (ˆα, ˆβ) = (a, b) ŷ = a + bx kaldes prædiktionsligningen, idet den kan bruges til at forudsige y for enhver værdi af x. Bemærk: Prædiktionsligningen er bestemt af den aktuelle stikprøve. Dvs behæftet med usikkerhed. En ny stikprøve vil uden tvivl give en anden prædiktionsligning. Vores bedste bud på fejlene er e = y ŷ = y a bx dvs de lodrette afvigelser fra prædiktionslinien. Disse størrelser kaldes residualer. Der gælder Prædiktionslinien går gennem punktet ( x, ȳ). Summen af residualerne er nul. 2.3 Estimation af betinget standardafvigelse Betinget standardafvigelse σy x 2 er middelværdien af kvadratet på en fejl ε2. I forhold til at estimere σy x 2 er det derfor relevant at kigge på SSE = e 2 = (y ŷ) 2 : Sum of Squared Errors. Vi estimerer σ y x ved størrelsen s y x = SSE n 2 I stedet for n divideres SSE med frihedsgradstallet df = n 2. Teori viser, at dette er fornuftigt. Bl.a. får man et unbiased estimat for σ 2 y x. df er bestemt ved stikprøvestørrelsen minus antallet af parametre i regressionsmodellen. Aktuelt har vi 2 parametre: (α, β). 5

Eksempel Statistics/Fit models/ Linear regression... De estimerede residualer varierer fra -8.065 til 9.578 med median 0.152. Estimatet for Intercept er a = 36.9435 Estimatet for hældning til Girth er b = 5.0659 Estimatet for residualernes standardfejl er s y x = 4.252 med 31 2 = 29 frihedsgrader. 2.4 Test for uafhængighed Uafhængighed Vi betragter regressionsmodellen y = α + βx + ε hvor vi på basis af en stikprøve beregner estimater (a, b) for (α, β), estimat s y x for σ y x og frihedsgrader df = n 2. Vi skal teste H 0 : β = 0 mod H a : β 0 dvs nulhypotesen specificerer, at y er uafhængig af x. Spørgsmålet er mao: Ligger b langt væk fra nul? Det kan vises at b har standardfejl se b = s y x (x x) 2 6

med df frihedsgrader. Vi skal således basere testet på teststatistikken t = b se b som skal vurderes i en t-fordeling med df frihedsgrader. Eksempel Vi har tidligere aflæst b = 5.0659 s y x = 4.252 med df = 29 frihedsgrader I anden søjle(std. Error) kan vi aflæse se b = 0.2474 dvs følgende t-score t = b se b = 5.0659 0.2474 = 20.48 som også kan aflæses i tredie søjle(t value). Den tilhørende p-værdi findes som vanligt ved opslag i t-fordelingen med 29 frihedsgrader. Aktuelt vises fjerde søjle(pr(> t )) at p-værdien er mindre end 2 10 16. Det vidste vi godt med en t-score langt over 3. 2.5 Konfidensinterval for hældning Konfidensinterval Når vi har standardfejl og referencefordeling konstrueres et konfidensinterval på sædvanlig vis: b ± tse b hvor t-scoren bestemmes af konfidensgraden. I vort eksempel har vi 29 frihedsgrader og med en konfidensgrad på 95% er t = 2.045. Hvis man er doven: Models/Confidence intervals... 7

dvs (4.56; 5.57) er et 95% konfidensinterval for hældningen til Girth. 3 Korrelation Korrelation Den estimerede hældning b i en lineær regression fortæller ikke noget om styrken af sammenhæng mellem y og x. Girth blev målt i inches, men hvis vi i stedet måler i kilometer bliver hældningen meget større: En tilvækst på 1km i Girth giver en gigantisk tilvækst i Volume. Lad s y hhv s x være stikprøve standardafvigelse på y hhv x. De tilhørende t-scores y t = y s y og x t = x s x er uafhængige af den valgte måleskala. Den tilhørende prædiktionsligning bliver så ŷ t = a s y + sx s y bx t dvs den standardiserede regressionskoefficient(hældning) er r = sx s y b hvilket også kaldes korrelationen mellem y og x. Korrelation Det kan vises at 1 r 1 den absolutte værdi af r måler styrken af afhængighed mellem y og x. 8

Når r = 1 ligger alle punkterne på prædiktionslinien, som har positiv hældning. Når r = 1 ligger alle punkterne på prædiktionslinien, som har negativ hældning. Statistics/Summaries/Correlation matrix... Der er en kraftig positiv korrelation mellem Volume og Girth (r=0.967). 4 R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl Vi vil sammenligne to modeller til at forudsige responsen y. Model1: Vi udnytter ikke kendskabet til x, og bruger ȳ til at forudsige en y-måling. Den tilhørende prædiktionsfejl defineres som E 1 = (y ȳ) 2 Model2: Vi bruger prædiktionsligningen ŷ = a + bx til at forudsige y. prædiktionsfejl bliver Den tilhørende E 2 = (y ŷ) 2 Vi definerer da r 2 = E 1 E 2 E 1 dvs den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. Grafisk illustration fra AGR 9

r 2 : Reduktion i prædiktionsfejl r 2 = E 1 E 2 E 1 Den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. For den simple lineære regression gælder at E 1 E 2 E 1 er lig med kvadratet på korrelationen mellem y og x, så det giver god mening at benævne den r 2. Vi kan aflæse r 2 = 0.9353, som må siges at være en høj forklaringsgrad. 10