1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3 Korrelation 4 R-i-anden: Reduktion i prædiktionsfejl PSE (I17) ASTA - 10. lektion 1 / 17
Regressionsproblemet Vi vil gerne prædiktere Vi skal kigge på det indbyggede datasæt trees i pakken datasets, hvor hjælpesiden om datarammen fortæller om et forsøg, hvor der er foretaget målinger på 31 tilfældigt udvalgte træer: A data frame with 31 observations on 3 variables.,1 Girth numeric Tree diameter in inches,2 Height numeric Height in ft,3 Volume numeric Volume of timber in cubic ft Vi vil gerne forudsige trævolumen(volume), hvis vi måler træets højde(height) og/eller træets diameter(girth) i ca 1.5m s højde. Denne type af problemstilling kaldes regression Terminologi er i denne sammenhæng Vi måler en kvantitativ respons y, fex volumen. I sammenhæng med responsværdien y måles en(senere kigger vi på flere) potentielt forklarende variabel x. Et andet navn for den forklarende variabel er prædiktor(forudsiger). PSE (I17) ASTA - 10. lektion 2 / 17
Regressionsproblemet 8 10 12 14 16 18 20 65 70 75 80 85 10 20 30 40 50 60 70 Indledende grafik Al analyse starter med relevant grafik. Graphs/ scatterplot matrix... Girth 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 Kommentarer: I diagonalen kan vi se udglattede histogrammer af de tre variables fordeling. For hver kombination af variable plottes (x, y). Tillige indlægges en tendenslinie(sort) og en glat kurve(rød), som prøver at fange mønsteret i sammenhæng mellem respons og prædiktor. Det ser ud til at Girth er en god prædiktor for Volume. PSE (I17) ASTA - 10. lektion 3 / 17
Simpel regression Det er essentielt at have simple modeller. Vi vælger at bruge x=girth som prædiktor for y=volume. Når vi kun bruger en prædiktor taler vi om simpel regression. Den mest enkle model til at beskrive en sammenhæng mellem respons y og en prædiktor x er simpel lineær regression. Dvs at vi ideelt ser billedet y(x) = α + βx Hvor α kaldes Intercept - liniens skæring med y-aksen, svarende til respons på x = 0. Hvor β kaldes Slope - liniens hældning, svarende til ændringen i respons, når vi skruer en enhed op for prædiktoren. Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 Girth PSE (I17) ASTA - 10. lektion 4 / 17
Mindste kvadraters tilpasning Model for lineær regression Stikprøve med samhørende målinger (x, y) af prædiktor og respons. Ideelt set siger modellen at y(x) = α + βx, men pga tilfældig variation er der afvigelser fra linien. Ift træerne skyldes dette naturlige variationer i jordbund, mikroklima, lokalmiljø, osv. Det vi observerer kan således beskrives ved y = α + βx + ε hvor ε er en tilfældig fejl, som giver en afvigelse fra linien. Vi skal arbejde videre under følgende grundliggende antagelse: Fejlene ε er en stikprøve fra en population med middelværdi nul og standardafvigelse σ y x, dvs E(ε 2 ) = σ 2 y x. Vi kalder σ y x den betingede standardafvigelse givet x, idet den beskriver variationen i y, når vi kender x. PSE (I17) ASTA - 10. lektion 5 / 17
Mindste kvadraters tilpasning Mindste kvadrater Sammenfattende står vi med en model med 3 parametre: (α, β) som fastlægger linien σ y x som er standardafvigelsen på afvigelserne fra linien. Hvordan skal disse estimeres, når vi har en stikprøve af (x, y) værdier?? Vi fokuserer på fejlene ε = y α βx som helst skal være små for at linien er tilpasset data. Aktuelt vil vi vælge den linie, som minimerer kvadratsummen af fejlene: ε 2 = (y α βx) 2 Hvis vi sætter de partielle afledede lig nul fås 2 lineære ligninger for de ubekendte (α, β), hvor løsningen (a, b) er givet ved: b = (x x)(y ȳ) (x x) 2 og a = ȳ b x PSE (I17) ASTA - 10. lektion 6 / 17
Prædiktion og residualer Prædiktionsligningen Ligningen hørende til estimaterne (ˆα, ˆβ) = (a, b) ŷ = a + bx kaldes prædiktionsligningen, idet den kan bruges til at forudsige y for enhver værdi af x. Bemærk: Prædiktionsligningen er bestemt af den aktuelle stikprøve. Dvs behæftet med usikkerhed. En ny stikprøve vil uden tvivl give en anden prædiktionsligning. Vores bedste bud på fejlene er e = y ŷ = y a bx dvs de lodrette afvigelser fra prædiktionslinien. Disse størrelser kaldes residualer. Der gælder Prædiktionslinien går gennem punktet ( x, ȳ). Summen af residualerne er nul. PSE (I17) ASTA - 10. lektion 7 / 17
Estimation af betinget standardafvigelse Betinget standardafvigelse σ 2 y x er middelværdien af kvadratet på en fejl ε2. I forhold til at estimere σ 2 y x er det derfor relevant at kigge på SSE = e 2 = (y ŷ) 2 : Sum of Squared Errors. Vi estimerer σ y x ved størrelsen s y x = SSE n 2 I stedet for n divideres SSE med frihedsgradstallet df = n 2. Teori viser, at dette er fornuftigt. Bl.a. får man et unbiased estimat for σ 2 y x. df er bestemt ved stikprøvestørrelsen minus antallet af parametre i regressionsmodellen. Aktuelt har vi 2 parametre: (α, β). PSE (I17) ASTA - 10. lektion 8 / 17
Estimation af betinget standardafvigelse Eksempel Statistics/Fit models/ Linear regression... De estimerede residualer varierer fra -8.065 til 9.578 med median 0.152. Estimatet for Intercept er a = 36.9435 Estimatet for hældning til Girth er b = 5.0659 Estimatet for residualernes standardfejl er s y x = 4.252 med 31 2 = 29 frihedsgrader. PSE (I17) ASTA - 10. lektion 9 / 17
Test for uafhængighed Uafhængighed Vi betragter regressionsmodellen y = α + βx + ε hvor vi på basis af en stikprøve beregner estimater (a, b) for (α, β), estimat s y x for σ y x og frihedsgrader df = n 2. Vi skal teste H 0 : β = 0 mod H a : β 0 dvs nulhypotesen specificerer, at y er uafhængig af x. Spørgsmålet er mao: Ligger b langt væk fra nul? Det kan vises at b har standardfejl se b = s y x (x x) 2 med df frihedsgrader. Vi skal således basere testet på teststatistikken t = b se b som skal vurderes i en t-fordeling med df frihedsgrader. PSE (I17) ASTA - 10. lektion 10 / 17
Test for uafhængighed Eksempel Vi har tidligere aflæst b = 5.0659 s y x = 4.252 med df = 29 frihedsgrader I anden søjle(std. Error) kan vi aflæse se b = 0.2474 dvs følgende t-score t = b se b = 5.0659 0.2474 = 20.48 som også kan aflæses i tredie søjle(t value). Den tilhørende p-værdi findes som vanligt ved opslag i t-fordelingen med 29 frihedsgrader. Aktuelt vises fjerde søjle(pr(> t )) at p-værdien er mindre end 2 10 16. Det vidste vi godt med en t-score langt over 3. PSE (I17) ASTA - 10. lektion 11 / 17
Konfidensinterval for hældning Konfidensinterval Når vi har standardfejl og referencefordeling konstrueres et konfidensinterval på sædvanlig vis: b ± tse b hvor t-scoren bestemmes af konfidensgraden. I vort eksempel har vi 29 frihedsgrader og med en konfidensgrad på 95% er t = 2.045. Hvis man er doven: Models/Confidence intervals... dvs (4.56; 5.57) er et 95% konfidensinterval for hældningen til Girth. PSE (I17) ASTA - 10. lektion 12 / 17
Korrelation Korrelation Den estimerede hældning b i en lineær regression fortæller ikke noget om styrken af sammenhæng mellem y og x. Girth blev målt i inches, men hvis vi i stedet måler i kilometer bliver hældningen meget større: En tilvækst på 1km i Girth giver en gigantisk tilvækst i Volume. Lad s y hhv s x være stikprøve standardafvigelse på y hhv x. De tilhørende t-scores y t = y s y og x t = x s x er uafhængige af den valgte måleskala. Den tilhørende prædiktionsligning bliver så ŷ t = a s y + sx s y bx t dvs den standardiserede regressionskoefficient(hældning) er r = sx s y b hvilket også kaldes korrelationen mellem y og x. PSE (I17) ASTA - 10. lektion 13 / 17
Korrelation Korrelation Det kan vises at 1 r 1 den absolutte værdi af r måler styrken af afhængighed mellem y og x. Når r = 1 ligger alle punkterne på prædiktionslinien, som har positiv hældning. Når r = 1 ligger alle punkterne på prædiktionslinien, som har negativ hældning. Statistics/Summaries/Correlation matrix... Der er en kraftig positiv korrelation mellem Volume og Girth (r=0.967). PSE (I17) ASTA - 10. lektion 14 / 17
R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl Vi vil sammenligne to modeller til at forudsige responsen y. Model1: Vi udnytter ikke kendskabet til x, og bruger ȳ til at forudsige en y-måling. Den tilhørende prædiktionsfejl defineres som E 1 = (y ȳ) 2 Model2: Vi bruger prædiktionsligningen ŷ = a + bx til at forudsige y. Den tilhørende prædiktionsfejl bliver Vi definerer da E 2 = (y ŷ) 2 r 2 = E 1 E 2 E 1 dvs den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. PSE (I17) ASTA - 10. lektion 15 / 17
R-i-anden: Reduktion i prædiktionsfejl Grafisk illustration fra AGR PSE (I17) ASTA - 10. lektion 16 / 17
R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl r 2 = E 1 E 2 E 1 Den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. For den simple lineære regression gælder at E 1 E 2 E 1 er lig med kvadratet på korrelationen mellem y og x, så det giver god mening at benævne den r 2. Vi kan aflæse r 2 = 0.9353, som må siges at være en høj forklaringsgrad. PSE (I17) ASTA - 10. lektion 17 / 17