Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation af betinget standardafvigelse........................ 5 2.4 Test for uafhængighed.................................. 6 2.5 Konfidensinterval for hældning.............................. 7 3 Korrelation 8 4 R-i-anden: Reduktion i prædiktionsfejl 9 1
1 Regressionsproblemet Vi vil gerne prædiktere Vi skal kigge på det indbyggede datasæt trees i pakken datasets, hvor hjælpesiden om datarammen fortæller om et forsøg, hvor der er foretaget målinger på 31 tilfældigt udvalgte træer: A data frame with 31 observations on 3 variables.,1 Girth numeric Tree diameter in inches,2 Height numeric Height in ft,3 Volume numeric Volume of timber in cubic ft Vi vil gerne forudsige trævolumen(volume), hvis vi måler træets højde(height) og/eller træets diameter(girth) i ca 1.5m s højde. Denne type af problemstilling kaldes regression Terminologi er i denne sammenhæng Vi måler en kvantitativ respons y, fex volumen. I sammenhæng med responsværdien y måles en(senere kigger vi på flere) potentielt forklarende variabel x. Et andet navn for den forklarende variabel er prædiktor(forudsiger). Indledende grafik Al analyse starter med relevant grafik. Graphs/ scatterplot matrix... Girth 65 70 75 80 85 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 Kommentarer: 8 10 12 14 16 18 20 10 20 30 40 50 60 70 I diagonalen kan vi se udglattede histogrammer af de tre variables fordeling. 2
For hver kombination af variable plottes (x, y). Tillige indlægges en tendenslinie(sort) og en glat kurve(rød), som prøver at fange mønsteret i sammenhæng mellem respons og prædiktor. Det ser ud til at Girth er en god prædiktor for Volume. 2 Simpel lineær regression Simpel regression Det er essentielt at have simple modeller. Vi vælger at bruge x=girth som prædiktor for y=volume. Når vi kun bruger en prædiktor taler vi om simpel regression. Den mest enkle model til at beskrive en sammenhæng mellem respons y og en prædiktor x er simpel lineær regression. Dvs at vi ideelt ser billedet y(x) = α + βx Hvor α kaldes Intercept - liniens skæring med y-aksen, svarende til respons på x = 0. Hvor β kaldes Slope - liniens hældning, svarende til ændringen i respons, når vi skruer en enhed op for prædiktoren. Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 Girth 2.1 Mindste kvadraters tilpasning Model for lineær regression Stikprøve med samhørende målinger (x, y) af prædiktor og respons. Ideelt set siger modellen at y(x) = α + βx, men pga tilfældig variation er der afvigelser fra linien. Ift træerne skyldes dette naturlige variationer i jordbund, mikroklima, lokalmiljø, osv. Det vi observerer kan således beskrives ved 3
y = α + βx + ε hvor ε er en tilfældig fejl, som giver en afvigelse fra linien. Vi skal arbejde videre under følgende grundliggende antagelse: Fejlene ε er en stikprøve fra en population med middelværdi nul og standardafvigelse σ y x, dvs E(ε 2 ) = σ 2 y x. Vi kalder σ y x den betingede standardafvigelse givet x, idet den beskriver variationen i y, når vi kender x. Mindste kvadrater Sammenfattende står vi med en model med 3 parametre: (α, β) som fastlægger linien σ y x som er standardafvigelsen på afvigelserne fra linien. Hvordan skal disse estimeres, når vi har en stikprøve af (x, y) værdier?? Vi fokuserer på fejlene ε = y α βx som helst skal være små for at linien er tilpasset data. Aktuelt vil vi vælge den linie, som minimerer kvadratsummen af fejlene: ε 2 = (y α βx) 2 Hvis vi sætter de partielle afledede lig nul fås 2 lineære ligninger for de ubekendte (α, β), hvor løsningen (a, b) er givet ved: b = (x x)(y ȳ) (x x) 2 og a = ȳ b x 4
2.2 Prædiktion og residualer Prædiktionsligningen Ligningen hørende til estimaterne (ˆα, ˆβ) = (a, b) ŷ = a + bx kaldes prædiktionsligningen, idet den kan bruges til at forudsige y for enhver værdi af x. Bemærk: Prædiktionsligningen er bestemt af den aktuelle stikprøve. Dvs behæftet med usikkerhed. En ny stikprøve vil uden tvivl give en anden prædiktionsligning. Vores bedste bud på fejlene er e = y ŷ = y a bx dvs de lodrette afvigelser fra prædiktionslinien. Disse størrelser kaldes residualer. Der gælder Prædiktionslinien går gennem punktet ( x, ȳ). Summen af residualerne er nul. 2.3 Estimation af betinget standardafvigelse Betinget standardafvigelse σy x 2 er middelværdien af kvadratet på en fejl ε2. I forhold til at estimere σy x 2 er det derfor relevant at kigge på SSE = e 2 = (y ŷ) 2 : Sum of Squared Errors. Vi estimerer σ y x ved størrelsen s y x = SSE n 2 I stedet for n divideres SSE med frihedsgradstallet df = n 2. Teori viser, at dette er fornuftigt. Bl.a. får man et unbiased estimat for σ 2 y x. df er bestemt ved stikprøvestørrelsen minus antallet af parametre i regressionsmodellen. Aktuelt har vi 2 parametre: (α, β). 5
Eksempel Statistics/Fit models/ Linear regression... De estimerede residualer varierer fra -8.065 til 9.578 med median 0.152. Estimatet for Intercept er a = 36.9435 Estimatet for hældning til Girth er b = 5.0659 Estimatet for residualernes standardfejl er s y x = 4.252 med 31 2 = 29 frihedsgrader. 2.4 Test for uafhængighed Uafhængighed Vi betragter regressionsmodellen y = α + βx + ε hvor vi på basis af en stikprøve beregner estimater (a, b) for (α, β), estimat s y x for σ y x og frihedsgrader df = n 2. Vi skal teste H 0 : β = 0 mod H a : β 0 dvs nulhypotesen specificerer, at y er uafhængig af x. Spørgsmålet er mao: Ligger b langt væk fra nul? Det kan vises at b har standardfejl se b = s y x (x x) 2 6
med df frihedsgrader. Vi skal således basere testet på teststatistikken t = b se b som skal vurderes i en t-fordeling med df frihedsgrader. Eksempel Vi har tidligere aflæst b = 5.0659 s y x = 4.252 med df = 29 frihedsgrader I anden søjle(std. Error) kan vi aflæse se b = 0.2474 dvs følgende t-score t = b se b = 5.0659 0.2474 = 20.48 som også kan aflæses i tredie søjle(t value). Den tilhørende p-værdi findes som vanligt ved opslag i t-fordelingen med 29 frihedsgrader. Aktuelt vises fjerde søjle(pr(> t )) at p-værdien er mindre end 2 10 16. Det vidste vi godt med en t-score langt over 3. 2.5 Konfidensinterval for hældning Konfidensinterval Når vi har standardfejl og referencefordeling konstrueres et konfidensinterval på sædvanlig vis: b ± tse b hvor t-scoren bestemmes af konfidensgraden. I vort eksempel har vi 29 frihedsgrader og med en konfidensgrad på 95% er t = 2.045. Hvis man er doven: Models/Confidence intervals... 7
dvs (4.56; 5.57) er et 95% konfidensinterval for hældningen til Girth. 3 Korrelation Korrelation Den estimerede hældning b i en lineær regression fortæller ikke noget om styrken af sammenhæng mellem y og x. Girth blev målt i inches, men hvis vi i stedet måler i kilometer bliver hældningen meget større: En tilvækst på 1km i Girth giver en gigantisk tilvækst i Volume. Lad s y hhv s x være stikprøve standardafvigelse på y hhv x. De tilhørende t-scores y t = y s y og x t = x s x er uafhængige af den valgte måleskala. Den tilhørende prædiktionsligning bliver så ŷ t = a s y + sx s y bx t dvs den standardiserede regressionskoefficient(hældning) er r = sx s y b hvilket også kaldes korrelationen mellem y og x. Korrelation Det kan vises at 1 r 1 den absolutte værdi af r måler styrken af afhængighed mellem y og x. 8
Når r = 1 ligger alle punkterne på prædiktionslinien, som har positiv hældning. Når r = 1 ligger alle punkterne på prædiktionslinien, som har negativ hældning. Statistics/Summaries/Correlation matrix... Der er en kraftig positiv korrelation mellem Volume og Girth (r=0.967). 4 R-i-anden: Reduktion i prædiktionsfejl r 2 : Reduktion i prædiktionsfejl Vi vil sammenligne to modeller til at forudsige responsen y. Model1: Vi udnytter ikke kendskabet til x, og bruger ȳ til at forudsige en y-måling. Den tilhørende prædiktionsfejl defineres som E 1 = (y ȳ) 2 Model2: Vi bruger prædiktionsligningen ŷ = a + bx til at forudsige y. prædiktionsfejl bliver Den tilhørende E 2 = (y ŷ) 2 Vi definerer da r 2 = E 1 E 2 E 1 dvs den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. Grafisk illustration fra AGR 9
r 2 : Reduktion i prædiktionsfejl r 2 = E 1 E 2 E 1 Den procentvise reduktion i prædiktionsfejlen, når vi inddrager x som forklarende variabel. For den simple lineære regression gælder at E 1 E 2 E 1 er lig med kvadratet på korrelationen mellem y og x, så det giver god mening at benævne den r 2. Vi kan aflæse r 2 = 0.9353, som må siges at være en høj forklaringsgrad. 10