Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af) Example 3.4 i BG, hvor x i angiver den i te journalists blodtryk og t i hans/hendes alder. Estimaterne er hvor β = SDD xt SSD t α = 1 [S x n βs ] t σ 2 s 2 02 = SSD 02 f 02 f 02 = n 2 n SSD 02 = (x i ( α + βt i )) 2. i=1 Her benyttes fodtegn 02 for at markere at SSD og variansskøn beregnes under modellen M 2. I SAS kaldes parameteren α iøvrigt for et intercept. Modellen kan i øvrigt skrives mere løst som blodtryk N(α + β alder, σ 2 ) 11
Følgende program kan benyttes. OPTIONS PAGESIZE=45 LINESIZE=80; DATA journalister; INPUT blodtryk alder@@; DATALINES; 188.7 68 184.2 62 151.3 49 182.4 62 138.3 34 181.8 66 155.1 45 178.3 60 179.4 57 171.5 57 177.9 63 172.5 56 169.3 57 ; Title1 lineær regression af blodtryk på alder ; PROC GLM DATA=journalister; MODEL blodtryk=alder/ss1 CLPARM; TITLE1; /*fjerner title1*/ Ved indlæsningen af data benyttes @@, der sikrer at vi kan placere flere observationer på samme linje. Efter indlæsning har datasættet journalister altså 13 observationer og to variable blodtryk og alder der angiver hhv. blodtryk og alder for de 13 journalister. I PROC GLM specificeres, at vi ønsker at benytte datasættet journalister. I MODEL-linjen angives, at vi vil betragte regressionen af blodtryk på alder. Kommandoen SS1 begrænser output, mens CLPARM giver 95% konfidensintervaller for α og β. Bemærk at SAS selv sørger for at inkludere et intercept i modellen, selvom denne parameter ikke direkte specificeres i MODEL-linjen. 12
Output er som følger: Dependent Variable: blodtryk lineær regression af blodtryk på alder 1 The GLM Procedure Number of observations 13 lineær regression af blodtryk på alder 2 The GLM Procedure Sum of Source DF Squares Mean Square F Value Pr > F Model 1 2416.964731 2416.964731 133.17 <.0001 Error 11 199.644500 18.149500 (=f 02 ) (= SSD 02 ) (=s 2 02 ) Corrected Total 12 2616.609231 R-Square Coeff Var Root MSE blodtryk Mean 0.923701 2.482759 4.260223 171.5923 Source DF Type I SS Mean Square F Value Pr > F alder 1 2416.964731 2416.964731 133.17 <.0001 Standard Parameter Estimate Error t Value Pr > t α Intercept 84.99521966 7.59658557 11.19 <.0001 β alder 1.52956813 0.13254581 11.54 <.0001 Parameter 95% Confidence Limits Intercept 68.27524756 101.71519175 alder 1.23783677 1.82129949 13
De vigtigste informationer finder vi i Error-linjen, under Source samt i linjen Parameter, så lad os kigge lidt nærmere på disse linjer. I Error-linjen aflæses frihedsgrader, SSD og variansskønnet hørende til modellen specificeret i Model-linjen. Under Parameter aflæses estimater for α og β, Standard Error, teststørrelse og testsandsynlighed for hhv. α = 0 og β = 0, samt grænserne for 95% konfidensintervallerne for de to parametre. Under source finder vi endnu et test for om alder kan fjernes. Mere præcist testes β = 0. Bemærk at F = 133.17 = 11.54 2, hvor 11.54 er t-teststørrelsen for β = 0 der aflæses under parameter. Anderledes skrevet er F -testet under source alder ækvivalent med t-testet under Parameter alder. Vi skal senere se hvorfor det er tilfældet. Bemærk yderligere at SAS ikke angiver et konfidensinterval for σ 2 værdierne under t value beregnes på sædvanlig vis. F.eks. er 11.19 = α 0 Std Errorr( α) 84.995 7.597 ; endvidere er grænserne for konfidensintervallerne beregnet efter formlen Estimate ± Std Error t 0.975 (DF ). 14
Der er andre måder hvorpå modellen kan gennemregnes i SAS. Antag at datasættet to prof har tre variable alder, blodtryk og gruppe hvor gruppe har niveauerne 1 og 2. Her angiver gruppe=1 at der er tale om en journalist og gruppe=2 at der er tale om en universitetslærer. Hvis vi benytter programstumpen PROC GLM data=to prof(where=(gruppe=1)); MODEL blodtryk=alder/ss1 CLPARM; fittes en lineær regression for gruppe 1, altså for journalister som ovenfor. Denne metode benyttes på siderne 144 146 i BG. Hvis vi benytter programstumpen PROC GLM data=to prof; MODEL blodtryk=alder/ss1 CLPARM; BY gruppe; fittes en lineær regression for hver af de to grupper. Denne metode benyttes på side 194 i BG. Her er det dog vigtigt at to prof er sorteret efter gruppe. Når vi ovenfor skriver (where=(gruppe=1)) så skyldes det, at vi antager at værdierne i gruppe indlæses som tal. Er dette ikke tilfældet, det vil sige at vi indlæser gruppe $, så skal vi skrive (where=(gruppe= 1 )). 15
16
Lineær regression uden intercept Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 3 : X i N(βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. hvor Bemærk at estimatet for σ 2 er σ 2 SSD 03 f 03 SSD 03 = n (x i βt i ) 2 i=1 f 03 = n 1 og β er maksimum likelihood estimatet for β under M 3. Vi betragter altså en lineær regression med intercept α = 0. Som illustration vil vi benytte datsættet journalister hvor x i angiver den i te journalists blodtryk og t i hans/hendes alder. Bemærk dog at modellen M 3 ikke giver en fornuftig beskrivelse af det konkrete datasæt. Modellen kan i øvrigt skrives mere løst som blodtryk N(β alder, σ 2 ) 17
Betragt programstumpen Title1 lineær regresion af blodtryk på alder uden intercept ; PROC GLM DATA=journalister; MODEL blodtryk=alder/noint SS1 CLPARM; TITLE1; /*fjerner title1*/ Her skal vi bemærke at kommandoen noint (der er kort for no intercept ) sikrer, at SAS fitter en model uden intercept. 18
Output er: lineær regresion af blodtryk på alder uden intercept 1 The GLM Procedure Number of observations 13 lineær regresion af blodtryk på alder uden intercept 2 Dependent Variable: blodtryk The GLM Procedure Sum of Source DF Squares Mean Square F Value Pr > F Model 1 382915.8812 382915.8812 1859.05 <.0001 Error 12 2471.6888 205.9741 Uncorrected Total 13 385387.5700 R-Square Coeff Var Root MSE blodtryk Mean 0.993586 8.363893 14.35180 171.5923 NOTE: No intercept term is used: R-square is not corrected for the mean. Source DF Type I SS Mean Square F Value Pr > F alder 1 382915.8812 382915.8812 1859.05 <.0001 Standard Parameter Estimate Error t Value Pr > t alder 2.994522505 0.06945159 43.12 <.0001 Parameter 95% Confidence Limits alder 2.843200499 3.145844510 Det bemærkes at variansskønnet har 12 = 13 1 frihedsgrader, idet der kun er én parameter (β) i modellen. 19