k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er hvor µ i = x i. σ 2 s 2 1 = SSD 1 f 1 SSD 1 = k n i (x ij x i. ) 2 i=1 j=1 f 1 = n. k. Undertiden er det bekvemt at tænke på µ i som et intercept for den i te gruppe. Specifikt betragtes data i Table 3.3 i BG. 21

Betragt programstumpen OPTIONS NODATE PAGESIZE=45 LINESIZE=80; DATA stress; INPUT gruppe areal@@; DATALINES; 1 200 1 215 1 225 1 229 1 230 1 232 1 241 1 253 1 256 1 264 1 268 1 288 1 288 2 235 2 188 2 195 2 205 2 212 2 214 2 182 2 215 2 272 2 163 2 230 2 255 2 202 3 314 3 320 3 310 3 340 3 299 3 268 3 345 3 271 3 285 3 309 3 337 3 282 3 273 4 283 4 312 4 291 4 259 4 216 4 201 4 267 4 326 4 241 4 291 4 269 4 282 4 257 ; RUN; TITLE1 k normal fordelte observationsrækker ; PROC GLM DATA=stress; CLASS gruppe; MODEL areal=gruppe/ss1 SOLUTION CLPARM; RUN; TITLE1; Her indlæses datasættet stress, der har to variable: gruppe der angiver hvilken gruppe observationen tilhører, og areal, der for hver observation angiver det observerede areal. Vi noterer, at idet variablen gruppe defineres som en klassevariabel, vil data blive inddelt i de 4 grupper defineret ved gruppe; dette er modellen M 1. Jeg har medtaget SOLUTION i MODEL-linjen, hvilket betyder at vi får visse parameterestimater med i output; CLPARM giver adgang til konfidensintervaller. I modeller uden klassevariable vil SAS automatisk levere parameterestimater; sammenlign med lineær regression. I modeller med klassevariable er man nødt til at bestille parameterestimater med SOLUTION. Klassevariable behøver ikke være tal. 22

OUTPUT: k normal fordelte observationsrækker 1 Class Level Information Class Levels Values gruppe 4 1 2 3 4 Dependent Variable: areal Number of observations 52 k normal fordelte observationsrækker 2 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 57636.3654 19212.1218 21.46 <.0001 Error 48 42976.3077 895.3397 Corrected Total 51 100612.6731 R-Square Coeff Var Root MSE areal Mean 0.572854 11.60728 29.92223 257.7885 Source DF Type I SS Mean Square F Value Pr > F gruppe 3 57636.36538 19212.12179 21.46 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 268.8461538 B 8.29893294 32.40 <.0001 (µ 4 ) gruppe 1-23.5384615 B 11.73646352-2.01 0.0506 (µ 1 µ 4 ) gruppe 2-55.9230769 B 11.73646352-4.76 <.0001 (µ 2 µ 4 ) gruppe 3 35.2307692 B 11.73646352 3.00 0.0043 (µ 3 µ 4 ) gruppe 4 0.0000000 B... Parameter 95% Confidence Limits Dependent Variable: areal Intercept 252.1600308 285.5322769 gruppe 1-47.1362030 0.0592799 gruppe 2-79.5208184-32.3253354 gruppe 3 11.6330277 58.8285107 gruppe 4.. k normal fordelte observationsrækker 3 23

NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. Bemærkninger: Da der er 52 observationer og 4 grupper ser vi ierror-linjen, at variansskønnet har 48 = 52 4 frihedsgrader. I øvrigt aflæses også SSDen samt variansskønnet i modellen; her er variansskønnet 895.40, hvilket stemmer fint overens med opgivelsen i Table 3.4 i BG. Under Parameter aflæses estimater med tilhørende Standard Error, teststørrelse samt konfidensinterval. Vi bemærker, at SAS ikke direkte estimerer µ 1,..., µ 3 men blot forskellen i forhold til referencegruppen, som altså her er gruppe 4. Dette skyldes, at der ikke er specificeret et noint, hvilket betyder, at SAS foruden µ 1,..., µ 4 også forsøger at fitte et intercept. Under Source gruppe undersøges om gruppe kan testes væk. Det vil sige, at der testes for reduktionen X ij N(µ i, σ 2 ) X ij N(µ, σ 2 ). Her betegnes intercept altså med µ. Vi bemærker, at frihedsgraderne 3 = 4 1 for tælleren i F-testet er angivet. Frihedsgraderne 48 i nævneren er lig med frihedsgraderne for variansskønnet under M 1. Som alternativ til ovenstående programstump kan man inkludere et noint. Man vil da under Parameter direkte kunne aflæse estimater for µ 1,...,µ 4 med tilhørende teststørrelser. Til gengæld vil testet under Source gruppe være for reduktionen X ij N(µ i, σ 2 ) X ij N(0, σ 2 ) som sjældent er af interesse. Se næste side. Se iøvrigt annex til subsection 3.2.2 for yderligere options. Her skal I især bemærke, at medtages linjen MEANS gruppe/hovtest=bartlett; i programmet ovenfor får vi ligeledes udført Bartletts test for ens varianser. 24

Ønsker vi en specifikation med noint, kan vi benytte programstumpen TITLE1 k normal fordelte observationsrækker med noint ; PROC GLM DATA=stress; CLASS gruppe; MODEL areal=gruppe/ss1 NOINT SOLUTION CLPARM; RUN; TITLE1; Sammenlign Error-linjen på næste side med Error-linjen når noint ikke specificeres. 25

Output er k normal fordelte observationsrækker med noint 1 Class Level Information Class Levels Values gruppe 4 1 2 3 4 Dependent Variable: areal Number of observations 52 k normal fordelte observationsrækker med noint 2 Sum of Source DF Squares Mean Square F Value Pr > F Model 4 3513290.692 878322.673 980.99 <.0001 Error 48 42976.308 895.340 Uncorrected Total 52 3556267.000 R-Square Coeff Var Root MSE areal Mean 0.572854 11.60728 29.92223 257.7885 Source DF Type I SS Mean Square F Value Pr > F gruppe 4 3513290.692 878322.673 980.99 <.0001 Standard Parameter Estimate Error t Value Pr > t gruppe 1 245.3076923 8.29893294 29.56 <.0001 gruppe 2 212.9230769 8.29893294 25.66 <.0001 gruppe 3 304.0769231 8.29893294 36.64 <.0001 gruppe 4 268.8461538 8.29893294 32.40 <.0001 Parameter 95% Confidence Limits gruppe 1 228.6215693 261.9938153 gruppe 2 196.2369539 229.6091999 gruppe 3 287.3908001 320.7630461 gruppe 4 252.1600308 285.5322769 26