k normalfordelte observationsrækker (ensidet variansanalyse)

Relaterede dokumenter
β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Besvarelse af vitcap -opgaven

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Reeksamen i Statistik for biokemikere. Blok

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression i SAS. Lineær regression i SAS p.1/20

Reeksamen i Statistik for Biokemikere 6. april 2009

Besvarelse af opgave om Vital Capacity

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Regressionsanalyse i SAS

Opgavebesvarelse, brain weight

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Statistiske Modeller 1: Kontingenstabeller i SAS

Vejledende besvarelse af hjemmeopgave, efterår 2017

Eksamen i Statistik for biokemikere. Blok

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Besvarelse af juul2 -opgaven

Besvarelse af opgave om Vital Capacity

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, brain weight

Vejledende besvarelse af hjemmeopgave

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Restsaltmængdernes afhængighed af trafikken,

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, korrelerede målinger

Reeksamen i Statistik for biokemikere. Blok

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

En Introduktion til SAS. Kapitel 5.

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Tema. Dagens tema: Indfør centrale statistiske begreber.

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Modul 11: Simpel lineær regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Nanostatistik: Opgavebesvarelser

En Introduktion til SAS. Kapitel 6.

Løsning til eksaminen d. 29. maj 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Module 12: Mere om variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Basal statistik. 21. oktober 2008

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Multipel Lineær Regression

Vejledende besvarelse af hjemmeopgave, forår 2015

Løsning eksamen d. 15. december 2008

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Basal Statistik Variansanalyse. 24 september 2013

Vejledende besvarelse af hjemmeopgave, forår 2017

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Klasseøvelser dag 2 Opgave 1

Vejledende besvarelse af hjemmeopgave, efterår 2015

Skriftlig eksamen Science statistik- ST501

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Matematisk Modellering 1 Cheat Sheet

Postoperative komplikationer

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

To-sidet varians analyse

Vejledende besvarelse af hjemmeopgave, efterår 2016

Dagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Eksamen i Statistik for biokemikere. Blok

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Vejledende besvarelse af hjemmeopgave, forår 2018

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Løsning til øvelsesopgaver dag 4 spg 5-9

Modul 6: Regression og kalibrering

Løsning til eksaminen d. 14. december 2009

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Konfidensintervaller og Hypotesetest

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 4

Løsning til opgave i logistisk regression

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

Generelle lineære modeller

Transkript:

k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er hvor µ i = x i. σ 2 s 2 1 = SSD 1 f 1 SSD 1 = k n i (x ij x i. ) 2 i=1 j=1 f 1 = n. k. Undertiden er det bekvemt at tænke på µ i som et intercept for den i te gruppe. Specifikt betragtes data i Table 3.3 i BG. 21

Betragt programstumpen OPTIONS NODATE PAGESIZE=45 LINESIZE=80; DATA stress; INPUT gruppe areal@@; DATALINES; 1 200 1 215 1 225 1 229 1 230 1 232 1 241 1 253 1 256 1 264 1 268 1 288 1 288 2 235 2 188 2 195 2 205 2 212 2 214 2 182 2 215 2 272 2 163 2 230 2 255 2 202 3 314 3 320 3 310 3 340 3 299 3 268 3 345 3 271 3 285 3 309 3 337 3 282 3 273 4 283 4 312 4 291 4 259 4 216 4 201 4 267 4 326 4 241 4 291 4 269 4 282 4 257 ; RUN; TITLE1 k normal fordelte observationsrækker ; PROC GLM DATA=stress; CLASS gruppe; MODEL areal=gruppe/ss1 SOLUTION CLPARM; RUN; TITLE1; Her indlæses datasættet stress, der har to variable: gruppe der angiver hvilken gruppe observationen tilhører, og areal, der for hver observation angiver det observerede areal. Vi noterer, at idet variablen gruppe defineres som en klassevariabel, vil data blive inddelt i de 4 grupper defineret ved gruppe; dette er modellen M 1. Jeg har medtaget SOLUTION i MODEL-linjen, hvilket betyder at vi får visse parameterestimater med i output; CLPARM giver adgang til konfidensintervaller. I modeller uden klassevariable vil SAS automatisk levere parameterestimater; sammenlign med lineær regression. I modeller med klassevariable er man nødt til at bestille parameterestimater med SOLUTION. Klassevariable behøver ikke være tal. 22

OUTPUT: k normal fordelte observationsrækker 1 Class Level Information Class Levels Values gruppe 4 1 2 3 4 Dependent Variable: areal Number of observations 52 k normal fordelte observationsrækker 2 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 57636.3654 19212.1218 21.46 <.0001 Error 48 42976.3077 895.3397 Corrected Total 51 100612.6731 R-Square Coeff Var Root MSE areal Mean 0.572854 11.60728 29.92223 257.7885 Source DF Type I SS Mean Square F Value Pr > F gruppe 3 57636.36538 19212.12179 21.46 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 268.8461538 B 8.29893294 32.40 <.0001 (µ 4 ) gruppe 1-23.5384615 B 11.73646352-2.01 0.0506 (µ 1 µ 4 ) gruppe 2-55.9230769 B 11.73646352-4.76 <.0001 (µ 2 µ 4 ) gruppe 3 35.2307692 B 11.73646352 3.00 0.0043 (µ 3 µ 4 ) gruppe 4 0.0000000 B... Parameter 95% Confidence Limits Dependent Variable: areal Intercept 252.1600308 285.5322769 gruppe 1-47.1362030 0.0592799 gruppe 2-79.5208184-32.3253354 gruppe 3 11.6330277 58.8285107 gruppe 4.. k normal fordelte observationsrækker 3 23

NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. Bemærkninger: Da der er 52 observationer og 4 grupper ser vi ierror-linjen, at variansskønnet har 48 = 52 4 frihedsgrader. I øvrigt aflæses også SSDen samt variansskønnet i modellen; her er variansskønnet 895.40, hvilket stemmer fint overens med opgivelsen i Table 3.4 i BG. Under Parameter aflæses estimater med tilhørende Standard Error, teststørrelse samt konfidensinterval. Vi bemærker, at SAS ikke direkte estimerer µ 1,..., µ 3 men blot forskellen i forhold til referencegruppen, som altså her er gruppe 4. Dette skyldes, at der ikke er specificeret et noint, hvilket betyder, at SAS foruden µ 1,..., µ 4 også forsøger at fitte et intercept. Under Source gruppe undersøges om gruppe kan testes væk. Det vil sige, at der testes for reduktionen X ij N(µ i, σ 2 ) X ij N(µ, σ 2 ). Her betegnes intercept altså med µ. Vi bemærker, at frihedsgraderne 3 = 4 1 for tælleren i F-testet er angivet. Frihedsgraderne 48 i nævneren er lig med frihedsgraderne for variansskønnet under M 1. Som alternativ til ovenstående programstump kan man inkludere et noint. Man vil da under Parameter direkte kunne aflæse estimater for µ 1,...,µ 4 med tilhørende teststørrelser. Til gengæld vil testet under Source gruppe være for reduktionen X ij N(µ i, σ 2 ) X ij N(0, σ 2 ) som sjældent er af interesse. Se næste side. Se iøvrigt annex til subsection 3.2.2 for yderligere options. Her skal I især bemærke, at medtages linjen MEANS gruppe/hovtest=bartlett; i programmet ovenfor får vi ligeledes udført Bartletts test for ens varianser. 24

Ønsker vi en specifikation med noint, kan vi benytte programstumpen TITLE1 k normal fordelte observationsrækker med noint ; PROC GLM DATA=stress; CLASS gruppe; MODEL areal=gruppe/ss1 NOINT SOLUTION CLPARM; RUN; TITLE1; Sammenlign Error-linjen på næste side med Error-linjen når noint ikke specificeres. 25

Output er k normal fordelte observationsrækker med noint 1 Class Level Information Class Levels Values gruppe 4 1 2 3 4 Dependent Variable: areal Number of observations 52 k normal fordelte observationsrækker med noint 2 Sum of Source DF Squares Mean Square F Value Pr > F Model 4 3513290.692 878322.673 980.99 <.0001 Error 48 42976.308 895.340 Uncorrected Total 52 3556267.000 R-Square Coeff Var Root MSE areal Mean 0.572854 11.60728 29.92223 257.7885 Source DF Type I SS Mean Square F Value Pr > F gruppe 4 3513290.692 878322.673 980.99 <.0001 Standard Parameter Estimate Error t Value Pr > t gruppe 1 245.3076923 8.29893294 29.56 <.0001 gruppe 2 212.9230769 8.29893294 25.66 <.0001 gruppe 3 304.0769231 8.29893294 36.64 <.0001 gruppe 4 268.8461538 8.29893294 32.40 <.0001 Parameter 95% Confidence Limits gruppe 1 228.6215693 261.9938153 gruppe 2 196.2369539 229.6091999 gruppe 3 287.3908001 320.7630461 gruppe 4 252.1600308 285.5322769 26