β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Relaterede dokumenter
k normalfordelte observationsrækker (ensidet variansanalyse)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Lineær regression i SAS. Lineær regression i SAS p.1/20

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistiske Modeller 1: Kontingenstabeller i SAS

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Reeksamen i Statistik for Biokemikere 6. april 2009

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Besvarelse af vitcap -opgaven

Opgavebesvarelse, brain weight

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Besvarelse af juul2 -opgaven

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Regressionsanalyse i SAS

Reeksamen i Statistik for biokemikere. Blok

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen i Statistik for Biokemikere, Blok januar 2009

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, brain weight

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Modul 11: Simpel lineær regression

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Anvendt Statistik Lektion 7. Simpel Lineær Regression

En Introduktion til SAS. Kapitel 5.

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Multipel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Skriftlig eksamen Science statistik- ST501

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Besvarelse af opgave om Vital Capacity

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Eksamen i Statistik for biokemikere. Blok

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Vejledende besvarelse af hjemmeopgave, efterår 2016

Opgavebesvarelse, korrelerede målinger

Den lineære normale model

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Reeksamen i Statistik for biokemikere. Blok

Forelæsning 11: Kapitel 11: Regressionsanalyse

Restsaltmængdernes afhængighed af trafikken,

Eksamen i Statistik for biokemikere. Blok

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Vejledende besvarelse af hjemmeopgave, forår 2017

Postoperative komplikationer

Opgavebesvarelse, Basalkursus, uge 2

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1 Regressionsproblemet 2

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Løsning til eksaminen d. 29. maj 2009

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Tema. Dagens tema: Indfør centrale statistiske begreber.

Modul 6: Regression og kalibrering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af opgave om Vital Capacity

Vejledende besvarelse af hjemmeopgave, efterår 2018

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Løsning til opgave i logistisk regression

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 4

Vejledende besvarelse af hjemmeopgave, forår 2015

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Basal statistik. 21. oktober 2008

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Logistisk Regression - fortsat

Vejledende besvarelse af hjemmeopgave

Løsning eksamen d. 15. december 2008

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Løsning til eksamen d.27 Maj 2010

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Transkript:

Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af) Example 3.4 i BG, hvor x i angiver den i te journalists blodtryk og t i hans/hendes alder. Estimaterne er hvor β = SDD xt SSD t α = 1 [S x n βs ] t σ 2 s 2 02 = SSD 02 f 02 f 02 = n 2 n SSD 02 = (x i ( α + βt i )) 2. i=1 Her benyttes fodtegn 02 for at markere at SSD og variansskøn beregnes under modellen M 2. I SAS kaldes parameteren α iøvrigt for et intercept. Modellen kan i øvrigt skrives mere løst som blodtryk N(α + β alder, σ 2 ) 11

Følgende program kan benyttes. OPTIONS PAGESIZE=45 LINESIZE=80; DATA journalister; INPUT blodtryk alder@@; DATALINES; 188.7 68 184.2 62 151.3 49 182.4 62 138.3 34 181.8 66 155.1 45 178.3 60 179.4 57 171.5 57 177.9 63 172.5 56 169.3 57 ; Title1 lineær regression af blodtryk på alder ; PROC GLM DATA=journalister; MODEL blodtryk=alder/ss1 CLPARM; TITLE1; /*fjerner title1*/ Ved indlæsningen af data benyttes @@, der sikrer at vi kan placere flere observationer på samme linje. Efter indlæsning har datasættet journalister altså 13 observationer og to variable blodtryk og alder der angiver hhv. blodtryk og alder for de 13 journalister. I PROC GLM specificeres, at vi ønsker at benytte datasættet journalister. I MODEL-linjen angives, at vi vil betragte regressionen af blodtryk på alder. Kommandoen SS1 begrænser output, mens CLPARM giver 95% konfidensintervaller for α og β. Bemærk at SAS selv sørger for at inkludere et intercept i modellen, selvom denne parameter ikke direkte specificeres i MODEL-linjen. 12

Output er som følger: Dependent Variable: blodtryk lineær regression af blodtryk på alder 1 The GLM Procedure Number of observations 13 lineær regression af blodtryk på alder 2 The GLM Procedure Sum of Source DF Squares Mean Square F Value Pr > F Model 1 2416.964731 2416.964731 133.17 <.0001 Error 11 199.644500 18.149500 (=f 02 ) (= SSD 02 ) (=s 2 02 ) Corrected Total 12 2616.609231 R-Square Coeff Var Root MSE blodtryk Mean 0.923701 2.482759 4.260223 171.5923 Source DF Type I SS Mean Square F Value Pr > F alder 1 2416.964731 2416.964731 133.17 <.0001 Standard Parameter Estimate Error t Value Pr > t α Intercept 84.99521966 7.59658557 11.19 <.0001 β alder 1.52956813 0.13254581 11.54 <.0001 Parameter 95% Confidence Limits Intercept 68.27524756 101.71519175 alder 1.23783677 1.82129949 13

De vigtigste informationer finder vi i Error-linjen, under Source samt i linjen Parameter, så lad os kigge lidt nærmere på disse linjer. I Error-linjen aflæses frihedsgrader, SSD og variansskønnet hørende til modellen specificeret i Model-linjen. Under Parameter aflæses estimater for α og β, Standard Error, teststørrelse og testsandsynlighed for hhv. α = 0 og β = 0, samt grænserne for 95% konfidensintervallerne for de to parametre. Under source finder vi endnu et test for om alder kan fjernes. Mere præcist testes β = 0. Bemærk at F = 133.17 = 11.54 2, hvor 11.54 er t-teststørrelsen for β = 0 der aflæses under parameter. Anderledes skrevet er F -testet under source alder ækvivalent med t-testet under Parameter alder. Vi skal senere se hvorfor det er tilfældet. Bemærk yderligere at SAS ikke angiver et konfidensinterval for σ 2 værdierne under t value beregnes på sædvanlig vis. F.eks. er 11.19 = α 0 Std Errorr( α) 84.995 7.597 ; endvidere er grænserne for konfidensintervallerne beregnet efter formlen Estimate ± Std Error t 0.975 (DF ). 14

Der er andre måder hvorpå modellen kan gennemregnes i SAS. Antag at datasættet to prof har tre variable alder, blodtryk og gruppe hvor gruppe har niveauerne 1 og 2. Her angiver gruppe=1 at der er tale om en journalist og gruppe=2 at der er tale om en universitetslærer. Hvis vi benytter programstumpen PROC GLM data=to prof(where=(gruppe=1)); MODEL blodtryk=alder/ss1 CLPARM; fittes en lineær regression for gruppe 1, altså for journalister som ovenfor. Denne metode benyttes på siderne 144 146 i BG. Hvis vi benytter programstumpen PROC GLM data=to prof; MODEL blodtryk=alder/ss1 CLPARM; BY gruppe; fittes en lineær regression for hver af de to grupper. Denne metode benyttes på side 194 i BG. Her er det dog vigtigt at to prof er sorteret efter gruppe. Når vi ovenfor skriver (where=(gruppe=1)) så skyldes det, at vi antager at værdierne i gruppe indlæses som tal. Er dette ikke tilfældet, det vil sige at vi indlæser gruppe $, så skal vi skrive (where=(gruppe= 1 )). 15

16

Lineær regression uden intercept Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 3 : X i N(βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. hvor Bemærk at estimatet for σ 2 er σ 2 SSD 03 f 03 SSD 03 = n (x i βt i ) 2 i=1 f 03 = n 1 og β er maksimum likelihood estimatet for β under M 3. Vi betragter altså en lineær regression med intercept α = 0. Som illustration vil vi benytte datsættet journalister hvor x i angiver den i te journalists blodtryk og t i hans/hendes alder. Bemærk dog at modellen M 3 ikke giver en fornuftig beskrivelse af det konkrete datasæt. Modellen kan i øvrigt skrives mere løst som blodtryk N(β alder, σ 2 ) 17

Betragt programstumpen Title1 lineær regresion af blodtryk på alder uden intercept ; PROC GLM DATA=journalister; MODEL blodtryk=alder/noint SS1 CLPARM; TITLE1; /*fjerner title1*/ Her skal vi bemærke at kommandoen noint (der er kort for no intercept ) sikrer, at SAS fitter en model uden intercept. 18

Output er: lineær regresion af blodtryk på alder uden intercept 1 The GLM Procedure Number of observations 13 lineær regresion af blodtryk på alder uden intercept 2 Dependent Variable: blodtryk The GLM Procedure Sum of Source DF Squares Mean Square F Value Pr > F Model 1 382915.8812 382915.8812 1859.05 <.0001 Error 12 2471.6888 205.9741 Uncorrected Total 13 385387.5700 R-Square Coeff Var Root MSE blodtryk Mean 0.993586 8.363893 14.35180 171.5923 NOTE: No intercept term is used: R-square is not corrected for the mean. Source DF Type I SS Mean Square F Value Pr > F alder 1 382915.8812 382915.8812 1859.05 <.0001 Standard Parameter Estimate Error t Value Pr > t alder 2.994522505 0.06945159 43.12 <.0001 Parameter 95% Confidence Limits alder 2.843200499 3.145844510 Det bemærkes at variansskønnet har 12 = 13 1 frihedsgrader, idet der kun er én parameter (β) i modellen. 19