Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Relaterede dokumenter
Regressionsanalyse i SAS

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Lineær regression i SAS. Lineær regression i SAS p.1/20

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for biokemikere. Blok

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af opgave om Vital Capacity

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Opgavebesvarelse, brain weight

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Eksamen i Statistik for Biokemikere, Blok januar 2009

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Eksamen i Statistik for biokemikere. Blok

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

k normalfordelte observationsrækker (ensidet variansanalyse)

Opgavebesvarelse, korrelerede målinger

Besvarelse af juul2 -opgaven

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

En Introduktion til SAS. Kapitel 6.

Besvarelse af vitcap -opgaven

Opgavebesvarelse, brain weight

Reeksamen i Statistik for biokemikere. Blok

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

En Introduktion til SAS. Kapitel 5.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Modelkontrol i Faktor Modeller

Statistisk modellering af meldugangreb i vinterhvede. Analyse på baggrund af observationer i Registreringsnettet

Modul 11: Simpel lineær regression

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Opgavebesvarelse, Basalkursus, uge 2

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Basal Statistik Variansanalyse. 24 september 2013

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Multipel Lineær Regression

Vejledende besvarelse af hjemmeopgave, efterår 2016

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Eksamen i Statistik for biokemikere. Blok

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Restsaltmængdernes afhængighed af trafikken,

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Besvarelse af opgave om Vital Capacity

Vejledende besvarelse af hjemmeopgave, efterår 2018

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Modul 6: Regression og kalibrering

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2016

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik Lektion 16 Multipel Lineær Regression

To samhørende variable

Forelæsning 11: Kapitel 11: Regressionsanalyse

Afdeling for Anvendt Matematik og Statistik December 2006

Basal statistik. 21. oktober 2008

Vejledende besvarelse af hjemmeopgave

INTRODUKTION TIL dele af SAS

Løsning til øvelsesopgaver dag 4 spg 5-9

1 Regressionsproblemet 2

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Basal statistik. 30. september 2008

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Generelle lineære modeller

Basal statistik. 25. september 2007

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Statistiske Modeller 1: Kontingenstabeller i SAS

Variansanalyse. Variansanalyse. Basal Statistik Variansanalyse

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12.

Basal Statistik - SPSS

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Vejledende besvarelse af hjemmeopgave, efterår 2015

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Løsning til opgave i logistisk regression

Lineær og logistisk regression

Dikotom 2*2-tabeller χ 2 -test Logistisk regression parret Mc Nemar svært, mixed models Mixed models

Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. Lene Theil Skovgaard. 22. oktober / 103

Vejledende besvarelse af hjemmeopgave, efterår 2017

Basal Statistik - SPSS

Basal Statistik - SPSS

Skriftlig eksamen Science statistik- ST501

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Transkript:

Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier 1

Regressionsanalyse med GLM I notatet Rregressionsanalyse med SAS er vist, hvordan man kan udføre en regressionsanalyse med PROC REG. Man kan også bruge PROC GLM til regressionanalyse. Syntaksen er næsten den samme som i PROC REG og udskrifterne ligner også hinanden meget. Nedenfor er vist, hvordan Program Note 13.1 - Simple Linear Regression (fra SAS Program Notes til Biostatistics: A Guide to Design, Analysis, and Discovery Chapter 13: Linear Regression) kan udføres med PROC GLM SAS-PROGRAM PROC GLM DATA=BP; MODEL SBP = HEIGHT/ SOLUTION; OUTPUT OUT=STATS PREDICTED=PRED /*Dette datasæt er identisk med det output- */ STUDENT=STUDENT /*datasæt der konstrueres med PROC REG*/ L95=LOW95PI U95=UP95PI L95M=LOW95CI U95M=UP95CI; UDSKRIFT The GLM Procedure Number of Observations Read 50 Number of Observations Used 50 Dependent Variable: SBP Sum of Source DF Squares Mean Square F Value Pr > F Model 1 2663.43287 2663.43287 12.64 0.0009 Error 48 10117.06713 210.77223 Corr.Tot. 49 12780.50000 R-Square Coeff Var Root MSE SBP Mean 0.208398 14.30345 14.51800 101.5000 Source DF Type I SS Mean Square F Value Pr > F HEIGHT 1 2663.432875 2663.432875 12.64 0.0009 Standard Parameter Estimate Error t Value Pr > t Intercept 61.13913236 11.53807743 5.30 <.0001 HEIGHT 0.76877843 0.21626538 3.55 0.0009 2

Sammenligning af regressionslinier. Data antages at ligge i et SAS-datasæt med de tre variable y, der er målingsvariablen og de to baggrundsvariable x, der er numerisk, og gruppe der er kategorisk. Modellen er at y afhænger lineært af x, men med parametre der kan variere mellem grupperne. /*Undersøgelse af linearitet*/ SYMBOL1 V=dot I=rl C=red; SYMBOL2 V=star I=rl C=blue; PROC GPLOT DATA=sammenlign; PLOT y*x=gruppe; QUIT; PROC GLM DATA=samenlign; /*Regressionsanalyse. Residualer til kontrol af varianshomogenitet*/ CLASS gruppe; MODEL y=x gruppe gruppe*x/ss1; OUTPUT OUT=ny1 STUDENT=student1; /*Her må plottesymboler resettes */ GOPTIONS RESET FTEXT=SWISS HTEXT=2; /*Residualplot*/ SYMBOL1 V=dot I=none C=red; SYMBOL2 V=star I=none C=blue; PROC GPLOT DATA=ny1; PLOT student1*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; QUIT; /*Regressionsanalyse med samme hældning men forskellig skæring med y-akse for de to linier. Estimation af parametre.*/ PROC GLM; CLASS gruppe; MODEL y=x gruppe /SS1 SOLUTION;; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m; /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; PROC SORT; BY gruppe; GOPTIONS RESET FTEXT=SWISS HTEXT=2; AXIS1 ORDER=0 TO 30 by 10; 3

AXIS2 ORDER=-10 TO 40 by 10; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL1 v=dot I=none c=red; SYMBOL2 v=none I=rl c=blue; SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT y*x=2 l95m*x=3 u95m*x=3/overlay HAXIS=AXIS1 VAXIS=AXIS2; BY gruppe; 4

UDSKRIFT: Tegning af regressionslinier for gruppe 1 og gruppe 2. 5

/*test for same hældning på regressionslinier*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe 2 1 2 Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1856.301155 618.767052 49.43 <.0001 Error 32 400.551757 12.517242 Corr. Total 35 2256.852912 R-Square Coeff Var Root MSE y Mean 0.822518 19.92244 3.537972 17.75873 Source DF Type I SS Mean Square F Value Pr > F x 1 1670.702465 1670.702465 133.47 <.0001 gruppe 1 184.655151 184.655151 14.75 0.0005 x*gruppe 1 0.943540 0.943540 0.08 0.7854 [Udskriftskommentar I linien x*gruppe er angivet mean-square for hypotesen om, at de to linier har samme hældning.] 6

Studentiserede residualer for gruppe 1 og gruppe 2. Forskellige regressionslinier. 7

/*Analyse og parameterestimation. Model med samme hældning på regressionslinier.*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe 2 1 2 Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model 2 1855.357615 927.678808 76.25 <.0001 Error 33 401.495297 12.166524 Corr.Total 35 2256.852912 R-Square Coeff Var Root MSE y Mean 0.822099 19.64135 3.488054 17.75873 Source DF Type I SS Mean Square F Value Pr > F x 1 1670.702465 1670.702465 137.32 <.0001 gruppe 1 184.655151 184.655151 15.18 0.0005 [Udskriftskommentar I linien gruppe er angivet mean-square for hypotesen om, at de to linier har samme skæring med y-aksen. I linien x er angivet test for om den fælles hældning er 0.] Standard Parameter Estimate Error t Value Pr > t Intercept 9.340275654 B 2.11373330 4.42 0.0001 x 0.841225531 0.11002724 7.65 <.0001 gruppe 1-5.456811467 B 1.40068829-3.90 0.0005 gruppe 2 0.000000000 B... 8

Studentiserede residualer for gruppe 1 og gruppe 2. Beregnet under modellen om samme hældning på regressionslinier. 9

Regressionslinie med konfidensbånd for gruppe 1 10

Regressionslinie med konfidensbånd for gruppe 2 11