Regressionsanalyse i SAS
|
|
|
- Margrethe Frida Steffensen
- 8 år siden
- Visninger:
Transkript
1 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse med gentagelser Regressionslinie gennem (0,0) Sammenligning af regressionslinier Regressionsanalyse med flere uafhængige variable Kvadratisk regression 1
2 Eksempler på regressionsanalyse med SAS Dette notat indeholder SAS-programmer til ZAR eksempel 17.1, 17.2, 17.3, 17.4, og 17.8, samt konstruerede eksempler svarende til analyserne i ZAR afsnit 17.9 og kapitel 18. I praktiske anvendelser med middelstore eller store datasæt suppleres de viste analyser med histogrammer og qqplot for residualer (beregnet med PROC UNIVARIATE). Det kan evt. være fornuftigt at supplere med yderligere residualplot og andre tegninger afhængigt af problemets karakter. I programmet kan indsættes den generelle udskriftsdirigerende ordre GOPTIONS FTEXT=SWISS HTEXT=2; For at få Word-kompatibel udskrift kan ODS-ordre indsættes først og sidst i programmet. ODS RTF body='c:\myfiles\filename.rtf'; ODS RTF CLOSE Her kommer filen filename.rtf i biblioteket c;\myfiles. 2
3 Regression i GLM I nedenstående SAS-programmer antages det, at y er numerisk responsvariabel, x, og z er numeriske regressionsvariable, mens k er kategorisk variabel. SAS-programmerne antages at have formen: PROC GLM; CLASS k; MODEL (her indsættes fra tabel); Sammenhæng mellem regressionsligning og modelordre i GLM: Regressionsligning Modelordre i GLM E(Y i )=a+bx i MODEL y=x; E(Y i )=bx i MODEL y=x/noint E(Y ij )=a i +b i x ij MODEL y=k k*x; E(Y ij )=a i +bx ij MODEL y=k x; E(Y ij )=a+bx ij MODEL y=x; E(Y ij )= a i MODEL y=k E(Y i )=a+bx i +cz i MODEL y=x z 3
4 Sammenhæng mellem regressionsligning og modelordre i GLM: Regressionsligning Modelordre i GLM E(Y i )=a+bx i MODEL y=x; E(Y i )=bx i MODEL y=x/noint E(Y ij )=a i +b i x ij MODEL y=k k*x; E(Y ij )=a i +bx ij MODEL y=k x; E(Y ij )=a+bx ij MODEL y=x; E(Y ij )= a i MODEL y=k E(Y i )=a+bx i +cz i MODEL y=x z 4
5 Eksempel 17.1 i ZAR: Regressionsanalyse uden gentagelser PROGRAM: DATA zar17_1; INPUT alder CARDS; ; /*Tegning af vinge mod alder. Indlagt regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT vinge*alder=1 vinge*alder=2/overlay; 5
6 /*Regressionsanalyse. Estimation af parametre. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m"), samt predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_1; MODEL vinge=alder/ss1 SOLUTION; OUTPUT OUT=ny STUDENT=student L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student*alder=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT vinge*alder=2 l95m*alder=3 u95m*alder=3/overlay; QUIT; 6
7 UDSKRIFT: The GLM Procedure Dependent Variable: vinge Number of observations 13 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Cor.Total R-Square Coeff Var Root MSE vinge Mean Standard Parameter Estimate Error t Value Pr > t Intercept alder <
8 ZAR eks 17.1: Plot af vinge mod alder. Indlagt regressionslinie. 8
9 ZAR eks 17.1: Konfidensbånd for regressionslinie. 9
10 ZAR eks 17.1: Residualplot for regressionslinie. 10
11 Eksempel 17.8 i ZAR: Regressionsanalyse med gentagelser PROGRAM: DATA zar17_8; INPUT alder CARDS; ; /*Tegning af blodtryk mod alder. Indlagt regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT blodtryk*alder=1 blodtryk*alder=2/overlay; /*Her her konstrueres alder som ny kategorisk variabel "gruppe"*/ DATA zar17_8; SET zar17_8; gruppe=alder; /*Bartletts test for varianshomogenitet*/ PROC GLM DATA=zar17_8; CLASS gruppe; MODEL blodtryk=gruppe/ss1; MEANS gruppe/hovtest=bartlett; OUTPUT OUT=ny1 STUDENT=student1; /*Residualplot til kontrol af varianshomogenitet*/ PROC GPLOT DATA=ny1; PLOT student1*alder/vref=0 VREF=1.96 VREF=-1.96; 11
12 /* Test for linearitet.*/ PROC GLM DATA=zar17_8; CLASS gruppe; MODEL blodtryk=alder gruppe/ss1; /* Estimation af parametre under slutmodel. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m") og predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_8; MODEL blodtryk=alder/ss1 SOLUTION; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*alder=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT blodtryk*alder=2 l95m*alder=3 u95m*alder=3/overlay; 12
13 UDSKRIFT: /*Bartletts test for varianshomogenitet*/ Bartlett's Test for Homogeneity of blodtryk Variance Source DF Chi-Square Pr > ChiSq gruppe The GLM Procedure Level of blodtryk gruppe N Mean Std Dev
14 ZAR eks Blodtryk tegnet mod alder. Indlagt regressionslinie. 14
15 ZAR eks Studentiserede residualer under variansanalysemodel. 15
16 /* Test for linearitet.*/ Dependent Variable: blodtryk The GLM Procedure Number of observations 19 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Cor.Total R-Square Coeff Var Root MSE blodtryk Mean Source DF Type I SS Mean Square F Value Pr > F alder <.0001 gruppe
17 ZAR eks Studentiserede residualer under regressionsanalysemodel. 17
18 /* Estimation af parametre under slutmodel.*/ Dependent Variable: blodtryk The GLM Procedure Number of observations 19 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE blodtryk Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 alder B <
19 ZAR eks17.8 : Konfidensbånd for regressionslinie 19
20 Afsnit 17.9 i ZAR: Regressionslinie gennem (0,0). PROGRAM: /*Regression uden gentagelser gennem (0,0). 1 uafhængig variabel*/ /*Konstruerede data. Det antages at y=x+z, hvor x er regressionsvariabel og z er fejl med fordeling N(0,9).*/ /*Her konstrueres data*/ DATA zar17_9; DO x=1 TO 20 BY 1; y=x+3*rannor(345557); OUTPUT; END; /*Tegning af y mod x. Indlagt sædvanlig regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT y*x=1 y*x=2/overlay; QUIT; 20
21 /*Regressionsanalyse. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m"), samt predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_9; MODEL y=x/ss1 NOINT; /*NOINT får regressionslinien gennem (0,0)*/ OUTPUT OUT=ny STUDENT=student L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student*x=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT yhat*x=2 l95m*x=3 u95m*x=3/overlay; 21
22 ZAR afsnit 17.9: Regression. Hypotese: Linie gennem (0,0). 22
23 Dependent Variable: y The GLM Procedure Number of observations 20 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Uncorrected Total R-Square Coeff Var Root MSE y Mean NOTE: No intercept term is used: R-square is not corrected for the mean. Source DF Type I SS Mean Square F Value Pr > F x <.0001 Standard Parameter Estimate Error t Value Pr > t x <
24 Regressionslinie gennem (0,0) med indlagt regressionsbånd. 24
25 Kapitel 18 i ZAR: Sammenligning af regressionslinier. /*ZAR kapitel 18. Sammenligning af to regressionslinjer.*/ /*Data er konstruerede. De antages at ligge i 'zar18_1' med de tre variable 'y', 'x' og 'gruppe', hvor y=2+x+z i gruppe 1 og y=8+x+z i gruppe 2, hvor z er *fejl* med fordeling N(0,9)*/ GOPTIONS FTEXT=SWISS HTEXT=2; /*Her konstrueres data*/ DATA gruppe1; DO x=1 TO 20 BY 1; y=2+x+3*rannor(345557); gruppe=1; OUTPUT; END; DATA gruppe2; DO x=10 TO 25 BY 1; y=8+x+3*rannor(35777); gruppe=2; OUTPUT; END; DATA zar18_1; SET gruppe1 gruppe2; 25
26 /*Undersøgelse af linearitet*/ SYMBOL1 V=dot I=rl C=red; SYMBOL2 V=star I=rl C=blue; PROC GPLOT DATA=zar18_1; PLOT y*x=gruppe; QUIT; PROC GLM DATA=zar18_1; /*Regressionsanalyse. Residualer til kontrol af varianshomogenitet*/ CLASS gruppe; MODEL y=x gruppe gruppe*x/ss1; OUTPUT OUT=ny1 STUDENT=student1; /*Her må plottesymboler resettes */ GOPTIONS RESET FTEXT=SWISS HTEXT=2; /*Residualplot*/ SYMBOL1 V=dot I=none C=red; SYMBOL2 V=star I=none C=blue; PROC GPLOT DATA=ny1; PLOT student1*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; QUIT; /*Regressionsanalyse med samme hældning men forskellig skæring med y-akse for de to linier. Estimation af parametre.*/ PROC GLM; CLASS gruppe; MODEL y=x gruppe /SS1 SOLUTION;; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m P=yhat; 26
27 /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; PROC SORT; BY gruppe; GOPTIONS RESET FTEXT=SWISS HTEXT=2; AXIS1 ORDER=0 TO 30 by 10; AXIS2 ORDER=-10 TO 40 by 10; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL1 v=dot I=none c=red; SYMBOL2 v=none I=rl c=blue; SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT y*x=2 l95m*x=3 u95m*x=3/overlay HAXIS=AXIS1 VAXIS=AXIS2; BY gruppe; 27
28 UDSKRIFT: Tegning af regressionslinier for gruppe 1 og gruppe 2. 28
29 /*test for same hældning på regressionslinier*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 gruppe x*gruppe
30 Studentiserede residualer for gruppe 1 og gruppe 2. Forskellige regressionslinier. 30
31 /*Analyse og parameterestimation. Model med samme hældning på regressionslinier.*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr.Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 gruppe Standard Parameter Estimate Error t Value Pr > t Intercept B x <.0001 gruppe B gruppe B... 31
32 Studentiserede residualer for gruppe 1 og gruppe 2. Samme hældning på regressionslinier. 32
33 Regressionslinie med konfidensbånd for gruppe 1 33
34 Regressionslinie med konfidensbånd for gruppe 2 34
35 Eksempel i ZAR: Regressionsanalyse med flere uafhængige variable /*Data er hentet fra Zar eksempel 20a. De fire første variable er betegnet med x1-x4 og den femte med y. Data antages at ligge i 'zar20'.*/ GOPTIONS FTEXT=SWISS HTEXT=2; PROGRAM 1: PROC CORR; /*korrelationskoefficienter jvf zar 20.1d*/ PROGRAM2: /*Regressionsanalyse med estimerede parametre, jvf Zar 20.1g. Konstruktion af datasæt med studentiserede residualer ("student1") og predikterede værdier ("yhat1"). */ PROC GLM; MODEL y=x1 x2 x3 x4/ss1 SOLUTION; OUTPUT OUT=ny1 STUDENT=student1 P=yhat1; /*residualer tegnet mod x4 (det kunne have været en af de andre baggrundsvariable)*/ SYMBOL1 V=dot C=red; PROC GPLOT DATA=ny1; PLOT student1*x4/vref=0 VREF=1.96 VREF=-1.96; /*modelkontrol*/ SYMBOL2 V=none I=rl C=blue; PROC GPLOT DATA=ny1; PLOT y*yhat1 y*y=2/overlay HAXIS=1 TO 5 BY 1 VAXIS=1 TO 5 BY 1; QUIT; /*modellen passer ikke ret godt på grund af de to mulige outliers */ PROGRAM3: /*Trinsvis elimination jvf zar 20.2*/ PROC GLM; MODEL y=x1 x2 x4/solution; run; PROC GLM; MODEL y=x1 x4/solution; run; /*Her tegnes nye residualplot og foretages ny grafisk modelkontrol*/ 35
36 UDSKRIFT 1: The CORR Procedure 5 Variables: x1 x2 x3 x4 y Simple Statistics Var N Mean Std Dev Sum Minimum Maximum x x x x y Pearson Correlation Coefficients, N = 33 Prob > r under H0: Rho=0 x1 x2 x3 x4 y x <.0001 x x x y < UDSKRIFT 2: The GLM Procedure (Model y=x1 x2 x3 x4) Dependent Variable: y Number of observations Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x x x
37 Source DF Type III SS Mean Square F Value Pr > F x <.0001 x x x Standard Parameter Estimate Error t Value Pr > t Intercept x <.0001 x x x Zar 20: Residualplot Zar 20: Modelkontrol 37
38 UDSKRIFT 3: The GLM Procedure (Model y=x1 x2 x3) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x x Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 x <.0001 x x The GLM Procedure (Model y=x1 x4) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 x <.0001 x
39 Eksempel til afsnit 21 i ZAR: Kvadratisk regressionsanalyse /*Eksempel fra Draper og Smith: Regressionanalysis (side 162).*/ GOPTIONS FTEXT=SWISS HTEXT=2; /* Lay-out på figurer*/ DATA krystal; /*indlæsning af data*/ INPUT I8 CARDS; ; ODS RTF body='c:\mylib\kvadratiskregres.rtf'; SYMBOL1 v=dot I=rq; ; PROC GPLOT PLOT krystal*i8; PROC GLM DATA=krystal; MODEL krystal=i8 I8*I8/SS1 SOLUTION; OUTPUT OUT=res STUDENT=student; PROC PRINT; SYMBOL V=dot I=none; PROC GPLOT; PLOT student*i8; ODS RFT CLOSE; QUIT; /*tegning af krystal mod I8 med*/ /*kvadratisk regressionsfunktion.*/ /*kvadratisk regression*/ /*datasæt med residualer*/ /*udskrift af data og residualer*/ /*Residualplot*/ 39
40 UDSKRIFT The GLM Procedure Number of observations 19 Dependent Variable: krystal Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE krystal Mean Source DF Type I SS Mean Square F Value Pr > F I <.0001 I8*I <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 I <.0001 I8*I <.0001 Studentiserede residualer Obs I8 krystal student
41 Zar 21: Krystal tegnet mod I8 Zar 21: Studentiserede residualer tegnet mod I8 41
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Besvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)
Eksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Reeksamen i Statistik for biokemikere. Blok 3 2007.
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
En Introduktion til SAS. Kapitel 6.
En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel
Besvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017
Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences
Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger
Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences
Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Phd-kursus i Basal Statistik, Opgaver til 2. uge
Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever
Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én
Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og
Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Vejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016
Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,
Vejledende besvarelse af hjemmeopgave
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Besvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical
Vejledende besvarelse af hjemmeopgave, forår 2017
Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag
Vejledende besvarelse af hjemmeopgave, forår 2015
Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden
Vejledende besvarelse af hjemmeopgave, forår 2016
Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau
Løsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
Basal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og
Statistiske Modeller 1: Kontingenstabeller i SAS
Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot
Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Eksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Postoperative komplikationer
Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.
ØVELSE 2B. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse.
ØVELSE 2B I denne øvelse gennemgår vi: Udskrivning ved hjælp af PUT. Procedurerne FREQ, UNIVARIATE og CORR. Overførsel af procedure-uddata til et datasæt. Fremstilling af histogrammer og XY-plots. Formål
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Lineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Dagens program Lineær regression
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
INTRODUKTION TIL dele af SAS
INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.
Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme
MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes
Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol
Basal statistik 2. oktober 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard, Biostatistisk Afdeling Institut
