En Introduktion til SAS. Kapitel 5.

Relaterede dokumenter
n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Eksamen i Statistik for Biokemikere, Blok januar 2009

En Introduktion til SAS. Kapitel 6.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Løsning eksamen d. 15. december 2008

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Eksamen i Statistik for biokemikere. Blok

Basal statistik. 30. januar 2007

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Modelkontrol i Faktor Modeller

Basal statistik. 29. januar 2008

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Tema. Dagens tema: Indfør centrale statistiske begreber.

Regressionsanalyse i SAS

Reeksamen i Statistik for biokemikere. Blok

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Konfidensintervaller og Hypotesetest

Eksamen i Statistik for biokemikere. Blok

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Løsning til eksamen d.27 Maj 2010

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Normalfordelingen. Statistik og Sandsynlighedsregning 2

MPH specialmodul Epidemiologi og Biostatistik

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

k normalfordelte observationsrækker (ensidet variansanalyse)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Klasseøvelser dag 2 Opgave 1

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Opgavebesvarelse, Basalkursus, uge 2

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Reeksamen i Statistik for Biokemikere 6. april 2009

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Forelæsning 11: Envejs variansanalyse, ANOVA

Løsning til eksaminen d. 29. maj 2009

Modul 11: Simpel lineær regression

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Basal statistik. 16. september 2008

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Opgaver til kapitel 3

Løsninger til kapitel 9

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

1 Hb SS Hb Sβ Hb SC = , (s = )

Lineær regression i SAS. Lineær regression i SAS p.1/20

Eksamen i Statistik for biokemikere. Blok

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Basal statistik. 18. september 2007

Kvantitative Metoder 1 - Forår 2007

Basal statistik. 18. september 2007

Nanostatistik: Opgavebesvarelser

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

ØVELSE 2B. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse.

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

Generelle lineære modeller

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Normalfordelingen og Stikprøvefordelinger

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Basal statistik. 2. september 2008

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Lidt om fordelinger, afledt af normalfordelingen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Ikke-parametriske tests

Transkript:

En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave

Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel viser, hvorledes T-test kan udføres ved hjælp af SAS. Det gennemgås, hvorledes programmer skal skrives og udskrifterne fortolkes. Desuden jævnføres de i udskrifterne beregnede størrelser med de fra noterne kendte. Det antages, at betingelserne for at udføre T-test er opfyldte, altså at observationerne er normalfordelte med samme varians i alle grupper. Dette kan undersøges ved hjælp af PROC UNIVARIATE, der beregner summariske mål for fordelinger og tegner histogrammer og QQ-plot. Det antages, at data foreligger som et SAS-datasæt. I eksemplerne bruges SAS-datasættet cdj, der er beskrevet sidst i kapitlet. 5.2 PROC UNIVARIATE Dette afsnit knytter sig til IH kapitel 9 om beskrivende statistik. Vi antager, at vi har et SAS-datasæt med to variable. Den ene, X, angiver for hver observation det målingsresultat, der ønskes analyseret. Den anden er en klassevariabel, R, med endeligt mange værdier, der angiver hvilken gruppe (eller klasse) observationen tilhører.

5.2 PROC UNIVARIATE 55 PROC UNIVARIATE I det første eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at nde summariske mål i en fordeling. Betegnelserne er for en stor del de samme som i PROC MEANS, men PROC UNIVARIATE nder (bl. a.) også fraktiler i fordelingen. Denitioner og udskriftstørrelser i PROC UNIVARIATE. Det antages, at vi har N ikke-manglende observationer og sætter x (1) = den mindste observation x (N) = den største observation x = 1 Ni=1 x N i. s 2 = 1 Ni=1 (x N 1 i x) 2. Med disse betegnelser fås følgende udskriftstørrelser i PROC UNIVARIATE: N = antal observationer med ikke-manglende værdier. MEAN = x = gennemsnit eller empirisk middelværdi. STD Deviation = s = empirisk spredning eller empirisk standardafvigelse. Sum Observations = N i=1 x i. Variance =s 2 = empirisk varians. Uncorrected SS = N i=1 x 2 i Corrected SS = N i=1 (x i x) 2 = kvadratafvigelsessum. Coeff Variation = 100s/ x = variationskoecient. Std Error Mean = s/ N = empirisk spredning for gennemsnittet. Median=50%-fraktil Q3 = 75%-fraktil Q1 = 25%-fraktil Range= x (N) - x (1). Interquartile Range = Q3-Q1. Students t = N x/s = T-teststørrelse for hypotesen E(X) = 0, hvis observationerne er normalfordelte. PR > t = testsandsynlighed for T-testet.

56 T-test og PROC UNIVARIATE PROGRAM 5.1: DATA temp; SET cdj; IF type=2; PROC UNIVARIATE; VAR lav-glyc; TITLE 'CDJ-data. Udskrift fra PROC UNIVARIATE'; FOOTNOTE 'Summariske mål for lav-glyc i gruppe 2'; RUN; UDSKRIFT 5.1: CDJ-data. Udskrift fra PROC UNIVARIATE The UNIVARIATE Procedure Variable: Lav-glyc Moments N 18 Sum Weights 18 Mean 45.6944444 Sum Observations 822.5 Std Deviation 3.15417039 Variance 9.94879085 Skewness 0.18700929 Kurtosis -0.7847903 Uncorrected SS 37752.81 Corrected SS 169.129444 Coeff Variation 6.90274371 Std Error Mean 0.74344509 Basic Statistical Measures Location Variability Mean 45.69444 Std Deviation 3.15417 Median 45.90000 Variance 9.94879 Mode. Range 11.10000 Interquartile Range 4.80000 Quantiles (Definition 5) Quantile Estimate 100% Max 51.5 99% 51.5 95% 51.5 90% 50.7 75% Q3 47.7 50% Median 45.9 25% Q1 42.9 10% 42.0 5% 40.4 1% 40.4 0% Min 40.4

5.2 PROC UNIVARIATE 57 Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 61.46311 Pr > t <.0001 Sign M 9 Pr >= M <.0001 Signed Rank S 85.5 Pr >= S <.0001 Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 40.4 12 47.7 13 42.0 14 48.9 4 42.3 11 49.0 1 42.4 7 50.7 16 42.9 15 51.5 5 Summariske mål for lav-glyc i gruppe 2 I det næste eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at tegne histogram for et datasæt og sammenligne dette med tæthed for normal fordeling. Programmet giver samtidig numeriske test for normalitet af data. Hvis man i stedet ønsker at indtegne tætheden for en lognormal-fordeling erstattes NORMAL i programmet med LOG- NORMAL. Figuren ndes i det særskilte bilag: Figurer til Introduktion til SAS kapitel 5. PROGRAM 5.2: UDSKRIFT 5.2: GOPTIONS HSIZE=7 VSIZE=7 FTEXT=swiss; PROC UNIVARIATE NOPRINT DATA=cdj; VAR lav-glyc; HISTOGRAM lav-glyc/normal; TITLE 'CDJ-data. Figur med PROC UNIVARIATE'; FOOTNOTE 'Histogram og indtegnet normalfordeling med estimerede parametre'; RUN; QUIT; CDJ-data. Figur med PROC UNIVARIATE The UNIVARIATE Procedure Fitted Distribution for Lav-glyc Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 45.69444

58 T-test og PROC UNIVARIATE Std Dev Sigma 3.15417 Goodness-of-Fit Tests for Normal Distribution Test ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.11881468 Pr > D >0.150 Cramer-von Mises W-Sq 0.02757938 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.20059927 Pr > A-Sq >0.250 Quantiles for Normal Distribution ------Quantile------ Percent Observed Estimated 1.0 40.4000 38.3567 5.0 40.4000 40.5063 10.0 42.0000 41.6522 25.0 42.9000 43.5670 50.0 45.9000 45.6944 75.0 47.7000 47.8219 90.0 50.7000 49.7367 95.0 51.5000 50.8826 99.0 51.5000 53.0321 Histogram og indtegnet normalfordeling med estimerede parametre. I det næste eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at tegne QQ-plot for et datasæt. I et QQ-plot tegnes fraktiler fra normalfordeling med de estimerede parametre ud af x-aksen. På y-aksen angives de empiriske fraktiler. Hvis data er normalfordelt skal punkterne ligger omkring en ret linie med hældning 1. Hvis man i stedet ønsker at tegne QQ-plot for en lognormal-fordeling erstattes NORMAL i programmet med LOGNORMAL.. Figuren ndes i det særskilte bilag: Figurer til Introduktion til SAS kapitel 5. PROGRAM 5.3: GOPTIONS HSIZE=7 VSIZE=7 FTEXT=swiss; PROC UNIVARIATE NOPRINT DATA=cdj; VAR lav-glyc; QQPLOT/NORMAL(MU=est SIGMA=est); TITLE 'CDJ-data. Figur med PROC UNIVARIATE'; FOOTNOTE 'QQ-plot. x-akse er fraktiler fra normalfordeling med estimerede parametre'; RUN; QUIT;

5.3 T-test 59 5.3 T-test Dette afsnit knytter sig til IH kapitel 11 om T-test. Vi antager, at vi har et SAS-datasæt med to variable. Den ene, X, angiver for hver observation det målingsresultat, der ønskes analyseret. Den anden er en klassevariabel, R, med endeligt mange værdier, der angiver hvilken gruppe (eller klasse) observationen tilhører. I IH kapitel 11.3 antager R kun en værdi og i IH kapitel 11.4 antager den to værdier. Data X og R er SAS-variable i SAS-datasæt med n observationer. X R numerisk variabel klassevariabel med endeligt mange værdier r=1,...,k En-stikprøve T-test X 1, X 2,..., X n er uafhængige, identisk normalfordelte stokastiske variable med ukendt middelværdi µ og ukendte varians σ 2. Sammen med modellen betragter vi hypotesen H : µ = µ 0, hvor µ 0 er et kendt tal. Det følgende eksempel vises, hvorledes man kan udføre et T-test på niveau 5% (ALPHA=0.05) for hypotesen om at variablen 'lav-glyc' for type 2 har middelværdi 46 (H0=46), idet observationerne antages være uafhængige og stamme fra samme normalfordeling. PROGRAM 5.4: DATA temp; SET cdj; IF type=2; PROC TTEST H0=46 ALPHA=0.05; VAR lav-glyc; TITLE 'CDJ-data. Eksempel på t-test'; FOOTNOTE 'T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2'; RUN;

60 T-test og PROC UNIVARIATE UDSKRIFT 5.4 CDJ-data. Eksempel på t-test The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Lav-glyc 18 44.126 45.694 47.263 2.3669 3.1542 4.7286 0.7434 T-Tests Variable DF t Value Pr > t Lav-glyc 17-0.41 0.6862 T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2 I udskriften er brugt følgende denitioner og udskriftstørrelser i PROC TTEST: Det antages, at vi har N ikke-manglende observationer, og vi benytter følgende denitioner x = 1 Ni=1 x N i. s 2 = 1 Ni=1 (x N 1 i x) 2. t α,f = α-fraktilen i T-fordeling med f frihedsgrader. χ 2 α,f = α-fraktilen i χ 2 -fordeling med f frihedsgrader. Med disse denitioner fås følgende udskriftstørrelser i PROC TTEST: N = antal observationer med ikke-manglende værdier. MEAN = x = gennemsnit eller empirisk middelværdi. Upper CL Mean= x + t 1 α 2,N 1 s/ N= øvre α kondensgrænse for middelværdien. Lower CL Mean= x + tα 2,N 1 s/ N= nedre α kondensgrænse for middelværdien. STD Deviation = s = empirisk spredning eller empirisk standardafvigelse. Upper CL Std Deviation=s N 1 χ 2 α/2,n 1 =øvre α kondensgrænse for spredningen. Lower CL Std Deviation=s N 1 χ 2 1 α/2,n 1 =nedre α kondensgrænse for spredningen.

5.3 T-test 61 Std Err = s/ N = empirisk spredning for gennemsnittet. t value = N x/s = T-teststørrelse for hypotesen E(X) = µ 0, hvis observationerne er normalfordelte. Pr > t = testsandsynlighed for T-testet. To-stikprøve T-test I IH kapitel 11.4 har vi (X rs ), r = 1, 2, s = 1,..., n r, hvor n r = antal observationer med R=r. Her er X'erne uafhængige normalfordelte stokastiske variable med samme ukendte middelværdi µ r for R=r og samme ukendte varians σ 2. Sammen med modellen betragter vi hypotesen H : µ 1 = µ 2 = µ. I det næste eksempel vises, hvorledes man kan udføre et T-test på niveau 5% for hypotesen om at variablen 'lav-glyc' for type 1 og type 2 i datasættet cdj har samme middelværdi, idet observationerne antages være uafhængige og stamme fra hver sin normalfordeling. Programmet udfører også test for identitet af varianserne i de to fordelinger. Program 5.5: DATA temp; SET cdj; IF type le 2; PROC TTEST ALPHA=0.05; VAR lav-glyc; CLASS type; TITLE 'CDJ-data.Sammenligning af type 1 og type 2'; RUN; UDSKRIFT 5.5: CDJ-data.Sammenligning af type 1 og type 2 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable type N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Lav-glyc 1 6 36.53 42.867 49.203 3.769 6.0381 14.809 2.465 Lav-glyc 2 18 44.126 45.694 47.263 2.3669 3.1542 4.7286 0.7434 Lav-glyc Diff (1-2) -6.735-2.828 1.0795 3.091 3.9967 5.6568 1.8841

62 T-test og PROC UNIVARIATE T-Tests Variable Method Variances DF t Value Pr > t Lav-glyc Pooled Equal 22-1.50 0.1476 Lav-glyc Satterthwaite Unequal 5.94-1.10 0.3146 Equality of Variances Variable Method Num DF Den DF F Value Pr > F Lav-glyc Folded F 5 17 3.66 0.0394 T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2 Parret T-test Det næste eksempel knytter sig til IH kapitel 11.3 og viser, hvorledes man kan udføre et parvis T-test på niveau 5% for hypotesen om at dierensen mellem to variable, der her beskriver længden af hhv forben og bagben for 10 dyr, har middelværdi 0. Dierenserne antages være uafhængige og stamme fra samme normalfordeling. I udskriften bruges de samme betegnelser som i eksempel 5.4. PROGRAM 5.6 DATA ben; INPUT bagben forben; CARDS; 142 138 140 136 144 147 144 139 142 143 146 141 149 143 150 145 142 136 148 146 ; PROC TTEST ALPHA=0.05; PAIRED bagben*forben; TITLE 'Parret T-test'; RUN;

5.3 T-test 63 UDSKRIFT 5.6 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err bagben - forben 10 1.1132 3.3 5.4868 2.1026 3.0569 5.5807 0.9667 T-Tests Difference DF t Value Pr > t bagben - forben 9 3.41 0.0077 Bilag: Data til kapitel 5 I eksemplerne benyttes nedenstående datasæt, der er hentet fra Collinge et al, Nature vol 383, 24. oktober 1996. Det angiver andel lavmolekylær hhv andel højmokylær masse for prøver fra 4 typer proteiner. PROGRAM: DATA cdj; INPUT type hoj-glyc lav-glyc; CARDS; 1 18.2 47.3 1 20.4 49.4 1 25.0 38.1 1 31.7 37.2 1 32.1 36.9 1 29.2 48.3 2 21.2 49.0 2 22.5 46.2 2 22.9 47.1 2 23.8 48.9 2 24.3 51.5 2 24.6 44.2 2 24.1 42.4 2 25.9 46.9 2 25.4 45.0

64 T-test og PROC UNIVARIATE 2 25.2 43.2 2 25.1 42.3 2 26.7 40.4 2 26.0 47.7 2 28.2 42.0 2 29.1 42.9 2 33.8 50.7 2 29.4 45.6 2 29.3 46.5 3 25.6 40.5 3 28.8 46.6 3 30.2 44.2 3 32.3 46.2 4 43.7 45.0 4 44.2 47.9 4 47.0 44.3 4 47.1 46.7 4 48.4 43.4 4 49.5 33.1 4 50.7 35.5 4 51.2 37.2 4 53.4 43.4 ;