En Introduktion til SAS. Kapitel 5.
|
|
|
- Marianne Lorentzen
- 9 år siden
- Visninger:
Transkript
1 En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts udgave
2 Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel viser, hvorledes T-test kan udføres ved hjælp af SAS. Det gennemgås, hvorledes programmer skal skrives og udskrifterne fortolkes. Desuden jævnføres de i udskrifterne beregnede størrelser med de fra noterne kendte. Det antages, at betingelserne for at udføre T-test er opfyldte, altså at observationerne er normalfordelte med samme varians i alle grupper. Dette kan undersøges ved hjælp af PROC UNIVARIATE, der beregner summariske mål for fordelinger og tegner histogrammer og QQ-plot. Det antages, at data foreligger som et SAS-datasæt. I eksemplerne bruges SAS-datasættet cdj, der er beskrevet sidst i kapitlet. 5.2 PROC UNIVARIATE Dette afsnit knytter sig til IH kapitel 9 om beskrivende statistik. Vi antager, at vi har et SAS-datasæt med to variable. Den ene, X, angiver for hver observation det målingsresultat, der ønskes analyseret. Den anden er en klassevariabel, R, med endeligt mange værdier, der angiver hvilken gruppe (eller klasse) observationen tilhører.
3 5.2 PROC UNIVARIATE 55 PROC UNIVARIATE I det første eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at nde summariske mål i en fordeling. Betegnelserne er for en stor del de samme som i PROC MEANS, men PROC UNIVARIATE nder (bl. a.) også fraktiler i fordelingen. Denitioner og udskriftstørrelser i PROC UNIVARIATE. Det antages, at vi har N ikke-manglende observationer og sætter x (1) = den mindste observation x (N) = den største observation x = 1 Ni=1 x N i. s 2 = 1 Ni=1 (x N 1 i x) 2. Med disse betegnelser fås følgende udskriftstørrelser i PROC UNIVARIATE: N = antal observationer med ikke-manglende værdier. MEAN = x = gennemsnit eller empirisk middelværdi. STD Deviation = s = empirisk spredning eller empirisk standardafvigelse. Sum Observations = N i=1 x i. Variance =s 2 = empirisk varians. Uncorrected SS = N i=1 x 2 i Corrected SS = N i=1 (x i x) 2 = kvadratafvigelsessum. Coeff Variation = 100s/ x = variationskoecient. Std Error Mean = s/ N = empirisk spredning for gennemsnittet. Median=50%-fraktil Q3 = 75%-fraktil Q1 = 25%-fraktil Range= x (N) - x (1). Interquartile Range = Q3-Q1. Students t = N x/s = T-teststørrelse for hypotesen E(X) = 0, hvis observationerne er normalfordelte. PR > t = testsandsynlighed for T-testet.
4 56 T-test og PROC UNIVARIATE PROGRAM 5.1: DATA temp; SET cdj; IF type=2; PROC UNIVARIATE; VAR lav-glyc; TITLE 'CDJ-data. Udskrift fra PROC UNIVARIATE'; FOOTNOTE 'Summariske mål for lav-glyc i gruppe 2'; RUN; UDSKRIFT 5.1: CDJ-data. Udskrift fra PROC UNIVARIATE The UNIVARIATE Procedure Variable: Lav-glyc Moments N 18 Sum Weights 18 Mean Sum Observations Std Deviation Variance Skewness Kurtosis Uncorrected SS Corrected SS Coeff Variation Std Error Mean Basic Statistical Measures Location Variability Mean Std Deviation Median Variance Mode. Range Interquartile Range Quantiles (Definition 5) Quantile Estimate 100% Max % % % % Q % Median % Q % % % % Min 40.4
5 5.2 PROC UNIVARIATE 57 Tests for Location: Mu0=0 Test -Statistic p Value Student's t t Pr > t <.0001 Sign M 9 Pr >= M <.0001 Signed Rank S 85.5 Pr >= S <.0001 Extreme Observations ----Lowest Highest--- Value Obs Value Obs Summariske mål for lav-glyc i gruppe 2 I det næste eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at tegne histogram for et datasæt og sammenligne dette med tæthed for normal fordeling. Programmet giver samtidig numeriske test for normalitet af data. Hvis man i stedet ønsker at indtegne tætheden for en lognormal-fordeling erstattes NORMAL i programmet med LOG- NORMAL. Figuren ndes i det særskilte bilag: Figurer til Introduktion til SAS kapitel 5. PROGRAM 5.2: UDSKRIFT 5.2: GOPTIONS HSIZE=7 VSIZE=7 FTEXT=swiss; PROC UNIVARIATE NOPRINT DATA=cdj; VAR lav-glyc; HISTOGRAM lav-glyc/normal; TITLE 'CDJ-data. Figur med PROC UNIVARIATE'; FOOTNOTE 'Histogram og indtegnet normalfordeling med estimerede parametre'; RUN; QUIT; CDJ-data. Figur med PROC UNIVARIATE The UNIVARIATE Procedure Fitted Distribution for Lav-glyc Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu
6 58 T-test og PROC UNIVARIATE Std Dev Sigma Goodness-of-Fit Tests for Normal Distribution Test ---Statistic p Value----- Kolmogorov-Smirnov D Pr > D >0.150 Cramer-von Mises W-Sq Pr > W-Sq >0.250 Anderson-Darling A-Sq Pr > A-Sq >0.250 Quantiles for Normal Distribution Quantile Percent Observed Estimated Histogram og indtegnet normalfordeling med estimerede parametre. I det næste eksempel vises, hvorledes man kan bruge PROC UNIVARI- ATE til at tegne QQ-plot for et datasæt. I et QQ-plot tegnes fraktiler fra normalfordeling med de estimerede parametre ud af x-aksen. På y-aksen angives de empiriske fraktiler. Hvis data er normalfordelt skal punkterne ligger omkring en ret linie med hældning 1. Hvis man i stedet ønsker at tegne QQ-plot for en lognormal-fordeling erstattes NORMAL i programmet med LOGNORMAL.. Figuren ndes i det særskilte bilag: Figurer til Introduktion til SAS kapitel 5. PROGRAM 5.3: GOPTIONS HSIZE=7 VSIZE=7 FTEXT=swiss; PROC UNIVARIATE NOPRINT DATA=cdj; VAR lav-glyc; QQPLOT/NORMAL(MU=est SIGMA=est); TITLE 'CDJ-data. Figur med PROC UNIVARIATE'; FOOTNOTE 'QQ-plot. x-akse er fraktiler fra normalfordeling med estimerede parametre'; RUN; QUIT;
7 5.3 T-test T-test Dette afsnit knytter sig til IH kapitel 11 om T-test. Vi antager, at vi har et SAS-datasæt med to variable. Den ene, X, angiver for hver observation det målingsresultat, der ønskes analyseret. Den anden er en klassevariabel, R, med endeligt mange værdier, der angiver hvilken gruppe (eller klasse) observationen tilhører. I IH kapitel 11.3 antager R kun en værdi og i IH kapitel 11.4 antager den to værdier. Data X og R er SAS-variable i SAS-datasæt med n observationer. X R numerisk variabel klassevariabel med endeligt mange værdier r=1,...,k En-stikprøve T-test X 1, X 2,..., X n er uafhængige, identisk normalfordelte stokastiske variable med ukendt middelværdi µ og ukendte varians σ 2. Sammen med modellen betragter vi hypotesen H : µ = µ 0, hvor µ 0 er et kendt tal. Det følgende eksempel vises, hvorledes man kan udføre et T-test på niveau 5% (ALPHA=0.05) for hypotesen om at variablen 'lav-glyc' for type 2 har middelværdi 46 (H0=46), idet observationerne antages være uafhængige og stamme fra samme normalfordeling. PROGRAM 5.4: DATA temp; SET cdj; IF type=2; PROC TTEST H0=46 ALPHA=0.05; VAR lav-glyc; TITLE 'CDJ-data. Eksempel på t-test'; FOOTNOTE 'T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2'; RUN;
8 60 T-test og PROC UNIVARIATE UDSKRIFT 5.4 CDJ-data. Eksempel på t-test The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Lav-glyc T-Tests Variable DF t Value Pr > t Lav-glyc T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2 I udskriften er brugt følgende denitioner og udskriftstørrelser i PROC TTEST: Det antages, at vi har N ikke-manglende observationer, og vi benytter følgende denitioner x = 1 Ni=1 x N i. s 2 = 1 Ni=1 (x N 1 i x) 2. t α,f = α-fraktilen i T-fordeling med f frihedsgrader. χ 2 α,f = α-fraktilen i χ 2 -fordeling med f frihedsgrader. Med disse denitioner fås følgende udskriftstørrelser i PROC TTEST: N = antal observationer med ikke-manglende værdier. MEAN = x = gennemsnit eller empirisk middelværdi. Upper CL Mean= x + t 1 α 2,N 1 s/ N= øvre α kondensgrænse for middelværdien. Lower CL Mean= x + tα 2,N 1 s/ N= nedre α kondensgrænse for middelværdien. STD Deviation = s = empirisk spredning eller empirisk standardafvigelse. Upper CL Std Deviation=s N 1 χ 2 α/2,n 1 =øvre α kondensgrænse for spredningen. Lower CL Std Deviation=s N 1 χ 2 1 α/2,n 1 =nedre α kondensgrænse for spredningen.
9 5.3 T-test 61 Std Err = s/ N = empirisk spredning for gennemsnittet. t value = N x/s = T-teststørrelse for hypotesen E(X) = µ 0, hvis observationerne er normalfordelte. Pr > t = testsandsynlighed for T-testet. To-stikprøve T-test I IH kapitel 11.4 har vi (X rs ), r = 1, 2, s = 1,..., n r, hvor n r = antal observationer med R=r. Her er X'erne uafhængige normalfordelte stokastiske variable med samme ukendte middelværdi µ r for R=r og samme ukendte varians σ 2. Sammen med modellen betragter vi hypotesen H : µ 1 = µ 2 = µ. I det næste eksempel vises, hvorledes man kan udføre et T-test på niveau 5% for hypotesen om at variablen 'lav-glyc' for type 1 og type 2 i datasættet cdj har samme middelværdi, idet observationerne antages være uafhængige og stamme fra hver sin normalfordeling. Programmet udfører også test for identitet af varianserne i de to fordelinger. Program 5.5: DATA temp; SET cdj; IF type le 2; PROC TTEST ALPHA=0.05; VAR lav-glyc; CLASS type; TITLE 'CDJ-data.Sammenligning af type 1 og type 2'; RUN; UDSKRIFT 5.5: CDJ-data.Sammenligning af type 1 og type 2 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable type N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Lav-glyc Lav-glyc Lav-glyc Diff (1-2)
10 62 T-test og PROC UNIVARIATE T-Tests Variable Method Variances DF t Value Pr > t Lav-glyc Pooled Equal Lav-glyc Satterthwaite Unequal Equality of Variances Variable Method Num DF Den DF F Value Pr > F Lav-glyc Folded F T-test på 5%-niveau for test af middelværdi=46 for lav-glyc i gruppe 2 Parret T-test Det næste eksempel knytter sig til IH kapitel 11.3 og viser, hvorledes man kan udføre et parvis T-test på niveau 5% for hypotesen om at dierensen mellem to variable, der her beskriver længden af hhv forben og bagben for 10 dyr, har middelværdi 0. Dierenserne antages være uafhængige og stamme fra samme normalfordeling. I udskriften bruges de samme betegnelser som i eksempel 5.4. PROGRAM 5.6 DATA ben; INPUT bagben forben; CARDS; ; PROC TTEST ALPHA=0.05; PAIRED bagben*forben; TITLE 'Parret T-test'; RUN;
11 5.3 T-test 63 UDSKRIFT 5.6 The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err bagben - forben T-Tests Difference DF t Value Pr > t bagben - forben Bilag: Data til kapitel 5 I eksemplerne benyttes nedenstående datasæt, der er hentet fra Collinge et al, Nature vol 383, 24. oktober Det angiver andel lavmolekylær hhv andel højmokylær masse for prøver fra 4 typer proteiner. PROGRAM: DATA cdj; INPUT type hoj-glyc lav-glyc; CARDS;
12 64 T-test og PROC UNIVARIATE ;
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
En Introduktion til SAS. Kapitel 6.
En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges
Eksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.
Basal statistik. 30. januar 2007
Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Regressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
MPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences
Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og
Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)
Forelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/
Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Opgaver til kapitel 3
Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer
Løsninger til kapitel 9
Opgave 9.1 a) test for spredning, ensidet b) test for middelværdi, ensidet c) test for andel, ensidet d) test for to andele, ensidet e) test for spredning, tosidet f) test for middelværdi, ensidet g) test
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Kvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Vejledende besvarelse af hjemmeopgave, forår 2017
Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Forelæsning 3: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
ØVELSE 2B. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse.
ØVELSE 2B I denne øvelse gennemgår vi: Udskrivning ved hjælp af PUT. Procedurerne FREQ, UNIVARIATE og CORR. Overførsel af procedure-uddata til et datasæt. Fremstilling af histogrammer og XY-plots. Formål
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5
02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling
Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Ikke-parametriske tests
Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference
