Variansanalyse (ANOVA)
|
|
|
- Bertha Lange
- 10 år siden
- Visninger:
Transkript
1 3 / 46 2 / 46 4 / 46 Faculty of Health Sciences Indhold dag 2 Variansanalyse (ANOVA) Ulla B Mogensen Biostatistisk Afd., SUND, KU. Mail: [email protected] T-testet fra dag 1 Ensidet variansanalyse. Modelkontrol. Tosidet variansanalyse. Additiv model Interaktions model Modelkontrol. T-test fra dag 1 T-test antagelser Kontinuert normalfordelte variable fra en eller to stikprøver. One-sample t-test: En stikprøve hvor vi kan teste om middelværdien har en bestemt værdi. Two-sample t-test: To stikprøver, hvor vi kan teste om middelværdien i de to stikprøver er ens. Hvis de to stikprøver er to samples for samme observationer (f.eks. test af hæmoglobin niveau før og efter epo indtagelse) taler vi om parret data og test. Fælles for one-sample og two-sample: Observationerne indenfor en stikprøve skal være uafhængige. Responsvariablen skal være normalfordelt.! Måske en log-transformation af variablen kan afhjælpe.! Wilcoxon test har ingen normalfordelingsantagelser. For two-sample t-test skal der yderligere gælde: Variansen i de to stikprøver skal være ens.! Welch t-test kan benyttes. For brug af parret t-test skal observationerne i de to stikprøver være parret.
2 5 / 46 7 / 46 6 / 46 8 / 46 Kategoriske variable med 2 eller flere grupper Eksempel I I two-sample t-test sammenlignes to grupper fra en faktor variabel, f.eks. sammenligningen af fødselsvægt for børn af rygere versus ikke-rygere. Hvis faktoren (den kategoriske variabel) har mere end to grupper, f.eks. nuværende rygere, tidligere rygere, ikke-rygere, har vi tre eller flere sammenligninger. Her er parvise t-test ikke godt pga massesignifikans. Festing and Weigler i Handbook of Laboratory Animal Science betragter resultaterne af et ekseperiment med fuldstændig randomiseret design hvor mus var randomiseret til en af fire grupper med forskellig doser af et hormon. Livmodervægten blev målt efter et passende tidsinterval. Eksempel 1 Eksempel 1
3 9 / / / / 46 Eksempel 1 Eksempel 1 Konklusioner fra figurene Livmodervægten afhænger af dosis. Variationen af data øges når dosis øges. Spørgsmål: Hvorfor kunne disse første konklusioner være forkerte? Ensidet variansanalyse (one-way anova) Eksempel: Hæmoglobin niveau i seglcelleanæmi Ensidet (one-way): Der opdeles kun efter en faktor, men som kan have 2 eller flere grupper (levels). f.eks. dosis er faktor variabel med 5 grupper Den j te observation i gruppe i beskrives ved Yij = µi + εij, ε N (0, σ 2 ) hvor µi er gennemsnittet i den i te gruppe og εij er den j te observations individuelle afvigelse fra µi. Seglcelleanænemi er en gruppe af arvelig sygdomme som primært forekommer hos personer med negroide gener. Sygdommene er karakteriseret ved dominans af hæmoglobin S (Hb S) i de røde blodlegemer. Sammenligning af hæmoglobinniveau (g/dl) hos 41 patienter med 3 typer af seglcelleanæmi. Gruppe Typer N Mean (µ) Sd I Hb SS II Hb S/β III Hb SC
4 13 / / / / 46 Hypotese H0 Nul hypotese Niveauet af hæmoglobin afhænger ikke af sygdomstypen H1 Alternativ hypotese Niveauet af hæmoglobin afhænger af sygdomstypen Det vil sige, vi tester mod H0 : µgruppe I = µgruppe II = µgruppe III H1 : µgruppe I µgruppe II eller µgruppe III µgruppe II eller µgruppe I µgruppe III Varians og kvadratsummer (sum-of-squares) Definitionen på varians for en stikprøve med n observationer, Y1,..., Yn med gennemsnit Ȳ er Var = = = 1 (Yi n 1 Ȳ )2 i 1 n 1 {(Y1 Ȳ )2 + + (Yn Ȳn)2 } 1 {(Y1 n 1 Ȳ )2 + + (Yn Ȳ )2 } } {{ } } {{ } sum of squares degrees of freedom hvor µ er middelværdi. Dekomposition af variationen Variansanalyse Afvigelsen fra det total gennemsnit (Yij Ȳ ), kan dekomponeres i to termer: (Yij Ȳ ) = (Yij Ȳi) + (Ȳi Ȳ ) Dermed kan variationen, (Yij Ȳ )2, dekomponeres SStotal = (Yij Ȳ )2 =...teori om lineær normale modeller... = (Yij Ȳi)2 + (Ȳi Ȳ )2 Sammenligning af variansen mellem grupper med variansen indenfor grupper. Variansen indenfor gruppen er en biologisk varians. Variansen mellem grupperne er en tilfældig varians. = SSwithin + SSbetween SSwithin kaldes også residual variationen.
5 17 / / / / 46 F-test ANOVA tabel F-test sammenligner variansen mellem grupper i forhold til variansen indenfor grupperne. SSbetween/(k 1) F = F(k 1, n k) SSwithin/(n k) Hvis variationen mellem grupperne er stor relativ til indenfor grupperne bidrager grupperings faktoren til en systematisk del af variationen af responsvariablen. Variation Degrees Sum of freedom of squares Mean squares Mellem k 1 SSb SSb/(k-1) MSb/MSw P(F(k-1,n-k)> F) grupper Indenfor n k SSw SSw/(n-k) grupper Total n 1 SStotal hvor MSb = 1 k 1 SSbetween og MSw = 1 n k SSwithin F P Et F-test for 2 grupper er ækvivalent med et two-sample t-test. Eksempel 2: F-test Eksempel 2: Parameter estimater Model for hæmoglobin niveaus afhængighed af gruppe > model <- lm(haemoglobin ~ gruppe,data=haem.data) > ftest <- aov(model) > summary(ftest) Df Sum Sq Mean Sq F val Pr(>F) gruppe < *** Residuals Konklusion: Niveauet af hæmoglobin niveauet afhænger signifikant af sygdomsgruppen. Estimaterne fra de forskellige grupper. I R er første gruppe i en faktor altid referencegruppe. > model Call: lm(formula = haemoglobin ~ gruppe, data = haem.data) Coefficients: (Intercept) gruppeii gruppeiii Middelværdi estimatet i gruppe I: Middelværdi estimatet i gruppe II: Middelværdi estimatet i gruppe III:
6 21 / / / / 46 Eksempel 2: Konfidensinterval Eksempel 2: Sammenligning af alle tre grupper Konfidensintervaller for parameter estimaterne fås ved > confint(model) 2.5 % 97.5 % (Intercept) gruppeii gruppeiii Parvise sammenligninger justeret for multiple testning: > TukeyHSD(ftest) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = model) $gruppe diff lwr upr p adj II-I III-I III-II Antagelser for ensidet variansanalyse Modelkontrol for ensidet variansanalyse For at anvende ensidet variansanalyse skal følgende kriterier være opfyldt: Tjek af varianshomogenitet: Residual plot: Plot af residualer mod predikterede værdier. De enkelte observationer skal være uafhængige. Residualerne skal være normalfordelte. Variansen i grupperne skal være ens (varianshomogenitet). Husk: Residualerne er variationen inden for grupperne. Tjek af normalitet for residualer: Histogram af residualerne.? Er de normalfordelt. Hvis ikke, prøv evt transformation. Probability plot af residualerne (QQ-plot)? Ligger de på den skrå linie. Hvis data ikke er normalfordelt og en transformation ikke kan afhjælpe: Brug Kruskal-Wallis test.
7 25 / / / / 46 Test af varianshomogenitet: Residualer vs fittede værdier Varianshomogenitet i hæmoglobin model. > plot(model$residuals ~ model$fitted.values, xlab = "Predikteret vaerdi af haemoglobin", ylab = "Residual") Test for normal fordelte residualer: Histogram > hist(model$residuals,freq = FALSE,breaks=seq(-3,3,1), main = "",xlab = "Residual") > box() > curve(dnorm(x,mean = mean(model$residuals), sd = sd(model$residuals)),add = TRUE) Residual Density Predikteret vaerdi af haemoglobin Residual Test af normal fordelte residualer: Quantile-Quantile plot > qqnorm(model$residuals,xlab = "Normal quantiles", ylab = "Residual",main = "") > abline(0, sqrt(var(model$residuals)), lty = "21") Residuals Kruskal-Wallis test Kruskal-Wallis test er en ikke-parametrisk ensidet variansanalyse baseret på rangsummer. Test af nulhypotesen: Grupperne har samme median. Mod alternativet: Mindst to af grupperne har ikke samme median. > kruskal.test(haemoglobin ~ gruppe, data=haem.data) Kruskal-Wallis rank sum test data: haemoglobin by gruppe Kruskal-Wallis chi-squared = , df = 2, p-value = Normal quantiles
8 29 / / / / 46 Tosidet variansanalyse (two-way anova) Tosidet variansanalyse (two-way anova) Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker en respons. Hvis både aldersgruppe og køn påvirker en repons. Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker en respons. Hvis både aldersgruppe og køn påvirker en repons. Der er overordnet to typer: Ubalanceret design: Der er forskellig antal observationer i (mindst to af) grupperne. Balanceret design: Alle grupper har samme antal observationer. Der er overordnet to typer: Ubalanceret design: Der er forskellig antal observationer i (mindst to af) grupperne. Balanceret design: Alle grupper har samme antal observationer. med replikationer: Der er flere observationer i en faktor. uden replikationer: Der kun er en observation i en faktor. Additiv model To faktorer påvirker responsvariablen additivt. Dette er en model med struktur... Den k te observation som er i gruppe i i faktor 1 og i gruppe j i faktor 2 beskrives ved Yijk = µ + αi + βj + εijk, εijk N (0, σ 2 ) Variationen kan igen dekomponeres - nu i 3 led: SStotal = SSfaktor 1 + SSfaktor 2 + SSresidual Eksempel III Længden af graviditet målt i dage blev estimeret ved 5 forskellige teknikker for 10 kvinder. > gest.data lmp ve doq us dao woman woman woman woman woman woman woman woman woman woman lmp: ve: doq: us: dao: Kvinderne udgør en faktor med 10 grupper/niveauer. Sidste menstruationsperiode Vaginal eksamination Dato for første livstegn (quickening). Ultralydsskanning Diamin oxidase blodprøve
9 32 / / / / 46 Hypotese og F-test Vi tester nu to hypoteser: 1. H0: Der er ingen forskel på kvinderne 2. H0: Der er ingen forskel på teknikkerne Vi udfører derfor to F-test: F1 = SSkvinder/(k 1) F(k 1, n k m) SSresidual/(n k m) F2 = SSteknik/(m 1) SSresidual/(n k m) F(m 1, n k m) Eksempel 3: F-test Tosidet variansanalyse for balanceret design uden replikationer (hver kvinde udgør en gruppe/niveau). > model <- lm(days ~ woman + tech, data=gestation) > ftest <- anova(model) > ftest Analysis of Variance Table Response: days Df Sum Sq Mean Sq F value Pr(>F) woman * tech * Residuals Eksempel 3: Parameter estimater > summary(model) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** woman * woman woman woman woman woman woman woman * woman ** techdoq *** techlmp techus techve Referencegruppe: Kvinde 1 målt med teknik "dao" hvorfor nu "dao"? Struktur i additiv to faktor model For to faktorer, her f.eks kvinder W med parametrene α inddelt efter teknik T der har parametrene β, har vi følgende tabel: t1 t2... t5 w1 µ µ + β1... µ + β4 w2 µ + α1 µ + α1 + β1... µ + α1 + β4 w3 µ + α2 µ + α2 + β1... µ + α2 + β w9 µ + α8 µ + α8 + β1... µ + α8 + β4
10 35 / / / 46 Struktur i additiv to faktor model For to faktorer, her f.eks kvinder W med parametrene α inddelt efter teknik T der har parametrene β, har vi følgende tabel: t1 t2... t5 w1 µ µ + β1... µ + β4 w2 µ + α1 µ + α1 + β1... µ + α1 + β4 w3 µ + α2 µ + α2 + β1... µ + α2 + β w9 µ + α8 µ + α8 + β1... µ + α8 + β4 Forskellen mellem søjle t1 og søjle t2: β1. Forskellen mellem søjle t1 og søjle t5: β4. Forskellen mellem søjle t2 og søjle t5: β1 β4. Struktur i additiv to faktor model For to faktorer, her f.eks kvinder W med parametrene α inddelt efter teknik T der har parametrene β, har vi følgende tabel: t1 t2... t5 w1 µ µ + β1... µ + β4 w2 µ + α1 µ + α1 + β1... µ + α1 + β4 w3 µ + α2 µ + α2 + β1... µ + α2 + β w9 µ + α8 µ + α8 + β1... µ + α8 + β4 Forskellen mellem søjle t1 og søjle t2: β1. Forskellen mellem søjle t1 og søjle t5: β4. Forskellen mellem søjle t2 og søjle t5: β1 β4. Balanceret design med replikationer Tilsvarende for rækkerne. F.eks: Forskellen mellem række w1 og række w2: α1. 35 / 46 Forskellen mellem række w3 og række w9: α2 α8. Interaktion I et tosidet balanceret design med replikationer er der flere observationer per celle i krydstabellen mellem to faktorer. Ingen interaktion De to faktorer kan her have en interaktion hvor forskellen i respons mellem grupperne i en faktor ikke er den samme ved alle grupper i den anden faktor. Interaktion kaldes også effekt modifikantion. Response Gruppe1 faktor1 Gruppe2 faktor Faktor 2
11 37 / / / / 46 Interaktion Eksempel 4 12 rotter blev randomiseret på to måder: 6 rotter fik antibiotika og 3 ud af 6 rotter i hver antibiotikagruppe fik vitaminer. Response: Vækst. Response Ingen interaktion Faktor 2 Gruppe1 faktor1 Gruppe2 faktor1 Response Interaktion Gruppe1 faktor1 Gruppe2 faktor Faktor 2 > ratgrowth ratid antibiotics vitamins growth 1 1 no no no no no no no yes no yes no yes yes no yes no yes no yes yes yes yes yes yes 1.55 Interaktionsmodel Tosidet variansanalyse model med interaktion Yijl = µ + αi + βj + γij + εijl, εijl N (0, σ 2 ) hvor γij er effekten af interaktionen (effekt modifikationen). Variationen kan igen dekomponeres : SStotal = SSfaktor 1 + SSfaktor 2 + SSinteraktion + SSresidual df=k-1 df=m-1 df=(k-1)(m-1) df=n-k-m-1 Residual variationen er i eksemplet forskellen mellem rotterne inden for hver gruppe af antibiotika og vitamin. Eksempel 4: Fit af interaktionsmodel Interaktionsmodellen kan fittes på to ækvivalente måder > model1 <- lm(growth ~ antibiotics*vitamins, data=ratgrowth) > model <- lm(growth ~ antibiotics + vitamins + antibiotics:vitamins, data=ratgrowth) > ftest <- anova(model) > ftest Analysis of Variance Table Response: growth Df Sum Sq Mean Sq F value Pr(>F) antibiotics * vitamins *** antibiotics:vitamins *** Residuals
12 41 / / / / 46 Eksempel 4: Parameter estimater Eksempel 4: Parameter estimater > summary(model) > summary(model) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** antibioticsyes * vitaminsyes antibioticsyes:vitaminsyes *** Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** antibioticsyes * vitaminsyes antibioticsyes:vitaminsyes *** Referencegruppen: Rotter uden antibiotika og uden vitaminer. Rotte antibiotics=no, vitamin=no: 1.19 Referencegruppen: Rotter uden antibiotika og uden vitaminer. Rotte antibiotics=no, vitamin=no: 1.19 Rotte antibiotics=yes, vitamin=no: ( ) Rotte antibiotics=no, vitamin=yes: Rotte antibiotics=yes, vitamin=yes: ( ) Parameter estimater i interaktionsmodel Modelkontrol for tosidet variansanalyse I en interaktionsmodel er der ikke en struktur som i den additive model uden interaktion. vitamin no vitamin yes antib. no µ µ + β1 antib. yes µ + α1 µ + α1 + β1 + γ Hvis interaktionsparameteren γ ikke er signifikant kan vi modficere modellen ved at sætte γ = 0. Yijl = µ + αi + βj + γij +εijl, εijl N (0, σ 2 ) }{{} =0 Tilbage er en additiv model. Tjek af varianshomogenitet: Residual plot: Plot af predikterede værdier mod residualerne. Residual plot: Plot af residualerne mod grupperne.? Fordeler punkter sig ens om linien. Hvis ikke, prøv evt transformation. Tjek af normalitet for residualer: Histogram af residualerne.? Er de normalfordelt. Hvis ikke, prøv evt transformation. Probability plot af residualerne (QQ-plot)? Ligger de på den skrå linie.
13 44 / / / 46 Eksempel 4: Modelkontrol Modelkontrol kan fås ved at plotte model-objektet i R. > par(mfrow=c(2,1)) > plot(model,which=1:2) Residuals Residuals vs Fitted Fitted values Standardized residuals Normal Q Q Theoretical Quantiles 1 Anova metoder oversigt Uafhængige observationer t-test for to grupper (dag 1) Ensidet variansanalyse for flere grupper (en faktor) Tosidet variansanalyse for to grupperings variable (to faktorer) Afhængige observationer Gentagne målinger (repeated measurements) Mixed effekt modeller Ikke-normalfordelte data Ikke-parametrisk anova (Kruskal-Wallis test) Mix af kategoriske og kontinuerte faktorer Varianskomponentmodeller (ancova) Model sammenligning og model selektion Et par afsluttende bemærkninger om anova Variationen af data kan dekomponeres i en systematisk og en tilfældig del. For en faktor med 2 grupper er et F-test ækvivalent med et two-sample t-test. For en faktor med 3 eller flere grupper fejler t-test og wilcoxon test grundet masse-significans. Anova bliver derfor aktuelt. Anova viser sig at være et special tilfælde af lineær regression! men mere om det dag 3 og 4.
Variansanalyse (ANOVA)
Faculty of Health Sciences Variansanalyse (ANOVA) Ulla B Mogensen Biostatistisk Afd., SUND, KU. Mail: [email protected] Indhold dag 3 T-test kort opsummering Ensidet variansanalyse Modelkontrol Tosidet variansanalyse
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
MPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
To-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren
Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: [email protected] Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion
VARIANSANALYSE 2 Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: (Analysis of variance) med interaktion Problem: Hvordan håndterer vi forsøg, hvor effekten er forårsaget af to faktorer og en evt.
Module 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Forelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Vejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen
Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper
Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: [email protected] I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Module 12: Mere om variansanalyse
Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable
Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected]
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!
Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 2. juni 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
To-sidet variansanalyse
Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til
Eksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)
Kursus 02402/02323 Introducerende Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Appendiks Økonometrisk teori... II
Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Phd-kursus i Basal Statistik, Opgaver til 2. uge
Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat.
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Besvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical
Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
