Forelæsning 11: Tovejs variansanalyse, ANOVA
|
|
|
- Børge Axelsen
- 9 år siden
- Visninger:
Transkript
1 Introduktion til Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark Efterår 2016 DTU Compute Introduktion til Statistik Efterår / 38
2 enote 8: Tovejs variansanalyse (tovejs ANOVA) k UAFHÆNGIGE grupper og blokdesign der giver to faktorer Test om middelværdi for om mindst en gruppe er forskellig de andre andres Model Y ij = µ + α i + β j + ε ij Specifikke metoder, tovejs variansanalyse: ANOVA-tabel: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) og SS(Bl) beregnes som ved envejs ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): Parvise t-test med poolet varians estimat Hvis planlagt på forhånd, så uden Bonferroni korrektion Hvis alle sammenligninger udføres, så med Bonferroni korrektion DTU Compute Introduktion til Statistik Efterår / 38
3 enote 8: Two-way Analysis of Variance k INDEPENDENT treatments and block design give two factors Test if mean for at least one group is different from the others Model Y ij = µ + α i + β j + ε ij Specific methods, two-way analysis of variance: ANOVA-table: SST = SS(Tr) + SS(Bl) + SSE SST, SS(Tr) and SS(Bl) calculated as in one-way ANOVA SSE = SST SS(Tr) SS(Bl) F-test Post hoc test(s): pairwise t-test with pooled variance estimate If planned on beforehand, then without Bonferroni correction If all samples are compared, then with Bonferroni correction DTU Compute Introduktion til Statistik Efterår / 38
4 Oversigt 1 Intro eksempel 2 Model 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) 5 Post hoc sammenligninger 6 Model kontrol DTU Compute Introduktion til Statistik Efterår / 38
5 Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var inddelt i blokke f.eks: Behandling A Behandling B Behandling C Blok Blok Blok Blok tre grupper på fire blokke eller tre behandlinger på fire personer eller tre afgrøder på fire marker (deraf blokke) eller anden lignende opdeling Envejs ANOVA: Completely randomized design Tovejs ANOVA: Randomized block design DTU Compute Introduktion til Statistik Efterår / 38
6 Intro eksempel Tovejs variansanalyse - eksempel Samme data som for envejs, dog ved vi nu at forsøget var udført på fire personer Behandling A Behandling B Behandling C Person Person Person Person Besvarer: Er der signifikant forskel på middelværdien af behandling A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte (dog med mange samples dækker CLT) DTU Compute Introduktion til Statistik Efterår / 38
7 Intro eksempel ## Observationer y <- c(2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1) ## Behandlinger (grupper, afgrøder,...) treatm <- factor(c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)) ## Blokke (personer, marker,...) block <- factor(c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4)) ## Til formler senere (k <- length(unique(treatm))) (l <- length(unique(block))) ## Plots par(mfrow=c(1,2)) ## Punkterne inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Punkterne inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") ## Plot box-plots inddelt ved behandlinger plot(treatm, y, xlab="treatments", ylab="y") ## Plot box-plots inddelt ved blokke plot(block, y, xlab="blocks", ylab="y") DTU Compute Introduktion til Statistik Efterår / 38
8 Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y y Treatments Blocks Tror du at vi vil påvise en signifikant forskel på (mindst en af) behandlingerne? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af behandlingerne (ses tydeligt på plottet) DTU Compute Introduktion til Statistik Efterår / 38
9 Intro eksempel Spørgsmål signifikant effekt Socrative.com, room: PBAC y y Treatments Blocks Tror du at vi vil påvise en signifikant forskel på blokkene (personer)? A: Ja B: Nej C: Ved ikke Svar A: Ja, der er en signifikant effekt af personer (dette ses ikke på plottet, kan først ses efter blokkene har forklaret en del af variansen) DTU Compute Introduktion til Statistik Efterår / 38
10 Model Tovejs variansanalyse, model Opstil en model hvor afvigelsen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) ε ij N(0,σ 2 ) og i.i.d. µ er middelværdi for alle målinger α i angiver effekt for behandling i β j angiver niveau for blok j der er k behandlinger og l blokke j tæller fra 1 til l (målinger for behandling i) DTU Compute Introduktion til Statistik Efterår / 38
11 Model Estimater af parametrene i modellen Vi kan beregne estimater af parametrene ( ˆµ og ˆα i, og ˆβ j ) ˆµ =ȳ = 1 k l ( l 1 ˆα i = l ˆβ j = ( 1 k j=1 k i=1 k l y ij i=1 j=1 y ij ) ˆµ y ij ) ˆµ ## Sample mean (muhat <- mean(y)) ## Sample mean for hver behandling (alphahat <- tapply(y, treatm, mean) - muhat) ## Sample mean for hver blok (betahat <- tapply(y, block, mean) - muhat) DTU Compute Introduktion til Statistik Efterår / 38
12 Beregning - variationsopspaltning og ANOVA tabellen Tovejs variansanalyse, opspaltning og ANOVA tabellen Med modellen Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) kan den totale variation i data opspaltes: SST = SS(Tr) + SS(Bl) + SSE Tovejs hentyder til, at der er to faktorer i forsøget Metoden kaldes variansanalyse, fordi testningen foregår ved at sammenligne varianser DTU Compute Introduktion til Statistik Efterår / 38
13 Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum ( den totale varians ) (samme som for envejs) SST = k l i=1 j=1 (y ij ˆµ) 2 Kvadratafvigelsessum for behandling ( Varians forklaret af behandlingdel af modellen ) SS(Tr) = l k ˆα i 2 i=1 DTU Compute Introduktion til Statistik Efterår / 38
14 Beregning - variationsopspaltning og ANOVA tabellen Formler for kvadratafvigelsessummer Kvadratafvigelsessum for blokke (personer) ( Varians forklaret af blokdel af modellen ) SS(Bl) = k Kvadratafvigelsessum af residualer ( Varians tilbage efter model ) SSE = k l i=1 j=1 l j=1 ˆβ 2 j (y ij ˆα i ˆβ j ˆµ) 2 DTU Compute Introduktion til Statistik Efterår / 38
15 Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskellig effekt af behandling Vi vil nu sammenligne (flere end to) middelværdier µ + α i i modellen Opstil hypotesen Under H 0,Tr følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Tr : α i = 0 for alle i H 1,Tr : α i 0 for mindst et i F Tr = SS(Tr)/(k 1) SSE/((k 1)(l 1)) en F-distribution med k 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår / 38
16 Hypotesetest (F-test) Tovejs ANOVA: Hypotese om forskelligt niveau for personer (blokke) Vi vil nu sammenligne (flere end to) middelværdier µ + β i i modellen Opstil hypotesen Under H 0,Bl følger Y ij = µ + α i + β j + ε ij, ε ij N(0,σ 2 ) H 0,Bl : β i = 0 for alle i H 1,Bl : β i 0 for mindst et i F Bl = SS(Bl)/(l 1) SSE/((k 1)(l 1)) en F-distribution med l 1 og (k 1)(l 1) frihedsgrader DTU Compute Introduktion til Statistik Efterår / 38
17 Hypotesetest (F-test) F-fordeling og hypotese for behandlinger ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=k-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=k-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Ftr <- (SSTr/(k-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(ftr, df1=k-1, df2=(k-1)*(l-1))) df(xseq, df1 = k - 1, df2 = (k - 1) * (l - 1)) xseq DTU Compute Introduktion til Statistik Efterår / 38
18 Hypotesetest (F-test) F-fordeling og hypotese for blokke ## Husk, dette er under H0 (altså vi regner som om H0 er sand): ## Sekvens til plot xseq <- seq(0, 10, by=0.01) ## Plot F fordelingens tæthedsfunktion plot(xseq, df(xseq, df1=l-1, df2=(k-1)*(l-1)), type="l") ## Kritisk værdi for signifikans niveau 5 pct. cr <- qf(0.95, df1=l-1, df2=(k-1)*(l-1)) ## Tegn den i plottet abline(v=cr, col="red") ## Test statistikkens værdi: ## Værdien (Fbl <- (SSBl/(l-1)) / (SSE/((k-1)*(l-1)))) ## p-værdien er da (1 - pf(fbl, df1=l-1, df2=(k-1)*(l-1))) df(xseq, df1 = l - 1, df2 = (k - 1) * (l - 1)) xseq DTU Compute Introduktion til Statistik Efterår / 38
19 Variansanalysetabel Hypotesetest (F-test) Variations- Friheds- Kvadrat- Gns. kvadratafv. Test- p- kilde grader afvi. sum sum størrelse F værdi Source of Deg. of Sums of Mean sum of Test- p- variation freedom squares squares statistic F value Behandling k 1 SS(Tr) MS(Tr) = SS(Tr) k 1 Block l 1 SS(Bl) MS(Bl) = SS(Bl) l 1 Residual (k 1)(l 1) SSE MSE = SSE (k 1)(l 1) Total n 1 SST F Tr = MS(Tr) MSE F Bl = MS(Bl) MSE P(F > FTr) P(F > FBl) anova(lm(y ~ treatm + block)) ## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## treatm e-05 *** ## block * ## Residuals ## --- ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 DTU Compute Introduktion til Statistik Efterår / 38
20 Hypotesetest (F-test) Prøv at se sammenhængen med blokke efter varians af behandlinger er forklaret ## Se sammenhængen mellem blokke og residualerne efter behandlingerne fit <- lm(y ~ treatm) plot(block, fit$residuals, xlab="blocks", ylab="residualer") Residualer Blocks DTU Compute Introduktion til Statistik Efterår / 38
21 Hypotesetest (F-test) QUIZ lidt om ANOVA og hypotesetest ## Simuler data fra to-vejs model (behandlinger og blokke) ## ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: ens beta <- c(-1, -1, -1, -1) ## Antal behandlinger og antal blokke k <- length(alpha) l <- length(beta) ## Simuler med normalfordelte afvigelser y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Indsæt i dataframe D <- data.frame(y, treatm=factor(rep(1:k, each=l)), block=factor(rep(1:l, k))) D ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår / 38
22 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Burde vi nu påvise en signifikant effekt her (α = 0.05)? A: Ja B: Nej C: Ved ikke Svar B: Nej, der er ikke forskel på middelværdierne, så vi burde ikke påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår / 38
23 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Hver gang vi gentager eksperimentet og testen nu, hvad er da sandsynligheden for vi påviser en signifikant effekt ved signifikansniveau α = 0.05? A: 1% B: 5% C: 95% D: 99% E: Ved ikke Svar B: 5% = α er sandsynlighed for at påvise signifikant effekt, når der faktisk ikke er nogen effekt (Type I fejl) DTU Compute Introduktion til Statistik Efterår / 38
24 Hypotesetest (F-test) Undersøg hvor ofte man laver en Type I fejl ## Antal gentageleser nrep < signifeff <- logical(nrep) ## for(i in 1:nRep){ print(i) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Er der påvist en signifikant effekt? ans <- anova(lm(y ~ treatm + block, data=d)) signifeff[i] <- ans[1,"pr(>f)"] < 0.05 } ## Ved hvor stor en andel blev der påvist signifikant effekt? sum(signifeff)/nrep ## Faktisk burde treatm fjernes når den er ikke-signifikant DTU Compute Introduktion til Statistik Efterår / 38
25 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Vil vi sjældnere lave fejl hvis standardafvigelsen på afvigelserne (ε i N(0,σ 2 )) gøres mindre? A: Ja B: Nej C: Ved ikke Svar B: Nej, når der ikke er nogen effekt er det kun signifikansniveaut α, der bestemmer sandsynligheden for at tage fejl (Type I fejl) DTU Compute Introduktion til Statistik Efterår / 38
26 Hypotesetest (F-test) Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Ændre middelværdi for en blok, så der nu simuleres med en tydelig effekt ## Sæt først behandlingernes middelværdier: ens alpha <- c(4, 4, 4) ## Sæt først blokkenes middelværdier: sæt en højere beta <- c(-1, -1, 5, -1) ## Simuler med normalfordelte afvigelser D$y <- rep(alpha, each=l) + rep(beta, k) + rnorm(k*l, sd=2) ## Plots par(mfrow=c(1,2)) ## Plot box-plots inddelt ved behandlinger plot(d$treatm, D$y, xlab="treatments", ylab="y", type='p') ## Plot box-plots inddelt ved blokke plot(d$block, D$y, xlab="blocks", ylab="y", type='p') DTU Compute Introduktion til Statistik Efterår / 38
27 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks En middelværdi i beta er sat til 5, bør vi da påvise en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der forskel på middelværdier (der er en effekt) og derfor bør vi påvise en signifikant effekt DTU Compute Introduktion til Statistik Efterår / 38
28 Hypotesetest (F-test) ANOVA og hypotesetest quiz Socrative.com, room: PBAC y y Treatments Blocks Påvirker standardafvigelsen på fejlene nu hvor ofte vi ikke får påvist en signifikant effekt? A: Ja B: Nej C: Ved ikke Svar A: Ja, nu er der en effekt, derfor kan vi lave en Type II fejl (dvs. ikke påvise effekten, selvom den er der). Sandsynligheden for at lave en Type II fejl, er 1 β (hvor β er testens styrke: Sandsynligheden for at påvise en signifikant effekt, når den er der). FORDI, hvis σ bliver mindre, så detekteres effekten nemmere (tænk bare på, at spredningen i box-plottet bliver mindre, så ses effekten tydeligere). DTU Compute Introduktion til Statistik Efterår / 38
29 Post hoc sammenligninger Post hoc konfidensinterval Som ved envejs, skift (n k) frihedsgrader ud med (k 1)(l 1) (og brug MSE fra tovejs). Gøres med enten behandlinger eller blokke En enkelt forudplanlagt sammenligning af forskelle på behandling i og j findes ved ( 1 ȳ i ȳ j ± t 1 α/2 MSE + 1 ) n i n j hvor t 1 α/2 er fra t-fordelingen med (k 1)(l 1) frihedsgrader. Hvis alle kombinationer af parvise konfidensintervaller brug formlen M gange, men med α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår / 38
30 Post hoc sammenligninger Post hoc parvis hypotesetest In enkelt forudplanlagt hypotesetest på α signifikansniveau om forskel af behandling i og j H 0 : µ i = µ j, H 1 : µ i µ j udføres ved og ȳ i ȳ j t obs = ( ) (1) MSE 1ni + 1 nj p-value = 2P(t > t obs ) hvor t-fordelingen med (k 1)(l 1) frihedsgrader anvendes Hvis alle M = k(k 1)/2 kombinationer af hypotesetests: korrigeret signifikans niveau α Bonferroni = α/m DTU Compute Introduktion til Statistik Efterår / 38
31 Varians homogenitet Model kontrol Se på box-plot om spredning af residualer ser ud til at afhænge af gruppen ## Gem fittet fit <- lm(y ~ treatm + block) ## Box plot par(mfrow=c(1,2)) plot(treatm, fit$residuals, y, xlab="treatment") ## Box plot plot(block, fit$residuals, xlab="block") Treatment Block DTU Compute Introduktion til Statistik Efterår / 38
32 Model kontrol Normalfordelingsantagelse Se på qq-normal plot ## qq-normal plot af residualer qqnorm(fit$residuals) qqline(fit$residuals) ## Eller med et Wally plot require(mess) qqwrap <- function(x, y,...) {qqnorm(y, main="",...); qqline(y)} ## Kan vi se et afvigende qq-norm plot? wallyplot(fit$residuals, FUN = qqwrap) Sample Quantiles Theoretical Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles DTU Compute Introduktion til Statistik Efterår / 38
Forelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)
Kursus 02402/02323 Introducerende Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen
Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik
Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher
Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
Kursus 02402/02323 Introducerende Statistik
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
To-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet
enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt
enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion
VARIANSANALYSE 2 Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: (Analysis of variance) med interaktion Problem: Hvordan håndterer vi forsøg, hvor effekten er forårsaget af to faktorer og en evt.
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper
Kursus 02402/02323 Introducerende Statistik Forelæsning 6: Sammenligning af to grupper Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot
Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University
Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher
Introduktion til Statistik Forelæsning 12: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected] Efterår
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren
Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: [email protected] Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Eksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Forsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Opgaver til kapitel 3
Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 27. maj 2014 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
