Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Relaterede dokumenter
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 16 Multipel Lineær Regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik II 4. Lektion. Logistisk regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Module 12: Mere om variansanalyse

1 Multipel lineær regression

Generelle lineære modeller

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Multipel lineær regression

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

To-sidet varians analyse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Konfidensintervaller og Hypotesetest

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning eksamen d. 15. december 2008

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Module 4: Ensidig variansanalyse

Kapitel 12 Variansanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

MPH specialmodul Epidemiologi og Biostatistik

Eksamen i Statistik for biokemikere. Blok

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Kapitel 12 Variansanalyse

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

To-sidet variansanalyse

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

1 Hb SS Hb Sβ Hb SC = , (s = )

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri: Lektion 6 Emne: Heteroskedasticitet

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program. 1. Flersidet variansanalyse 1/11

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 11: Simpel lineær regression

Logistisk Regression - fortsat

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Lineær og logistisk regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Normalfordelingen og Stikprøvefordelinger

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Note om Monte Carlo metoden

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Løsning til eksaminen d. 29. maj 2009

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Uge 13 referat hold 4

Module 3: Statistiske modeller

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Morten Frydenberg 26. april 2004

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Modul 12: Regression og korrelation

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Forsøgsplanlægning Stikprøvestørrelse

Besvarelse af vitcap -opgaven

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Simpel Lineær Regression: Model

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Transkript:

Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1

Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable: Multipel eller simpel lineær regression. Undersøge forskellen i middelværdi for to grupper Denne gang: Sammenligne middelværdier i mere end to grupper Metode: Variansanalyse (ANalysis Of VAriance) Eksempel: Er der forskel i middelløn for tre grupper 2

ANOVA: Setup Vi har g grupper Dvs. hvis vi vil sammenligne tre grupper, så er g = 3 De g grupper har middelværdierne µ 1, µ 2,, µ g Dvs. µ 1 er middelværdi for gruppe 1, osv. Variansanalyse er et F-test af H 0 : µ 1 = µ 2 = µ g (ens middelværdier) H a : Mindst en middelværdi skiller sig ud 3

Antagelser Antagelser for at F-testet i ANOVA er gyldigt: Hver af de g grupper er normalfordelte Standardafvigelsen, σ, er den samme for alle grupper De g stikprøver er uafhængige 1.5 1.0 σ 0.5 0.0 µ 1 µ 2 µ 3 0 1 2 3 4 4

Hypotese og Fortolkning Variansanalyse er et F-test af H 0 : µ 1 = µ 2 = µ g (ens middelværdier) H a : Mindst en middelværdi skiller sig ud Fortolkning: Hypoteserne har følgende fortolkning H 0 : Ingen effekt af den forklarende variabel H a : Den forklarende variabel har en effekt Hvis vi afviser H 0, så kan årsagen fx være at Én gruppe skiller sig ud Alle grupper har forskellige middelværdier 5

Eksempel: Politisk Ideologi Hver af 943 personer har angivet: Parti Demokrat, Uafh., Republikaner Politisk ideologi Heltal fra 1 til 7 Opsummering af data: SPSS: Analyze Compare Means Means SPSS: Chart builder: Histogram + Groups/Point ID Rows panel variable 6

Mærkeligt navn Hvorfor hedder det variansanalyse, når det handler om at sammenligne middelværdier??? Case 1 Case 2 Case 1: Tydelig forskel i middelværdi! Case 2: Ikke så tydeligt De tre middelværdier er de samme i begge cases!! Forskellen: Vi sammenligner variationen af middelværdien med variationen i hver af de tre grupper. Derfor hedder det variansanalyse 7

F-testet: Forhold af variansestimater Notation: F-teststørrelsen er gennemsnittet i i te gruppe gennemsnittet af alle data Between - groups variansestimat F = Within - groups variansestimat Variansestimater: Between-groups: Baseret på variationen i erne (omkr. ). y i y Er et unbiased estimat af σ 2, hvis H 0 er sand. Within-groups: Baseret på variationen i grupperne. Er altid et unbiased estimat af σ 2! Hvis H 0 er falsk, har F tendens til at være stor. y i y 8

Eksempel SPSS: Analyze Comapre Means One- Way ANOVA H 0 afvises der er en forskel i middelværdierne. 42,691 Between-Groups variansestimat F = = 25, 547 1,671 P-værdi Between-Groups variansestimat F = 25,547 9

Sammenligninger af mange middelværdier Antag vi har afvist H 0, dvs. middelværdierne er forskellige. Spørgsmål: Hvilken middelværdi skiller sig ud? Ide: Udregn konfidensintervaller for forskellen i middelværdi for alle par af middelværdier: Et konfidensinterval for µ i µ j er y i y j ± t s 1 + n i 1 n j t har df = N g frihedsgrader. 10

Eksempel Find et 95% konfidensinterval for forskellen i middel ideologi for demokrater og republikanere: Demokrater: = 3.82 1, n 1 = 340. Republikanere:, n 3 = 290. y y 3 = 4. 53 95% konfidensinterval for µ 3 µ 1 : y i y j ± t 0.025 s 1 n i + 1 n j = ( 0.51; 0. 92) Dvs. vi er 95% sikre på at forskellen er mellem 0.51 og 1.12. 11

Mange sammenligninger Har vi g = 10 grupper laver vi g(1-g)/2 = 45 parvise sammenligninger fx vha. 95% konfidensintervaller. Hvert konfidensinterval vil isoleret set indeholde den sande forskel med 95% sikkerhed. Derimod vil de 45 intervaller typisk ikke alle samtidigt indeholde den sande værdi med 95% sikkerhed! Løsning: Bonferroni sammenligning Antag vi har g = 4 grupper, dvs. 6 sammenligninger. I stedet for (1 α)100% = 95% konfidensintervaller (α = 5%), så bruger vi (1 α/6)100% = 99.2% konfidensintervaller. Dette sikre at konfidensniveauet er mindst 95%. 12

Eksempel: Bonferroni Forskellen mellem demokrater og republikanere: g = 3, dvs. 3(3-1)/2 = 3 sammenligninger. Så vi skal bruge α = 0,05/3 = 0,017. y i y j 1 1 ± t s + = ( 0.47 ; 0.96) 0.0083 n n i I SPSS vælger man Bonferroni under Post-hoc j 13

Variansanalyse og Regression Vi kan formulere en variansanalyse som en multipel lineær regression! Det kræver vi indfører såkaldte dummy-variable. Eksempel: Vi har g = 3 grupper Vi indfører to dummy variable z 1 og z 2, der indikerer om en observation tilhører hhv. gruppe 1 eller 2. Obs. grp. z 1 = z 2 = 1 1 0 2 0 1 3 0 0 Dvs. for en observation fra gruppe 2 har vi z 1 = 0 og z 2 = 1. 14

Regressionsmodel Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = α + β 1 z 1 + β 2 z 2 For gruppe 1 har vi z 1 = 1 og z 2 = 0 dvs. E[y] = α + β 1 1 + β 2 0 = α + β 1 = µ 1 For gruppe 2 har vi z 1 = 0 og z 2 = 1 dvs. E[y] = α + β 1 0 + β 2 1 = α + β 2 = µ 2 For gruppe 3 har vi z 1 = 0 og z 2 = 0 dvs. E[y] = α + β 1 0 + β 2 0 = α = µ 3 15

Fortolkning Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = α + β 1 z 1 + β 2 z 2 Gruppe z 1 = z 2 = Middelv. for y Fortolkning af β 1 1 0 µ 1 = α + β 1 β 1 = µ 1 µ 3 2 0 1 µ 2 = α + β 2 β 2 = µ 2 µ 3 3 0 0 µ 3 = α α kan fortolkes som middelværdien for gruppe 3 (referencegruppen) β 1 og β 2 kan fortolkes som forskelle i middelværdien for hhv. gruppe 1 og 2 i forhold til referencegruppen (gruppe 3) 16

Estimation SPSS: Analyze General Linear Model Univariate Under options vælg Parameter estimates Output: a b 1 b 2 Estimerede model: yˆ = 4.535 0.717 z1 0. 541 z Dvs. den estimerede middelværdi for gruppe 1 er: 4.535 0.717 1 0.541 0 = 4.535 0.717 = 2 3.818 17

Hypotesetest i Regressionsmodel I multipel lineær regression udførte vi et F-test af hypotesen: H 0 : β 1 = β 2 = 0 H a : mindst et β j 0 Fortolkningen af H 0 : Alle grupper har samme middelværdi. Det svarer præcist til F-testet i ANOVA H 0 : µ 1 = µ 2 = µ 3 H a : Mindst et µ j skiller sig ud. Dvs. der er intet tabt ved at bruge regressionsformuleringen. 18

Hypotesetest i SPSS SPSS: Analyze General Linear Model Univariate Bemærk: Resultat er præcist som når vi bruger One-Way ANOVA funktionen i SPSS. 19

To-sidet Variansanalyse (Two-Way ANOVA) Indtil nu: Hvordan middelværdien for én kontinuert variabel (Ideologi) afhænger af én kategorisk variabel (Parti ID): Ensidet variansanalyse. Vi vil nu se på, hvordan én kontinuert variabel afhænger af to kategorisk variabel Eksempel: Ideologi forklaret ved Parti ID og køn SPSS: Compare Means Means Tilføj PartyID og Gender i hvert sit Layer 20

Mange middelværdier i spil I eksemplet er der 2 3 = 6 celler i spil, med hver deres middelværdi: En to-sidet variansanalyse handler om at undersøge, hvordan de to forklarende variable (Party ID og Gender) påvirker disse middelværdier. Der er to slags effekter: Party ID Gender Democrat Independent Republican Female µ FD µ FI µ FR Male µ MD µ MI µ MD Hovedeffekter: Isoleret effekten af en forklarende variabel Vekselvirkningseffekt: Effekten af en variabel påvirkes af en anden variabel. 21

ANOVA model uden vekselvirkning Fortolkninger: 1. Effekten af køn er den samme for alle Parti ID 2. Effekten af Parti ID er den samme for begge køn. Ideologi Mand Kvinde Demokrat Uafh. Republikaner Parti ID

ANOVA kun med hovedeffekt A Fortolkning: Kun hovedeffekt A (Parti ID) har en betydning for Ideologi. Ideologi Mand/ Kvinde Demokrat Uafh. Republikaner Parti ID

ANOVA kun med hovedeffekt B Fortolkning: Kun hovedeffekt B (Køn) har en betydning for Ideologi. Ideologi Mand Kvinde Demokrat Uafh. Republikaner Parti ID

ANOVA model med vekselvirkning Fortolkning: Effekten af Parti ID afhænger af køn (og omvendt) Ideologi Kvinde Mand Demokrat Uafh. Republikaner Parti ID

For data ser det sådan ud Ikke meget tegn på vekselvirkning Ikke meget tegn på effekt af køn En svag effekt af Party ID 26

Hypoteser og Antagelser Antagelser: Observationerne i hver celle er normalfordelte Standardafvigelsen er konstant på tværs af celler Vi tester hypoteser på formen H 0 : Ingen effekt af prediktor (=forklarene variabel) H a : Der er en effekt af prediktor Generelt: Antag vi har to prediktore, A og B: Vi vil teste Hovedeffekten af prediktor A Hovedeffekten af prediktor B Vekselvirkningseffekten ml. A og B. 27

Analyse-Strategi Slagplanen minder om den for multipel lineær regression: Først tester vi effekten af vekselvirkningen. Er vekselvirkningen signifikant, så tester vi ikke mere. Det giver ikke mening at teste hovedeffekter, hvis der er en vekselvirkning. Er vekselvirkningen ikke signifikant, så fjerner vi den fra modellen og tester de to tilbageværende hovedeffekter. 28

Hypoteser og Antagelser Vi tester altså hypoteser på formen H 0 : Ingen effekt af prediktor H a : Der er en effekt af prediktor Teststørrelsen er generelt på formen F = Mean square for prediktor Mean square error Generelt gælder der at Mean square = Sum of squares SPSS finder Sum of Squares og antal frihedsgrader (df). df 29

Eksempel: Model uden Vekselvirkning I SPSS er vekselvirkning tager med pr. default, så det skal der gøres noget ved. Vælg Custom model. Vælg Main effects Overfør de to factors 30

SPSS: Resultat H 0 : Ingen effekt af køn vs H a : Der er en effekt af køn Teststørrelse F = 1.311 1.671 = 0.784 Konklusion: Da P-værdien > 0.05 kan vi ikke afvise H 0. Igen effekt af køn. F = 0.784 P-værdi 31

Test af vekselvirkning Vi spoler lige et trin tilbage. Antag at vi også inkluderer vekselvirkning i modellen: Enten skal man sikre sig at Full factorial er valgt: Alternativt kan man selv angive modellen med vekselvirkning: Marker både partyid og gender, vælg Interaction og før over. Vigtigt: Det er vigtig at man først overfører hovedeffekterne og derefter vekselvirkningseffketer: 32

SPSS: Resultat H 0 : Ingen effekt af vekselvirkning Teststørrelse F = 1.820 1.671 = 1.089 Konklusion: Da P-værdien > 0.05 kan vi ikke afvise H 0. Igen effekt af køn. F = 1.089 P-værdi 33

To-sidet variansanalyse og Regression Først skal vi definere to sæt dummy-variable: For Parti ID har vi to: p 1 og p 2 For Køn har vi en: s Party ID p 1 = p 2 = Democrat 1 0 Independent 0 1 Republican 0 0 Gender s = Female 1 Male 0 To-sidet variansanalysemodel uden vekselvirkning: E 1 1 2 2 3 [ y] = α + β p + β p + β s 34

Fortolkning Fortolkning af modellen: E 1 1 2 2 3 [ y] = α + β p + β p + β s Tabel over middelværdier ifølge modellen: E[y]= Demokrat p 1 =1 p 2 =0 Uafh. p 1 =0 p 2 =1 Republikaner p 1 =0 p 2 =0 Bemærk: Kvinde s = 1 α+β 1 +β 3 α+β 2 +β 3 α+β 3 Mand s = 0 α+β 1 α+β 2 α β 1 og β 2 angiver effekten af at være hhv. Demokrat og Uafh. i forhold til at være Republikaner (referencen). Effekten af Parti ID den samme for begge køn. β 3 angiver effekt af Kvinde i forhold til Mand. 35

Estimation Fra SPSS får vi: Estimerede model: ˆ 1 2 y = 4.577 0.711 p 0.542 p 0. 076 s Effekten af at være Demokrat eller Uafh. i forhold til at være Republikaner er negativ. Effekten af Kvinde er negativ (i forhold til Mand). 36

Model med vekselvirkning To-sidet variansanalyse med vekselvirkning: E[ y] = α + β1z1 + β2z2 + β3s + β4z1s + β5z2s Som i multipel lineær regression er vekselvirkning opnået ved at gange de to variable sammen. E[y]= Demokrat p 1 =1 p 2 =0 Uafh. p 1 =0 p 2 =1 Republikaner p 1 =0 p 2 =0 Kvinde s = 1 α+β 1 +β 3 +β 4 α+β 2 +β 3 +β 5 α+β 3 Mand s = 0 α+β 1 α+β 2 α Bemærk at vi har 6 parametre og 6 celler. Det er muligt med denne model frit at tildele hver celle en middelværdi uafhængigt af de andre celler. Man kalder sådan en model mættet det er ikke muligt at gøre den mere kompliceret. 37

Estimation Den estimerede model: yˆ = 4.664 0.896 p1 0.622 p2 0.232 s + 0.310 p1 s + 0. 143 p2 s 38