1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Relaterede dokumenter
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Multipel lineær regression

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Multipel lineær regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kapitel 11 Lineær regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 12 Variansanalyse

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Multipel Lineær Regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kapitel 12 Variansanalyse

Løsning eksamen d. 15. december 2008

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Modul 11: Simpel lineær regression

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

2 Logaritme- og eksponentialfunktion 6

Modul 12: Regression og korrelation

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Module 4: Ensidig variansanalyse

Perspektiver i Matematik-Økonomi: Linær regression

Module 3: Statistiske modeller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Modul 6: Regression og kalibrering

Løsning til eksamen d.27 Maj 2010

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Konfidensintervaller og Hypotesetest

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

(studienummer) (underskrift) (bord nr)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

To samhørende variable

Løsning til eksaminen d. 14. december 2009

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Simpel Lineær Regression: Model

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik Lektion 4. Variansanalyse Modelkontrol

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Løsning til eksaminen d. 29. maj 2009

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Løsninger til kapitel 14

Statistik Lektion 17 Multipel Lineær Regression

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Normalfordelingen og Stikprøvefordelinger

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Eksamen i Statistik for biokemikere. Blok

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Forsøgsplanlægning Stikprøvestørrelse

Statistisk modellering og regressionsanalyse

Forelæsning 11: Envejs variansanalyse, ANOVA

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Opgaver til kapitel 3

Estimation og usikkerhed

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Besvarelse af vitcap -opgaven

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Transkript:

Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen effekt................................... 4 1.3 AnovaTabel........................................ 5 1.4 Beregning af p-værdi i F-fordelingen.......................... 5 2 Lineær regression og korrelation(outcome og exposure kvantitative) 6 2.1 Lineær regression..................................... 6 2.2 Konfidensinterval for effekt................................ 8 2.3 Korrelation........................................ 9 2.4 Prediktion......................................... 10 2.5 Anovatabel........................................ 11 2.6 F-test........................................... 12 2.7 Multipel R 2........................................ 12 1

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 1.1 Variation indenfor og mellem grupper Eksempel Boxplot stratificeret efter sygdom: Vi betragter den skalære respons steady-state hæmoglobin niveau Vi vil studere indvirkning af eksponeringsvariablen: sygdomstype, idet vi skal kigge på 3 patientgrupper med hver deres variant af en seglcelle sygdom. Eksempel Statistics Summaries,... Other tables Compact... 2

For hver gruppe og grupperne slået sammen(total) kan vi aflæse middeltal: x (mean) stikprøvestørrelse: n (N) standardafvigelse: s (sd) Model Grundliggende antagelser: Hver delpopulation har sit eget middeltal. Alle delpopulationer har samme standardafvigelse. I det aktuelle eksempel har vi 4 populationsparametre Middeltallene µ 1, µ 2 og µ 3 i de 3 delpopulationer. Standardafvigelsen σ i populationerne. Hvis i = 1, 2 eller 3 kan vi for den i te stikprøve angive/beregne Stikprøvens størrelse: n i Stikprøvens middeltal: x i Stikprøvens standardafvigelse s i Fex n 1 = 16, x 1 = 8.7125, s 1 = 0.84449 svarende til HbSS. Afvigelser inden for grupper Vi kan så beregne den kvadratiske afvigelse INDEN FOR grupperne SS within = (n i 1)s 2 i som har frihedsgrader df within = (n i 1) = n k, hvor n er det totale antal observationer og k er antal grupper. 3

Den tilhørende gennemsnitlige kvadratiske afvigelse vil være et estimat for σ 2. MS within = SS within df within Afvigelser mellem grupper Vi er interesseret i at undersøge om eksponering har betydning. Den relevante nulhypotese, når k = 3 H 0 : µ 1 = µ 2 = µ 3 Lad x være middeltallet for alle n observationer. Stikprøvernes middeltal vil afvige fra denne værdi. Kan disse afvigelser forklares ved stikprøvevariation? Dette vil vi måle ved den kvadratiske afvigelse MELLEM grupperne som har frihedsgrader df between = k 1 SS between = n i ( x i x) 2 1.2 F-test for ingen effekt F-test Den tilhørende gennemsnitlige kvadratiske afvigelse mellem grupper er MS between = SS between df between HVIS H 0 er sand, så skal MS between og MS within være af samme størrelsesorden, dvs F- teststatistikken F = MS between MS within skal ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df between, df within ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. 4

1.3 AnovaTabel AnovaTabel Statistics Linear models... ANOVA/... One-way..., hvor Response variable er v1(hæmoglobin) og Factor variable er sygdomsvariablen. Vi kan aflæse MS between = 49.945, MS within = 0.999. Og F = 49.945 0.999 = 50.00, hvilket er en exorbitant stor værdi. K&S har IKKE en tabel over F-fordelingen, men vi kan aflæse p-værdien(prob > F) til 0.0000, dvs der er overvældende evidens mod H 0. 1.4 Beregning af p-værdi i F-fordelingen p-værdi K&S har IKKE en tabel over F-fordelingen. I stedet kan man eksempelvis i stata bruge Data Other... Hand... Klik på trekant ved Functions og herunder Statistical. Angiv frihedsgrader og f-værdi. Resultatet p værdi = 0.00000000002281 kan aflæses i stata s Results-vindue hvilket selvfølgelig er 5

pjattet. Stata rapporterer 0.000 i ANOVA-tabellen, hvilket er tilstrækkeligt informativt. 2 Lineær regression og korrelation(outcome og exposure kvantitative) 2.1 Lineær regression Eksempel Model Betragt delpopulationen af mænd, som har vægt x kg. Når vi måler plasmavolumen i denne delpopulation vil vi antage at denne har middeltal µ(x) = β 0 + β 1 x 6

standardafvigelse σ Vi har således 3 populationsparametre: β 0 : Skæring på y-aksen - svarende til plasmavolumen når vægten er nul! Vi vil dog kun antage at den lineære sammenhæng er gældende for vægt over 50kg. β 1 : angiver hvor meget plasmavolumen stiger, når vægten forøges med 1kg. σ: En standardafvigelse som er uafhængig af vægten. Model Hvis (x, y) er samhørende målinger kan modellen ækvivalent formuleres: y = β 0 + β 1 x + ε hvor ε er et populations residual, dvs den givne persons afvigelse fra populationens middeltal, når vægten er x. Hvis linien i figuren er y = β 0 + β 1 x, så har stikprøven residualer svarende til de lodrette stiplede afstande, hvor punkter under linien har negative residualer. Om populations residualerne gælder, at de har middeltal 0 og standardafvigelse σ Estimation Vi skal bruge stikprøven af (x, y) målinger til at estimere β 0 og β 1. Dette gøres ved at vælge den linie, hvor summen af de kvadrerede residualer - ε 2 - er mindst mulig. I modsætning til K&S vil vi benævne estimaterne for hhv β 0 og β 1 med hhv b 0 og b 1. Formler til beregning af b 0 og b 1 kan ses øverst side 90 i K&S. Dem vil vi ikke dvæle ved. 7

Det er vigtigt at gøre sig klart, at b 0 og b 1 er behæftet med usikkerhed, idet vi kun har et tilfældigt udvalg fra populationen. Der er ekstremt mange mulige stikprøver, som hver giver deres bud på β 0 og β 1. 2.2 Konfidensinterval for effekt Konfidensinterval Hvis vi fex vil undersøge H 0 : β 1 = 0 eller lave et konfidensinterval, så er det vigtigt at have en standardfejl på b 1. De estimerede standardfejl på hhv b 0 og b 1 betegnes se(b 0 ) hhv se(b 1 ) og kan beregnes som anført øverst side 91 i K&S. Disse har df = n 2 frihedsgrader, idet vi mister 2 frihedsgrader til de 2 regressionsparametre β 0 og β 1. Vi kan så bestemme et konfidensinterval for β 1 : Fastlæg konfidensgraden, fex 95%. Bestem t : den tilhørende t-score baseret på (n 2) frihedsgrader (tabela3). Beregn b 1 ± t se(b 1 ) Eksempel I vores aktuelle eksempel: Vælg konfidensgrad 95%. df = 8 2 = 6 hvorefter tabela3 (twosidedpvalue=0.05) giver t = 2.45. Vi beregner estimat b 1 = 0.0436 og standardfejl se(b 1 ) = 0.0153. Konfidensinterval 0.0436 ± 2.45 0.0153 = 0.0063 til 0.0810 liter/kg Der ser ud til at være en sammenhæng mellen vægt og plasmavol, men effekten af en vægtforøgelse er ret usikkert bestemt. Den estimerede effekt er 43.6 milliliter pr. kg, men den kunne være så lille som 6.3 milliliter pr. kg. 8

2.3 Korrelation Korrelation Lad os prøve at ændre måleskalaer til t-scores: t(x) = x x s 1, hvor s 1 er standardafvigelsen på stikprøven af x-værdier. t(y) = y ȳ s 2, hvor s 2 er standardafvigelsen på stikprøven af y-værdier. Det kan da vises at hældningsestimatet for den standardiserede linie er givet ved r = 1 n 1 t(x)t(y) Dette kaldes for korrelationskoefficienten, som har følgende egenskaber 1 r 1. Hvis r < 0 er der en negativ effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med negativ hældning. Hvis r > 0 er der en positiv effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med positiv hældning. Fortolkning af korrelation 9

NB: r er et mål for graden af lineær sammenhæng. Hvis vi fex har den perfekte kvadratiske sammenhæng y = x 2 så vil der gælde at r = 0!!!! 2.4 Prediktion Prediktion Når et scatterplot antyder at modellen y = β 0 + β 1 x + ε er realistisk, bruger vi stikprøven til at estimere linien y = b 0 + b 1 x Dette kaldes prediktionsligningen, idet vi for en given x-værdi kan give vort bedste bud (prediktion) på den tilhørende y-værdi. I forhold til vores stikprøve vil vi beregne kvadratsummen af afvigelser fra linien SS residual = (y y ) 2, som har df = n 2 frihedsgrader. Denne skulle gerne være lille, hvilket vi vil måle ift situationen, hvor x ikke er kendt. Her er vores bedste bud på populationens middelværdi ȳ, hvilket giver kvadratsummen af afvigelser fra ȳ 10

SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. 2.5 Anovatabel Anovatabel SS residual : Kvadratsummen af lodrette stiplede afstande SS total : Kvadratsummen af lodrette optrukne afstande Vi beregner, hvor meget kvadratsummen formindskes, når vi inddrager x som forklarende variabel: SS regression = SS total SS residual, som har df = (n 1) (n 2) = 1 frihedsgrad. Anova tabel for effekt Statistics Linear models... Linear regression med Dependent:PlasmaVol og Independent(s):wei(vægt) giver bla følgende hvor vi fex kan aflæse SS residual = 0.287 og den tilhørende middel kvadratsum MS residual = 0.287 6 = 0.048. 11

2.6 F-test F-test HVIS H 0 : β 1 = 0 er sand, så skal F-teststatistikken F = MS regression MS residual ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df regression, df residual ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. Aktuelt fås F = 0.391 0.048 Estimater Mere af outputtet fra Stata: = 8.16 med tilhørende p-værdi 2.89%, dvs der er evidens mod nulhypotesen. Vi kan aflæse estimater; Skæring(cons): b 0 = 0.086, se(b 0 ) = 1.024, t = b 0 se(b 0 ) = 0.84, dvs b 0 afviger ikke signifikant fra nul. hældning(wei): b 1 = 0.044, se(b 1 ) = 0.015, t = b 1 se(b 1 ) = 2.86, dvs b 1 afviger signifikant fra nul. Der er en signifikant positiv effekt af vægt på plasmavolumen. Tillige kan vi aflæse konfidensintervaller for parametrene, hvor vi for hældningen genkender intervallet fra 0.0063 til 0.0810 liter/kg. 2.7 Multipel R 2 Multipel R 2 Mere output fra Stata: 12

Generelt er den multiple korrelationskoefficient R givet som korrelationen mellem y og y. Den opfylder af 0 R 1. R = 1 hvis og kun hvis y stikprøve. = y, dvs modellen laver perfekt prædiktion af den aktuelle R 2 = SS regression SS total, dvs R 2 angiver den del at totalvariationen, som kan forklares ved at inddrage regressionsvariablen x. Aktuelt R 2 = 57.6%. 13