grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Relaterede dokumenter
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Multipel lineær regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Multipel lineær regression

1 Regressionsproblemet 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kapitel 11 Lineær regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Forelæsning 11: Kapitel 11: Regressionsanalyse

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kapitel 12 Variansanalyse

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Hb SS Hb Sβ Hb SC = , (s = )

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Kapitel 12 Variansanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Løsning eksamen d. 15. december 2008

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Multipel Lineær Regression

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Modul 11: Simpel lineær regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Modul 12: Regression og korrelation

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Perspektiver i Matematik-Økonomi: Linær regression

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Løsning til eksamen d.27 Maj 2010

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

2 Logaritme- og eksponentialfunktion 6

Modul 6: Regression og kalibrering

Module 4: Ensidig variansanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Module 3: Statistiske modeller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

To samhørende variable

Løsning til eksaminen d. 14. december 2009

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

(studienummer) (underskrift) (bord nr)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik Lektion 4. Variansanalyse Modelkontrol

Konfidensintervaller og Hypotesetest

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Løsning til eksaminen d. 29. maj 2009

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Statistik Lektion 17 Multipel Lineær Regression

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Simpel Lineær Regression: Model

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Eksamen i Statistik for biokemikere. Blok

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Normalfordelingen og Stikprøvefordelinger

Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistisk modellering og regressionsanalyse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Løsninger til kapitel 14

Forelæsning 11: Envejs variansanalyse, ANOVA

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Statistik II 1. Lektion. Analyse af kontingenstabeller

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Forsøgsplanlægning Stikprøvestørrelse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Stata datafil Variables og Properties Data typer: Skalære, ordinale, nominelle og dikotome

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Transkript:

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 2 Lineær regression og korrelation(outcome og exposure Lineær regression Konfidensinterval for effekt Korrelation Prediktion Anovatabel F-test Multipel R 2 PSE (I17) FSV1 Statistik - 2. lektion 1 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Eksempel Vi betragter den skalære respons steady-state hæmoglobin niveau Vi vil studere indvirkning af eksponeringsvariablen: sygdomstype, idet vi skal kigge på 3 patientgrupper med hver deres variant af en seglcelle sygdom. Boxplot stratificeret efter sygdom: PSE (I17) FSV1 Statistik - 2. lektion 2 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Eksempel Statistics Summaries,... Other tables Compact... For hver gruppe og grupperne slået sammen(total) kan vi aflæse middeltal: x (mean) stikprøvestørrelse: n (N) standardafvigelse: s (sd) PSE (I17) FSV1 Statistik - 2. lektion 3 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Model Grundliggende antagelser: Hver delpopulation har sit eget middeltal. Alle delpopulationer har samme standardafvigelse. I det aktuelle eksempel har vi 4 populationsparametre Middeltallene µ 1, µ 2 og µ 3 i de 3 delpopulationer. Standardafvigelsen σ i populationerne. Hvis i = 1, 2 eller 3 kan vi for den i te stikprøve angive/beregne Stikprøvens størrelse: n i Stikprøvens middeltal: x i Stikprøvens standardafvigelse s i Fex n 1 = 16, x 1 = 8.7125, s 1 = 0.84449 svarende til HbSS. PSE (I17) FSV1 Statistik - 2. lektion 4 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Afvigelser inden for grupper Vi kan så beregne den kvadratiske afvigelse INDEN FOR grupperne SS within = (n i 1)s 2 i som har frihedsgrader df within = (n i 1) = n k, hvor n er det totale antal observationer og k er antal grupper. Den tilhørende gennemsnitlige kvadratiske afvigelse vil være et estimat for σ 2. MS within = SS within df within PSE (I17) FSV1 Statistik - 2. lektion 5 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Afvigelser mellem grupper Vi er interesseret i at undersøge om eksponering har betydning. Den relevante nulhypotese, når k = 3 H 0 : µ 1 = µ 2 = µ 3 Lad x være middeltallet for alle n observationer. Stikprøvernes middeltal vil afvige fra denne værdi. Kan disse afvigelser forklares ved stikprøvevariation? Dette vil vi måle ved den kvadratiske afvigelse MELLEM grupperne SS between = n i ( x i x) 2 som har frihedsgrader df between = k 1 PSE (I17) FSV1 Statistik - 2. lektion 6 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) F-test for ingen effekt F-test Den tilhørende gennemsnitlige kvadratiske afvigelse mellem grupper er MS between = SS between df between HVIS H 0 er sand, så skal MS between og MS within være af samme størrelsesorden, dvs F-teststatistikken F = MS between MS within skal ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df between, df within ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. PSE (I17) FSV1 Statistik - 2. lektion 7 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) AnovaTabel AnovaTabel Statistics Linear models... ANOVA/... One-way..., hvor Response variable er v1(hæmoglobin) og Factor variable er sygdomsvariablen. Vi kan aflæse MS between = 49.945, MS within = 0.999. Og F = 49.945 0.999 = 50.00, hvilket er en exorbitant stor værdi. K&S har IKKE en tabel over F-fordelingen, men vi kan aflæse p-værdien(prob > F) til 0.0000, dvs der er overvældende evidens mod H 0. PSE (I17) FSV1 Statistik - 2. lektion 8 / 23

Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Beregning af p-værdi i F-fordelingen p-værdi K&S har IKKE en tabel over F-fordelingen. I stedet kan man eksempelvis i stata bruge Data Other... Hand... Klik på trekant ved Functions og herunder Statistical. Angiv frihedsgrader og f-værdi. Resultatet p værdi = 0.00000000002281 kan aflæses i stata s Results-vindue hvilket selvfølgelig er pjattet. Stata rapporterer 0.000 i ANOVA-tabellen, hvilket er tilstrækkeligt informativt. PSE (I17) FSV1 Statistik - 2. lektion 9 / 23

Lineær regression Eksempel PSE (I17) FSV1 Statistik - 2. lektion 10 / 23

Lineær regression Model Betragt delpopulationen af mænd, som har vægt x kg. Når vi måler plasmavolumen i denne delpopulation vil vi antage at denne har middeltal µ(x) = β 0 + β 1 x standardafvigelse σ Vi har således 3 populationsparametre: β 0 : Skæring på y-aksen - svarende til plasmavolumen når vægten er nul! Vi vil dog kun antage at den lineære sammenhæng er gældende for vægt over 50kg. β 1 : angiver hvor meget plasmavolumen stiger, når vægten forøges med 1kg. σ: En standardafvigelse som er uafhængig af vægten. PSE (I17) FSV1 Statistik - 2. lektion 11 / 23

Lineær regression Model Hvis (x, y) er samhørende målinger kan modellen ækvivalent formuleres: y = β 0 + β 1 x + ε hvor ε er et populations residual, dvs den givne persons afvigelse fra populationens middeltal, når vægten er x. Hvis linien i figuren er y = β 0 + β 1 x, så har stikprøven residualer svarende til de lodrette stiplede afstande, hvor punkter under linien har negative residualer. Om populations residualerne gælder, at de har middeltal 0 og standardafvigelse σ PSE (I17) FSV1 Statistik - 2. lektion 12 / 23

Lineær regression Estimation Vi skal bruge stikprøven af (x, y) målinger til at estimere β 0 og β 1. Dette gøres ved at vælge den linie, hvor summen af de kvadrerede residualer - ε 2 - er mindst mulig. I modsætning til K&S vil vi benævne estimaterne for hhv β 0 og β 1 med hhv b 0 og b 1. Formler til beregning af b 0 og b 1 kan ses øverst side 90 i K&S. Dem vil vi ikke dvæle ved. Det er vigtigt at gøre sig klart, at b 0 og b 1 er behæftet med usikkerhed, idet vi kun har et tilfældigt udvalg fra populationen. Der er ekstremt mange mulige stikprøver, som hver giver deres bud på β 0 og β 1. PSE (I17) FSV1 Statistik - 2. lektion 13 / 23

Konfidensinterval for effekt Konfidensinterval Hvis vi fex vil undersøge H 0 : β 1 = 0 eller lave et konfidensinterval, så er det vigtigt at have en standardfejl på b 1. De estimerede standardfejl på hhv b 0 og b 1 betegnes se(b 0 ) hhv se(b 1 ) og kan beregnes som anført øverst side 91 i K&S. Disse har df = n 2 frihedsgrader, idet vi mister 2 frihedsgrader til de 2 regressionsparametre β 0 og β 1. Vi kan så bestemme et konfidensinterval for β 1 : Fastlæg konfidensgraden, fex 95%. Bestem t : den tilhørende t-score baseret på (n 2) frihedsgrader (tabela3). Beregn b 1 ± t se(b 1 ) PSE (I17) FSV1 Statistik - 2. lektion 14 / 23

Konfidensinterval for effekt Eksempel I vores aktuelle eksempel: Vælg konfidensgrad 95%. df = 8 2 = 6 hvorefter tabela3 (twosidedpvalue=0.05) giver t = 2.45. Vi beregner estimat b 1 = 0.0436 og standardfejl se(b 1 ) = 0.0153. Konfidensinterval 0.0436 ± 2.45 0.0153 = 0.0063 til 0.0810 liter/kg Der ser ud til at være en sammenhæng mellen vægt og plasmavol, men effekten af en vægtforøgelse er ret usikkert bestemt. Den estimerede effekt er 43.6 milliliter pr. kg, men den kunne være så lille som 6.3 milliliter pr. kg. PSE (I17) FSV1 Statistik - 2. lektion 15 / 23

Korrelation Korrelation Lad os prøve at ændre måleskalaer til t-scores: t(x) = x x s 1, hvor s 1 er standardafvigelsen på stikprøven af x-værdier. t(y) = y ȳ s 2, hvor s 2 er standardafvigelsen på stikprøven af y-værdier. Det kan da vises at hældningsestimatet for den standardiserede linie er givet ved r = 1 n 1 t(x)t(y) Dette kaldes for korrelationskoefficienten, som har følgende egenskaber 1 r 1. Hvis r < 0 er der en negativ effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med negativ hældning. Hvis r > 0 er der en positiv effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med positiv hældning. PSE (I17) FSV1 Statistik - 2. lektion 16 / 23

Korrelation Fortolkning af korrelation NB: r er et mål for graden af lineær sammenhæng. Hvis vi fex har den perfekte kvadratiske sammenhæng y = x 2 så vil der gælde at r = 0!!!! PSE (I17) FSV1 Statistik - 2. lektion 17 / 23

Prediktion Prediktion Når et scatterplot antyder at modellen y = β 0 + β 1 x + ε er realistisk, bruger vi stikprøven til at estimere linien y = b 0 + b 1 x Dette kaldes prediktionsligningen, idet vi for en given x-værdi kan give vort bedste bud (prediktion) på den tilhørende y-værdi. I forhold til vores stikprøve vil vi beregne kvadratsummen af afvigelser fra linien SS residual = (y y ) 2, som har df = n 2 frihedsgrader. Denne skulle gerne være lille, hvilket vi vil måle ift situationen, hvor x ikke er kendt. Her er vores bedste bud på populationens middelværdi ȳ, hvilket giver kvadratsummen af afvigelser fra ȳ SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. PSE (I17) FSV1 Statistik - 2. lektion 18 / 23

Anovatabel Anovatabel SS residual : Kvadratsummen af lodrette stiplede afstande SS total : Kvadratsummen af lodrette optrukne afstande Vi beregner, hvor meget kvadratsummen formindskes, når vi inddrager x som forklarende variabel: SS regression = SS total SS residual, som har df = (n 1) (n 2) = 1 frihedsgrad. PSE (I17) FSV1 Statistik - 2. lektion 19 / 23

Anovatabel Anova tabel for effekt Statistics Linear models... Linear regression med Dependent:PlasmaVol og Independent(s):wei(vægt) giver bla følgende hvor vi fex kan aflæse SS residual = 0.287 og den tilhørende middel kvadratsum MS residual = 0.287 6 = 0.048. PSE (I17) FSV1 Statistik - 2. lektion 20 / 23

F-test F-test HVIS H 0 : β 1 = 0 er sand, så skal F-teststatistikken F = MS regression MS residual ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df regression, df residual ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. Aktuelt fås F = 0.391 0.048 = 8.16 med tilhørende p-værdi 2.89%, dvs der er evidens mod nulhypotesen. PSE (I17) FSV1 Statistik - 2. lektion 21 / 23

F-test Estimater Mere af outputtet fra Stata: Vi kan aflæse estimater; Skæring(cons): b 0 = 0.086, se(b 0 ) = 1.024, t = b 0 se(b 0 ) = 0.84, dvs b 0 afviger ikke signifikant fra nul. hældning(wei): b 1 = 0.044, se(b 1 ) = 0.015, t = b 1 se(b 1 ) = 2.86, dvs b 1 afviger signifikant fra nul. Der er en signifikant positiv effekt af vægt på plasmavolumen. Tillige kan vi aflæse konfidensintervaller for parametrene, hvor vi for hældningen genkender intervallet fra 0.0063 til 0.0810 liter/kg. PSE (I17) FSV1 Statistik - 2. lektion 22 / 23

Multipel R 2 Multipel R 2 Mere output fra Stata: Generelt er den multiple korrelationskoefficient R givet som korrelationen mellem y og y. Den opfylder af 0 R 1. R = 1 hvis og kun hvis y = y, dvs modellen laver perfekt prædiktion af den aktuelle stikprøve. R 2 = SS regression SS total, dvs R 2 angiver den del at totalvariationen, som kan forklares ved at inddrage regressionsvariablen x. Aktuelt R 2 = 57.6%. PSE (I17) FSV1 Statistik - 2. lektion 23 / 23