1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 2 Lineær regression og korrelation(outcome og exposure Lineær regression Konfidensinterval for effekt Korrelation Prediktion Anovatabel F-test Multipel R 2 PSE (I17) FSV1 Statistik - 2. lektion 1 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Eksempel Vi betragter den skalære respons steady-state hæmoglobin niveau Vi vil studere indvirkning af eksponeringsvariablen: sygdomstype, idet vi skal kigge på 3 patientgrupper med hver deres variant af en seglcelle sygdom. Boxplot stratificeret efter sygdom: PSE (I17) FSV1 Statistik - 2. lektion 2 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Eksempel Statistics Summaries,... Other tables Compact... For hver gruppe og grupperne slået sammen(total) kan vi aflæse middeltal: x (mean) stikprøvestørrelse: n (N) standardafvigelse: s (sd) PSE (I17) FSV1 Statistik - 2. lektion 3 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Model Grundliggende antagelser: Hver delpopulation har sit eget middeltal. Alle delpopulationer har samme standardafvigelse. I det aktuelle eksempel har vi 4 populationsparametre Middeltallene µ 1, µ 2 og µ 3 i de 3 delpopulationer. Standardafvigelsen σ i populationerne. Hvis i = 1, 2 eller 3 kan vi for den i te stikprøve angive/beregne Stikprøvens størrelse: n i Stikprøvens middeltal: x i Stikprøvens standardafvigelse s i Fex n 1 = 16, x 1 = 8.7125, s 1 = 0.84449 svarende til HbSS. PSE (I17) FSV1 Statistik - 2. lektion 4 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Afvigelser inden for grupper Vi kan så beregne den kvadratiske afvigelse INDEN FOR grupperne SS within = (n i 1)s 2 i som har frihedsgrader df within = (n i 1) = n k, hvor n er det totale antal observationer og k er antal grupper. Den tilhørende gennemsnitlige kvadratiske afvigelse vil være et estimat for σ 2. MS within = SS within df within PSE (I17) FSV1 Statistik - 2. lektion 5 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper Afvigelser mellem grupper Vi er interesseret i at undersøge om eksponering har betydning. Den relevante nulhypotese, når k = 3 H 0 : µ 1 = µ 2 = µ 3 Lad x være middeltallet for alle n observationer. Stikprøvernes middeltal vil afvige fra denne værdi. Kan disse afvigelser forklares ved stikprøvevariation? Dette vil vi måle ved den kvadratiske afvigelse MELLEM grupperne SS between = n i ( x i x) 2 som har frihedsgrader df between = k 1 PSE (I17) FSV1 Statistik - 2. lektion 6 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) F-test for ingen effekt F-test Den tilhørende gennemsnitlige kvadratiske afvigelse mellem grupper er MS between = SS between df between HVIS H 0 er sand, så skal MS between og MS within være af samme størrelsesorden, dvs F-teststatistikken F = MS between MS within skal ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df between, df within ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. PSE (I17) FSV1 Statistik - 2. lektion 7 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) AnovaTabel AnovaTabel Statistics Linear models... ANOVA/... One-way..., hvor Response variable er v1(hæmoglobin) og Factor variable er sygdomsvariablen. Vi kan aflæse MS between = 49.945, MS within = 0.999. Og F = 49.945 0.999 = 50.00, hvilket er en exorbitant stor værdi. K&S har IKKE en tabel over F-fordelingen, men vi kan aflæse p-værdien(prob > F) til 0.0000, dvs der er overvældende evidens mod H 0. PSE (I17) FSV1 Statistik - 2. lektion 8 / 23
Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Beregning af p-værdi i F-fordelingen p-værdi K&S har IKKE en tabel over F-fordelingen. I stedet kan man eksempelvis i stata bruge Data Other... Hand... Klik på trekant ved Functions og herunder Statistical. Angiv frihedsgrader og f-værdi. Resultatet p værdi = 0.00000000002281 kan aflæses i stata s Results-vindue hvilket selvfølgelig er pjattet. Stata rapporterer 0.000 i ANOVA-tabellen, hvilket er tilstrækkeligt informativt. PSE (I17) FSV1 Statistik - 2. lektion 9 / 23
Lineær regression Eksempel PSE (I17) FSV1 Statistik - 2. lektion 10 / 23
Lineær regression Model Betragt delpopulationen af mænd, som har vægt x kg. Når vi måler plasmavolumen i denne delpopulation vil vi antage at denne har middeltal µ(x) = β 0 + β 1 x standardafvigelse σ Vi har således 3 populationsparametre: β 0 : Skæring på y-aksen - svarende til plasmavolumen når vægten er nul! Vi vil dog kun antage at den lineære sammenhæng er gældende for vægt over 50kg. β 1 : angiver hvor meget plasmavolumen stiger, når vægten forøges med 1kg. σ: En standardafvigelse som er uafhængig af vægten. PSE (I17) FSV1 Statistik - 2. lektion 11 / 23
Lineær regression Model Hvis (x, y) er samhørende målinger kan modellen ækvivalent formuleres: y = β 0 + β 1 x + ε hvor ε er et populations residual, dvs den givne persons afvigelse fra populationens middeltal, når vægten er x. Hvis linien i figuren er y = β 0 + β 1 x, så har stikprøven residualer svarende til de lodrette stiplede afstande, hvor punkter under linien har negative residualer. Om populations residualerne gælder, at de har middeltal 0 og standardafvigelse σ PSE (I17) FSV1 Statistik - 2. lektion 12 / 23
Lineær regression Estimation Vi skal bruge stikprøven af (x, y) målinger til at estimere β 0 og β 1. Dette gøres ved at vælge den linie, hvor summen af de kvadrerede residualer - ε 2 - er mindst mulig. I modsætning til K&S vil vi benævne estimaterne for hhv β 0 og β 1 med hhv b 0 og b 1. Formler til beregning af b 0 og b 1 kan ses øverst side 90 i K&S. Dem vil vi ikke dvæle ved. Det er vigtigt at gøre sig klart, at b 0 og b 1 er behæftet med usikkerhed, idet vi kun har et tilfældigt udvalg fra populationen. Der er ekstremt mange mulige stikprøver, som hver giver deres bud på β 0 og β 1. PSE (I17) FSV1 Statistik - 2. lektion 13 / 23
Konfidensinterval for effekt Konfidensinterval Hvis vi fex vil undersøge H 0 : β 1 = 0 eller lave et konfidensinterval, så er det vigtigt at have en standardfejl på b 1. De estimerede standardfejl på hhv b 0 og b 1 betegnes se(b 0 ) hhv se(b 1 ) og kan beregnes som anført øverst side 91 i K&S. Disse har df = n 2 frihedsgrader, idet vi mister 2 frihedsgrader til de 2 regressionsparametre β 0 og β 1. Vi kan så bestemme et konfidensinterval for β 1 : Fastlæg konfidensgraden, fex 95%. Bestem t : den tilhørende t-score baseret på (n 2) frihedsgrader (tabela3). Beregn b 1 ± t se(b 1 ) PSE (I17) FSV1 Statistik - 2. lektion 14 / 23
Konfidensinterval for effekt Eksempel I vores aktuelle eksempel: Vælg konfidensgrad 95%. df = 8 2 = 6 hvorefter tabela3 (twosidedpvalue=0.05) giver t = 2.45. Vi beregner estimat b 1 = 0.0436 og standardfejl se(b 1 ) = 0.0153. Konfidensinterval 0.0436 ± 2.45 0.0153 = 0.0063 til 0.0810 liter/kg Der ser ud til at være en sammenhæng mellen vægt og plasmavol, men effekten af en vægtforøgelse er ret usikkert bestemt. Den estimerede effekt er 43.6 milliliter pr. kg, men den kunne være så lille som 6.3 milliliter pr. kg. PSE (I17) FSV1 Statistik - 2. lektion 15 / 23
Korrelation Korrelation Lad os prøve at ændre måleskalaer til t-scores: t(x) = x x s 1, hvor s 1 er standardafvigelsen på stikprøven af x-værdier. t(y) = y ȳ s 2, hvor s 2 er standardafvigelsen på stikprøven af y-værdier. Det kan da vises at hældningsestimatet for den standardiserede linie er givet ved r = 1 n 1 t(x)t(y) Dette kaldes for korrelationskoefficienten, som har følgende egenskaber 1 r 1. Hvis r < 0 er der en negativ effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med negativ hældning. Hvis r > 0 er der en positiv effekt af x. Specielt for r = 1 vil vore målepunkter ligge på en linie med positiv hældning. PSE (I17) FSV1 Statistik - 2. lektion 16 / 23
Korrelation Fortolkning af korrelation NB: r er et mål for graden af lineær sammenhæng. Hvis vi fex har den perfekte kvadratiske sammenhæng y = x 2 så vil der gælde at r = 0!!!! PSE (I17) FSV1 Statistik - 2. lektion 17 / 23
Prediktion Prediktion Når et scatterplot antyder at modellen y = β 0 + β 1 x + ε er realistisk, bruger vi stikprøven til at estimere linien y = b 0 + b 1 x Dette kaldes prediktionsligningen, idet vi for en given x-værdi kan give vort bedste bud (prediktion) på den tilhørende y-værdi. I forhold til vores stikprøve vil vi beregne kvadratsummen af afvigelser fra linien SS residual = (y y ) 2, som har df = n 2 frihedsgrader. Denne skulle gerne være lille, hvilket vi vil måle ift situationen, hvor x ikke er kendt. Her er vores bedste bud på populationens middelværdi ȳ, hvilket giver kvadratsummen af afvigelser fra ȳ SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. PSE (I17) FSV1 Statistik - 2. lektion 18 / 23
Anovatabel Anovatabel SS residual : Kvadratsummen af lodrette stiplede afstande SS total : Kvadratsummen af lodrette optrukne afstande Vi beregner, hvor meget kvadratsummen formindskes, når vi inddrager x som forklarende variabel: SS regression = SS total SS residual, som har df = (n 1) (n 2) = 1 frihedsgrad. PSE (I17) FSV1 Statistik - 2. lektion 19 / 23
Anovatabel Anova tabel for effekt Statistics Linear models... Linear regression med Dependent:PlasmaVol og Independent(s):wei(vægt) giver bla følgende hvor vi fex kan aflæse SS residual = 0.287 og den tilhørende middel kvadratsum MS residual = 0.287 6 = 0.048. PSE (I17) FSV1 Statistik - 2. lektion 20 / 23
F-test F-test HVIS H 0 : β 1 = 0 er sand, så skal F-teststatistikken F = MS regression MS residual ligge i nærheden af 1. Det kan vises at F har en såkaldt F-fordeling, som har 2 frihedsgrader (df regression, df residual ). Store værdier af F giver evidens mod H 0, dvs p-værdien skal beregnes, som den øvre halesandsynlighed i F-fordelingen. Aktuelt fås F = 0.391 0.048 = 8.16 med tilhørende p-værdi 2.89%, dvs der er evidens mod nulhypotesen. PSE (I17) FSV1 Statistik - 2. lektion 21 / 23
F-test Estimater Mere af outputtet fra Stata: Vi kan aflæse estimater; Skæring(cons): b 0 = 0.086, se(b 0 ) = 1.024, t = b 0 se(b 0 ) = 0.84, dvs b 0 afviger ikke signifikant fra nul. hældning(wei): b 1 = 0.044, se(b 1 ) = 0.015, t = b 1 se(b 1 ) = 2.86, dvs b 1 afviger signifikant fra nul. Der er en signifikant positiv effekt af vægt på plasmavolumen. Tillige kan vi aflæse konfidensintervaller for parametrene, hvor vi for hældningen genkender intervallet fra 0.0063 til 0.0810 liter/kg. PSE (I17) FSV1 Statistik - 2. lektion 22 / 23
Multipel R 2 Multipel R 2 Mere output fra Stata: Generelt er den multiple korrelationskoefficient R givet som korrelationen mellem y og y. Den opfylder af 0 R 1. R = 1 hvis og kun hvis y = y, dvs modellen laver perfekt prædiktion af den aktuelle stikprøve. R 2 = SS regression SS total, dvs R 2 angiver den del at totalvariationen, som kan forklares ved at inddrage regressionsvariablen x. Aktuelt R 2 = 57.6%. PSE (I17) FSV1 Statistik - 2. lektion 23 / 23