1 Hb SS Hb Sβ Hb SC = , (s = )

Relaterede dokumenter
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Eksamen i Statistik for biokemikere. Blok

Module 4: Ensidig variansanalyse

Tema. Dagens tema: Indfør centrale statistiske begreber.

Modelkontrol i Faktor Modeller

Kapitel 12 Variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Modul 11: Simpel lineær regression

Kapitel 12 Variansanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Løsning eksamen d. 15. december 2008

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

(studienummer) (underskrift) (bord nr)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

MPH specialmodul Epidemiologi og Biostatistik

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

1 Regressionsproblemet 2

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Forsøgsplanlægning Stikprøvestørrelse

(studienummer) (underskrift) (bord nr)

Nanostatistik: Test af hypotese

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Forelæsning 9: Inferens for andele (kapitel 10)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Løsning til eksamen d.27 Maj 2010

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Opgaver til kapitel 3

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Reeksamen i Statistik for biokemikere. Blok

Multipel Lineær Regression

Modul 12: Regression og korrelation

Løsning til eksaminen d. 29. maj 2009

En Introduktion til SAS. Kapitel 5.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

StatDataN: Test af hypotese

Hypotesetests, fejltyper og p-værdier

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 7 Forskelle mellem centraltendenser

Vejledende løsninger kapitel 8 opgaver

Konfidensintervaller og Hypotesetest

Nanostatistik: Konfidensinterval

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Produkt og marked - matematiske og statistiske metoder

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Transkript:

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom. I dag: Ensidet variansanalyse Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Den ensidede variansanalysemodel Estimation, test, konfidensintervaller og modelkontrol Test af ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer Hb SS Hb Sβ 7.2 7.7 8.1 9.2 10.7 11.3 8.0 8.1 10.0 10.4 11.5 11.6 8.3 8.4 10.6 10.9 11.7 11.8 8.4 8.5 11.1 11.9 12.0 12.1 8.6 8.7 12.0 12.1 12.3 12.6 9.1 9.1 12.6 13.3 9.1 9.8 13.3 13.8 10.1 10.3 13.9 Hæmoglobin (g/deciliter) 7 8 9 10 11 12 13 14 Eksempel: Test af linearitet (gentagelser) Hb SS Hb Sβ Ikke-parametriske metoder: Kruskal-Wallis test Spørgsmål: Er der forskel på hæmoglobin-niveauet svarende til de tre typer seglcellesygdom? Hvis der er, hvor forskellige er de så? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-1 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-2 Den ensidede variansanalysemodel Den ensidede variansanalysemodel: Estimater og relevante hypoteser Lad hæmoglobin-niveauerne i de tre grupper være betegnet ved Gruppe 1 : x 11, x 12,...,x 1n1 Gruppe 2 : x 21, x 22,...,x 2n2 Gruppe 3 : x 31, x 32,...,x 3n3 eller Gruppe i : x i1, x i2,...,x ini, eller x ij, j = 1, 2,...,n i, i = 1, 2, 3 med n 1 = 16, n 2 = 10, n 3 = 15 Statistisk model (Ensidet variansanalysemodel): x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige Stikprøvestørrelser, gennemsnit, varianser og standardafvigelser er givet ved Gruppe Type n i x i s 2 i s i 1 Hb SS 16 8.7125 0.7132 0.8445 2 Hb Sβ 10 10.6300 1.6490 1.2841 3 15 12.3000 0.8871 0.9419 Middelværdiparameterne µ i estimeres ved de tilsvarende gennemsnit, ˆµ i = x i. Variansestimatet er s 2 = (n 1 1) s 2 1 + (n 2 1) s 2 2 + (n 3 1) s 2 3 n 1 + n 2 + n 3 3 = 0.9989, (s = 0.9995) Hypotesen om ingen forskel mellem de tre typer seglcellesygdom, når det drejer sig om hæmoglobin-niveauet, er H 0 : µ 1 = µ 2 = µ 3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-4

Den ensidede variansanalysemodel: Hvorfor ikke lave tre t-test? Den ensidede variansanalysemodel: F-testet Hvorfor ikke bruge det som vi allerede har lært og teste hypoteserne H 0 : µ 1 = µ 2, H 0 : µ 1 = µ 3, H 0 : µ 2 = µ 3 baseret på tre separate t-test? Der er mindst to gode grunde til ikke at gøre dette: 1. Det er ikke optimalt at dele data op og ikke bruge al den tilgængelige information (data fra alle tre grupper) til at estimere den fælles varians σ 2 (hvis det da er rimeligt at antage at der er den samme variation i de tre grupper). 2. Når vi laver et test er der altid en chance for at forkaste en sand hypotese (at lave en type 1 fejl). Når vi laver flere test akkumuleres denne fejl således at vi ender op med en højere sandsynlighed (end den sædvanlige 0.05) for at finde en signifikant forskel hvor ingen er. Husk på at vi gerne vil teste hypotesen om ingen forskel på hæmoglobin-niveauet i de tre grupper Hypotesen testes ved hjælp af et F -test H 0 : µ 1 = µ 2 = µ 3 F = SS B /(k 1) SS W /(n k) = SS B /(k 1) s 2 hvor k er antallet af grupper, n er det totale antal observationer og SS B = er et mål for variationen mellem grupper. k n i ( x i x) 2 i=1 Hvis hypotesen er sand følger F en F -fordeling med (k 1, n k) frihedsgrader. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-5 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-6 Den ensidede variansanalysemodel: Illustration af F-testet (1) Den ensidede variansanalysemodel: Illustration af F-testet (2) Respons 0 50 100 150 200 Respons 0 50 100 150 200 De to datasæt har samme stikprøvestørrelser og samme gruppegennemsnit (og derfor samme overordnede gennemsnit), så variationen mellem grupper er den samme, SS B = 14087 Variationen indenfor grupper er dog meget forskellig i de to situationer, SS W = 9593 og SS W = 80020 således at F -testene bliver F = 7.83 og F = 0.94 hvilket giver p-værdier på henholdsvis 0.002 og 0.45. 1 2 3 4 Gruppe 1 2 3 4 Gruppe I den første situation finder vi klar evidens mod at grupperne har samme middelrespons men ikke i den anden situation. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-7 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-8

I dette tilfælde får vi Hæmoglobin-niveau og seglcellesygdom: F-test SS B = 99.89 og SS W = 37.96 således at F -teststørrelsen er givet ved F = 99.89/(3 1) 37.96/(41 3) = 50.0 Dette skal sammenlignes med en F(2, 38)-fordeling, og vi får en p-værdi som er mindre end 0.0001. Hæmoglobin (g/deciliter) 7 8 9 10 11 12 13 14 Hb SS Konklusion: Der er meget klar evidens mod hypotesen om samme forventet Hb Sβ hæmoglobin-niveau for patienter med de tre forskellige typer af seglcellesygdommen. Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller Estimater for de forventede hæmoglobin-niveauer i de tre grupper er ˆµ 1 = x 1 = 8.71, ˆµ 2 = x 2 = 10.63, ˆµ 3 = x 3 = 12.30 Konfidensintervaller for de forventede niveauer i de tre grupper er givet ved Gruppe i : x i ± t 0.975 (n k) s/ n i I dette eksempel får vi Gruppe Estimat 95%-konfidensinterval 1 8.71 [ 8.21, 9.22] 2 10.63 [ 9.99, 11.27] 3 12.30 [11.78, 12.82] Hæmoglobin (g/deciliter) 8 9 10 11 12 13 Hb SS Hb Sβ PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-9 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-10 Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller for differenser Ensidet variansanalysemodel: Antagelser og modelkontrol Spørgsmål: Er alle par af grupper signifikant forskellige? Det kunne ske at to grupper giver nogenlunde samme respons men at den tredje afviger så meget fra dem at det overordnede test for ens gruppeniveauer blev forkastet. En måde at undersøge dette på er at bestemme 95%-konfidensintervaller for de parvise differenser. For gruppe 1 og 2 får vi: 1 µ 1 µ 2 : x 1 x 2 ± t 0.975 (n k) s + 1 n 1 n 2 I vores eksempel: Differens Estimat 95%-konfidensinterval 2 1 1.92 [1.10, 2.73] 3 1 3.59 [2.86, 4.31] 3 2 1.67 [0.84, 2.50] Konklusion: Alle par af typer af seglcellesygdom er signifikant forskellige når det drejer sig om hæmoglobin-niveauet da ingen af 95%-konfidensintervallerne for differenserne indeholder 0. Vi betragter k stikprøver (grupper) og hver stikprøve er fra en normalfordeling x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige i = 1,...,k, j = 1,...,n i Antagelser: 1. Uafhængighed mellem grupper. I hver gruppe: Uafhængige observationer fra den samme population. 2. Fordelingen i hver population kan beskrives ved en normalfordeling: Q-Q plots baseret på observationerne i hver gruppe eller på residualerne (når der er få observationer i hver gruppe). 3. De k populationer har en fælles standardafvigelse: Scatter plot for at checke variationen i hver gruppe og Bartlett s test af hypotesen om ens varianser. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-11 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-12

Hæmoglobin (g/deciliter) 7.5 8.0 8.5 9.0 9.5 10.0 Hæmoglobin-niveau og seglcellesygdom: Q-Q plot i hver gruppe Hb SS 2 1 0 1 2 8 9 10 11 12 Hb Sβ 1.5 0.5 0.5 1.5 Percentiler fra Normalfordelingen 11.0 11.5 12.0 12.5 13.0 13.5 14.0 1 0 1 Hæmoglobin-niveau og seglcellesygdom: Q-Q plot baseret på residualerne Husk at residualerne er defineret som r ij = x ij ˆµ i = x ij x i Hvis den ensidede variansanalysemodel beskriver data godt, så vil fordelingen af residualerne være normal. Hvorvidt dette er rimeligt undersøges bedst 2 1 0 1 ved hjælp af et Q-Q plot. 2 1 0 1 2 Percentiler fra Normalfordelingen Konklusion: Vi vil ikke sætte spørgsmålstegn ved rimeligheden af den ensidede variansanalysemodel til beskrivelse af data baseret på en inspektion af residualerne. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-13 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-14 Hæmoglobin-niveau og seglcellesygdom: Test af ens varianser Spørgsmål: Er det rimeligt at antage at variationen er den samme i de tre grupper? Gruppe Type n i s 2 i 1 Hb SS 16 0.7132 2 Hb Sβ 10 1.6490 3 15 0.8871 Hæmoglobin (g/deciliter) 7 8 9 10 12 14 Hb SS Hb Sβ Ligesom i situationen med to stikprøver kan vi faktisk starte ud med en model uden antagelsen om samme varianser x ij = µ i + e ij, e ij N(0, σ 2 i ), og så teste hypotesen om ens varianser H 0 : σ 2 1 = σ 2 2 = σ 2 3 uafhængige Bartlett s test for ens varianser Bartlett s teststørrelse hørende til hypotesen om ens varianser er givet ved ( ) B = 1 k (n k) log s 2 [(n i 1) log s 2 C i] i=1 hvor C = 1 + ( k ) 1 1 3 (k 1) n i=1 i 1 1 n k Hvis hypotesen er sand så vil B approksimativt være χ 2 (k 1)-fordelt og store værdier af B svarer til evidens mod hypotesen om identiske varianser. Det betyder at p-værdien er givet ved p = P(χ 2 (k 1) B) NB: Bartlett s test er følsomt overfor afvigelser fra normalfordelingen. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-15 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-16

Hæmoglobin-niveau og seglcellesygdom: Bartlett s test for ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer I dette eksempel får vi og B = C = 1 + 1 3 2 ( 1 15 + 1 9 + 1 14 1 ) = 1.0371 38 1 (38 log 0.9989 15 log 0.7132 9 log 1.6490 14 log 0.8871) 1.0371 = 2.13 som sammenlignet med en χ 2 (2)-fordeling giver følgende p-værdi p = 0.35 Konklusion: Vi har ingen grund til at tvivle på hypotesen om ens varianser i de tre grupper. Tre grupper af individer (13 kontrolpersoner, 12 ikke-hyperinsulinæmiske svært overvægtige patienter og 8 hyperinsulinæmiske svært overvægtige patienter) fik deres plasma uorganiske fosfatkoncentration målt henholdsvis 0, 0.5, 1, 1.5, 2, 3, 4 og 5 timer efter en standarddosis oral glukosebelastning (Davis (2002)). Dette er et eksempel på såkaldte gentagne målinger (eng.: repeated measurements) da hvert individ bliver målt 8 gange. Vi vil gerne sammenligne de tre grupper af individer, men det er ikke oplagt at antage at målinger på samme person er uafhængige. Plasma uorganisk fosfatkoncentration (mmol/l) 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 26 27 28 29 30 31 32 33 6 5 4 3 2 22 23 24 25 14 15 16 17 18 19 20 21 6 5 4 3 2 9 10 11 12 13 1 2 3 4 5 6 7 8 6 5 4 3 2 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 Timer efter Glukosebelastning PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-17 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-18 Plasma fosfatkoncentration: Afledte størrelser (eng.: Summary measures) Plasma fosfatkoncentration: Stigning i fosfatkoncentrationen En måde at komme ud over problemet med mulig afhængighed mellem målinger på samme individ er at opsummere hver kurve i en enkelt størrelse (en afledt størrelse). For eksempel kunne vi få et mål for stigningen i plasma fosfatkoncentrationen ved at beregne stigning = fosfat til tid 5 timer den minimale fosfatkoncentration for hver af de 33 individer. De tre grupper kan så sammenlignes ved hjælp af en ensidet variansanalysemodel baseret på den afledte størrelse. Der er nogle ting man skal være opmærksom på i denne forbindelse: 1. Den afledte størrelse skal afspejle vigtige aspekter af det problem man er interesseret i. 2. Den afledte størrelse skal vælges før man kigger på data (eller uden at tage med ind i overvejelserne hvilke kurver der hører til hvilke grupper). 3. Det kan være nyttigt at betragte flere afledte størrelser. Hvis vi betragter stigningen som en afledt størrelse, så har vi følgende data (i mmol/l): Kontrol Ikke-hyp. over. Hyp. over. 2.2 2.0 1.2 1.2 1.0 1.5 1.7 1.8 1.3 0.9 0.0 0.8 1.6 1.5 0.8 1.4 1.0 1.4 1.3 1.8 1.6 0.9 1.0 0.2 1.0 1.3 1.4 1.2 1.7 1.7 0.3 0.6 1.2 Stigning i fosfatkoncentration 0.0 0.5 1.0 1.5 2.0 1 2 3 Gruppe Spørgsmål: Er der nogen forskel mellem de tre grupper når det drejer sig om stigningen i fosfatkoncentrationen? Hvis der er, hvordan er de så forskellige? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-19 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-20

Plasma fosfatkoncentration: Ensidet variansanalyse Plasma fosfatkoncentration: Konklusioner fra den ensidede variansanalyse Lad x ij betegne stigningen i plasma fosfatkoncentrationen for den j te person i den i te gruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 hvor n 1 = 13, n 2 = 12, n 3 = 8 Vi kan teste hypotesen om ens varianser i de 3 grupper ved hjælp af et Bartlett test B = 1.96 χ 2 (2), p = 0.38 Vi accepterer (kan ikke forkaste) hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 Hypotesen om ens forventede stigninger i plasma fosfatkoncentrationen i de tre grupper er Vi får følgende F -teststørrelse F = H 0 : µ 1 = µ 2 = µ 3 3.180/(3 1) 4.825/(33 3) = 9.89 hvilket sammenlignet med en F(2, 30)-fordeling giver en p-værdi på 0.0005. Gruppe Estimat 95%-KI Kontrol 1.60 [1.37, 1.83] Ikke-hyp. over. 1.07 [0.83, 1.30] Hyp. over. 0.86 [0.57, 1.15] Stigning i fosfat 0.6 1.0 1.4 1.8 Kontrol Ikke hyp. Hyp. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-21 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-22 Plasma fosfatkoncentration: Konfidensintervaller for differenser Plasma fosfatkoncentration: Modelkontrol Spørgsmål: Er alle par af grupper forskellige? Husk at vi kun kan konkludere fra F -testet at der er klar evidens for at ikke alle tre grupper har den samme forventede stigning i plasma fosfatkoncentrationen. Vi vurderer rimeligheden af den ensidede variansanalysemodel til beskrivelse af den afledte størrelse (stigningen i plasma fosfatkoncentrationen) ved at lave et histogram samt et Q-Q plot for residualerne. For de parvise differenser får vi følgende 95%-konfidensintervaller: Differens Estimat 95%-konfidensinterval 1 2 0.53 [ 0.21, 0.86] 1 3 0.74 [ 0.37, 1.11] 2 3 0.20 [ 0.17, 0.58] Konklusion: Stigningen i plasma fosfatkoncentrationen er signifikant højere i kontrolgruppen end i de to grupper af svært overvægtige. De to grupper af svært overvægtige er ikke signifikant forskellige når det drejer sig om stigning i plasma fosfatkoncentration. Tæthed 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 1.0 0.5 0.0 0.5 2 1 0 1 2 Percentiler fra normalfordelingen PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-23 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-24

Eksempel: Test af linearitet (gentagelser) Fødselsvægt og gestationsalder: Scatter plot og Box-plot Eksempel: Fødselsvægt og gestationsalder Antag at vi vil undersøge sammenhængen mellem fødselsvægt og gestationsalder. Data: Fødselsvægt (kg) og gestationsalder (uger) for 277 kvinder, som alle er 30 år gammel, ikke-rygere og har første paritet. Gestationsalder Fødselsvægt Stikprøvestørrelse 37 3.95, 3.24, 3.16,... 6 38 3.15, 3.71, 3.42,... 24 39 4.18, 3.50, 3.70,... 54 40 4.05, 3.66, 4.30,... 115 41 5.20, 3.40, 3.20,... 58 42 4.12, 3.64, 4.34,... 20 Fødselsvægt (kg) 2.5 3.0 3.5 4.0 4.5 5.0 Fødselsvægt (kg) 2.5 3.0 3.5 4.0 4.5 5.0 37 38 39 40 41 42 37 38 39 40 41 42 Gestationsalder (uger) Gestationsalder (uger) PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-25 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-26 Fødselsvægt og gestationsalder: Ensidet variansanalyse Fødselsvægt og gestationsalder: Konklusioner fra den ensidede variansanalyse Lad x ij betegne fødselsvægten af det j te barn i den i te gestationsaldersgruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 hvor n 1 = 6, n 2 = 24, n 3 = 54, n 4 = 115, n 5 = 58, n 6 = 20 Vi kan teste hypotesen om ens varianser i de 6 aldersgrupper ved hjælp af et Bartlett test B = 1.35 χ 2 (5), p = 0.93 Vi kan ikke forkaste hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-27 Hypotesen om ens forventet fødselsvægt i de seks aldersgrupper er F -teststørrelsen er givet ved F = H 0 : µ 1 = µ 2 = = µ 6 7.311/(6 1) 44.933/(277 6) = 8.82 som sammenlignet med en F(5, 271)-fordeling giver en p-værdi som er mindre end 0.0001. Alder Estimat 95%-konfidensinterval 37 3.42 [3.09, 3.75] 38 3.31 [3.15, 3.47] 39 3.65 [3.54, 3.76] 40 3.74 [3.67, 3.82] 41 3.87 [3.76, 3.97] 42 3.97 [3.79, 4.15] Fødselsvægt (kg) 3.0 3.4 3.8 4.2 37 38 39 40 41 42 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-28

Fødselsvægt og gestationsalder: En lineær sammenhæng Spørgsmål: Er det rimeligt at beskrive sammenhængen mellem fødselsvægten og gestationsalderen ved en ret linie? At dømme ud fra tegningen ser det rimeligt ud, men da vi har gentagelser (flere observationer for hver værdi af gestationsalderen) kan vi faktisk lave et statistisk test. Fødselsvægt (kg) 3.0 3.4 3.8 4.2 37 38 39 40 41 42 Gestationsalder (uger) Hypotesen om en lineær sammenhæng er givet ved H 0 : µ i = α + β x i hvor x i er gestationsalderen svarende til den i te gruppe. Fødselsvægt og gestationsalder: Test af en lineær sammenhæng Hypotesen kan testes ved hjælp af et F -test, F = (SS e SS W )/(k 2) SS W /(n k) hvor SS e er residual kvadratsummen fra den lineære regressionsmodel (se overhead 5-7). Hvis hypotesen er sand, så vil F følge en F(k 2, n k)-fordeling. Her får vi SS e = 45.670 og F = svarende til en p-værdi på 0.35. (45.670 44.933)/(6 2) 44.933/(277 6) = 1.11 F(4, 271) Konklusion: Vi accepterer (kan ikke forkaste) hypotesen om en lineær sammenhæng mellem gestationsalderen og fødselsvægten. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-29 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-30 Fødselsvægt og gestationsalder: Estimater og modelkontrol Fødselsvægt og gestationsalder: Konklusioner Estimater: Parameter Estimat 95%-konfidensinterval α 1.8262 [ 3.5631, 0.0893] β 0.1390 [ 0.0955, 0.1825] Diagnostiske tegninger: 1.5 0.5 0.5 1.5 0.5 0.5 1.0 37 38 39 40 41 42 Gestationsalder (uger) 3 2 1 0 1 2 3 Percentiler fra normalfordelingen Normalt fortolker vi afskæringen som den forventede respons når den forklarende variabel er 0. I dette tilfælde giver det selvfølgelig ingen mening. Hvis vi bruger gestationsalderen minus 40 uger som kovariat, så får vi ˆα = 3.7334, 95% KI : [3.6851, 3.7817] hvorimod estimatet for hældningen er uændret. Konklusioner: Den forventede fødselsvægt ved en gestationsalder på 40 uger er 3.733 kg (og med 95% sikkerhed mellem 3.685 kg og 3.782 kg). Hvis vi betragter to tilfældigt udvalgte børn født med en uges mellemrum (målt i gestationsalder) så vil vi forvente at den med den højeste gestationsalder har en fødselsvægt som er 139 g højere end den anden (og med 95% sikkerhed mellem 96 g og 183 g). PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-31 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-32

Ikke-parametriske metoder: Kruskal-Wallis test Kruskal-Wallis test: p-værdi Spørgsmål: Kan vi teste om der er forskel mellem flere grupper hvis det ikke er rimeligt at gøre de antagelser som ligger til grund for den ensidede variansanalysemodel? Ja, vi kan bruge den ikke-parametriske pendant til F -testet, kaldet for Kruskal-Wallis testet. Data: Vi har k grupper med henholdsvis n 1, n 2,..., n k observationer. Lad n betegne det totale antal observationer (n = n 1 + + n k ). Vi antager stadigvæk at alle observationerne er indbyrdes uafhængige. Kruskal-Wallis teststørrelsen hørende til hypotesen om ingen forskydning af fordelingen i nogen af grupperne er givet ved X 2 KW = 12 n (n + 1) k n i ( R i R) 2 hvor R i er gennemsnittet af rangene i den i te gruppe og R er gennemsnittet af alle rangene. Hvis der er flere observationer med samme værdi, så bliver XKW 2 modificeret med en korrektionsfaktor. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-33 i=1 Under hypotesen om ingen forskydning af fordelingen i nogen af grupperne, så har vi at der approksimativt gælder at XKW 2 χ2 (k 1) Store værdier af teststørrelsen er kritiske for hypotesen, så p = P(χ 2 (k 1) XKW 2 ) I eksemplet med plasma fosfatkoncentrationen får vi følgende Kruskal-Wallis teststørrelse (korrigeret for ens observationer) XKW 2 = 13.29 χ2 (2) hvilket giver en p-værdi på 0.0013. Konklusion: Der er klar evidens i data mod hypotesen om ingen forskydning af nogen af fordelingerne i de tre grupper. Dette er i overensstemmelse med hvad vi fandt i den ensidede variansanalysemodel. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-34