1 Hb SS Hb Sβ Hb SC = , (s = )

Størrelse: px
Starte visningen fra side:

Download "1 Hb SS Hb Sβ Hb SC = , (s = )"

Transkript

1 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom. I dag: Ensidet variansanalyse Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Den ensidede variansanalysemodel Estimation, test, konfidensintervaller og modelkontrol Test af ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer Hb SS Hb Sβ Hæmoglobin (g/deciliter) Eksempel: Test af linearitet (gentagelser) Hb SS Hb Sβ Ikke-parametriske metoder: Kruskal-Wallis test Spørgsmål: Er der forskel på hæmoglobin-niveauet svarende til de tre typer seglcellesygdom? Hvis der er, hvor forskellige er de så? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-1 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-2 Den ensidede variansanalysemodel Den ensidede variansanalysemodel: Estimater og relevante hypoteser Lad hæmoglobin-niveauerne i de tre grupper være betegnet ved Gruppe 1 : x 11, x 12,...,x 1n1 Gruppe 2 : x 21, x 22,...,x 2n2 Gruppe 3 : x 31, x 32,...,x 3n3 eller Gruppe i : x i1, x i2,...,x ini, eller x ij, j = 1, 2,...,n i, i = 1, 2, 3 med n 1 = 16, n 2 = 10, n 3 = 15 Statistisk model (Ensidet variansanalysemodel): x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige Stikprøvestørrelser, gennemsnit, varianser og standardafvigelser er givet ved Gruppe Type n i x i s 2 i s i 1 Hb SS Hb Sβ Middelværdiparameterne µ i estimeres ved de tilsvarende gennemsnit, ˆµ i = x i. Variansestimatet er s 2 = (n 1 1) s (n 2 1) s (n 3 1) s 2 3 n 1 + n 2 + n 3 3 = , (s = ) Hypotesen om ingen forskel mellem de tre typer seglcellesygdom, når det drejer sig om hæmoglobin-niveauet, er H 0 : µ 1 = µ 2 = µ 3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-4

2 Den ensidede variansanalysemodel: Hvorfor ikke lave tre t-test? Den ensidede variansanalysemodel: F-testet Hvorfor ikke bruge det som vi allerede har lært og teste hypoteserne H 0 : µ 1 = µ 2, H 0 : µ 1 = µ 3, H 0 : µ 2 = µ 3 baseret på tre separate t-test? Der er mindst to gode grunde til ikke at gøre dette: 1. Det er ikke optimalt at dele data op og ikke bruge al den tilgængelige information (data fra alle tre grupper) til at estimere den fælles varians σ 2 (hvis det da er rimeligt at antage at der er den samme variation i de tre grupper). 2. Når vi laver et test er der altid en chance for at forkaste en sand hypotese (at lave en type 1 fejl). Når vi laver flere test akkumuleres denne fejl således at vi ender op med en højere sandsynlighed (end den sædvanlige 0.05) for at finde en signifikant forskel hvor ingen er. Husk på at vi gerne vil teste hypotesen om ingen forskel på hæmoglobin-niveauet i de tre grupper Hypotesen testes ved hjælp af et F -test H 0 : µ 1 = µ 2 = µ 3 F = SS B /(k 1) SS W /(n k) = SS B /(k 1) s 2 hvor k er antallet af grupper, n er det totale antal observationer og SS B = er et mål for variationen mellem grupper. k n i ( x i x) 2 i=1 Hvis hypotesen er sand følger F en F -fordeling med (k 1, n k) frihedsgrader. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-5 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-6 Den ensidede variansanalysemodel: Illustration af F-testet (1) Den ensidede variansanalysemodel: Illustration af F-testet (2) Respons Respons De to datasæt har samme stikprøvestørrelser og samme gruppegennemsnit (og derfor samme overordnede gennemsnit), så variationen mellem grupper er den samme, SS B = Variationen indenfor grupper er dog meget forskellig i de to situationer, SS W = 9593 og SS W = således at F -testene bliver F = 7.83 og F = 0.94 hvilket giver p-værdier på henholdsvis og Gruppe Gruppe I den første situation finder vi klar evidens mod at grupperne har samme middelrespons men ikke i den anden situation. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-7 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-8

3 I dette tilfælde får vi Hæmoglobin-niveau og seglcellesygdom: F-test SS B = og SS W = således at F -teststørrelsen er givet ved F = 99.89/(3 1) 37.96/(41 3) = 50.0 Dette skal sammenlignes med en F(2, 38)-fordeling, og vi får en p-værdi som er mindre end Hæmoglobin (g/deciliter) Hb SS Konklusion: Der er meget klar evidens mod hypotesen om samme forventet Hb Sβ hæmoglobin-niveau for patienter med de tre forskellige typer af seglcellesygdommen. Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller Estimater for de forventede hæmoglobin-niveauer i de tre grupper er ˆµ 1 = x 1 = 8.71, ˆµ 2 = x 2 = 10.63, ˆµ 3 = x 3 = Konfidensintervaller for de forventede niveauer i de tre grupper er givet ved Gruppe i : x i ± t (n k) s/ n i I dette eksempel får vi Gruppe Estimat 95%-konfidensinterval [ 8.21, 9.22] [ 9.99, 11.27] [11.78, 12.82] Hæmoglobin (g/deciliter) Hb SS Hb Sβ PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-9 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-10 Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller for differenser Ensidet variansanalysemodel: Antagelser og modelkontrol Spørgsmål: Er alle par af grupper signifikant forskellige? Det kunne ske at to grupper giver nogenlunde samme respons men at den tredje afviger så meget fra dem at det overordnede test for ens gruppeniveauer blev forkastet. En måde at undersøge dette på er at bestemme 95%-konfidensintervaller for de parvise differenser. For gruppe 1 og 2 får vi: 1 µ 1 µ 2 : x 1 x 2 ± t (n k) s + 1 n 1 n 2 I vores eksempel: Differens Estimat 95%-konfidensinterval [1.10, 2.73] [2.86, 4.31] [0.84, 2.50] Konklusion: Alle par af typer af seglcellesygdom er signifikant forskellige når det drejer sig om hæmoglobin-niveauet da ingen af 95%-konfidensintervallerne for differenserne indeholder 0. Vi betragter k stikprøver (grupper) og hver stikprøve er fra en normalfordeling x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige i = 1,...,k, j = 1,...,n i Antagelser: 1. Uafhængighed mellem grupper. I hver gruppe: Uafhængige observationer fra den samme population. 2. Fordelingen i hver population kan beskrives ved en normalfordeling: Q-Q plots baseret på observationerne i hver gruppe eller på residualerne (når der er få observationer i hver gruppe). 3. De k populationer har en fælles standardafvigelse: Scatter plot for at checke variationen i hver gruppe og Bartlett s test af hypotesen om ens varianser. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-11 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-12

4 Hæmoglobin (g/deciliter) Hæmoglobin-niveau og seglcellesygdom: Q-Q plot i hver gruppe Hb SS Hb Sβ Percentiler fra Normalfordelingen Hæmoglobin-niveau og seglcellesygdom: Q-Q plot baseret på residualerne Husk at residualerne er defineret som r ij = x ij ˆµ i = x ij x i Hvis den ensidede variansanalysemodel beskriver data godt, så vil fordelingen af residualerne være normal. Hvorvidt dette er rimeligt undersøges bedst ved hjælp af et Q-Q plot Percentiler fra Normalfordelingen Konklusion: Vi vil ikke sætte spørgsmålstegn ved rimeligheden af den ensidede variansanalysemodel til beskrivelse af data baseret på en inspektion af residualerne. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-13 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-14 Hæmoglobin-niveau og seglcellesygdom: Test af ens varianser Spørgsmål: Er det rimeligt at antage at variationen er den samme i de tre grupper? Gruppe Type n i s 2 i 1 Hb SS Hb Sβ Hæmoglobin (g/deciliter) Hb SS Hb Sβ Ligesom i situationen med to stikprøver kan vi faktisk starte ud med en model uden antagelsen om samme varianser x ij = µ i + e ij, e ij N(0, σ 2 i ), og så teste hypotesen om ens varianser H 0 : σ 2 1 = σ 2 2 = σ 2 3 uafhængige Bartlett s test for ens varianser Bartlett s teststørrelse hørende til hypotesen om ens varianser er givet ved ( ) B = 1 k (n k) log s 2 [(n i 1) log s 2 C i] i=1 hvor C = 1 + ( k ) (k 1) n i=1 i 1 1 n k Hvis hypotesen er sand så vil B approksimativt være χ 2 (k 1)-fordelt og store værdier af B svarer til evidens mod hypotesen om identiske varianser. Det betyder at p-værdien er givet ved p = P(χ 2 (k 1) B) NB: Bartlett s test er følsomt overfor afvigelser fra normalfordelingen. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-15 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-16

5 Hæmoglobin-niveau og seglcellesygdom: Bartlett s test for ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer I dette eksempel får vi og B = C = ( ) = (38 log log log log ) = 2.13 som sammenlignet med en χ 2 (2)-fordeling giver følgende p-værdi p = 0.35 Konklusion: Vi har ingen grund til at tvivle på hypotesen om ens varianser i de tre grupper. Tre grupper af individer (13 kontrolpersoner, 12 ikke-hyperinsulinæmiske svært overvægtige patienter og 8 hyperinsulinæmiske svært overvægtige patienter) fik deres plasma uorganiske fosfatkoncentration målt henholdsvis 0, 0.5, 1, 1.5, 2, 3, 4 og 5 timer efter en standarddosis oral glukosebelastning (Davis (2002)). Dette er et eksempel på såkaldte gentagne målinger (eng.: repeated measurements) da hvert individ bliver målt 8 gange. Vi vil gerne sammenligne de tre grupper af individer, men det er ikke oplagt at antage at målinger på samme person er uafhængige. Plasma uorganisk fosfatkoncentration (mmol/l) Timer efter Glukosebelastning PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-17 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-18 Plasma fosfatkoncentration: Afledte størrelser (eng.: Summary measures) Plasma fosfatkoncentration: Stigning i fosfatkoncentrationen En måde at komme ud over problemet med mulig afhængighed mellem målinger på samme individ er at opsummere hver kurve i en enkelt størrelse (en afledt størrelse). For eksempel kunne vi få et mål for stigningen i plasma fosfatkoncentrationen ved at beregne stigning = fosfat til tid 5 timer den minimale fosfatkoncentration for hver af de 33 individer. De tre grupper kan så sammenlignes ved hjælp af en ensidet variansanalysemodel baseret på den afledte størrelse. Der er nogle ting man skal være opmærksom på i denne forbindelse: 1. Den afledte størrelse skal afspejle vigtige aspekter af det problem man er interesseret i. 2. Den afledte størrelse skal vælges før man kigger på data (eller uden at tage med ind i overvejelserne hvilke kurver der hører til hvilke grupper). 3. Det kan være nyttigt at betragte flere afledte størrelser. Hvis vi betragter stigningen som en afledt størrelse, så har vi følgende data (i mmol/l): Kontrol Ikke-hyp. over. Hyp. over Stigning i fosfatkoncentration Gruppe Spørgsmål: Er der nogen forskel mellem de tre grupper når det drejer sig om stigningen i fosfatkoncentrationen? Hvis der er, hvordan er de så forskellige? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-19 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-20

6 Plasma fosfatkoncentration: Ensidet variansanalyse Plasma fosfatkoncentration: Konklusioner fra den ensidede variansanalyse Lad x ij betegne stigningen i plasma fosfatkoncentrationen for den j te person i den i te gruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 hvor n 1 = 13, n 2 = 12, n 3 = 8 Vi kan teste hypotesen om ens varianser i de 3 grupper ved hjælp af et Bartlett test B = 1.96 χ 2 (2), p = 0.38 Vi accepterer (kan ikke forkaste) hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 Hypotesen om ens forventede stigninger i plasma fosfatkoncentrationen i de tre grupper er Vi får følgende F -teststørrelse F = H 0 : µ 1 = µ 2 = µ /(3 1) 4.825/(33 3) = 9.89 hvilket sammenlignet med en F(2, 30)-fordeling giver en p-værdi på Gruppe Estimat 95%-KI Kontrol 1.60 [1.37, 1.83] Ikke-hyp. over [0.83, 1.30] Hyp. over [0.57, 1.15] Stigning i fosfat Kontrol Ikke hyp. Hyp. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-21 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-22 Plasma fosfatkoncentration: Konfidensintervaller for differenser Plasma fosfatkoncentration: Modelkontrol Spørgsmål: Er alle par af grupper forskellige? Husk at vi kun kan konkludere fra F -testet at der er klar evidens for at ikke alle tre grupper har den samme forventede stigning i plasma fosfatkoncentrationen. Vi vurderer rimeligheden af den ensidede variansanalysemodel til beskrivelse af den afledte størrelse (stigningen i plasma fosfatkoncentrationen) ved at lave et histogram samt et Q-Q plot for residualerne. For de parvise differenser får vi følgende 95%-konfidensintervaller: Differens Estimat 95%-konfidensinterval [ 0.21, 0.86] [ 0.37, 1.11] [ 0.17, 0.58] Konklusion: Stigningen i plasma fosfatkoncentrationen er signifikant højere i kontrolgruppen end i de to grupper af svært overvægtige. De to grupper af svært overvægtige er ikke signifikant forskellige når det drejer sig om stigning i plasma fosfatkoncentration. Tæthed Percentiler fra normalfordelingen PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-23 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-24

7 Eksempel: Test af linearitet (gentagelser) Fødselsvægt og gestationsalder: Scatter plot og Box-plot Eksempel: Fødselsvægt og gestationsalder Antag at vi vil undersøge sammenhængen mellem fødselsvægt og gestationsalder. Data: Fødselsvægt (kg) og gestationsalder (uger) for 277 kvinder, som alle er 30 år gammel, ikke-rygere og har første paritet. Gestationsalder Fødselsvægt Stikprøvestørrelse , 3.24, 3.16, , 3.71, 3.42, , 3.50, 3.70, , 3.66, 4.30, , 3.40, 3.20, , 3.64, 4.34, Fødselsvægt (kg) Fødselsvægt (kg) Gestationsalder (uger) Gestationsalder (uger) PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-25 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-26 Fødselsvægt og gestationsalder: Ensidet variansanalyse Fødselsvægt og gestationsalder: Konklusioner fra den ensidede variansanalyse Lad x ij betegne fødselsvægten af det j te barn i den i te gestationsaldersgruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 hvor n 1 = 6, n 2 = 24, n 3 = 54, n 4 = 115, n 5 = 58, n 6 = 20 Vi kan teste hypotesen om ens varianser i de 6 aldersgrupper ved hjælp af et Bartlett test B = 1.35 χ 2 (5), p = 0.93 Vi kan ikke forkaste hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-27 Hypotesen om ens forventet fødselsvægt i de seks aldersgrupper er F -teststørrelsen er givet ved F = H 0 : µ 1 = µ 2 = = µ /(6 1) /(277 6) = 8.82 som sammenlignet med en F(5, 271)-fordeling giver en p-værdi som er mindre end Alder Estimat 95%-konfidensinterval [3.09, 3.75] [3.15, 3.47] [3.54, 3.76] [3.67, 3.82] [3.76, 3.97] [3.79, 4.15] Fødselsvægt (kg) PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-28

8 Fødselsvægt og gestationsalder: En lineær sammenhæng Spørgsmål: Er det rimeligt at beskrive sammenhængen mellem fødselsvægten og gestationsalderen ved en ret linie? At dømme ud fra tegningen ser det rimeligt ud, men da vi har gentagelser (flere observationer for hver værdi af gestationsalderen) kan vi faktisk lave et statistisk test. Fødselsvægt (kg) Gestationsalder (uger) Hypotesen om en lineær sammenhæng er givet ved H 0 : µ i = α + β x i hvor x i er gestationsalderen svarende til den i te gruppe. Fødselsvægt og gestationsalder: Test af en lineær sammenhæng Hypotesen kan testes ved hjælp af et F -test, F = (SS e SS W )/(k 2) SS W /(n k) hvor SS e er residual kvadratsummen fra den lineære regressionsmodel (se overhead 5-7). Hvis hypotesen er sand, så vil F følge en F(k 2, n k)-fordeling. Her får vi SS e = og F = svarende til en p-værdi på ( )/(6 2) /(277 6) = 1.11 F(4, 271) Konklusion: Vi accepterer (kan ikke forkaste) hypotesen om en lineær sammenhæng mellem gestationsalderen og fødselsvægten. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-29 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-30 Fødselsvægt og gestationsalder: Estimater og modelkontrol Fødselsvægt og gestationsalder: Konklusioner Estimater: Parameter Estimat 95%-konfidensinterval α [ , ] β [ , ] Diagnostiske tegninger: Gestationsalder (uger) Percentiler fra normalfordelingen Normalt fortolker vi afskæringen som den forventede respons når den forklarende variabel er 0. I dette tilfælde giver det selvfølgelig ingen mening. Hvis vi bruger gestationsalderen minus 40 uger som kovariat, så får vi ˆα = , 95% KI : [3.6851, ] hvorimod estimatet for hældningen er uændret. Konklusioner: Den forventede fødselsvægt ved en gestationsalder på 40 uger er kg (og med 95% sikkerhed mellem kg og kg). Hvis vi betragter to tilfældigt udvalgte børn født med en uges mellemrum (målt i gestationsalder) så vil vi forvente at den med den højeste gestationsalder har en fødselsvægt som er 139 g højere end den anden (og med 95% sikkerhed mellem 96 g og 183 g). PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-31 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-32

9 Ikke-parametriske metoder: Kruskal-Wallis test Kruskal-Wallis test: p-værdi Spørgsmål: Kan vi teste om der er forskel mellem flere grupper hvis det ikke er rimeligt at gøre de antagelser som ligger til grund for den ensidede variansanalysemodel? Ja, vi kan bruge den ikke-parametriske pendant til F -testet, kaldet for Kruskal-Wallis testet. Data: Vi har k grupper med henholdsvis n 1, n 2,..., n k observationer. Lad n betegne det totale antal observationer (n = n n k ). Vi antager stadigvæk at alle observationerne er indbyrdes uafhængige. Kruskal-Wallis teststørrelsen hørende til hypotesen om ingen forskydning af fordelingen i nogen af grupperne er givet ved X 2 KW = 12 n (n + 1) k n i ( R i R) 2 hvor R i er gennemsnittet af rangene i den i te gruppe og R er gennemsnittet af alle rangene. Hvis der er flere observationer med samme værdi, så bliver XKW 2 modificeret med en korrektionsfaktor. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-33 i=1 Under hypotesen om ingen forskydning af fordelingen i nogen af grupperne, så har vi at der approksimativt gælder at XKW 2 χ2 (k 1) Store værdier af teststørrelsen er kritiske for hypotesen, så p = P(χ 2 (k 1) XKW 2 ) I eksemplet med plasma fosfatkoncentrationen får vi følgende Kruskal-Wallis teststørrelse (korrigeret for ens observationer) XKW 2 = χ2 (2) hvilket giver en p-værdi på Konklusion: Der er klar evidens i data mod hypotesen om ingen forskydning af nogen af fordelingerne i de tre grupper. Dette er i overensstemmelse med hvad vi fandt i den ensidede variansanalysemodel. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-34

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40 Statistisk test Et statistisk test er en konfrontation

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

2 X 2 = Antal mygstik på enpersoniløbetaf1minut Opgave I I mange statistiske undersøgelser bygger man analysen på anvendelse af normalfordelingen til (eventuelt tilnærmelsesvist) at beskrive den tilfældige variation. Spørgsmål I.1 (1): Forén af følgende

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Vejledende løsninger kapitel 8 opgaver

Vejledende løsninger kapitel 8 opgaver KAPITEL 8 OPGAVE 1 Nej den kan også være over 1 OPGAVE 2 Stikprøvestørrelse 10 Stikprøvegennemsnit 1,18 Stikprøvespredning 0,388158 Konfidensniveau 0,95 Nedre grænse 0,902328 Øvre grænse 1,457672 Stikprøvestørrelse

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere