1 Hb SS Hb Sβ Hb SC = , (s = )

Størrelse: px
Starte visningen fra side:

Download "1 Hb SS Hb Sβ Hb SC = , (s = )"

Transkript

1 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom. I dag: Ensidet variansanalyse Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Den ensidede variansanalysemodel Estimation, test, konfidensintervaller og modelkontrol Test af ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer Hb SS Hb Sβ Hæmoglobin (g/deciliter) Eksempel: Test af linearitet (gentagelser) Hb SS Hb Sβ Ikke-parametriske metoder: Kruskal-Wallis test Spørgsmål: Er der forskel på hæmoglobin-niveauet svarende til de tre typer seglcellesygdom? Hvis der er, hvor forskellige er de så? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-1 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-2 Den ensidede variansanalysemodel Den ensidede variansanalysemodel: Estimater og relevante hypoteser Lad hæmoglobin-niveauerne i de tre grupper være betegnet ved Gruppe 1 : x 11, x 12,...,x 1n1 Gruppe 2 : x 21, x 22,...,x 2n2 Gruppe 3 : x 31, x 32,...,x 3n3 eller Gruppe i : x i1, x i2,...,x ini, eller x ij, j = 1, 2,...,n i, i = 1, 2, 3 med n 1 = 16, n 2 = 10, n 3 = 15 Statistisk model (Ensidet variansanalysemodel): x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige Stikprøvestørrelser, gennemsnit, varianser og standardafvigelser er givet ved Gruppe Type n i x i s 2 i s i 1 Hb SS Hb Sβ Middelværdiparameterne µ i estimeres ved de tilsvarende gennemsnit, ˆµ i = x i. Variansestimatet er s 2 = (n 1 1) s (n 2 1) s (n 3 1) s 2 3 n 1 + n 2 + n 3 3 = , (s = ) Hypotesen om ingen forskel mellem de tre typer seglcellesygdom, når det drejer sig om hæmoglobin-niveauet, er H 0 : µ 1 = µ 2 = µ 3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-3 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-4

2 Den ensidede variansanalysemodel: Hvorfor ikke lave tre t-test? Den ensidede variansanalysemodel: F-testet Hvorfor ikke bruge det som vi allerede har lært og teste hypoteserne H 0 : µ 1 = µ 2, H 0 : µ 1 = µ 3, H 0 : µ 2 = µ 3 baseret på tre separate t-test? Der er mindst to gode grunde til ikke at gøre dette: 1. Det er ikke optimalt at dele data op og ikke bruge al den tilgængelige information (data fra alle tre grupper) til at estimere den fælles varians σ 2 (hvis det da er rimeligt at antage at der er den samme variation i de tre grupper). 2. Når vi laver et test er der altid en chance for at forkaste en sand hypotese (at lave en type 1 fejl). Når vi laver flere test akkumuleres denne fejl således at vi ender op med en højere sandsynlighed (end den sædvanlige 0.05) for at finde en signifikant forskel hvor ingen er. Husk på at vi gerne vil teste hypotesen om ingen forskel på hæmoglobin-niveauet i de tre grupper Hypotesen testes ved hjælp af et F -test H 0 : µ 1 = µ 2 = µ 3 F = SS B /(k 1) SS W /(n k) = SS B /(k 1) s 2 hvor k er antallet af grupper, n er det totale antal observationer og SS B = er et mål for variationen mellem grupper. k n i ( x i x) 2 i=1 Hvis hypotesen er sand følger F en F -fordeling med (k 1, n k) frihedsgrader. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-5 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-6 Den ensidede variansanalysemodel: Illustration af F-testet (1) Den ensidede variansanalysemodel: Illustration af F-testet (2) Respons Respons De to datasæt har samme stikprøvestørrelser og samme gruppegennemsnit (og derfor samme overordnede gennemsnit), så variationen mellem grupper er den samme, SS B = Variationen indenfor grupper er dog meget forskellig i de to situationer, SS W = 9593 og SS W = således at F -testene bliver F = 7.83 og F = 0.94 hvilket giver p-værdier på henholdsvis og Gruppe Gruppe I den første situation finder vi klar evidens mod at grupperne har samme middelrespons men ikke i den anden situation. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-7 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-8

3 I dette tilfælde får vi Hæmoglobin-niveau og seglcellesygdom: F-test SS B = og SS W = således at F -teststørrelsen er givet ved F = 99.89/(3 1) 37.96/(41 3) = 50.0 Dette skal sammenlignes med en F(2, 38)-fordeling, og vi får en p-værdi som er mindre end Hæmoglobin (g/deciliter) Hb SS Konklusion: Der er meget klar evidens mod hypotesen om samme forventet Hb Sβ hæmoglobin-niveau for patienter med de tre forskellige typer af seglcellesygdommen. Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller Estimater for de forventede hæmoglobin-niveauer i de tre grupper er ˆµ 1 = x 1 = 8.71, ˆµ 2 = x 2 = 10.63, ˆµ 3 = x 3 = Konfidensintervaller for de forventede niveauer i de tre grupper er givet ved Gruppe i : x i ± t (n k) s/ n i I dette eksempel får vi Gruppe Estimat 95%-konfidensinterval [ 8.21, 9.22] [ 9.99, 11.27] [11.78, 12.82] Hæmoglobin (g/deciliter) Hb SS Hb Sβ PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-9 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-10 Hæmoglobin-niveau og seglcellesygdom: Konfidensintervaller for differenser Ensidet variansanalysemodel: Antagelser og modelkontrol Spørgsmål: Er alle par af grupper signifikant forskellige? Det kunne ske at to grupper giver nogenlunde samme respons men at den tredje afviger så meget fra dem at det overordnede test for ens gruppeniveauer blev forkastet. En måde at undersøge dette på er at bestemme 95%-konfidensintervaller for de parvise differenser. For gruppe 1 og 2 får vi: 1 µ 1 µ 2 : x 1 x 2 ± t (n k) s + 1 n 1 n 2 I vores eksempel: Differens Estimat 95%-konfidensinterval [1.10, 2.73] [2.86, 4.31] [0.84, 2.50] Konklusion: Alle par af typer af seglcellesygdom er signifikant forskellige når det drejer sig om hæmoglobin-niveauet da ingen af 95%-konfidensintervallerne for differenserne indeholder 0. Vi betragter k stikprøver (grupper) og hver stikprøve er fra en normalfordeling x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige i = 1,...,k, j = 1,...,n i Antagelser: 1. Uafhængighed mellem grupper. I hver gruppe: Uafhængige observationer fra den samme population. 2. Fordelingen i hver population kan beskrives ved en normalfordeling: Q-Q plots baseret på observationerne i hver gruppe eller på residualerne (når der er få observationer i hver gruppe). 3. De k populationer har en fælles standardafvigelse: Scatter plot for at checke variationen i hver gruppe og Bartlett s test af hypotesen om ens varianser. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-11 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-12

4 Hæmoglobin (g/deciliter) Hæmoglobin-niveau og seglcellesygdom: Q-Q plot i hver gruppe Hb SS Hb Sβ Percentiler fra Normalfordelingen Hæmoglobin-niveau og seglcellesygdom: Q-Q plot baseret på residualerne Husk at residualerne er defineret som r ij = x ij ˆµ i = x ij x i Hvis den ensidede variansanalysemodel beskriver data godt, så vil fordelingen af residualerne være normal. Hvorvidt dette er rimeligt undersøges bedst ved hjælp af et Q-Q plot Percentiler fra Normalfordelingen Konklusion: Vi vil ikke sætte spørgsmålstegn ved rimeligheden af den ensidede variansanalysemodel til beskrivelse af data baseret på en inspektion af residualerne. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-13 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-14 Hæmoglobin-niveau og seglcellesygdom: Test af ens varianser Spørgsmål: Er det rimeligt at antage at variationen er den samme i de tre grupper? Gruppe Type n i s 2 i 1 Hb SS Hb Sβ Hæmoglobin (g/deciliter) Hb SS Hb Sβ Ligesom i situationen med to stikprøver kan vi faktisk starte ud med en model uden antagelsen om samme varianser x ij = µ i + e ij, e ij N(0, σ 2 i ), og så teste hypotesen om ens varianser H 0 : σ 2 1 = σ 2 2 = σ 2 3 uafhængige Bartlett s test for ens varianser Bartlett s teststørrelse hørende til hypotesen om ens varianser er givet ved ( ) B = 1 k (n k) log s 2 [(n i 1) log s 2 C i] i=1 hvor C = 1 + ( k ) (k 1) n i=1 i 1 1 n k Hvis hypotesen er sand så vil B approksimativt være χ 2 (k 1)-fordelt og store værdier af B svarer til evidens mod hypotesen om identiske varianser. Det betyder at p-værdien er givet ved p = P(χ 2 (k 1) B) NB: Bartlett s test er følsomt overfor afvigelser fra normalfordelingen. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-15 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-16

5 Hæmoglobin-niveau og seglcellesygdom: Bartlett s test for ens varianser Eksempel: Plasma fosfatkoncentration målt over tid for tre grupper individer I dette eksempel får vi og B = C = ( ) = (38 log log log log ) = 2.13 som sammenlignet med en χ 2 (2)-fordeling giver følgende p-værdi p = 0.35 Konklusion: Vi har ingen grund til at tvivle på hypotesen om ens varianser i de tre grupper. Tre grupper af individer (13 kontrolpersoner, 12 ikke-hyperinsulinæmiske svært overvægtige patienter og 8 hyperinsulinæmiske svært overvægtige patienter) fik deres plasma uorganiske fosfatkoncentration målt henholdsvis 0, 0.5, 1, 1.5, 2, 3, 4 og 5 timer efter en standarddosis oral glukosebelastning (Davis (2002)). Dette er et eksempel på såkaldte gentagne målinger (eng.: repeated measurements) da hvert individ bliver målt 8 gange. Vi vil gerne sammenligne de tre grupper af individer, men det er ikke oplagt at antage at målinger på samme person er uafhængige. Plasma uorganisk fosfatkoncentration (mmol/l) Timer efter Glukosebelastning PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-17 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-18 Plasma fosfatkoncentration: Afledte størrelser (eng.: Summary measures) Plasma fosfatkoncentration: Stigning i fosfatkoncentrationen En måde at komme ud over problemet med mulig afhængighed mellem målinger på samme individ er at opsummere hver kurve i en enkelt størrelse (en afledt størrelse). For eksempel kunne vi få et mål for stigningen i plasma fosfatkoncentrationen ved at beregne stigning = fosfat til tid 5 timer den minimale fosfatkoncentration for hver af de 33 individer. De tre grupper kan så sammenlignes ved hjælp af en ensidet variansanalysemodel baseret på den afledte størrelse. Der er nogle ting man skal være opmærksom på i denne forbindelse: 1. Den afledte størrelse skal afspejle vigtige aspekter af det problem man er interesseret i. 2. Den afledte størrelse skal vælges før man kigger på data (eller uden at tage med ind i overvejelserne hvilke kurver der hører til hvilke grupper). 3. Det kan være nyttigt at betragte flere afledte størrelser. Hvis vi betragter stigningen som en afledt størrelse, så har vi følgende data (i mmol/l): Kontrol Ikke-hyp. over. Hyp. over Stigning i fosfatkoncentration Gruppe Spørgsmål: Er der nogen forskel mellem de tre grupper når det drejer sig om stigningen i fosfatkoncentrationen? Hvis der er, hvordan er de så forskellige? PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-19 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-20

6 Plasma fosfatkoncentration: Ensidet variansanalyse Plasma fosfatkoncentration: Konklusioner fra den ensidede variansanalyse Lad x ij betegne stigningen i plasma fosfatkoncentrationen for den j te person i den i te gruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 hvor n 1 = 13, n 2 = 12, n 3 = 8 Vi kan teste hypotesen om ens varianser i de 3 grupper ved hjælp af et Bartlett test B = 1.96 χ 2 (2), p = 0.38 Vi accepterer (kan ikke forkaste) hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1, 2, 3 Hypotesen om ens forventede stigninger i plasma fosfatkoncentrationen i de tre grupper er Vi får følgende F -teststørrelse F = H 0 : µ 1 = µ 2 = µ /(3 1) 4.825/(33 3) = 9.89 hvilket sammenlignet med en F(2, 30)-fordeling giver en p-værdi på Gruppe Estimat 95%-KI Kontrol 1.60 [1.37, 1.83] Ikke-hyp. over [0.83, 1.30] Hyp. over [0.57, 1.15] Stigning i fosfat Kontrol Ikke hyp. Hyp. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-21 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-22 Plasma fosfatkoncentration: Konfidensintervaller for differenser Plasma fosfatkoncentration: Modelkontrol Spørgsmål: Er alle par af grupper forskellige? Husk at vi kun kan konkludere fra F -testet at der er klar evidens for at ikke alle tre grupper har den samme forventede stigning i plasma fosfatkoncentrationen. Vi vurderer rimeligheden af den ensidede variansanalysemodel til beskrivelse af den afledte størrelse (stigningen i plasma fosfatkoncentrationen) ved at lave et histogram samt et Q-Q plot for residualerne. For de parvise differenser får vi følgende 95%-konfidensintervaller: Differens Estimat 95%-konfidensinterval [ 0.21, 0.86] [ 0.37, 1.11] [ 0.17, 0.58] Konklusion: Stigningen i plasma fosfatkoncentrationen er signifikant højere i kontrolgruppen end i de to grupper af svært overvægtige. De to grupper af svært overvægtige er ikke signifikant forskellige når det drejer sig om stigning i plasma fosfatkoncentration. Tæthed Percentiler fra normalfordelingen PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-23 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-24

7 Eksempel: Test af linearitet (gentagelser) Fødselsvægt og gestationsalder: Scatter plot og Box-plot Eksempel: Fødselsvægt og gestationsalder Antag at vi vil undersøge sammenhængen mellem fødselsvægt og gestationsalder. Data: Fødselsvægt (kg) og gestationsalder (uger) for 277 kvinder, som alle er 30 år gammel, ikke-rygere og har første paritet. Gestationsalder Fødselsvægt Stikprøvestørrelse , 3.24, 3.16, , 3.71, 3.42, , 3.50, 3.70, , 3.66, 4.30, , 3.40, 3.20, , 3.64, 4.34, Fødselsvægt (kg) Fødselsvægt (kg) Gestationsalder (uger) Gestationsalder (uger) PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-25 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-26 Fødselsvægt og gestationsalder: Ensidet variansanalyse Fødselsvægt og gestationsalder: Konklusioner fra den ensidede variansanalyse Lad x ij betegne fødselsvægten af det j te barn i den i te gestationsaldersgruppe. Statistisk model: x ij = µ i + e ij, e ij N(0, σi 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 hvor n 1 = 6, n 2 = 24, n 3 = 54, n 4 = 115, n 5 = 58, n 6 = 20 Vi kan teste hypotesen om ens varianser i de 6 aldersgrupper ved hjælp af et Bartlett test B = 1.35 χ 2 (5), p = 0.93 Vi kan ikke forkaste hypotesen om ens varianser og fortsætter med den ensidede variansanalysemodel: x ij = µ i + e ij, e ij N(0, σ 2 ), uafhængige, j = 1,...,n i, i = 1,...,6 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-27 Hypotesen om ens forventet fødselsvægt i de seks aldersgrupper er F -teststørrelsen er givet ved F = H 0 : µ 1 = µ 2 = = µ /(6 1) /(277 6) = 8.82 som sammenlignet med en F(5, 271)-fordeling giver en p-værdi som er mindre end Alder Estimat 95%-konfidensinterval [3.09, 3.75] [3.15, 3.47] [3.54, 3.76] [3.67, 3.82] [3.76, 3.97] [3.79, 4.15] Fødselsvægt (kg) PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-28

8 Fødselsvægt og gestationsalder: En lineær sammenhæng Spørgsmål: Er det rimeligt at beskrive sammenhængen mellem fødselsvægten og gestationsalderen ved en ret linie? At dømme ud fra tegningen ser det rimeligt ud, men da vi har gentagelser (flere observationer for hver værdi af gestationsalderen) kan vi faktisk lave et statistisk test. Fødselsvægt (kg) Gestationsalder (uger) Hypotesen om en lineær sammenhæng er givet ved H 0 : µ i = α + β x i hvor x i er gestationsalderen svarende til den i te gruppe. Fødselsvægt og gestationsalder: Test af en lineær sammenhæng Hypotesen kan testes ved hjælp af et F -test, F = (SS e SS W )/(k 2) SS W /(n k) hvor SS e er residual kvadratsummen fra den lineære regressionsmodel (se overhead 5-7). Hvis hypotesen er sand, så vil F følge en F(k 2, n k)-fordeling. Her får vi SS e = og F = svarende til en p-værdi på ( )/(6 2) /(277 6) = 1.11 F(4, 271) Konklusion: Vi accepterer (kan ikke forkaste) hypotesen om en lineær sammenhæng mellem gestationsalderen og fødselsvægten. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-29 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-30 Fødselsvægt og gestationsalder: Estimater og modelkontrol Fødselsvægt og gestationsalder: Konklusioner Estimater: Parameter Estimat 95%-konfidensinterval α [ , ] β [ , ] Diagnostiske tegninger: Gestationsalder (uger) Percentiler fra normalfordelingen Normalt fortolker vi afskæringen som den forventede respons når den forklarende variabel er 0. I dette tilfælde giver det selvfølgelig ingen mening. Hvis vi bruger gestationsalderen minus 40 uger som kovariat, så får vi ˆα = , 95% KI : [3.6851, ] hvorimod estimatet for hældningen er uændret. Konklusioner: Den forventede fødselsvægt ved en gestationsalder på 40 uger er kg (og med 95% sikkerhed mellem kg og kg). Hvis vi betragter to tilfældigt udvalgte børn født med en uges mellemrum (målt i gestationsalder) så vil vi forvente at den med den højeste gestationsalder har en fødselsvægt som er 139 g højere end den anden (og med 95% sikkerhed mellem 96 g og 183 g). PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-31 PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-32

9 Ikke-parametriske metoder: Kruskal-Wallis test Kruskal-Wallis test: p-værdi Spørgsmål: Kan vi teste om der er forskel mellem flere grupper hvis det ikke er rimeligt at gøre de antagelser som ligger til grund for den ensidede variansanalysemodel? Ja, vi kan bruge den ikke-parametriske pendant til F -testet, kaldet for Kruskal-Wallis testet. Data: Vi har k grupper med henholdsvis n 1, n 2,..., n k observationer. Lad n betegne det totale antal observationer (n = n n k ). Vi antager stadigvæk at alle observationerne er indbyrdes uafhængige. Kruskal-Wallis teststørrelsen hørende til hypotesen om ingen forskydning af fordelingen i nogen af grupperne er givet ved X 2 KW = 12 n (n + 1) k n i ( R i R) 2 hvor R i er gennemsnittet af rangene i den i te gruppe og R er gennemsnittet af alle rangene. Hvis der er flere observationer med samme værdi, så bliver XKW 2 modificeret med en korrektionsfaktor. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-33 i=1 Under hypotesen om ingen forskydning af fordelingen i nogen af grupperne, så har vi at der approksimativt gælder at XKW 2 χ2 (k 1) Store værdier af teststørrelsen er kritiske for hypotesen, så p = P(χ 2 (k 1) XKW 2 ) I eksemplet med plasma fosfatkoncentrationen får vi følgende Kruskal-Wallis teststørrelse (korrigeret for ens observationer) XKW 2 = χ2 (2) hvilket giver en p-værdi på Konklusion: Der er klar evidens i data mod hypotesen om ingen forskydning af nogen af fordelingerne i de tre grupper. Dette er i overensstemmelse med hvad vi fandt i den ensidede variansanalysemodel. PhD-kursus i Basal Biostatistik Afdelingen for Biostatistik Side 6-34

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

2 X 2 = Antal mygstik på enpersoniløbetaf1minut Opgave I I mange statistiske undersøgelser bygger man analysen på anvendelse af normalfordelingen til (eventuelt tilnærmelsesvist) at beskrive den tilfældige variation. Spørgsmål I.1 (1): Forén af følgende

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod. 1-stikprøve t-test (Eksamen 2005 opgave 1) Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod. I nedenstående tabel betragtes blodprøver fra 9 patienter. Hver

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1 Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 1. juni 2005 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle sædvanlige Dette sæt er besvaret af (navn)

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere