30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Relaterede dokumenter
13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sammenligning af to grupper

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Maja Tarp AARHUS UNIVERSITET

Motivation. En tegning

Generelle lineære modeller

Løsninger til kapitel 7

9. Binomialfordelingen

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Stikprøvefordelinger og konfidensintervaller

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Modul 14: Goodness-of-fit test og krydstabelanalyse

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Estimation ved momentmetoden. Estimation af middelværdiparameter

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Vejledende besvarelser til opgaver i kapitel 15

antal gange krone sker i første n kast = n

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Morten Frydenberg version dato:

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Opsamling. Lidt om det hele..!

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Kvantitative metoder 2

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Susanne Ditlevsen Institut for Matematiske Fag susanne

Konfidens intervaller

Asymptotisk optimalitet af MLE

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Program. Middelværdi af Y = t(x ) Transformationssætningen

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Uge 40 I Teoretisk Statistik, 30. september 2003

Diskrete og kontinuerte stokastiske variable

Vejledende opgavebesvarelser

Den flerdimensionale normalfordeling

Sammensatte hypoteser i en polynomialfordeling

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

STATISTISKE GRUNDBEGREBER

STATISTIKNOTER Simple normalfordelingsmodeller

Projekt 9.10 St. Petersborg paradokset

STATISTISKE GRUNDBEGREBER

Matematisk Modellering 1 Hjælpeark

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Statistik Lektion 8. Test for ens varians

Teoretisk Statistik, 9. februar Beskrivende statistik

Statistiske Modeller 1: Notat 1

Estimation og test i normalfordelingen

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

NOTAT Det daglige arbejde med blisterpakninger

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Konfidensintervaller og Hypotesetest

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Asymptotisk estimationsteori

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

GENEREL INTRODUKTION.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik kommandoer i Stata opdateret 22/ Erik Parner

TEKST NR TEKSTER fra IMFUFA

Sandsynlighedsteori 1.2 og 2 Uge 5.

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Formelsamling til statistik-del af metodekursus, 4. semester, lægevidenskab Version 3 (26/9-2011)

x-klasserne Gammel Hellerup Gymnasium

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Forelæsning 9: Inferens for andele (kapitel 10)

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Blisterpakninger i det daglige arbejde

Du skal redegøre for løsning af ligninger og herunder behandle omformningsreglerne for ligninger.

Hovedpointer fra SaSt

Renteformlen. Erik Vestergaard

Transkript:

30. august 005 Epidemiologi og biostatistik. Forelæsig 3 Uge, torag d. 8. september 005 Michael Væth, Afdelig for Biostatistik. Mere om kategoriske data Test for uafhægighed I RxC tabeller Test for uafhægighed I x tabeller Fisher s eksakte test Mere om kotiuerte data t-test eksakte sikkerhedsitervalller Geerelt om statistiske test Type og type fejl Statistisk styrke Beregiger Resumé: E statistisk aalyse resulterer ofte i : Et estimat ˆ θ med e tilhørede se( ˆ θ ) for de ukedte størrelse, θ,som ma er iteresseret i. Et approksimativt 95% sikkerhedsiterval : ( θ ) ˆ θ ±.96 se ˆ E specifik hypotese om at 0 ka testes ved ˆ θ θ ˆ 0 θ θ 0 z eller z se( ˆ θ ) se ( ˆ θ ) Store værdier af z (eller z ) er kritiske! p-værdi bereges vha stadard ormalfordelig ( z ) eller () fordelig ( z ) De veder vi tilbage til! Approksimatio Resumé specielt for kotiuerte data: Prædiktiositervaller. Stadard afvigelse/deviatio, For et (symmetrisk) 95% prædiktiositerval gælder at de edre græse er ½ percetile og de øvre græse er 97½ percetile. Har ma mage data (f.eks. Fødselsvægt) ka percetilere estimeres direkte ud fra data og defiitioe på percetiler. Hvis data ka atages at være (æste) ormalfordelte ka ½ og 97½ percetilere estimeres ud fra geemsit og : geemsit +/-.96* 3 Mere om kategoriske data Sidste gag: Sammehæg mellem brokitis som 5-årig og hoste om atte som 4-årig. Sammeligig af to sadsyligheder. Samme sadsylighed for hoste i de to grupper Alterativ formulerig af hypotese: Ige sammehæg mellem brokitis som 5-årig og hoste som 4-årig. Geerelt: To kategoriske variable. Data: E krydstabel. Spørgsmål: Er der e sammehæg? Ige sammehæg: edskab til de ee variabel fortæller os ikke oget om de ade variabel. Her: Test af hypotese om ige sammehæg. 4 Test i RxC tabeller Et ekpel: Boligform og for tidlig fødsel: Housig teure Preterm Term Total Ower-occupier 50 849 899 Coucil teat 9 9 58 Private teat 64 75 Lives with parets 6 66 7 Other 3 36 39 Total 99 344 443 Ige sammehæg. Hvis dee er sad bliver det forvetede atal preterm fødsler bladt de, der bor i ege bolig: 99 899 6.7 443 % preterm 5.6%.% 6.3% 8.3% 7.7% 6.9% 5 Test i RxC tabeller Forvetet uder hvis hypotese er sad: Housig teure Preterm Term Total Ower-occupier 6.7 837.3 899 Coucil teat 7.7 40.3 58 Private teat.0 63.0 75 Lives with parets 4.9 67. 7 Other.7 36.3 39 Total 99.0 344.0 443 Et mål for forskel mellem observeret og forvetet: alle celler ( observeret forvetet) forvetet Er stor ved dårlig overesstemmelse! 0.5 6

30. august 005 Blad side 476 Juul side 5 0.0 0.05 0.0 0.5 Vi har fået 0.5 Hvor ofte vil ma få oget større? Slå op i e -fordelig! Med (5-)(-)4 frihedsgrader. % < p < 5% Computer giver p3% 5% Hypotese forkastes! 3% % 0 5 0 5 0 5 9.49 0.5 3.8 7 Tabel: χ -fordeliger percetiler 50% 0% 0% 5% % 0.0% Frihedgrader 0.45.64.7 3.84 6.63 0.83.39 3. 4.6 5.99 9. 3.8 3.37 4.64 6.5 7.8.34 6.7 4 3.36 5.99 7.78 9.49 3.8 8.47 5 4.35 7.9 9.4.07 5.09 0.5 0.5 med 4 frihedsgrader ligger mellem 9.49 og 3.8 så p-værdie er mellem % og 5% 8 Test for ige associatio i R C tabeller Geerelt Ige sammehæg mellem de to iddeligskriterier rækkesum søjlesum forvetet total alle celler E stor værdi af er kritisk. ( observeret forvetet) forvetet p-værdi fides i e - fordelig med (R-)(C-) frihedsgrader. &S side 476 Juul side 5 Atal rækker atal søjler 9 Test for ige associatio i tabeller Svagerskabs- ø lægde Dreg Pige Total 38 36 60 576 40 040 99 03 Total 356 5 607 Ige sammehæg mellem kø og svagerskabslægde Teststørrelse ka let bereges i håde som: ( ) 36 99 60 040 607.40 < 3.84 576 03 356 5 Frihedsgrader(-)(-) 0 0.0 0. 0.4 0.6 0.8.0. 0 % Vi har fået.4 Hvor ofte vil ma få oget større? Slå op i e -fordelig med frihedsgrad! p > 0% 0% Computer giver p% Hypotese ka ikke afvises! 5% 4 6 8 0 tabeller Status Populatio 0 a b c d s s 0 N Ige associatio Test: ( ) a d b c N s s 0 Slåes op i e -fordelig med frihedsgrad..40.7 3.84

30. august 005 tabeller : Fishers eksakte test Amig og tadstillig: Ige sammehæg Problemer med tadstillig Amig Nej Ja Sum Bryst 4 6 0 Flaske Sum 5 37 4 For få data til at approksimatioer ka bruges! Løsig: Fishers eksakte test (computer). Resultat (ku) e p-værdi! Her: p-værdi9% oklusio: Data strider ikke mod : Ige sammehæg 3 ommetarer til test for ige associatio i tabeller Hvis det forvetede atal er 5 eller midre i e af cellere, så bør ma bruge Fisher s eksakte test. Nogle aveder et kotiuitets (eller Yates ) korrigeret versio af - testet: C ( ) Det giver lidt større p-værdier. a d b c N N s s 0 Der er mage argumeter for og imod dette valg. Brug jeres tid på oget mere foruftigt!!! 4 Lugefuktios data fra i tirag i uge : ø vider Mæd Eksakt aalyse af ormalfordelte data 4 6 Geemsit l/mi 485.6 55.9 Uder atagelse af ormalfordelig : l/mi 46.6 55.0 l/mi.5 3.8 Approksimativt CI( µ ) : 485.6 ±.96.5 ( 46; 50 ) Eksakt 95% CI for µ : 485.6 ±.6.5 ( 459; 53) Fra t-fordelige!! Hvor kommer de.6 fra? Stort set det samme 5 Tabel over tosidige halesadsyligheder i t-fordelige &S side 473, Juul side 4 df 0% 5% % 0.0% df 0% 5% % 0.0% 6.3.7 63.66 636.6 6.75..9 4.0.9 4.30 9.93 3.60 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.60 8.6 9.73.09.86 3.88 5.0.57 4.03 6.87 0.7.09.85 3.85 6.94.45 3.7 5.96.7.08.83 3.8 7.89.36 3.50 5.4.7.07.8 3.79 8.86.3 3.36 5.04 3.7.07.8 3.77 9.83.6 3.5 4.78 4.7.06.80 3.75 0.8.3 3.7 4.59 5.7.06.79 3.73.80.0 3. 4.44 30.70.04.75 3.65.78.8 3.05 4.3 40.68.0.70 3.55 3.77.6 3.0 4. 60.67.00.66 3.46 4.76.4.98 4.4 0.66.98.6 3.37 5.75.3.95 4.07 Uedelig.64.96.58 3.9 95%(00-5)% 4 3 frihedsgrader (degrees of freedom) t.6 Uedelig mage frihedsgrader Stadard ormalfordelig 6 Eksakt aalyse af ormalfordelte data Sikkerhedsiterval Model/atagelse: Data er uafhægige observatioer fra e ormalfordelig med ukedt middelværdi, µ, og spredig, σ Estimatere for disse er : ˆ µ x x ˆ ( ) i σ i x x i i se( ˆ µ ) se( x ) ˆ σ Et eksakt CI for µ x ± t t - fides i e tabel over t-fordelige 7 Eksakt aalyse af ormalfordelte data Oe sample t-test Hypotese : µ µ 0 Test : x µ 0 z p-værdi: Slå op i e t-fordelig med - frihedsgrader PEFR-ekplet : (ikke i e stadard ormalfordelig) Middel PEFR hos kvider er 500 l/mi 485.6 500 z.6 Eksakt p-værdi >0%.5 (computer p6.8%) oklusio: Data strider ikke mod hypotese. 8 3

30. august 005 Eksakt aalyse af to sæt (uafhægige) ormalfordelte data ø vider Mæd Estimat for spredige bladt mæd Estimat for spredige bladt kvider Et fælles estimat for spredige : 4 6 F Geemsit 485.6 55.9 ( ) + ( ) + M M ( 4 ) 46.6 + ( 6 ) 55.0 4 + 6 5.3l/mi M 46.6 55.0 se.5 3.8 9 0 Estimat for fælles spredig: F 5.3 Nyt bud på ere: F 5.3 4 3.7l/mi 5.3 6.8l/mi ø vider 4 Mæd 6 se ( ˆ µ ˆ µ ) +.8 + 3. 7 8.8l/mi F M M M F M Geemsit 485.6 46.6 55.9 55.0 (fælles).5 3.7 3.8.8 95% eksakt CI for forskel i middel PEFR, µ µ : ( ˆ µ M ˆ µ ) ± t se( ˆ µ M ˆ µ ) ( 55.9 485.6) ±.05 8.8 ( 9; 06 ) l/mi Fra t-fordelig med M + 8 frihedsgrader Aalyse af to sæt (uafhægige) ormalfordelte data Two sample t-test µ µ δ ( ˆ µ M ˆ µ ) δ0 z se ( ˆ µ ˆ µ ) F p-værdi: Slå op i e t-fordelig med M + frihedsgrader PEFR-ekplet : M (ikke i e stadard ormalfordelig) Forskel i middel PEFR er 0 l/mi. ( 55.9 485.6) 0 67.3 0 z 3.59 Eksakt p-værdi0.% 8.8 8.8 oklusio: Data strider mod hypotese. ommetarer Hvis atagelse om ormalfordelig er rimelige : Fordelige ka beskrives ved blot to tal : Middelværdi og spredig! Eksakte CI og p-værdier - ige approksimatioer! Også mulighed for at sammelige sprediger (dækkes ikke på dette kursus) Mere komplicerede modeller og aalyse metoder : Variasaalyse (ANOVA) Lieær regressiosmodeller Ikke-lieær regressiosmodeller Faktoraalyse +meget mere Flere kommetarer Metodere til aalyse af e stikprøve fra e ormalfordelig bruges ofte hvis ma har parrede data: To måliger per patiet, før/efter behadlig. Bereg efter-førobs. Behadligseffekt. Hvis disse ka atages at være ormalfordelte, så aalyse som e stikprøve fra e ormalfordelig. Dette kaldes Parret t-test. Hvorda checker ma atagelse om ormalfordelig? Plot data - histogrammer, ormal plots (Q-Q plots). Hvad siger erfarige om tilsvarede data? 3 E sidste kommetar til aalyse vha. af t-fordelige Det er ku hvis ma har små stikprøver at dee metode giver oget væsetligt adet ed de sædvalige/approksimative metode. Metode er meget udbredt, me vi vil ku udtagelsesvis bruge de i dette kursus! 4 4

30. august 005 Nogle statistiske begreber Type fejl: At forkaste hypotese, selvom de er sad. Type fejl: At acceptere hypotese, selvom de er falsk. Sigifikasiveau: De græse ma sætter for de største p-værdi, der leder til, at ma forkaster hypotese. Som regel sættes sigifikasiveauet til 5%. Hvis hypotese er sad: Sadsylighede for type fejl sadsylighede for forkaste hypotese sigifikasiveauet M.a.o. sadsylighede for type fejl er kedt og lig sigifikasiveauet (5%). 5 Type fejl: At acceptere hypotese, selvom de er falsk. Hvad er sadsylighede for type fejl? Afhæger af: Hvad der så er sadt! Iformatiosmægde (f.eks. og evt. )! Sadhede lagt fra hypotese lille ss. for type fejl Sadhede tæt på hypotese Meget iformatio/data Lidt iformatio/data Statistisk styrke (Power) ikke forkaste stor ss. for type fejl lille ss. for type fejl stor ss. for type fejl - sadsylighed for type fejl sadsylighed for at forkaste de falske hypotese 6 Styrkeovervejelser i forbidelse med plalægig af et studie. Plalægig af et follow-up studie: Atagelser: IP bladt ikke ekspoerede %. Sad relativ risiko.0. (dvs IP % for ekspoerede) 500 ekspoerede og 500 ikke ekspoerede. Når data er idsamlet vil ma teste hypotese RR og forkaste hvis p-værdie er midre ed 5%. Sadsylighede for at få data, der leder til accept af dette (Type fejl) 39%, dvs. e styrke på 6 %. Mao. lille chace for at få bekræftet, at der e sammehæg. Er det besværet værd? (etisk komite, økoomi, tid) 7 Øges deltageratallet til *3000 bliver chace for type fejl reduceret til %, dvs. styrke er 89%. Styrke som fuktio af Sample Size : Sample Size som fuktio af Styrke : E styrke på 80% vil kræve godt 300 i hver gruppe 8 Afhæger af desiget. Statistisk styrke Nogle kommetarer Afhæger af statistisk metode. Relevat i plalægigsfase. Når data er idsamlet er bredde af sikkerhedsitervaller udtryk for iformatiosmægde. 9 Beregiger E statistisk aalyse vil altid omfatte beregiger. I dette kursus fokus på beregiger, som ka foretages på e lommereger og til eksame er det lommeregere der skal bruges Adre muligheder (bagefter): Statistiske programmer: Stata, SPSS, SAS, og mage flere Regeark: Excel EpiBasic: Excel ark med ogle yttige macroer udarbejdet af Sved Juul pdf-fil med beskrivelse af programmets brug I kurset ka det f.eks. bruges til at checke om ma reger rigtigt! http://www.biostat.au.dk/teachig/software/ 30 5