30. august 005 Epidemiologi og biostatistik. Forelæsig 3 Uge, torag d. 8. september 005 Michael Væth, Afdelig for Biostatistik. Mere om kategoriske data Test for uafhægighed I RxC tabeller Test for uafhægighed I x tabeller Fisher s eksakte test Mere om kotiuerte data t-test eksakte sikkerhedsitervalller Geerelt om statistiske test Type og type fejl Statistisk styrke Beregiger Resumé: E statistisk aalyse resulterer ofte i : Et estimat ˆ θ med e tilhørede se( ˆ θ ) for de ukedte størrelse, θ,som ma er iteresseret i. Et approksimativt 95% sikkerhedsiterval : ( θ ) ˆ θ ±.96 se ˆ E specifik hypotese om at 0 ka testes ved ˆ θ θ ˆ 0 θ θ 0 z eller z se( ˆ θ ) se ( ˆ θ ) Store værdier af z (eller z ) er kritiske! p-værdi bereges vha stadard ormalfordelig ( z ) eller () fordelig ( z ) De veder vi tilbage til! Approksimatio Resumé specielt for kotiuerte data: Prædiktiositervaller. Stadard afvigelse/deviatio, For et (symmetrisk) 95% prædiktiositerval gælder at de edre græse er ½ percetile og de øvre græse er 97½ percetile. Har ma mage data (f.eks. Fødselsvægt) ka percetilere estimeres direkte ud fra data og defiitioe på percetiler. Hvis data ka atages at være (æste) ormalfordelte ka ½ og 97½ percetilere estimeres ud fra geemsit og : geemsit +/-.96* 3 Mere om kategoriske data Sidste gag: Sammehæg mellem brokitis som 5-årig og hoste om atte som 4-årig. Sammeligig af to sadsyligheder. Samme sadsylighed for hoste i de to grupper Alterativ formulerig af hypotese: Ige sammehæg mellem brokitis som 5-årig og hoste som 4-årig. Geerelt: To kategoriske variable. Data: E krydstabel. Spørgsmål: Er der e sammehæg? Ige sammehæg: edskab til de ee variabel fortæller os ikke oget om de ade variabel. Her: Test af hypotese om ige sammehæg. 4 Test i RxC tabeller Et ekpel: Boligform og for tidlig fødsel: Housig teure Preterm Term Total Ower-occupier 50 849 899 Coucil teat 9 9 58 Private teat 64 75 Lives with parets 6 66 7 Other 3 36 39 Total 99 344 443 Ige sammehæg. Hvis dee er sad bliver det forvetede atal preterm fødsler bladt de, der bor i ege bolig: 99 899 6.7 443 % preterm 5.6%.% 6.3% 8.3% 7.7% 6.9% 5 Test i RxC tabeller Forvetet uder hvis hypotese er sad: Housig teure Preterm Term Total Ower-occupier 6.7 837.3 899 Coucil teat 7.7 40.3 58 Private teat.0 63.0 75 Lives with parets 4.9 67. 7 Other.7 36.3 39 Total 99.0 344.0 443 Et mål for forskel mellem observeret og forvetet: alle celler ( observeret forvetet) forvetet Er stor ved dårlig overesstemmelse! 0.5 6
30. august 005 Blad side 476 Juul side 5 0.0 0.05 0.0 0.5 Vi har fået 0.5 Hvor ofte vil ma få oget større? Slå op i e -fordelig! Med (5-)(-)4 frihedsgrader. % < p < 5% Computer giver p3% 5% Hypotese forkastes! 3% % 0 5 0 5 0 5 9.49 0.5 3.8 7 Tabel: χ -fordeliger percetiler 50% 0% 0% 5% % 0.0% Frihedgrader 0.45.64.7 3.84 6.63 0.83.39 3. 4.6 5.99 9. 3.8 3.37 4.64 6.5 7.8.34 6.7 4 3.36 5.99 7.78 9.49 3.8 8.47 5 4.35 7.9 9.4.07 5.09 0.5 0.5 med 4 frihedsgrader ligger mellem 9.49 og 3.8 så p-værdie er mellem % og 5% 8 Test for ige associatio i R C tabeller Geerelt Ige sammehæg mellem de to iddeligskriterier rækkesum søjlesum forvetet total alle celler E stor værdi af er kritisk. ( observeret forvetet) forvetet p-værdi fides i e - fordelig med (R-)(C-) frihedsgrader. &S side 476 Juul side 5 Atal rækker atal søjler 9 Test for ige associatio i tabeller Svagerskabs- ø lægde Dreg Pige Total 38 36 60 576 40 040 99 03 Total 356 5 607 Ige sammehæg mellem kø og svagerskabslægde Teststørrelse ka let bereges i håde som: ( ) 36 99 60 040 607.40 < 3.84 576 03 356 5 Frihedsgrader(-)(-) 0 0.0 0. 0.4 0.6 0.8.0. 0 % Vi har fået.4 Hvor ofte vil ma få oget større? Slå op i e -fordelig med frihedsgrad! p > 0% 0% Computer giver p% Hypotese ka ikke afvises! 5% 4 6 8 0 tabeller Status Populatio 0 a b c d s s 0 N Ige associatio Test: ( ) a d b c N s s 0 Slåes op i e -fordelig med frihedsgrad..40.7 3.84
30. august 005 tabeller : Fishers eksakte test Amig og tadstillig: Ige sammehæg Problemer med tadstillig Amig Nej Ja Sum Bryst 4 6 0 Flaske Sum 5 37 4 For få data til at approksimatioer ka bruges! Løsig: Fishers eksakte test (computer). Resultat (ku) e p-værdi! Her: p-værdi9% oklusio: Data strider ikke mod : Ige sammehæg 3 ommetarer til test for ige associatio i tabeller Hvis det forvetede atal er 5 eller midre i e af cellere, så bør ma bruge Fisher s eksakte test. Nogle aveder et kotiuitets (eller Yates ) korrigeret versio af - testet: C ( ) Det giver lidt større p-værdier. a d b c N N s s 0 Der er mage argumeter for og imod dette valg. Brug jeres tid på oget mere foruftigt!!! 4 Lugefuktios data fra i tirag i uge : ø vider Mæd Eksakt aalyse af ormalfordelte data 4 6 Geemsit l/mi 485.6 55.9 Uder atagelse af ormalfordelig : l/mi 46.6 55.0 l/mi.5 3.8 Approksimativt CI( µ ) : 485.6 ±.96.5 ( 46; 50 ) Eksakt 95% CI for µ : 485.6 ±.6.5 ( 459; 53) Fra t-fordelige!! Hvor kommer de.6 fra? Stort set det samme 5 Tabel over tosidige halesadsyligheder i t-fordelige &S side 473, Juul side 4 df 0% 5% % 0.0% df 0% 5% % 0.0% 6.3.7 63.66 636.6 6.75..9 4.0.9 4.30 9.93 3.60 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.60 8.6 9.73.09.86 3.88 5.0.57 4.03 6.87 0.7.09.85 3.85 6.94.45 3.7 5.96.7.08.83 3.8 7.89.36 3.50 5.4.7.07.8 3.79 8.86.3 3.36 5.04 3.7.07.8 3.77 9.83.6 3.5 4.78 4.7.06.80 3.75 0.8.3 3.7 4.59 5.7.06.79 3.73.80.0 3. 4.44 30.70.04.75 3.65.78.8 3.05 4.3 40.68.0.70 3.55 3.77.6 3.0 4. 60.67.00.66 3.46 4.76.4.98 4.4 0.66.98.6 3.37 5.75.3.95 4.07 Uedelig.64.96.58 3.9 95%(00-5)% 4 3 frihedsgrader (degrees of freedom) t.6 Uedelig mage frihedsgrader Stadard ormalfordelig 6 Eksakt aalyse af ormalfordelte data Sikkerhedsiterval Model/atagelse: Data er uafhægige observatioer fra e ormalfordelig med ukedt middelværdi, µ, og spredig, σ Estimatere for disse er : ˆ µ x x ˆ ( ) i σ i x x i i se( ˆ µ ) se( x ) ˆ σ Et eksakt CI for µ x ± t t - fides i e tabel over t-fordelige 7 Eksakt aalyse af ormalfordelte data Oe sample t-test Hypotese : µ µ 0 Test : x µ 0 z p-værdi: Slå op i e t-fordelig med - frihedsgrader PEFR-ekplet : (ikke i e stadard ormalfordelig) Middel PEFR hos kvider er 500 l/mi 485.6 500 z.6 Eksakt p-værdi >0%.5 (computer p6.8%) oklusio: Data strider ikke mod hypotese. 8 3
30. august 005 Eksakt aalyse af to sæt (uafhægige) ormalfordelte data ø vider Mæd Estimat for spredige bladt mæd Estimat for spredige bladt kvider Et fælles estimat for spredige : 4 6 F Geemsit 485.6 55.9 ( ) + ( ) + M M ( 4 ) 46.6 + ( 6 ) 55.0 4 + 6 5.3l/mi M 46.6 55.0 se.5 3.8 9 0 Estimat for fælles spredig: F 5.3 Nyt bud på ere: F 5.3 4 3.7l/mi 5.3 6.8l/mi ø vider 4 Mæd 6 se ( ˆ µ ˆ µ ) +.8 + 3. 7 8.8l/mi F M M M F M Geemsit 485.6 46.6 55.9 55.0 (fælles).5 3.7 3.8.8 95% eksakt CI for forskel i middel PEFR, µ µ : ( ˆ µ M ˆ µ ) ± t se( ˆ µ M ˆ µ ) ( 55.9 485.6) ±.05 8.8 ( 9; 06 ) l/mi Fra t-fordelig med M + 8 frihedsgrader Aalyse af to sæt (uafhægige) ormalfordelte data Two sample t-test µ µ δ ( ˆ µ M ˆ µ ) δ0 z se ( ˆ µ ˆ µ ) F p-værdi: Slå op i e t-fordelig med M + frihedsgrader PEFR-ekplet : M (ikke i e stadard ormalfordelig) Forskel i middel PEFR er 0 l/mi. ( 55.9 485.6) 0 67.3 0 z 3.59 Eksakt p-værdi0.% 8.8 8.8 oklusio: Data strider mod hypotese. ommetarer Hvis atagelse om ormalfordelig er rimelige : Fordelige ka beskrives ved blot to tal : Middelværdi og spredig! Eksakte CI og p-værdier - ige approksimatioer! Også mulighed for at sammelige sprediger (dækkes ikke på dette kursus) Mere komplicerede modeller og aalyse metoder : Variasaalyse (ANOVA) Lieær regressiosmodeller Ikke-lieær regressiosmodeller Faktoraalyse +meget mere Flere kommetarer Metodere til aalyse af e stikprøve fra e ormalfordelig bruges ofte hvis ma har parrede data: To måliger per patiet, før/efter behadlig. Bereg efter-førobs. Behadligseffekt. Hvis disse ka atages at være ormalfordelte, så aalyse som e stikprøve fra e ormalfordelig. Dette kaldes Parret t-test. Hvorda checker ma atagelse om ormalfordelig? Plot data - histogrammer, ormal plots (Q-Q plots). Hvad siger erfarige om tilsvarede data? 3 E sidste kommetar til aalyse vha. af t-fordelige Det er ku hvis ma har små stikprøver at dee metode giver oget væsetligt adet ed de sædvalige/approksimative metode. Metode er meget udbredt, me vi vil ku udtagelsesvis bruge de i dette kursus! 4 4
30. august 005 Nogle statistiske begreber Type fejl: At forkaste hypotese, selvom de er sad. Type fejl: At acceptere hypotese, selvom de er falsk. Sigifikasiveau: De græse ma sætter for de største p-værdi, der leder til, at ma forkaster hypotese. Som regel sættes sigifikasiveauet til 5%. Hvis hypotese er sad: Sadsylighede for type fejl sadsylighede for forkaste hypotese sigifikasiveauet M.a.o. sadsylighede for type fejl er kedt og lig sigifikasiveauet (5%). 5 Type fejl: At acceptere hypotese, selvom de er falsk. Hvad er sadsylighede for type fejl? Afhæger af: Hvad der så er sadt! Iformatiosmægde (f.eks. og evt. )! Sadhede lagt fra hypotese lille ss. for type fejl Sadhede tæt på hypotese Meget iformatio/data Lidt iformatio/data Statistisk styrke (Power) ikke forkaste stor ss. for type fejl lille ss. for type fejl stor ss. for type fejl - sadsylighed for type fejl sadsylighed for at forkaste de falske hypotese 6 Styrkeovervejelser i forbidelse med plalægig af et studie. Plalægig af et follow-up studie: Atagelser: IP bladt ikke ekspoerede %. Sad relativ risiko.0. (dvs IP % for ekspoerede) 500 ekspoerede og 500 ikke ekspoerede. Når data er idsamlet vil ma teste hypotese RR og forkaste hvis p-værdie er midre ed 5%. Sadsylighede for at få data, der leder til accept af dette (Type fejl) 39%, dvs. e styrke på 6 %. Mao. lille chace for at få bekræftet, at der e sammehæg. Er det besværet værd? (etisk komite, økoomi, tid) 7 Øges deltageratallet til *3000 bliver chace for type fejl reduceret til %, dvs. styrke er 89%. Styrke som fuktio af Sample Size : Sample Size som fuktio af Styrke : E styrke på 80% vil kræve godt 300 i hver gruppe 8 Afhæger af desiget. Statistisk styrke Nogle kommetarer Afhæger af statistisk metode. Relevat i plalægigsfase. Når data er idsamlet er bredde af sikkerhedsitervaller udtryk for iformatiosmægde. 9 Beregiger E statistisk aalyse vil altid omfatte beregiger. I dette kursus fokus på beregiger, som ka foretages på e lommereger og til eksame er det lommeregere der skal bruges Adre muligheder (bagefter): Statistiske programmer: Stata, SPSS, SAS, og mage flere Regeark: Excel EpiBasic: Excel ark med ogle yttige macroer udarbejdet af Sved Juul pdf-fil med beskrivelse af programmets brug I kurset ka det f.eks. bruges til at checke om ma reger rigtigt! http://www.biostat.au.dk/teachig/software/ 30 5