Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud fra estimat og standard error) Sikkerhedsintervaller og statistiske tests Køn Kvinder Mænd Lungefunktions data fra tirsdags Gennemsnit l/min 485.6 55.9 l/min.4 3.7 Udfra dette kunne vi beregne sikkerhedsintervaller for: Middelværdien for hvert køn Differenn mellem middel PEFR for mænd og kvinder 95% sikkerhedsinterval : CI: Estimat ±.96 (Estimat) og hoste Har bronkitis i den tidlige barndom betydning nere i livet? Obrveret! som 5-årig ( + B) ( B) Hoster om natten som 4-årig 6 44 47 00 Lad os først på de, der ikke har haft bronkitis. π B = Estimat: Sandsynlighed for at hoste om natten givet man ikke har haft bronkitis 44 ˆ π B = = 0.0407 046 Total 73 046 Ukendt! Bedste bud: 4.% af de, der ikke har haft bronkitis, hoster om natten. 3 Hoster om natten som 4-årig Total 6 47 73 44 00 046 Hvad er usikkerheden,, på estimatet? ( ˆ π ) = ˆ π ( ˆ π ) n B B B B = 0.0407( 0.0407) 046 = 0.006 CI( π ) = ˆ π ±.96 ( ˆ π ) B B B = 0.0407 ±.96 0.006 = ( 0.0990; 0.0543) = ( 3.0 ; 5.4 )% ˆ π = 0.0407 B 4 Risiko for hoste om natten 5 Risiko for hoste om natten 6 Estimate CI Estimate CI 0.0954 0.0407 0.0777 0.006 0.060; 0.30 0.030; 0.054 0.0954 0.0407 0.0777 0.006 0.060; 0.30 0.030; 0.054 Konklusion (På basis af dis data ): Risiko for at et barn, der ikke har haft bronkitis, hoster ligger et sted mellem 3.0% og 5.4% - bedste bud er 4.%. Risiko for at et barn, der har haft bronkitis hoster, ligger et sted mellem 6.0% og 3.0% - bedste bud er 9.5%. Noget tyder på større risiko for at hoste om natten, når man har haft bronkitis. Risikodifferens: RD = π + B π B RD = ˆ π ˆ π = 0.0954 0. 0407 = 0.0537 + B B ( RD) = ( ˆ π + B ) + ( ˆ π B ) = 0.0777 + 0.006 = 0.088 CI( RD ) = 0.0537 ±. 96 0.088 = ( 0.06; 0. 090)
Risiko Differens Estimate 0.0954 0.0407 0.0537 Risiko for hoste om natten 0.0777 0.006 0.088 CI 0.060; 0.30 0.030; 0.054 0.06; 0.090 Konklusion: Risikoen for hoste om natten er et sted mellem.6 og 9.0 procentpoint højere, hvis man har haft bronkitis som 5-årig. Bemærk er mindst for gruppen, da der er langt flere børn i denne gruppe. Usikkerheden på differenn er større end den største usikkerhed for de to grupper. 7 Hvilke antagelr ligger bag beregningerne? Antagel : Antagel : Uafhængighed mellem grupper Data i hver gruppe er binomial-fordelt Uafhængighed mellem grupper: Denne antagel er nødvendig for at man kan bruge formlen: RD = ˆ π + ˆ π ( ) ( + B ) ( B ) Er den rimelig i bronkitis ekmplet?, data stammer for to forskellige grupper børn. Et muligt problem kunne være hvis der var to søskende i hver sin gruppe. Så vil der pga. arv/miljø være en sammenhæng mellem hvorvidt de to børn hoster. 8 Data i hver af grupperne er binomial-fordelt: Denne antagel er nødvendig for, at man kan bruge formlen: ( ˆ π ) = ˆ π ( ˆ π ) n Data er binomialfordelt hvis: Uafhængige delforsøg. Præcist to mulige udfald (hoster/ikke hoster, død/levende). 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. 4 Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Opfyldt? Ingen søskende i samme gruppe. Klar definition af hoste. Grupperne kan betragtes som homogene. Der er ikke snydt under data indsamlingen. 9 Normalfordelingen En vigtig fordeling af to forskellige grunde: Mange slags data er næsten normalfordelte normalfordelte (muligvis efter en transformation). Mange estimater er næsten normalfordelte, normalfordelte, hvis de er baret på mange obrvationer (muligvis efter en transformation). Ingenting er helt normalfordelt, men mange gange er det en rigtig god approksimation! Relative størrelr som Odds Ratio, Relative Risiko og Rate Ratio skal analyres på log-skala (ln). 0 400 300 00 00 0 400 800 barnets vægt Fødlsvægt for 03 børn 00 600 3000 3400 3800 400 4600 5000 5400 0.0 0. 0.4 0.6 P 3.5kg < fødlsvægt < 4.0kg ( ) Normalfordeling: en god approksimation 3 4 5 6 Fødlsvægt i kg
0.0 0.05 0.0 0.5 Tæthedsfunktion: Sandsynlighed for en obrvation i et interval = areal under kurven. Areal under kurven=. Høj værdi for en given x-værdi Mange obrvationer tæt ved denne værdi. Lille værdi for en given x-værdi Få obrvationer tæt ved denne værdi. 0 5 0 5 0 5 30 3 Forskellige normalfordelinger: 0.0 0. 0. 0.3 0.4 Middelværdi=0 Spredning= Middelværdi= Spredning= Middelværdi=0 Spredning= -7-6 -5-4 -3 - - 0 3 4 5 6 7 Standard normalfordelingen 4 5 6 µ = σ = Middelværdi Spredning 68.3% µ = σ = Middelværdi Spredning 95.45% 5.9% 5.9%.8%.8% µ σ µ µ + σ µ σ µ µ + σ Bland side 09 Bland side 09 µ = Middelværdi σ = Spredning µ.96 σ µ 95.00%.50%.50% Bland side 0 og Svend Juul side 3 µ +.96 σ 7 Tabel over standardnormalfordelingen 8 Bland side 09 z P( Z < z) z P( Z < z) z P( Z < z) -3.0 0.% -.0 5.9%.0 84.% -.9 0.% -0.9 8.4%. 86.4% -.8 0.3% -0.8.%. 88.5% -.7 0.3% -0.7 4.%.3 90.3% -.6 0.5% -0.6 7.4%.4 9.9% -.5 0.6% -0.5 30.9%.5 93.3% -.4 0.8% -0.4 34.5%.6 94.5% -.3.% -0.3 38.%.7 95.5% -..4% -0. 4.%.8 96.4% -..8% -0. 46.0%.9 97.% -.0.3% 0.0 50.0%.0 97.7% -.9.9% 0. 54.0%. 98.% -.8 3.6% 0. 57.9%. 98.6% -.7 4.5% 0.3 6.8%.3 98.9% -.6 5.5% 0.4 65.5%.4 99.% -.5 6.7% 0.5 69.%.5 99.4% -.4 8.% 0.6 7.6%.6 99.5% -.3 9.7% 0.7 75.8%.7 99.7% -..5% 0.8 78.8%.8 99.7% -. 3.6% 0.9 8.6%.9 99.8% -.0 5.9%.0 84.% 3.0 99.9% 3
9 Sandsynlighed for mere end.96 spredninger fra middelværdi: i en normalfordeling! 5% ud af 0 obrvationer: Mere end.96 sd fra middelværdi standard deviation (spredning) 95% af obrvationerne fra en normalfordeling : middelværdi.96 sd obrvation middelværd i+.96 sd 0 Dvs. der er 95% chance for: obrvation -middelværdi.96.96 sd Middelværdi ukendt, men sd kendt 95% sikkerhedsinterval for middelværdien: obrvation.96 sd middelværdi obrvatio n+.96 sd Baret på én obrvation! Bares det på basis af n obrvationer fås: gennemsnit.96 m middelværdi gennemsn it+.96 m 95% prædiktionsinterval for en obrvation sd m = Standard error of the mean n Tilbage til fødlsvægtene: 400 300 Godt beskrevet ved en normalfordeling! Statistisk test Risikodifferenn for hoste blandt børn, der har/ikke har haft bronkitis. 00 00 0 400 800 00 600 3000 3400 3800 400 4600 5000 5400 n = 03 x = 3558g sd = 446g Et 95% prædiktionsinterval for fødlsvægten: 3558g ±.96 446g = ( 683; 443) g Konklusion: 95% af børn fra en tilsvarende population vil have en fødlsvægt mellem.7 og 4.4 kg. Risikodifferenn, RD, er ukendt! Men vi har et estimat : RD = 0.0537 RD = 0.088 ( ) Spørgsmål: Er dis data forenelige med at RD=0.0? (Hypote) Dvs. ingen sammenhæng med bronkitis. Der gælder at estimatet, RD, er (næsten) normalfordelt med spredning==0.088 middelværdi RD Under hypoten er RD =0 Normalfordeling med: middelværdi 0 spredning==0.088 Vi har obrveret 0.053! 0.3%!! Vi har godt nok været uheldige! 0.053 Det tror jeg ikke vi har! 0 +.96 0.088 = 0.0369 Så må hypoten være forkert! Hypoten! Det afviger (noget) fra det forventede! Hvor stor er sandsynligheden for at obrvere en lige så stor eller større afvigel? Vi forkaster hypoten : Risikodifferenn er 0.5% 0.3% -0.0-0.05 0.0 0.05 0.0 3 4 Hvad var nu det? Vi sammenlignede vores estimat (0.053) med hypoten 0. Som målestok brugte vi usikkerheden på estimatet: =0.088 Estimat Hypote RD RD = =.83 RD 0.088 ( ) 0 0.053 0 Usikkerheden på estimatet Dvs. estimatet ligger.83 er fra det forventede! Hvor ofte vil dette ske? Svar : Tabelopslag giver 0.6% = 0.3% Fra forrige side 4
Estimat: RD = 0.0537 Hypote: RD=0 Teststørel: z =.83 P-værdi: 0.6% Konklusion: Hvis hypoten er sand, så er der kun 0.6% chance for at få et estimat, der ligger så lige så langt eller længere væk fra hypoten end det vi har obrveret. Det er med andre ord næsten usandsynligt at obrvere det vi har t hvis hypoten er sand. Men vi har jo obrveret det vi har obrveret ergo må hypoten være falsk. Husk CI: (0.06;0.090) 0 ligger ikke i intervallet! Overensstemmel mellem test og sikkerhedsinterval! 5 Estimat: RD = 0.0537 Hypote: RD=0.05 Teststørel: z = 0.67 P-værdi: 86% = 43% Konklusion: z = ( 0.053 0.05) 0.088 = 0.67 Hvis hypoten var sand, så er der 86% chance for at få estimatet, der ligger så lige så langt eller længere væk fra hypoten end det vi har obrveret. Data strider således ikke mod hypoten. Hypoten kan akcepteres. På basis af dis data kan vi ikke afvi at risikoen for hoste er 5% højere for børn, der har haft bronkitis! Husk CI: (0.06;0.090) 0.05 ligger i intervallet! Overensstemmel mellem test og sikkerhedsinterval! 6 Generelt 7 Generelt 8 Lad θ betegne den ukendte størrel man ønsker at kende. Hvis man er interesret i differenn mellem to parametre: Den relevante statistiske analy bør bestå af beregning af to tal : ˆ θ og ˆ θ : ( ˆ θ ): ( ˆ θ ) Et estimat af (gæt på) θ Et estimat af (gæt på) usikkerheden af estimatet Et approksimativt 95% sikkerhedsinterval : ˆ θ ±.96 ( ˆ θ ) δ = θ θ så er estimatet: ˆ δ = ˆ θ ˆ θ Hvis to estimater ˆ θ og ˆ θ er uafhængige så er: ( ˆ δ ) = ( ˆ θ ) + e( θ ) s ˆ Formlerne for estimatet og afhænger af den statistiske model og kan være meget komplicerede. I langt de fleste tilfælde bruges computer programmer. HUSK! Relative størrelr som Odds Ratio, Relative Risiko og Rate Ratio skal analyres på log-skala (LN). Hoster om natten 9 Generelt: Et statistisk test 30 Total 6 47 73 Data/estimat: ˆ θ med ( ˆ θ ) 44 00 046 Hypote: θ = θ 0 ˆ θ θ Associationsmål relativ risiko Beregn: z = ( 0 B RR π + = ˆ B 0.0954 RR π ˆ θ ) + = = =.6385 π p-værdi = P B ˆ π B 0.0407 ( Z < z ) i standard normalfordeling ln ( RR ) = ln (.6385) = 0.8707 Approksimativ Konklusion: Hvis p-værdien er lille er data ikke forenelig med hypoten og hypoten må forkastes. ( ln ( RR )) = + = 0.3784 6 73 44 046 Oftes sættes grænn til 5% 95% CI(ln ( RR )): 0.8707 ±.96 0.3784 = ( 0.35089;.834) Bemærk: Man kan bruge en anden, når man tester, end 95% CI( RR ): ( exp ( 0.35089) ; exp(.834) ) = (.4; 3. 6) den man bruger til beregning af CI ( Bland afsnit 8.6). Formlerne kan findes på de sidste sider. Dette vil vi ikke gøre i dette kursus. 5
Få data dårlige approksimationer 3 Sikkerhedsintervaller og test. 3 Ekmpel, Streptomycin, Bland Table 3.7 5 personer deraf har 3 fået det bedre Data kan antages at være binomial-fordelt. 3 ˆ π = = 0.867, ( πˆ ) = 0. 867 ( 0.867) 5 = 0.0878 5 Approks. 95% CI: 0.867 ±.96 0.0878 = ( 0.695,.039) Dårlig approksimation! Ups! Eksakt/korrekt 95% CI (findes vha. af tabel eller computer) ( 0.594, 0.983) Morale: Hvis der er få eller mange hændelr, så er approksimationerne ikke gode! Men: For nogle modeller findes der eksakte metoder. 95%-sikkerhedsintervallet indeholder hypoten hvis og kun hvis p-værdien er større end 5%. Ved sammenligning af to parametre baret på to uafhængige data sæt, tre situationer: A: Intet overlap: B: Et estimat i det andet CI: Hverken A eller B: så p-værdi < 5% så p-værdi >5% så: p-værdi =? Risiko for hoste om natten Estimate CI 0.0954 0.0777 0.060; 0.30 0.0407 0.006 0.030; 0.054 33 Associationsmål i tabeller: Risiko differenr Status Population 0 Sandsynlighed a b n π 34 Risiko Differens 0.0537 0.088 0.06; 0.090 c d n π Sammenligning af de to grupper: 0 ikke med i CI p= 0.6% < 5% 0.05 med i CI p= 86% > 5% De to sikkerhedsintervaller overlapper ikke p= 0.6% < 5% Risiko Differens: ˆ π a c = ˆ ( ˆi ) ˆi ( ˆi ) / ni n π = n π = π π RD = π π a c = = n n RD ˆ π ˆ π a b c d ( RD) = ( ˆ π) + ( ˆ π ) = + 3 3 n n Bland p 30 & Juul s 6 Ekmpel: Bland side 30 Hoster som 4 årig som 5 årig Total Obs. Risk. 6 47 73 0.0954 44 00 046 0.0407 RD = 0.0954 0.0407 = 0.0537 ( ˆ π ) = 0.0954 ( 0.0954 ) / 73 = 0.0777 ( ˆ π ) = 0.0407 ( 0.0407 ) /046 = 0.006 RD = 0.0777 + 0.006 = 0.088 ( ) 6 47 44 00 = + = 0.088 3 3 73 046 95% CI( RD ): 0.0537 ±.96 0.088 = ( 0.068;0.09006) 35 Associationsmål i tabeller: Relativ risiko Status Population 0 Relativ Risiko: RR = π π ˆ π a n RR = = ˆ π n c ( ln ( RR) ) = + a n c n Sandsynlighed a b n π c d n π Bland p 3 & Juul s 6 36 6
Ekmpel: Bland side 3 Hoster som 4 årig som 5 årig Total Obs. Risk. 6 47 73 0.0954 44 00 046 0.0407 RR = 0.0954 0.0407 =.6385 ln ( RR) = ln (.6385) = 0.8707 ( ln ( RR )) = + = 0.3784 6 73 44 046 95% CI(ln ( RR )): 0.8707 ±.96 0.3784 = ( 0.35089;.834) 95% CI( RR ): ( exp( 0.35089 );exp (.834) ) = (.4;3.6) 37 Associationsmål i tabeller: Odds ratio Status Population 0 Odds Ratio: π π π ( π ) OR = = π π ( π ) π ˆ π ˆ π a d OR = = ˆ π ˆ π b c ( ln ( OR) ) = + + + a b c d Sandsynlighed a b n π c d n π 38 Bland p 40 & Juul s 6 Ekmpel: Bland side 40-4 39 Sikkerhedsinterval for en enkelt rate 40 Hoster som 4 årig som 5 årig Total Odds. 6 47 73 0.056 Events Risikotid Rate Y T IR 44 00 046 0.0439 6 00 OR = =.3978 44 47 ln OR = ln.3978 = 0.8749 ( ) ( ) ( ln ( OR )) = + + + = 0.5736 6 44 47 00 IR = Y T ( ln ( IR) ) = Y 95% CI(ln ( OR )): 0.8749 ±.96 0.5736 = ( 0.36986;.3787) 95% CI( OR ): ( exp( 0.360986 );exp (.3787) ) = (.45;3.97) Ekmpel: 4 Sammenligning af to rater: Rate ratio 4 Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per 00 000 år) <5 år 4 530 999 0.75330 Population Events Risikotid Rate Y T IR 4 IR = = 0.75330 / 530999år 00000år ln ( IR ) = ln ( 0.75330) = 0.8330 ( ln ( IR )) = = 0.50 4 95% CI(ln ( IR )): - 0.8330 ±.96 0.50 = (.6330;0.69670) 95% CI( IR): ( exp(.6330 );exp( 0.69670) ) = ( 0.8;.0 ) / 00000år Y T IR Incidence Rate Ratio IR IRR = IR IR Y T IRR = = IR T Y ( ln ( IRR) ) = Y + Y Juul s 64 7
Ekmpel: Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per 00 000 år) <5 år 4 530 999 0.75330 5-9 år 8 790 000 3.54430 8 530999 3.54430 IRR = = = 4.70505 4 790000 0.75330 ln IRR = ln 4.70505 =.54864 ( ) ( ) ( ln ( IRR )) = + = 0.5345 4 8 43 Sammenligning af to rater: Rate differens Population Events Risikotid Incidens Rate Differens Rate Y T IR Y T IR IRD = IR IR Y Y IRD = IR IR = T T 44 95% CI(ln ( IRR )):.54864 ±.96 0.5345 = ( 0.50097;.59630) 95% CI( IRR ): ( exp( 0.50097 );exp(.59630) ) = (.65;3.4) Y Y ( IRD) = + T T Juul s 64 Ekmpel: 45 Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per 00 000 år) <5 år 4 530 999 0.75330 5-9 år 8 790 000 3.54430 00000år 00000år IRD = (3.54430 0.75330) / =.790/ 4 8 ( IRD ) = + 530999år 790000år 4 8 = + / 5.30999 7.90000 = 0.76845/ 00000år 00000år 95% CI( IRD ):.790±.96 0.76845 = (.8; 4.30 ) / 00000år 8