Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Transkript

1 Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte data - Gennemsnit og spredning - Parametre - Estimater - Sikkerhedsintervaller Deskriptiv statistik Eksempel: PEFR Sammenligning af to grupper med kontinuerte data Udgangspunkt: Vi ønsker at sammenligne lungefunktion for mænd og kvinder. Indsamling af data (stikprøve): PEFR-målinger for - tilfældigt udvalgte kvinder - tilfældigt udvalgte mænd Data: - Kvinder: 5, 383, 8,, 5, 58, 5, 75, 5, 75, 5, 7, 85, 8 - Mænd: 58, 5,,,, 55, 55,, 55,, 5, 57, 5, 57, 3, 575 Hvorfor er der brug for statistik? Data/observationer er underlagt tilfældig variation. Behov for at kvantificere hvor meget skyldes tilfældig og hvor meget skyldes systematisk variation. Behov for at resumere mange enkelte observationer i nogle få tal. Kvantificere at konklusioner baseret på meget data er mere præcise end konklusioner baseret på få data. 3 Formålet med den statistiske analyse er ofte at estimere en ukendt konstant (parameter), som fx.: Middel PEFR Middel PEFR for en 3 årig kvinde Forskel i (middel) PEFR mellem mænd og kvinder Den relative risiko for SIDS forbundet med maveleje Bemærk: disse parametre omhandler ikke kun vores stikprøve, men hele den population vi betragter. Det kan være en større opgave, at beslutte sig til hvilken størrelse man ønsker at estimere: Hvordan beskriver man sammenhængen mellem kost og kræft? Hvorfor stikprøver (samples)? hurtigere billigere umuligt at undersøge alle mere præcist (indsamling af data/ homogenitet) statistiske metoder kan bruges til at vurdere usikkerhed Dataanalysen kan opdeles i deskriptiv statistik statistisk inferens Dataanalyse: deskriptiv statistik Beskrivelse af data fra stikprøven: Data summary : - gennemsnit / median / percentiler - hyppigheder / relativ risiko / oddsratio - varians / spredning - korrelationer Tegninger/figurer: Vigtig! 5

2 Dataanalyse: statistisk inferens Fra stikprøve til population: Eksempel - deskriptiv statistik PEFR Model / Antagelser angående variationen i data. Estimation af relevante parametre i populationen (f.eks. middelværdi eller forskel mellem to grupper) ud fra stikprøven med tilhørende sikkerhedsintervaller. Opstilling af statistiske hypoteser, statistiske test Statistiske konklusioner Faglig konklusioner PEFR (l/min) Kvinder (n=) Mænd (n=) Figuren er god, men kan man beskrive disse data med få tal? 7 8 PEFR (l/min) PEFR Gennemsnittet for hver grupper er markeret med Kvinder: 85. l/min Mænd: 55.9 l/min PEFR (l/min) PEFR Kvinder: sd=. l/min Mænd: sd=55. l/min Jo mere data varierer jo større sd. På figuren er vist gennemsnit +/- sd. Kvinder (n=) Mænd (n=) Kvinder (n=) Mænd (n=) n Gennemsnit = x = x = ( x + x + + x )/ n i n i = (Summen af tallene divideret med antallet) Gennemsnittet beskriver midten / det generelle niveau / 9 den centrale tendens af data. n n sd = ( xi x) n i= Som et mål for variationen bruges ofte spredningen (standard afvigelsen / standard deviation / sd) PEFR (l/min) % 8% % PEFR Kvinder (n=).5% 95%.5% Hvad siger spredningen? Hvis data er fordelt rimeligt symmetrisk omkring gennemsnittet (normalfordelt), da vil intervallet gennemsnit ± sd dække ca. 8% af data, og gennemsnit ±.9*sd dække ca. 95% af (kommende) data. Vi vender tilbage disse intervaller (prædiktionsintervaller) næste gang. Parametre: vi har lavet et gæt på parametrene µ = middelværdi = gennemsnittet for hele populationen σ = spredning = sd udregnet for hele populationen Normalfordelingen er beskrevet ved de to parametre: middelværdi og spredning. Der kommer mere om normalfordelingen næste gang. Estimation: Kvinder: µ = gennemsnit = 85. l/min ˆK ˆ σ = sd =. l/min K Mænd : ˆ µ = gennemsnit = 55.9 l/min M ˆ σ = sd = 55. l/min M ^: Dette er et estimat, dvs. et gæt beregnet på basis af data.

3 Hvor godt passer de observerede gennemsnit med de sande værdier? Hvis vi havde taget andre mænd og målt deres PEFR ville vi ikke få et gennemsnit på 55.9 l/min For at beskrive usikkerheden på estimatet bruger man ofte et (sikkerheds-) interval omkring estimatet. Sikkerhedsintervallet er de parameter-værdier der er forenelige (i en eller anden forstand) med data. 3 Sikkerhedsinterval For et givet estimat (f.eks. gennemsnittet) kan man beregne en tilhørende usikkerhed / spredning (se). Hvis antallet af data, n, er stor da vil intervallet Estimat ±.9 se(estimat) være (approximativt) et 95% sikkerheds- / konfidensinterval for estimatet. Usikkerheden på gennemsnittet er: sd se( ˆ µ ) = sem = n sem: Standard error of the mean Fortolkningen af et 95% sikkerhedsinterval: Hvis vi udtager mange stikprøver og beregner et sikkerheds- eller konfidensinterval for hver stikprøve da vil den sande værdi ligge i 95% af disse intervaller. Sagt på en anden måde: Sikkerhedsintervallet indeholder den sande værdi med 95% sandsynlighed. Kvinder: Eksempel beregning af sikkerhedsinterval n =, ˆ µ = 85. l/min, ˆ σ =. l/min. se ( ˆ µ K ) = =. K CI( µ ): 85. ±.9. K d vs. (.; 5.) l/min CI: Confidence Interval K Mænd: se( ˆ µ ) = 3.7 l/min M CI( µ ) = ( 5.; 579.9) l/m in M 5 Den estimerede forskel mellem mænd og kvinder: ˆ µ ˆ M µ K = = 7. l/min Usikkerheden på forskellen i gennemsnittene: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) M K M K = = 8.5 l/min Sikkerhedsintervallet for forskellen bliver Statistisk test En anden måde at undersøge om der er forskel i PEFR mellem mænd og kvinder er vha et statistisk test. Mere om dette næste gang. Estimat ±.9 se(estimat) CI( µ µ ): 7. ± M K dvs. ( 3.; 3.7) l/min Der er altså statistisk signifikant forskel i PEFR mellem mænd og kvinder! 7 8

4 Eksempel - resultater PEFR niveau: Kvinder: ˆ µ = gennemsnit = 8 l/min K CI( µ ) = ( ; 5) l/min K Mænd : ˆ µ = gennemsnit = 553 l/min M CI( µ ) = ( 5; 58) l/min M Konklusion: Mænd har (statistisk signifikant) højere PEFR niveauet end kvinder! Forskellen i PEFR er mellem 3 og l/min. Vores bedste bud på forskellen er 7 l/min. Variation i PEFR: Kvinder: σ = sd = 7 l/min ˆK Mænd : ˆ σ = sd = 55 l/min M Bemærk: konklusionen vedrører hele populationen, og ikke kun den stikprøve vi har undersøgt. Forskel i PEFR niveau: Forskel = ˆ µ ˆ µ = 7 l/min M CI( µ µ ) = ( 3; ) l/min M K K 9 Sammenligning af to grupper med kontinuerte data generelt Statistisk model: Antag at variationen i hver gruppe er symmetrisk (data er normalfordelt) observationerne indenfor hver gruppe er uafhængige (ingen søskene indenfor grupperne) de to sæt af observationer er uafhængige (ingen søskene, ikke par af målinger i de to grupper) Estimation: ˆ µ i = gennemsnit (beskriver niveauet i gruppen) ˆ σ = sd (beskriver variationen i gruppen) i ( i =, svarende til gruppenummer) Sikkerhedsinterval for middelværdien: ˆ σ i se( ˆi µ ) = n CI ( µ ): ˆ µ ±. 9 se( ˆ µ ) i i i Sikkerhedsinterval på forskellen: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) CI ( µ µ ): ˆ µ ˆ µ ±. 9 se( ˆ µ ˆ µ ) Bemærk: Formlen for se gælder generelt for alle parametre forudsat de to grupper er uafhængige. i Et nyt, større studie Dataanalysen: deskriptiv statistik Et større studie for den samme population gav følgende resultat: Til sammenligning fik vi tidligere: Kvinder Mænd Forskel Kvinder Mænd Forskel n 3 58 n Gennemsnit Gennemsnit CI (59;89) (55;58) (7;) CI (;5) (5;58) (3;) Numeriske metoder til beskrivelse af kontinuerte data: Hvor ligger typiske data (det generelle niveau): Gennemsnit (aritmetrisk): data skal være rimelig symmetrisk fordelt Gennemsnit (geometrisk): logaritme-transformerede (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt Sikkerhedsintervallerne bliver mindre jo større studiet er! Median (5 percentil): skæve fordelinger (Vi bliver klogere jo mere data vi samler ind...) 3

5 Numeriske metoder til beskrivelse af kontinuerte data: Hvor meget afviger de fra hinanden (variation)? Percentiler: 5 percentilen er der hvor der er 5% af data der er mindre (og 95% større) Spredning/varians: Variationskoefficient (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt logaritme-transformerede data skal være rimelig symmetrisk fordelt 5 percentilen er lig. kvartile 5 percentilen er lig. kvartil der er lig medianen 95 percentilen er der hvor der er 95% af data der er mindre (og 5% større) Percentiler / kvartiler: Range/ max / min skæve fordelinger 5 og generelt X percentilen er der hvor der er X% af data der er mindre (og -X% større) Kvartiler: Præsentation af numeriske data: scatterplot. kvartil er lig det mindste tal. kvartil = 5 percentilen. kvartil = 5 percentilen = medianen 3. kvartil = 75 percentilen. kvartil er lig det største tal PEFR (l/min) PEFR Kvinder (n=) Mænd (n=) 7 8 Præsentation af numeriske data: boxplot Præsentation af numeriske data: histogram maximum* 3. kvartil median. kvartil minimum* Kvinder Kvinder Mænd * det varierer lidt hvordan man definerer den øvre én observation mellem 35- to observationer mellem og nedre grænse. Antal 3 5

6 Typer af data Histogrammet beskriver stikprøvens fordeling. Vi vil senere bruge histogrammet til at undersøge om data er normalfordelt. 3 Vi skal i dette kursus kigge på statistiske analyser af kontinuerte [ PEFR ] to kategorier (dichotom) [ Syg/rask ] flere kategorier [ Hvilket amt man bor ] ventetidsdata [ Tid til død eller tilbagefald af sygdom ] Den statistiske analyse afhænger af typen af data og hvordan data er indsamlet. Vi vil også kigge på statistiske analyser som kan besvare spørgsmål som: Kan forskellen i mænd og kvinder s PEFR værdi forklares ved at mænd er højre end kvinder? 3 Resumé Dataanalysen Sammenligning af to grupper med kontinuerte data: Gennemsnit og spredning Estimater Sikkerhedsintervaller Deskriptiv statistik 33

7 . februar 3 Epidemiologi og biostatistik Uge, torsdag. februar 3 Morten Frydenberg, Institut for Biostatistik. Bronkitis og hoste estimation sikkerhedsintervaller antagelser Normalfordelingen Prædiktion Statistisk test (udfra estimat og standard error) Sikkerhedsintervaller og statistiske tests Køn Kvinder Mænd Lungefunktions data fra tirsdags Gennemsnit l/min se l/min Udfra dette kunne vi beregne sikkerhedsintervaller for: Middelværdien for hvert køn Differensen mellem middel PEFR for mænd og kvinder 95% sikkerhedsinterval : CI: Estimat ±.9 se(estimat) Bronkitis og hoste Har bronkitis i den tidlige barndom betydning senere i livet? Observeret! Bronkitis som 5-årig Ja ( + B) Nej ( B) Hoster om natten som -årig Ja Nej 7 Lad os først se på de, der ikke har haft bronkitis. π B = Estimat: Sandsynlighed for at hoste om natten givet man ikke har haft bronkitis ˆ π B = =.7 Total 73 Ukendt! Bedste bud:.% af de, der ikke har haft bronkitis, hoster om natten. 3 Hoster om natten som -årig Bronkitis Ja Nej Total Ja 7 73 Nej Hvad er usikkerheden, se, på estimatet? se( ˆ π ) = ˆ π ( ˆ π ) n B B B B =.7(.7) =. ( π ) = ˆ π ±.9 se( ˆ π ) CI B B B =.7 ±.9. = (.99;.53) ˆ π =.7 B Risiko for hoste om natten 5 Risiko for hoste om natten Bronkitis Estimate se CI Bronkitis Estimate se CI Ja Nej ;.3.3;.5 Ja Nej ;.3.3;.5 Konklusion (På basis af disse data ): Risiko for at et barn, der ikke har haft bronkitis, hoster ligger et sted mellem 3.% og 5.% - bedste bud er.%. Risiko for at et barn, der har haft bronkitis hoster, ligger et sted mellem.% og 3.% - bedste bud er 9.5%. Noget tyder på større risiko for at hoste om natten, når man har haft bronkitis. Risikodifferens: RD = π + B π B RD = ˆ π ˆ π = = B B se( RD) = se ( ˆ π + B ) + se( ˆ π B ) = =. 88 CI( RD ) =.537 ± = (.;. 9)

8 . februar 3 Bronkitis Ja Nej Estimate.95.7 Risiko for hoste om natten se.777. CI.;.3.3;.5 7 Hvilke antagelser ligger bag beregningerne? Antagelse : Antagelse : Uafhængighed mellem grupper Data i hver gruppe er binomial-fordelt 8 Risiko Differens ;.9 Uafhængighed mellem grupper: Konklusion: Risikoen for hoste om natten er et sted mellem. og 9. procentpoint højere, hvis man har haft bronkitis som 5-årig. Bemærk se er mindst for Nej gruppen, da der er langt flere børn i denne gruppe. Usikkerheden på differensen er større end den største usikkerhed for de to grupper. Denne antagelse er nødvendig for at man kan bruge formlen: se RD = se ˆ π + se ˆ π ( ) ( + B ) ( B ) Er den rimelig i bronkitis eksemplet? Ja, data stammer for to forskellige grupper børn. Et muligt problem kunne være hvis der var to søskende i hver sin gruppe. Så vil der pga. arv/miljø være en sammenhæng mellem hvorvidt de to børn hoster. Data i hver af grupperne er binomial-fordelt: Denne antagelse er nødvendig for, at man kan bruge formlen: se( ˆ π ) = ˆ π ( ˆ π ) n Data er binomialfordelt hvis: Uafhængige delforsøg. Præcist to mulige udfald (hoster/ikke hoster, død/levende). 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Opfyldt? Ingen søskende i samme gruppe. Klar definition af hoste. Grupperne kan betragtes som homogene. Der er ikke snydt under data indsamlingen. 9 Normalfordelingen En vigtig fordeling af to forskellige grunde: Mange slags data er normalfordelte næsten normalfordelte (muligvis efter en transformation). Mange estimater er normalfordelte, næsten normalfordelte, hvis de er baseret på mange observationer (muligvis efter en transformation). Ingenting er helt normalfordelt, men mange gange er det en rigtig god approksimation! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (ln). 3 8 barnets vægt Fødselsvægt for 3 børn P 3.5kg < fødselsvægt <.kg ( ) Normalfordeling: en god approksimation 3 5 Fødselsvægt i kg

9 . februar Tæthedsfunktion: Sandsynlighed for en observation i et interval = areal under kurven. Areal under kurven=. Høj værdi for en given x-værdi Mange observationer tæt ved denne værdi. Lille værdi for en given x-værdi Få observationer tæt ved denne værdi Forskellige normalfordelinger: Middelværdi= Spredning= Middelværdi= Spredning= Middelværdi= Spredning= Standard normalfordelingen 5 µ = σ = Middelværdi Spredning 8.3% µ = σ = Middelværdi Spredning 95.5% 5.9% 5.9%.8%.8% µ σ µ µ + σ µ σ µ µ + σ Bland side 9 Bland side 9 µ = Middelværdi σ = Spredning µ.9 σ µ 95.%.5%.5% Bland side µ +.9 σ 7 Tabel over standardnormalfordelingen 8 Bland side 9 z P( Z < z) z P( Z < z) z P( Z < z) -3..% %. 8.% -.9.% %. 8.% -.8.3% -.8.%. 88.5% -.7.3% -.7.%.3 9.3% -..5% -. 7.%. 9.9% -.5.% % % -..8% %. 9.5% -.3.% % % -..% -..%.8 9.% -..8% -..%.9 97.% -..3%. 5.%. 97.7% -.9.9%. 5.%. 98.% %. 57.9%. 98.% -.7.5%.3.8% % %. 5.5%. 99.% -.5.7%.5 9.%.5 99.% -. 8.%. 7.%. 99.5% % % % -..5% % % -. 3.%.9 8.% % %. 8.% % 3

10 . februar 3 9 Sandsynlighed for mere end.9 spredninger fra middelværdi: i en normalfordeling! 5% ud af observationer: Mere end.9sd fra middelværdi standard deviation (spredning) 95% af observationerne fra en normalfordeling : middelværdi.9 sd observation middelværd i+.9 sd Dvs. der er 95% chance for: observation -middelværdi.9.9 sd Middelværdi ukendt, men sd kendt 95% sikkerhedsinterval for middelværdien: observation.9 sd middelværdi observatio n+.9 sd Baseret på én observation! Baseres det på basis af n observationer fås: gennemsnit.9 sem middelværdi gennemsn it+.9 sem 95% prædiktionsinterval for en observation sd sem = Standard error of the mean n Tilbage til fødselsvægtene: 3 Godt beskrevet ved en normalfordeling! Statistisk test Risikodifferensen for hoste blandt børn, der har/ikke har haft bronkitis n = 3 x = 3558g sd = g Et 95% prædiktionsinterval for fødselsvægten: 3558g ±.9 g = ( 83; 3) g Konklusion: 95% af børn fra en tilsvarende population vil have en fødselsvægt mellem.7 og. kg. Risikodifferensen, RD, er ukendt! Men vi har et estimat : RD =.537 se RD =.88 ( ) Spørgsmål: Er disse data forenelige med at RD=.? Dvs. ingen sammenhæng med bronkitis. Der gælder at estimatet, RD, er (næsten) normalfordelt Med spredning=se=.88 middelværdi RD Under hypotesen er RD = Normalfordeling med: middelværdi spredning=se=.88 Vi har observeret.53!.3%!! Vi har godt nok været uheldige!.53 Det tror jeg ikke vi har! =.39 Så må hypotesen være forkert! Hypotesen! Det afviger (noget) fra det forventede! Hvor stor er sandsynligheden for at observere en lige så stor eller større afvigelse? Vi forkaster hypotesen : Risikodifferensen er.5%.3% Hvad var nu det? Vi sammenlignede vores estimat (.53) med hypotesen. Som målestok brugte vi usikkerheden på estimatet: se=.88 Estimat Hypotese RD RD = =.83 se RD.88 ( ).53 Usikkerheden på estimatet Dvs. estimatet ligger.83 se er fra det forventede! Hvor ofte vil dette ske? Svar : Tabelopslag giver.% =.3% Fra forrige side

11 . februar 3 Estimat: RD =.537 Hypotese: RD= Teststørelse: z =.83 P-værdi:.% Konklusion: Hvis hypotesen er sand, så er der kun.% chance for at få et estimat, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Det er med andre ord næsten usandsynligt at observere det vi har set hvis hypotesen er sand. Men vi har jo observeret det vi har observeret ergo må hypotesen være falsk. Husk CI: (.;.9) ligger ikke i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! 5 Estimat: RD =.537 Hypotese: RD=.5 Teststørelse: z =.7 P-værdi: 8% = 3% Konklusion: z = (.53.5).88 =.7 Hvis hypotesen var sand, så er der 8% chance for at få estimatet, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Data strider således ikke mod hypotesen. Hypotesen kan akcepteres. På basis af disse data kan vi ikke afvise at risikoen for hoste er 5% højere for børn, der har haft bronkitis! Husk CI: (.;.9).5 ligger i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! Generelt 7 Generelt 8 Lad θ betegne den ukendte størrelse man ønsker at kende. Hvis man er interesseret i differensen mellem to parametre: Den relevante statistiske analyse bør bestå af beregning af to tal : ˆ θ og se ˆ θ : se( ˆ θ ): ( ˆ θ ) Et estimat af (gæt på) θ Et estimat af (gæt på) usikkerheden af estimatet Et approksimativt 95% sikkerhedsinterval : ˆ θ ±.9 se( ˆ θ ) δ = θ θ så er estimatet: ˆ δ = ˆ θ ˆ θ Hvis to estimater ˆ θ og ˆ θ er uafhængige så er: ( ˆ δ ) = ( ˆ θ ) + e( θ ) se se s ˆ Formlerne for estimatet og se afhænger af den statistiske model og kan være meget komplicerede. I langt de fleste tilfælde bruges computer programmer. HUSK! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (LN). Hoster om natten 9 Generelt: Et statistisk test 3 Bronkitis Ja Nej Total Ja 7 73 Data/estimat: ˆ θ med se( ˆ θ ) Nej Hypotese: θ = θ ˆ θ θ Associationsmål relativ risiko Beregn: z = ( B RR π + = ˆ B.95 RR π se ˆ θ ) + = = =.385 π p-værdi = P B ˆ π B.7 ( Z < z ) i standard normalfordeling ln ( RR ) = ln (.385) =.877 Approksimativ Konklusion: Hvis p-værdien er lille er data ikke forenelig med hypotesen og hypotesen må forkastes. se( ln ( RR )) = + = Oftes sættes grænsen til 5% 95% CI(ln ( RR )):.877 ± = (.3589;.83) Bemærk: Man kan bruge en anden se, når man tester, end 95% CI( RR ): ( exp (.3589) ;exp(.83) ) = (.; 3. ) den man bruger til beregning af CI (se Bland afsnit 8.). Formlerne kan findes på de sidste sider. Dette vil vi ikke gøre i dette kursus. 5

12 . februar 3 Få data dårlige approksimationer 3 Sikkerhedsintervaller og test. 3 Eksempel, Streptomycin, Bland Table personer deraf har 3 fået det bedre Data kan antages at være binomial-fordelt. 3 ˆ π = =.87, se( πˆ ) =. 87 (.87) 5 = Approks. 95% CI:.87 ± = (.95,.39) Dårlig approksimation! Ups! Eksakt/korrekt 95% CI (findes vha. af tabel eller computer) (.59,.983) Morale: Hvis der er få eller mange hændelser, så er approksimationerne ikke gode! Men: For nogle modeller findes der eksakte metoder. 95%-sikkerhedsintervallet indeholder hypotesen hvis og kun hvis p-værdien er større end 5%. Ved sammenligning af to parametre baseret på to uafhængige data sæt, tre situationer: A: Intet overlap: B: Et estimat i det andet CI: Hverken A eller B: så p-værdi < 5% så p-værdi >5% så: p-værdi =? Bronkitis Ja Nej Risiko for hoste om natten Estimate se CI ; ;.5 33 Associationsmål i tabeller: Risiko differenser Status Population Sandsynlighed a b n π 3 Risiko Differens ;.9 c d n π Sammenligning af de to grupper: ikke med i CI p=.% < 5%.5 med i CI p= 8% > 5% De to sikkerhedsintervaller overlapper ikke p=.% < 5% Risiko Differens: ˆ π a c = ˆ se( î ) î ( î ) / ni n π = n π = π π RD = π π a c = = n n RD ˆ π ˆ π a b c d se( RD) = se( ˆ π) + se( ˆ π ) = n n Bland p 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 35 Associationsmål i tabeller: Relativ risiko Status Population Sandsynlighed a b n π c d n π 3 RD =.95.7 =.537 se( ˆ π ) =.95 (.95 ) / 73 =.777 se( ˆ π ) =.7 (.7 ) / =. se RD = =.88 ( ) 7 = + = % CI( RD ):.537 ±.9.88 = (.8;.9) Relativ Risiko: RR = π π ˆ π a n RR = = ˆ π n c se( ln ( RR) ) = + a n c n Bland p 3

13 . februar 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 RR =.95.7 =.385 ln ( RR) = ln (.385) =.877 se( ln ( RR )) = + = % CI(ln ( RR )):.877 ± = (.3589;.83 ) 95% CI( RR ): ( exp (.3589 );exp(.83) ) = (.;3.) 37 Associationsmål i tabeller: Odds ratio Status Population Odds Ratio: π π π ( π ) OR = = π π ( π ) π ˆ π ˆ π a d OR = = ˆ π ˆ π b c se( ln ( OR) ) = a b c d Sandsynlighed a b n π c d n π Bland p 38 Eksempel: Bland side - 39 Sikkerhedsinterval for en enkelt rate Hoster som årig Bronkitis som 5 årig Ja Nej Total Odds Ja Events Risikotid Rate Y T IR Nej.39 OR = = ln OR = ln.3978 =.879 ( ) ( ) se( ln ( OR )) = = IR = Y T se ( ln ( IR) ) = Y 95% CI(ln ( OR )):.879 ± = (.398;.3787) 95% CI( OR ): ( exp (.398 );exp(.3787) ) = (.5;3.97 ) Eksempel: Analytisk epidemiologi side 8 Sammenligning af to rater: Rate ratio Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR IR = =.7533 / 53999år år ln ( IR ) = ln (.7533) =.833 se( ln ( IR )) = =.5 95% CI(ln ( IR )): ±.9.5 = (.33;.97) 95% CI( IR): ( exp(.33 );exp(.97) ) = (.8;. ) / år Y T IR Incidence Rate Ratio IR IRR = IR IR Y T IRR = = IR T Y se( ln ( IRR) ) = Y + Y 7

14 . februar 3 Eksempel: Analytisk epidemiologi side 8 3 Sammenligning af to rater: Rate differens Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR 5-9 år Y T IR IRR = = = ln IRR = ln.755 =.58 ( ) ( ) se( ln ( IRR )) = + = Incidens Rate Differens IRD = IR IR Y Y IRD = IR IR = T T 95% CI(ln ( IRR ) ):.58 ± = (.597;.593) 95% CI( IRR ): ( exp (.597 );exp(.593) ) = (.5;3.) Y Y se( IRD) = + T T Eksempel: Analytisk epidemiologi side 8 5 Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år år år år IRD = ( ) / =.79/ 8 se( IRD ) = år 79år 8 = + / =.785 / år år 95% CI( IRD ):.79± = (.8;.3 ) / år 8

15 3. februar 3 Epidemiologi og biostatistik. Uge, torsdag d. 3. februar 3 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle specielle metoder: Test i RxC tabeller Test i x tabeller Fishers eksakte test Normalfordelte data : t-test eksakte sikkerhedsintervaller Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ ) for den ukendte størrelse, θ,som man er interesseret i. Et approksimativt 95% sikkerhedsinterval : ( θ ) ˆ θ ±.9 se ˆ En specifik hypotese om at = kan testes ved ˆ θ θ ˆ θ θ z = eller z = se( ˆ θ ) se ( ˆ θ ) Store værdier af z (eller z ) er kritiske! p-værdi via standard normalfordeling eller () -fordeling Approksimation Den vender vi tilbage til! Nogle statistiske begreber Type fejl: At forkaste hypotesen, selvom den er sand. Type fejl: At acceptere hypotesen, selvom den er falsk. Signifikansniveau: Den grænse man sætter for den største p-værdi, der leder til, at man forkaster hypotesen. Som regel sættes signifikansniveauet til 5%. Hvis hypotesen er sand: Sandsynligheden for type fejl =sandsynligheden for forkaste hypotesen =signifikansniveauet M.a.o. sandsynligheden for type fejl er kendt og lig signifikansniveauet (=5%). 3 Type fejl: At acceptere hypotesen, selvom den er falsk. Hvad er sandsynligheden for type fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hypotesen Sandheden tæt på hypotesen Meget information/data Lidt information/data Statistisk styrke ikke forkaste lille ss. for type fejl stor ss. for type fejl lille ss. for type fejl stor ss. for type fejl = - sandsynlighed for type fejl = sandsynlighed for at forkaste den falske hypotese Planlægning af et follow-up studie: Antagelser: Styrkeovervejelser i forbindelse med planlægning af et studie. KIP blandt ikke eksponerede = %. 5 Øges deltagerantallet til *3 bliver chancen for type fejl reduceret til %, dvs. styrken er 89%. Styrken som funktion af gruppestørrelsen : χ!!"# $# Sand relativ risiko =.. 5 eksponerede og 5 ikke eksponerede. Når data er indsamlet vil man teste hypotese RR=. Sandsynligheden for at få data, der leder til accept af dette (Type fejl) = 39%, dvs. en styrke på %. M.a.o. lille chance for at få bekræftet, at der en sammenhæng. Ikke besværet værd!

16 3. februar 3 Afhænger af designet. Statistisk styrke Nogle kommentarer Afhænger af statistisk metode. Relevant i planlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. 7 Test i RxC tabeller Bland table 3.. Boligform og for tidlig fødsel : Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant 75 Lives with parents 7 Other Total Hypotese: Ingen sammenhæng. Hvis denne er sand bliver det forventede antal preterm fødsler blandt de, der bor i egen bolig: = Test i RxC tabeller 9 Forventet under hvis hypotesen er sand: Vi har fået X =.5 Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant Lives with parents Other Total Et mål for forskel mellem observeret og forventet: X = alle celler ( observeret forventet) forventet Er stor ved dårlig overensstemmelse! X = Hvor ofte vil man få noget større? Slå op i en -fordeling! Med (5-)(-)= frihedsgrader. % < p < 5% Computer giver p=3% 5% Hypotesen forkastes! 3% % Bland side Test for ingen association i R C tabeller Generelt Hypotese: Ingen sammenhæng melllem de to inddelingskriterier X rækkesum søjlesum forventet = total = alle celler En stor værdi af X er kritisk. ( observeret forventet) forventet p-værdi findes i en - fordeling med (R-)(C-) frihedsgrader. Test for ingen association i tabeller Svangerskabs- Køn længde Dreng Pige Total Total Hypotese: Ingen sammenhæng mellem køn og svangerskabslængde Teststørrelsen kan let beregnes i hånden som: ( ) X = =. <

17 3. februar % Vi har fået X =. Hvor ofte vil man få noget større? Slå op i en -fordeling med frihedsgrad! p >% % Computer giver p=% 5% 8 3 Hypotesen kan ikke afvises! tabeller Status Population a b n c d n s s N Hypotese: Ingen association Test: ( ) a d b c N X = n n s s Slåes op i en -fordeling med frihedsgrad tabeller : Fishers eksakte test Amning og tandstilling: Hypotese: Ingen sammenhæng Problemer med tandstilling Amning Nej Ja Sum Bryst Flaske Sum 5 37 For få data til at approksimationer kan bruges! Løsning: Fishers eksakte test (computer). Resultat (kun) en p-værdi! Her: p-værdi=9% Konklusion: Data strider ikke mod : Ingen sammenhæng 5 Kommentarer til test for ingen association i tabeller Hvis der er 5 eller mindre i en af cellerne, så bør man bruge Fisher s eksakte test. Nogle anvender et kontinuitets (eller Yates ) korrigeret version af X - testet: ( ) a d b c N N X C = n n s s Det giver lidt større p-værdier. Der er mange argumenter for og imod dette valg. Brug jeres tid på noget mere fornuftigt!!! Lungefunktions data fra i tirsdag i uge : Køn Kvinder Mænd Eksakt analyse af normalfordelte data n Gennemsnit l/min Under antagelse af normalfordeling : sd l/min. 55. sem l/min Approksimativt CI( µ ) : 85. ±.9.5 = ( ; 5 K ) Eksakt 95% CI for µ K : 85. ±..5 = ( 59; 53) Fra t-fordelingen!! Hvor kommer de. fra? Stort set det samme 7 Tabel over tosidige halesandsynligheder i t-fordelingen Bland side 58 df % 5% %.% df % 5% %.% Uendelig %=(-5)% n = =3 frihedsgrader (degrees of freedom) t=. Uendelig mange frihedsgrader = Standard normalfordeling 8 3

18 3. februar 3 Eksakt analyse af normalfordelte data Sikkerhedsinterval 9 Eksakt analyse af normalfordelte data One sample t-test Model/antagelse: Data er n uafhængige observationer fra en normalfordeling med ukendt middelværdi, µ, og spredning, σ Estimaterne for disse er : n n ˆ µ = x = x ˆ sd ( ) i σ = = i n n x x i= i= Hypotese : µ = µ Test : x µ z = sem p-værdi: Slå op i en t-fordeling med n- frihedsgrader PEFR-eksemplet : (ikke i en standard normalfordeling) sem = se( ˆ µ ) = se( x ) = ˆ σ n = sd Et eksakt CI for µ x ± sem tn t n- findes i en tabel over t-fordelingen n Hypotese: Middel PEFR hos kvinder er 5 l/min z = =. Eksakt p-værdi >%.5 (computer p=.8%) Konklusion: Data strider ikke mod hypotesen. Eksakt analyse af to sæt (uafhængige) normalfordelte data Køn Kvinder Mænd Estimat for spredningen blandt mænd Et fælles estimat for spredningen : sd F n = Gennemsnit ( n ) sd + ( n ) sd n + n K K K M K ( ). + ( ) 55. = + = 5.3l/min M sd. 55. Estimat for spredningen blandt kvinder se Estimat for fælles spredning: Nyt bud på sem erne: Køn Kvinder Mænd n sem sem Gennemsnit se ( ˆ µ ˆ µ ) = sem + sem = = 8.8l/min F M K M K sdf = 5.3 = sd n = 5.3 = 3.7l/min K F K = sd n = 5.3 =.8l/min M F M sem % eksakt CI for forskel i middel PEFR, µ µ : ( ˆ µ M ˆ µ K ) ± t se( ˆ µ M ˆ µ K ) = ( ) ± = ( 9; ) l/min sd. 55. sem(fælles) Fra t-fordeling med n M +n K =8 frihedsgrader Analyse af to sæt (uafhængige) normalfordelte data 3 Two sample t-test Hypotese: µ µ δ ( ˆ µ M ˆ µ K ) δ z = se ( ˆ µ ˆ µ ) F M p-værdi: Slå op i en t-fordeling med n M +n K frihedsgrader (ikke i en standard normalfordeling) PEFR-eksemplet : Hypotese: Forskel i middel PEFR er l/min. ( ) 7.3 z = = = 3.59 Eksakt p-værdi=.% Konklusion: Data strider mod hypotesen. K Kommentarer Hvis antagelsen om normalfordeling er rimelige : Fordelingen kan beskrives ved blot to tal : Middelværdi og spredning! Eksakte CI og p-værdier - ingen approksimationer! Også mulighed for at sammenligne spredninger (dækkes ikke på dette kursus) Mere komplicerede modeller og analyse metoder : Variansanalyse (ANOVA) Lineær regressionsmodeller Ikke-lineær regressionsmodeller Faktoranalyse +meget mere

19 3. februar 3 Flere kommentarer Metoderne til analyse af en stikprøve fra en normalfordeling bruges ofte hvis man har parrede data: To målinger per patient, før/efter behandling. Beregn efter-før=obs. Behandlingseffekt. Hvis disse kan antages at være normalfordelte, så analyse som en stikprøve fra en normalfordeling. Dette kaldes Parret t-test. Hvordan checker man antagelsen om normalfordeling? Plot data - histogrammer, normal plots (Q-Q plots). Hvad siger erfaringen om tilsvarende data? 5 En sidste kommentar til analyse vha. af t-fordelingen Det er kun hvis man har små stikprøver at denne metode giver noget væsentligt andet end den sædvanlige/approksimative metode. Metoden er meget udbredt, men vi vil kun undtagelsesvis bruge den i dette kursus! Komponenter i middelværdi og variation Altid mindst to komponenter i middelværdi og variation: Disse skyldes egenskaber ved populationen målemetoden Middelværdi = Middelværdi i populationen + Systematisk målefejl Variation = Variation i populationen + Tilfældig målefejl 7 5

20 Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser bruges til Beskrive sammenhængen mellem to variable. Eks: Kvantificere sammenhængen mellem blodtryk og alder. Prædiktere værdien af en variabel hvis værdien af én eller flere andre variable er kendt (referencemodel). Eks: Forudsige blodtrykket for en 5 årig person. Korrektion for potentielle confoundere. Eks: Hvad er alderseffekten på blodtrykket korrigeret for BMI? Den lineære regressionsanalyse kan anvendes når responsen er kontinuert. Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Data: Systolisk blodtryk-målinger and andre baggrundsvariable for 8 personer. i yi xi Syst. Obs. no. blodtryk Alder Frekvens Systolisk blodtryk (mmhg) Prædiktionsinterval y = 9.9, sd Total = 5.5 ( n = 8) Hvis vi antager blodtryk er normalfordelt fås PI: 9.9 ± =(99.;.) mmhg Fortolkning: Personernes systoliske blodtryk er mellem 99. og. mmhg. Bemærk: Vores bedste bud på en persons systoliske blodtryk er altså intervallet (99.;.) mmhg. Der er dog relativt stor variation i det systoliske blodtryk! Vil vores bud på personens systoliske blodtryk afhænge af persones alder? Systolisk blodtryk (mmhg) Alder Ja, yngre personer har et lavere blodtryk end ældre personer! Vi kan lave et mere præcist prædiktionsinterval, hvis vi bruger oplysningen om personens alder. 5 Systolisk blodtryk (mmhg) Én løsning er, at inddele i aldersgrupper og beregne prædiktionsintervaller indenfor hver aldersgrupper. En anden løsning er en regressionsanalyse, hvor personens præcise alder inddrages Alder En regressionsmodel er en model for sammenhængen mellem blodtryk og alder. Der ser ud til at være en lineær sammenhæng mellem blodtryk og alder.

21 y = α + β x + E i i i Formlen for en ret linie! Simpel lineær regression En simpel lineær afhængighed mellem y i og x i : Beskriver afvigelsen fra linien. Variablen E i beskriver den tilfældige/uforklarede variation omkring linien, og antages at have middelværdi og spredning σ Res (Res=Residual). En simpel lineær regressionsmodel har tre parametre: α = afskæringen med y-aksen (intercept) β = hældningen (regressionskoefficient) σ Res = et mål for variationen omkring linien. 7 Terminologi: y = responsvariabel = afhængige variabel = Systolisk blodtryk x = uafhængig variabel=forklarende variabel = Alder Fortolkning af parametrene: β er forskellen i middel systolisk blodtryk mellem to personer med en aldersforskel på år. (Fortolkningen er ikke den forventede stigning i det systoliske blodtryk når man bliver et år ældre!) α har i denne situation ingen fornuftig fortolkning. (Middel blodtrykket for en år gammel person?) σ Res et mål for variationen omkring linien. 8 Estimation af α, β og σ Res : Systolisk blodtryk (mmhg) Alder r = y ( ˆ α ˆ β x ) i i i Residual = afvigelsen af observationen fra linien. Regressionslinien bestemmes ved mindste kvadrates metode, der minimerer (kvadratet på) afstandene fra observationerne til linien. σ Res estimeres ved standard deviationen af residualerne. 9 Estimation af α, β og σ og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Resultat: Intercept Estimat.3 se. CI (3.3;8.) Regression.5.3 (.;.) sd Res. Regressionsanalysen beskriver sammenhængen mellem (systolisk) Blodtryk og Alder som middel Blodtryk =.3+.5 Alder (mmhg) (mmhg/år) (mmhg) Eksempel : Middelblodtrykket for 5 årige personer er = 35. mmhg. CI kan vi ikke udregne på basis af ovenstående tal! Eksempel : Forskellen i middelblodtryk for årige personer og 5 årige personer er Forskel = ( ˆ α + ˆ β 5) - ( ˆ α + ˆ β ) = ˆ β ( 5 ) =. 5 =. 9 mmhg se( ˆ β) = se( ˆ β) =. =. mmhg CI(Forskel) :.9 ±.9. = ( 9.9;.) mmhg Middelforskellen mellem to personer med en aldersforskel på år er mellem 9.9 og. mmhg. Eksempel 3: Hvad er vores bedste bud på en 5 årig persons systoliske blodtryk? Prædiktionsinterval= regressionslinie ±.9 sd Res Systolisk blodtryk (mmhg) Generelt: Forskellen i middelblodtryk mellem personer med en aldersforskel på år er Fo rskel = ˆ β, se( ˆ β) = s e( ˆ β ) Alder PI( x) = ( ˆ α + ˆ β x) ±.9 sd Res

22 Prædiktionsinterval for de 5 årige personer bliver således Middelblodtryk: ˆ α + ˆ β 5 = 35. mmhg sd Res =. mmhg PI(5 årige): 35. ±.9. = (.; 59.8) mmhg Det generelle prædiktionsinterval (uden hensyntagen til alder) var PI: (99.;.) mmhg. Systolisk blodtryk (mmhg) PI PI(5 årig) 3 Andel forklaret variation Prædiktionsintervallet fra regressionsanalysen er smallere end det generelle prædiktionsinterval (sd Res er mindre end sd Total ). Vi har forklaret noget af variationen i Blodtryk ved variationen i Alder. Men hvor meget? Den relative reduktion i variationen er ( ) R = =.3 = 3% Vi har således forklaret 3% af variationen i blodtryk ved variationen i alderen. R = andel forklaret variation af den totale variation (coefficient of determination). Antagelser bag den simple lineære regressionsanalyse Den statistiske model bygger på følgende antagelser: Uafhængige par af observationer (x,y ),...,(x n,y n ). Lineær sammenhæng mellem x i og y i : y i = α + β x i + E i Variationen omkring linien, E i, er normalfordel med middelværdi og spredning σ Res. Systolisk blodtryk (mmhg) Modelkontrol: lineær sammenhæng Variationen omkring linien afhænger ikke af den forklarende variabel x i Alder Det ser ud til, at den lineære sammenhæng er en rimelig beskrivelse! Modelkontrol: konstant variation Modelkontrol: normalfordeling Residualer Alder Frekvens Residualer Residualerne kan antages at være normalfordelt! Residualerne viser symmetri omkring og konstant variation uafhængig af Alder. 7 Antagelserne bag den lineære regressionsanalyse synes at være opfyldt! 8

23 Eksempel på en ikke-lineær sammenhæng Nyrefunktion 8 Glumerular filtrationsrate (GFR) 5 5 Residualer (Creatinin) Cr 8 9 Residualer efter lineær regression: - mangel på symmetri / systematisk afvigelser fra. - ikke konstant variation. Cr Ln-transformation af nyrefunktion: Hypoteser omkring β ln(gfr) 5 3 Foregår som sædvanlig! Hvis vi f.eks. ønsker at teste Hypotese: β = (ingen sammenhæng mellem Blodtryk og Alder) ˆ β. z = = = 5., p<. s( e ˆ β ) ln(cr) Her er antagelserne bag regressionsanlysen opfyldt. Multipel lineær regression Effektmodifikator? Effekten af alder er beskrevet ved hældningen (fra tidligere) ˆ β =.5 mmhg/år ( CI:.. ) Alder Blodtryk Hældningen beskriver middelforskellen i systolisk blodtryk mellem to personer med en aldersforskel på år. BMI Blodtrykket afhænger også af BMI. Afhænger alderseffekten af personens BMI? Mao. er BMI en effektmodifikator for alderseffekten? Confounder? Hvis BMI ikke er en effektmodifikator for alderseffekten: Er BMI en confounder for alderseffekten? Alder Blodtryk BMI 3

24 Data: Samme data fra før, nu suppleret med BMI oplysninger. En regressionsanalyse for hver BMI gruppe: Obs. no. 3 8 Syst. blodtryk BMI er inddelt i 3 grupper: Alder BMI gruppe = hvis BMI 5 = hvis 5 < BMI 3 = 3 hvis 3 < BMI BMI BMI gruppe 3 5 Systolisk blodtryk (mmhg) BMI<5 5<BMI<3 3<BMI Alder Er effekten af alderen den samme i de 3 BMI grupper? Strata Er BMI en effektmodifikator? BMI <5 5-3 <3 Estimaterne er noget usikre! Hældning.5..8 CI (-.;.) (.;.) (-.;.8) En multipel regressionsanalyse med samme alderseffekt (hældning) i de 3 BMI-grupper: Hypotese: Samme alderseffekt i de 3 BMI grupper (BMI er ikke en effektmodifikator) BMI<5 Hypotesen testes vha. en multipel regressionsanalyse, p=.. 5<BMI<3 3<BMI Vi accepterer dermed hypotesen om den samme alderseffekt i de 3 BMI-grupper. Alder Vi kan antage, at BMI er ikke en effektmodifikator. Modelkontrol: Som i den simple lineære regressionsanslyse, 7 dog her noget mere kompliceret. 8 Systolisk blodtryk (mmhg) Resultat: Estimat se CI p Intercept (5.;93.3). Alder.. (.7;.). BMI 5 5<BMI (-.;5.7).95 BMI>3.7. (8.7;.). sd Res. Hvordan skal vi fortolke dette resultat? middel Blodtryk = Alder -. BMI +.7 BMI Eksempel : beregning af det forventede blodtryk Betragt en person med følgende data: BMI 5-3 = Alder=5 år, BMI=7 kg/m BMI 3+ = Middelblodtrykket udregnes til Middelblodtryk = Alder -. BMI +.7 BMI = = 3. mmhg Et prædiktionsinterval kan udregnes som tidligere PI(5 årige, 5<BMI 3): 3. ±.9. = ( 9.; 5. ) mmhg 3

25 Betragt to personer: Eksempel 5: effekten af Alder Person : Alder = år, BMI =3 kg/m Persen : Alder =5 år, BMI =3 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk = ( ) =. ( Alder Alder) =. =.8 mmhg Alder BMI BMI Alder- BMI BMI BMI 5-3 = BMI 3+ = ( ) Eksempel : effekten af BMI Betragt to personer: Person : Alder = år, BMI = kg/m Persen : Alder = år, BMI =7 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk ˆ 5-3 = β5-3 BMI =. CI(Forskel): (-.; 5.7) CI(Forskel): (.7;. 5) = ( 7.;5. ) mmhg 3 3 Betragt to nye personer: Er BMI en confounder for alderseffekten? Person : Alder = år, BMI =7 kg/m Fra den simple lineære regressionsanalyse fik vi Persen : Alder = år, BMI =3 kg/m ˆCrude β =.5 CI( β Crude ): (.,. 99) mmhg/år Forskellen i middel blodtrykket er Middel blodtryk Middel blodtryk Fra den multiple lineære regressionsanalyse hvor også BMI-gruppe indgik i modellen fik vi = ˆ β ˆ 3+ β5-3 =.7 (.) ˆAdjusted β =.8 CI( β Adjusted ): (.7,. 5) mmhg/år = 7. Hvis βcrude βadjusted så er BMI en confounder. CI(Forskel) kan vi ikke udregne fra på basis af denne analyse. Sikkerhedsintervallet kan findes ved at lave en ny Det tyder således på, at BMI er en confounder for regressionsanalyse med BMI gruppe nr. som alderseffekten. referencegruppe. 33 3

26 7-3-3 Epidemiologi og biostatistik. Uge, torsdag Erik Parner, Institut for Biostatistik. Logistisk regressionsanalyse - Generelt om logistisk regressionsanalyse - Eksempel Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen af de tilfældige variationskilder (eksempel ) - Sammenligning af to målemetoder/målinger: - kontinuerte målinger (eksempel 3) - kategoriske målinger (eksempel ) Logistisk regressionsanalyse Responsen (y) er en dichotom variabel, f.eks. - operation for diskusprolaps: sucess/ikke-sucess. - i live efter mdr: ja/nej. - fødselsvægt < 5 gram: ja/nej. Den logistiske regressionsmodel beskriver hvordan sandsynligheden for hændelsen (p) afhænger af forklarende variable x,,x m via logaritmen til odds for hændelsen (o) p logit( p) = ln( ) = ln( o) p ved ln( o) = α + β x βm xm (Bland Kapitel 7.8) Korrelation Lineær- versus logistisk regressionsanalyse Eksempel (Bland side 3-33) Lineær regressionsanalyse: Prædiktion af sandsynligheden for kejsersnit. Responsen (y) er en kontinuert variabel, f.eks. blodtryk, PEFR eller FEV. Responsen afhænger af forklarende variable x,,x m ved y = α + β x + + β x +"tilfældig variation"... m m Logistisk regressionsanalyse: Responsen (y) er en dichotom variabel og logaritmen til odds for begivenheden (o) afhænger af de forklarende variable x,,x m ved p ln( o) = ln( ) = α + β x β p m x m 3 Responsvariabel: kejsersnit: ja/nej (p = sandsynligheden for kejsersnit) Forklarende variable: BMI: kontinuert variabel Induction: ja/nej (ja=, nej=) Prev. vag. del.: ja/nej (ja=, nej=) Preliminære analyser viser: - BMI associeret med kejsersnit - Induction associeret med kejsersnit - Prev. vag. del. associeret med kejsersnit Formål med regressionsanalysen i eksemplet: Er der stadig en associationen mellem BMI og kejsersnit når vi korrigerer for Induction og Prev. vag. del. (PVD)? Eksempel: sandsynligheden for kejsersnit l n( ô ) = BMI+.7 Induction -.79 PVD Betragt en kvinde med: Resultat: BMI Induction PVD Intercept Coef Std. Err p-value <..3 <. <. Hvordan skal vi fortolke dette resultat? 95% CI.9 to.8.8 to to to -.53 l n( ô ) = BMI+.7 Induction-.79 PVD z 5 BMI=5 kg/m, Induction=, PVD= Indsættes dette i regressionsligningen fås: ln( o ˆ) = =.93 o ˆ = exp(.93) =.5 oˆ pˆ = =.8 CI kan I ikke udregne! + oˆ Hvis Induction=: ln( oˆ ) = oˆ =.9 pˆ =.3

27 7-3-3 Eksempel: effekten af Induction Betragt to kvinder: Kvinde : BMI =5 kg/m, Induction =, PVD = Kvinde : BMI =5 kg/m, Induction =, PVD = OR kan estimeres ud fra de to odd s fra før: oˆ.9 OR = = =.9 CI? o ˆ.5 Kvinde har altså dobbelt så stor risiko (odds) for kejsersnit i forhold til kvinde. Hypotese: Kunne OR være? Odds ratioen kan også udregnes som: oˆ OR = o ˆ exp( BMI +.7 Induction-.79 PVD) = exp( BMI+.7 Induction-.79 PVD) exp(.7 Induction) = exp(.7 Induction ) exp(.7 ) = exp(.7 ) = exp(.7) =.9 Samme OR som før! CI( OR ): (exp(.8),exp(.7) ) = (. 3,. 9) Vi får udregnet CI! 7 8 Der gælder altså: β = ln( OR)!!! Resultatet bliver det samme uanset hvad BMI og PVD er! Der er med andre ord i regressionsligningen l n( ô ) = BMI+.7 Induction -.79 PVD antaget ingen effektmodifikation mellem BMI, Induction og PVD! Eksempel: effekten af BMI Betragt to kvinder: Kvinde : BMI =5 kg/m Kvinde : BMI =7 kg/m hvor alt andet er lige exp(7.88 OR = ) = exp((7 5).88) = exp(.88) =. exp( 5.88) CI ( OR ) : ( exp(.9),exp(.8)) = (.,. 3) Betragt to andre kvinder: Kvinde 3: BMI 3 =8 kg/m Kvinde : BMI = kg/m hvor alt andet er lige 9 OR = exp(.88) =. dvs. samme OR!!! Vi har i regressionsmodellen antaget, at effekten af en BMI forskel på kg/m er uafhængig af størrelsen på BMI. Er det rimeligt? BMI Induction PVD Tabel for OR Odds ratio p-value.9 < <. 95% CI.5 to.3.5 to.9.9 to.98 OR en for BMI svarer til en BMI forskel på kg/m. Ofte vil det være tabellen for OR, som er angivet i en artikel. OR en svarende til en BMI forskel på kg/m fås ved OR =.9 =. CI ( OR ): (.5,.3 ) = (.,.3) Mere generelt gælder OR = OR OR OR BMI Induction PVD CI kan I ikke udregne!

28 7-3-3 Kommentarer til logistisk regressionsanalyse Estimationaf α, β,, β m og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Den logistiske regressionsanalyse bør kun anvendes hvis antallet af observationer er rimeligt stort. En tommelfingerregel er: - der bør være MINDST ja er og nej er for responsen (men helst af hver), for hver forklarende variabel i modellen (Bland side 33). En variant, betinget logistisk regressionsanalyse, anvendes for matchede data. Analysen anvendes ofte i case-control studier hvor cases og kontroller er matchede mht. potentielle risikofaktorer. 3 Kliniske målinger Hvad influerer på en (klinisk) måling? Metode-relateret: Individ-relateret: målemetode person apparat helbredstilstand kalibrering af apparat tidspunkt (sæson, døgn) observatør??? hospital??? variationskilder (Bland Kapitel ) Klinisk måling: vi forestiller os, at der er en underliggende/ukendt sand værdi, som vi forsøger at måle. (for en given person, med en given helbredstilstand, til et givet tidspunkt etc) Mange målemetoder vil ud fra metodens underliggende fysiske og/eller kemiske principper være gode (lille systematisk og tilfældig fejl) lungefunktion: måling af rumfang kemiske analyse: kromatografisk metode Ved gentagen måling med samme metode: en lidt anden værdi (som regel), fordi: metoden har en indbygget usikkerhed (tilfældig fejl) Kan ofte beskrives ved en normalfordeling målefejl 5 Måling på noget biologisk introducerer en række nye og måske ukendte variationskilder, f.eks. : fastende intra i hvile instruktion af patienten før målingen patienterne er forskellige inter Variationskomponenter Inter-individuelle variation: Hver person har et underlæggende niveau (sande værdi). Den interindividuelle variation beskriver variationen i personernes niveau. Også kaldet den biologiske variation. Eks: personens niveau kunne være gennemsnittet af målingerne over mange dage. Intra-individuelle variation: Personens sande værdi afhænger af under hvilken omstændighed den bliver målt. Variationen i de sande værdier indenfor personen kaldes for den intra-individuelle variation. Eks: den intra-individuelle variation kunne være dag-til-dag variationen i de sande værdier. Målefejl: Variationen af målingerne hvis vi måler flere gange lige efter hinanden. 7 Klinisk måling intra-individuel variation interindividuel variation Dag 3 5 personens niveau personens (sande) værdi den pågældende dag observation 8 3

29 7-3-3 Eksempel Estimation af størrelsen af de tilfældige variationskilder En stikprøve af PEFR målinger, målt med Wright. PEFR (l/min) Mean=5 SD= PI: -78 Hvor meget af variationen i PEFR (målt med Wright) skyldes variation mellem personer (inter-individuel) variation indenfor person (intra-individuel+målefejl)? 9 Nyt forsøg: PEFR (l/min) målt med Wright meter Person 3 : 5 7. måling : måling : (Bland Table 5., side 7) målt forskellige dage Ingen systematisk forskel mellem de målinger PEFR (l/min) Variationskilderne PEFR Gennemsnit Dette design kan ikke adskille 8 8 intra-individuel Person no. variation og Inter-individuel variation målefejl = variationen af gennemsnittene usikkerhed på gennemsnittene Intra-individuel+målefejl En Variansanalyse kan kvantificere de systematiske og tilfældige kilder til variation: s b = spredningen mellem personer (between) =. l/min s w = spredningen indenfor person (within) = 5.3 l/ min seen måling = sb + sw = 3. l/ min Resultaterne kan bruges til at besvare spørgsmål som: A. Hvor stor en andel udgør den biologiske variation? Andel =. 3. = 98% = variationen omkring gennemsnittene B. Prædiktionsinterval for forskel mellem målinger på samme person på forskellige dage: ± + =± 7 =± l/min.9 sw sw.7 sw..9 C. Teste hypotesen: σ b = Ensidet variansanalyse (kommer til øvelserne!) Eksempel 3 Sammenligning af to kontinuerte målinger Eksempler på metodeforskelle: Systematisk forskel: Tilfældig variation: generelt niveau forskellige måleusikkerhed kun ved små/store værdier større ved store værdier Analysen afhænger af den forskel man vil beskrive. (Hvad man måler på - standardiseret prøve, raske personer eller patienter - afhænger hvad/hvem man ønsker at generalisere til) 3

Vis mere