Morten Frydenberg Biostatistik version dato:

Tye og Tye 2 fejl Statistisk styrke Biostatistik uge 2 mandag Morten Frydenberg, Afdeling for Biostatistik Styrkeovervejelser i lanlægning af et studie Logistisk regression Præterm fødsel, rygning, alder, aritet og kalenderår - Model - Tolkning af arameterne - Estimater - Antagelser Kommentarer til logistisk regression Tye og tye 2 fejl På trods af det ikke at forkaste en hyotese ikke betyder at man skal accetere den, så vil jeg i det følgende brug betegnelsen at accetere hyotesen for ikke at forkaste hyotesen. For en given statistiske hyotese er der således to muligheder: Den kan forkastes eller den kan acceteres. Man kan så begå to forskellige fejl: Tye : Tye 2: Forkaste hyotesen selv om den er sand. Accetere hyotesen selv om den er falsk. Det kan være interessant, i lanlægningsfasen, at kende sandsynligheden for at begå de to fejl. 2 Tye og tye 2 fejl Signifikansniveau: Den grænse man sætter for den største -værdi, der leder til, at man forkaster hyotesen. Som regel sættes signifikansniveauet til 5%. Dvs. hyotesen forkastes, hvis -værdien er mindre end 5%. Hvis hyotesen er sand: Sandsynligheden for tye fejl =sandsynligheden for at forkaste hyotese =signifikansniveauet Da -værdien jo beregnes under antagelsen om at hyotesen er sand. M.a.o. sandsynligheden for tye fejl er kendt og lig signifikansniveauet (ofte =5%). 3 Tye 2 fejl: At accetere hyotesen, selvom den er falsk. Hvad er sandsynligheden for tye 2 fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hyotesen lille ss. for tye 2 fejl Sandheden tæt å hyotesen stor ss. for tye 2 fejl Meget information/data Lidt information/data Tye og tye 2 fejl lille ss. for tye 2 fejl stor ss. for tye 2 fejl Statistisk styrke = - sandsynlighed for tye 2 fejl (Power) = sandsynlighed for at forkaste den falske hyotese 4 Eidemiologi og Biostatistik: Uge 2 Mandag

Planlægning af et follow-u studie: Antagelser: Styrkeovervejelser i forbindelse med lanlægning af et studie KIP blandt ikke eksonerede = %. Sand relativ risiko = 2.0. 500 eksonerede og 500 ikke eksonerede. Når data er indsamlet vil man teste hyotese RR= og forkaste hvis -værdien er mindre end 5%. Man kan beregne sandsynligheden for at få data, der leder til accet af dette (Tye 2 fejl) = 39%, dvs. en styrke å 6%. Mao. lille chance for at få bekræftet, at der en sammenhæng. Studiet er ikke besværet værd! 5 Power 00 90 80 70 60 Styrkeovervejelser i forbindelse med lanlægning af et studie Øges deltagerantallet til 2*3000 bliver chancen for tye 2 fejl reduceret til %, dvs. styrken er 89%. Styrken som funktion af gruestørrelsen : α = 0.050 π = 0.00 π 2 = 0.020 50 000 500 2000 2500 3000 3500 Samle Size er Grou 6 Afhænger af designet. Statistisk styrke Nogle kommentarer Afhænger af statistisk metode. Relevant i lanlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. Rygning og for tidlig (ræterm) fødsel 95%-CI n ræterm risk se low high All 0,509 399 3.80% 0.9% 3.43% 4.6% Ikke ryger 7,806 25 3.22% 0.20% 2.82% 3.6% Ryger 2,703 48 5.48% 0.44% 4.62% 6.33% 95%-CI estimate low high RD 2.26%.32% 3.20% RR.70.40 2.08 OR.74.42 2.5 Vi vil her fokusere å associationsmålet OR. Vi vil også antage, at vi ønsker at estimere effekten af rygning korrigere for kvindens alder (kontinuert, 5 til 46 år) kalenderår (993,994,995) og om hvorvidt hun har født før (ja/nej). 7 8 Eidemiologi og Biostatistik: Uge 2 Mandag

Rygning og for tidlig (ræterm) fødsel korrektion for kalenderår Vi har tidligere set hvordan man kan korrigere for en kategorisk variabel ved en vægtet analyse:. Beregn OR, ln(or) og se(ln(or) indenfor hvert strata 2. Beregn det vægtede gennemsnit af ln(or) ved brug af vægtene /se(ln(or)) 2 3. Find se for ln(or) ved sqrt(sum af vægtene) 4. Transformere estimatet og CI tilbage vha ex: OR 95%-CI Year estimate low high ln(or) se(ln or) w=/se^2 w*ln(or) 993.33 0.93.90 0.284 0.83 29.788 8.449 994 2.32.6 3.35 0.844 0.87 28.599 24.29 995.78.24 2.55 0.574 0.84 29.406 6.880 sum 87.793 49.458 95%-CI 49.458 Adjusted estimate se low high estimate = ln(or) 0.5633 0.067 0.3542 0.7725 87.793 or.76.42 2.7 se = 87.793 9 Rygning og for tidlig (ræterm) fødsel korrektion for kalenderår, aritet og alder Betydning af rygning korrigeret for kalenderår: OR.76(.42;2.7) Men vi vil også korrigere for aritet og alder! Dette kunne vi i rinciet gøre ved at dele alder ind i nogle gruer fx 0, som sammen med kalenderår og aritet vil det så give os 3*0*2=60 strata i en stratificeret analyse. En anden mulighed er at korrigere vha. af en statistik model lignende de regressionsmodeller vi så å i sidste uge. Men denne gang er vores outcome dikotomt/binært, nemlig ræterm fødsels ja/nej. Regressionmodellerne fra sidste forudsatte normal fordelte afvigelser, så de kan ikke bruges her. Løsningen hedder her logistisk regression 0 Sandsynlighed, odds og oddsratio Hvis vi lader betegne sandsynligheder for event (her ræterm fødsel), så er odds givet ved : odds odds = = + odds Og hvis vi kan sammenligner odds for to forskellige kvinder, Anne og Birthe, ved hjæl af en oddsratio: OR odds Hvilket giver ligningerne: ( A ) ( ) A A Avs B = = oddsb B B ( odds ) = ( odds ) + ( OR ) ln ln ln odds = odds OR A B AvsB A B AvsB Rygning og for tidlig (ræterm) fødsel En model for log odds: (Ryger indikatorvariabel for ryger) For en ikke-ryger giver modellen: For en ryger giver modellen: dvs: ln ln ( odds) ( odds) = α 0 = α + α ( ORrygning ) = ( oddsryger ) ( oddsikke ryger ) ln ln ln = α Konklusion - tolkning af de to arametre: ( ORrygning ) α ln( oddsikke ryger ) α = ln = 0 OR rygning ( α ) odds ex( α ) = ex = ( ) α0 α ln odds ikke ryger 0 = + Ryger 0 2 Eidemiologi og Biostatistik: Uge 2 Mandag

Rygning og for tidlig (ræterm) fødsel ( ORrygning ) α ln( oddsikke ryger ) α = ln = 0 OR rygning ( ) α0 α ln odds = + Ryger ( α ) odds ex( α ) = ex = ikke ryger 0 (Fødtfør, År994 samt År995 er indikatorvariable) Dvs. vi kan finde OR for rygning vha. af ovenstående regressions model en simel logistisk regressionsmodel! Bemærk at estimation kan klares vha. af comuter! Ovenstående model kan udvides med alder, aritet og kalenderår. Det gør vi så!!! 3 Hvis vi tager eksonentiel funktion å begge sider får vi: Ryger ( ) ( Alder 30 ) ( ) odds = ex β ex β ex β ex β ex År994 ( β ) ex( β ) År995 De to ræsentationer af modellen er ækvivalente Nogle gange bliver modellen også beskrevet ved: = ( β0 + β Ryger+ β2 ( Alder ) + β3 Fødtfør+ β4 År + β5 År ) ( β0 β Ryger β2 ( Alder ) β3 Fødtfør β4 År β5 År ) ex 30 994 995 + ex + + 30 + + 994+ 995 Fødtfør 4 β 0 log odds for: Ikke ryger (Ryger = 0) 30 år (Alderyger-30 = 0) Førstegangsfødende (Fødtfør = 0) år =993 (År994 = 0 og År995 = 0) ex + ex ( β0 ) ( β ) ss for ræterm: Ikke ryger (Ryger = 0) 30 år (Alderyger-30 = 0) Førstegangsfødende (Fødtfør = 0) år =993 (År994 = 0 og År995 = 0) 0 5 Kvinde A: A A A ( odds) = β0 + β Ryger + β2 ( Alder ) ln 30 + β Fødtfør A A A 3 Kvinde B: ln 30 B B B ( odds) = β0 + β Ryger + β2 ( Alder ) + β Fødtfør B B B 3 A B ( ORA vs B ) = ( odds) ( odds) A B A B = β ( Ryger Ryger ) + β2 ( Alder Alder ) A B + β3 ( Fødtfør Fødtfør ) A B A B + β4 ( År994 År994) + β5 ( År995 År995) ln ln ln 6 Eidemiologi og Biostatistik: Uge 2 Mandag

β log OR ved sammenligning af en ryger og en ikke ryger, der: -har samme alder -føder samme år. log OR for rygning korrigeret for alder, aritet og fødselsår. ex( β ) OR for rygning korrigeret for alder, aritet og fødselsår. 7 β 2 log OR ved sammenligning af to kvinder med års aldersforskel, der: -føder samme år. log OR for års aldersforskel korrigeret for rygning, aritet og fødselsår. ex( β 2 ) OR for års aldersforskel korrigeret for rygning, aritet og fødselsår. 8 5 β 2 log OR ved sammenligning af to kvinder med 5 års aldersforskel, der: -føder samme år. log OR for års aldersforskel korrigeret for rygning, aritet og fødselsår. ex( β ) 5 2 OR for års aldersforskel korrigeret for rygning, aritet og fødselsår. 9 β 3 log OR ved sammenligning af en kvinde, der har født før med en førstegangsfødende, der: -har samme alder -føder samme år. log OR for født før korrigeret for rygning, alder og fødselsår. ex( β 3 ) OR for født før korrigeret for rygning, alder og fødselsår. 20 Eidemiologi og Biostatistik: Uge 2 Mandag

β 4 log OR ved sammenligning af en kvinder, der føder i 994 med en, der føder i 993 der: -har samme alder log OR for 994 versus 993 korrigeret for alder, rygning og aritet ex( β 4 ) β 5 log OR ved sammenligning af en kvinder, der føder i 995 med en, der føder i 993 der: -har samme alder log OR for 995 versus 993 korrigeret for alder, rygning og aritet ex( β 5 ) OR for 994 versus 993 korrigeret for alder, rygning og aritet 2 OR for 995 versus 993 korrigeret for alder, rygning og aritet 22 β β log OR ved sammenligning af en kvinder, der føder i 994 med en, der føder i 995 der: -har samme alder log OR for 994 versus 995 korrigeret for alder, rygning og aritet ex ex ( β ) ( β ) Estimater vha. comuter: Logistic regression Number of obs = 0509 reterm Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- _cons -3.5809 0.0680-29.57 0.000-3.3674-2.94876 ryger 0.5864 0.0670 5.45 0.000 0.37252 0.79077 alder30 0.042 0.050.24 0.26-0.00832 0.03675 multi -0.38558 0.053-3.49 0.000-0.60222-0.6893 aar 993 (base) 994-0.830 0.262 -.44 0.5-0.42850 0.06590 995-0.0362 0.2288-0. 0.92-0.25445 0.2272 OR for 994 versus 995 korrigeret for alder, rygning og De næste ar slides vil vi se å estimaterne ovenfor! aritet 23 24 Eidemiologi og Biostatistik: Uge 2 Mandag

Logistic regression Number of obs = 0509 reterm Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- _cons -3.5809 0.0680-29.57 0.000-3.3674-2.94876 Log odds for ræterm fødsel Ikke ryger,30 år, førstegangsfødende og år =993: -3.6(-3.37;-2.95) Sandsynlighed for ræterm fødsel Ikke ryger,30 år, førstegangsfødende og år =993: 4.08 (3.33; 4.98)% ex( 3.6) ex( 3.37) ex( 2.95) = 0.0408 = 0.0333 = 0.0498 + ex( 3.6) + ex( 3.37) + ex( 2.95) 25 Estimater i form af oddsratioer vha. comuter: Logistic regression Number of obs = 0509 reterm Odds Ratio Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- ryger.78898 0.9088 5.45 0.000.4539 2.20508 alder30.043 0.066.24 0.26 0.997.03743 multi 0.68006 0.0757-3.49 0.000 0.54760 0.84457 aar 993 (base) 994 0.8348 0.052 -.44 0.5 0.6549.0682 995 0.98647 0.22-0. 0.92 0.77534.2550 Sikkerhedsintervaller og test er lavet å log skala, så standard error of ORerne er ikke brugt. 26 Præsentation i artiklen: OR adjusted Smoker No Yes.79 (.45; 2.2) <0.00 Age Per year.0 (0.99;.04) 0.22 Parity Year First Multi 0.68 (0.55; 0.84) <0.00 993 994 0.83 (0.65;.07) 0.5 995 0.99 (0.78;.26) 0.9 Rygning korrigeret for alder, aritet og kalenderår. Flergangsfødende korrigeret for alder, kalenderår og rygning. 27 OR adjusted Smoker No Yes.79 (.45; 2.2) <0.00 Age Per year.0 (0.99;.04) 0.22 Parity Year First Multi 0.68 (0.55; 0.84) <0.00 993 994 0.83 (0.65;.07) 0.5 995 0.99 (0.78;.26) 0.9 Et års aldersforskel korrigeret for rygning, aritet og kalenderår. 994 vs 993 korrigeret for alder, aritet og rygning. 995 vs 993 korrigeret for alder, aritet og rygning. 28 Eidemiologi og Biostatistik: Uge 2 Mandag

-2. log odds -2.5-3 -3.5-4 0 20 30 40 50 Alder 993 -røg førstegang 993 +røg førstegang 993 -røg født før 993 +røg født før 994 -røg førstegang 994 +røg førstegang 994 -røg født før 994 +røg født før 995 -røg førstegang 995 +røg førstegang 995 -røg født før 995 +røg født før risk of reterm.08.06.04.02 0 20 30 40 50 Alder 993 -røg førstegang 993 +røg førstegang 993 -røg født før 993 +røg født før 994 -røg førstegang 994 +røg førstegang 994 -røg født før 994 +røg født før 995 -røg førstegang 995 +røg førstegang 995 -røg født før 995 +røg født før 29 30 Hvad er antagelserne bag modellen?. Additivitet bidrag for rygning, alder, aritet og kalenderår adderes. 2. Proortionalitet effekten af alder er roortional med alder 3. Ingen effektmodifikation effekt af en variabel afhænger ikke af niveauet af de andre. 4. Uafhængighed mellem kvinderne. Nøjagtig de samme som ved (normal) lineær regression, nu blot å log odds skalaen. 3 Validiteten af estimaterne/den statistiske analyse afhænger af hvorvidt antagelsen er (ca) ofyldt. Et eksemel: OR års aldersforskel.0(0.99;.04) =22%. Konklusion: alder har lille og muligvis ingen betydning for ræterm fødsel, når der er korrigeret rygning, aritet og fødselsår. MEN det er under antagelse af der en lineær sammenhæng mellem alder og log odds. Hvis dette ikke er en rimelig antagelse, så er vores konklusion forkert. 32 Eidemiologi og Biostatistik: Uge 2 Mandag

Alder ind som arabel: ( odds) = γ + γ Ryger + γ ( Alder ) + γ ( Alder ) 2 ln 30 30 -.5 + γ Fødtfør + γ År994 + γ År995 6 Logistic regression Number of obs = 0509 reterm Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- _cons -3.2476 0.306-28.72 0.000-3.46875-3.02557 ryger 0.55983 0.072 5.23 0.000 0.34987 0.76979 alder30 0.0882 0.0084.74 0.083-0.00243 0.04006 alder30^2 0.00385 0.0045 2.65 0.008 0.0000 0.00669 multi -0.37787 0.48-3.39 0.00-0.59638-0.5937 aar 993 (base) 994-0.8572 0.2620 -.47 0.4-0.43306 0.0662 995-0.00970 0.2295-0.08 0.937-0.25068 0.2329 log odds -2-2.5-3 -3.5-4 0 20 30 40 50 Alder 993 -røg førstegang 993 +røg førstegang 993 -røg født før 993 +røg født før 994 -røg førstegang 994 +røg førstegang 994 -røg født før 994 +røg født før 995 -røg førstegang 995 +røg førstegang 995 -røg født før 995 +røg født før Alder betyder noget!! 33 34 Logistisk regression - kommentarer Modellerne har en del til fælles med lineær normal regression modeller. Men logistisk regression anvendes ved binært/dikotomt outcome. Der er ingen krav/antagelser angående fordeling af de forklarende variable (her rygning, alder aritet og kalenderår). Da stand errors og sikkerheds intervaller er aroksimative (som sædvanligt) kræves det at der mindst 5 events er arameter i modellen. Vi har set å en model med 6 arametre, dvs. der burde være mere end 6*5 =90 events (ræterme fødsler). Der var 399, så det er ok. Logistisk regression - kommentarer Logistisk regression kan anvendes i forbindelse med analyse af sandsynligheder/odds, dvs. ved tværsnitsstudier og followu studier, med fuldt follow u. I studier uden fuldt followu for alle kan de ikke anvendes, der anvender man tyisk Cox roortional hazard model eller Poisson regression, som vi ser å næste gang. Logistisk regression anvendes også ved analyse af umatchede case-control studier. Her har konstantledet ingen mening, men odds ratioerne kan tolkes som i et followu studie. Matched case-control studier bør analyseres vha. betinget (conditional) logistisk regression. 35 36 Eidemiologi og Biostatistik: Uge 2 Mandag

Logistisk regression - generelt Logistisk regression - generelt ln( odds) = ln β0 βi xi = + i= Antag at erson A har værdierne: A A A x, x2,, x Antag at erson B har værdierne: B B B x, x2,, x x x x 2 odds = ex β0 + βi xi = ex( β0 ) OR OR2 OR i= OR = ex( β ) i i Difference i log odds mellem A og B er A B β0 + βi xi β0 + βi xi i= i= A B ( ) = β x x = β x i i i i i i= i= x = x x A B i i i 37 Antag at erson A har værdierne: A A A x, x2,, x Antag at erson B har værdierne: B B B x, x2,, x Oddsratio ved sammenligning af A og B x x2 2 x OR = OR OR OR x = x x A B i i i 38 Logistisk regression - generelt ex β0 + βi xi i= = + ex β0 + βi xi i= A A A Antag at erson A har værdierne: x, x2,, x B B B Antag at erson B har værdierne: x, x2,, x Oddsratio ved sammenligning af A og B x x2 2 x OR = OR OR OR OR = ex( β ) i i x = x x A B i i i 39 Eidemiologi og Biostatistik: Uge 2 Mandag