Morten Frydenberg Bostatstk verson dato: -4- Bostatstk uge mandag Morten Frydenberg, Afdelng for Bostatstk Resume: Hvad har v været gennem ndtl nu Lneær (normal) regresson en kontnuert forklarende varabel - Model Systematsk og tlfældg del - Antagelser - Parametre - Inferens Korrelaton Pearson korrelaton - Searman korrelaton flere forklarende varabel - Model Systematsk og tlfældg del - Antagelser - Parametre - Inferens Resume de første fre dage Generel om nferens Resume de første fre dage Beskrve og sammenlgne ersoner/gruer Estmat Standard error Arok. Skkerhedsnterval (eksakt skkerhedsntervaller nogle secelle tlfælde) Statstk hyotese Test og -værd Standard error for dfferens mellem to uafhængge estmater Standard error for samvægtede estmater Prædktonsnterval (normalfordelt data) Emne Bnære resons Tme to event data En grue To gruer Flere gruer (test) Korrekton v. vægtnng Regresson Kum. Incdens Prævalens ro. Uge RR, RD, OR Uge X -test Uge 4 Vægtnng Uge 7 Logstsk Uge Rate Uge 4 IRR IRD Uge 4 Vægtnng Uge 7 Cox ro. haz. Uge 4 Kontnuert Mddelværd Medan Uge 6 Dfferens Rato (log-data) Uge 6 Ensdet ANOVA Uge 6 Vægtnng Uge 7 Lneær Uge 4 Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Lnens lgnng y = β + β x Lnens lgnng Alternatve ræsentaton/arametrserng y = β + β x ( β β x ) β ( x x ) = + + β y β β β + β x y x x x 5 6 Plasma volume (l) KS Examle. Krosvægt og Plasmavolumen.6.4. Model: Vol = β + β Weght + Error Error N (, σ ) Antagelser:. Plasma volumen er mddel en lneær funkton af vægten.. Der tl lægges, der noget tlfældg/uforklaret varaton.. Den tlfældge/uforklarede afvgelse er uafhængg fra erson tl erson. 4. Den uforklarede varaton antages at være normalfordelt med mddelværd og srednng σ..8 Model:.6 55 6 65 7 75 Body weght (kg) Vol = β + β Weght + Error Modellen ndeholder TRE arametre β, β og σ Estmater fndes vha. comuter. 7 8 Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Tolknng af arametrene Model: Vol = β + β Weght + Error Error N (, σ ) β er mddel lasmavolumen for en erson, der kke vejer noget det gver ngen menng! se næste slde. Tolknng af arametrene: alternatv arametrserng ( ) ( ) Vol = α65 + β Weght 65 + Error Error N, σ α = β + β 65 65 α 65 er mddel lasmavolumen for en erson, der vejer 65 kg. β er mddelforskellen lasmavolumen for to ersoner, der afvger enhed (her kg) vægt. Eller mddelforskellen lasma volumen for to ersoner, der afvger k enheder (k kg) vægt, er k β σ kan bedst forstås vha. et rædktons nterval: 95% af observatonerne vl lgge en afstand å mndre end.96 σ fra den rette lne. 9 β er mddelforskellen lasmavolumen for to ersoner, der afvger enhed (her kg) vægt. Eller mddelforskellen lasma volumen for to ersoner, der afvger k enheder (k kg) vægt, er k β σ kan bedst forstås vha. et rædktons nterval: 95% af observatonerne vl lgge en afstand å mndre end.96 σ fra den rette lne. Uændret Model: Vol = β + β Weght + Error Error N (, σ ) Den estmerede lne (kke den sande sammenhæng). regress lasma weght Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- weght.465 684.86.9.655.89757 _cons.85744.998.8.96 -.4999 958 ( lter ) se( ˆ β ) ( lter) ˆ β =.857 =.4 ( lter kg ) se( ˆ β ) ( lter kg ) ˆ β =.46 = ˆ α ˆ σ =.88 ( lter ) 4. semester ( lter) se( ˆ α ) 4 ( lter) =.97 =.8 65 65 Plasma volume (l) 4 y =.857 +.46 x 4 6 8 Body weght (kg) Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Den estmerede lne (kke den sande sammenhæng).6.4. y =.857 +.46 x ( x ) =.97 +.46 65 Smel lnear regresson: Skkerhedsntervaller Eksakte 95% skkerhedsntervaller for β og β fndes baseret å estmater og se ved brug af t-fordelngen.975 95% CI for β : ˆ β ± t se ˆ β.975 t ( ) ( ˆ ) n 95% CI for β : ˆ β ± t se β.975 n Hvor n er den øvre 97 ercentl en t-fordelng med n- frhedsgrader. Det er dsse skkerhedsntervaller comuteren beregner..8.6 55 6 65 7 75 Body weght (kg) Hvs n er stor vrker den sædvanlge aroksmaton ( ˆ ) ( ˆ ) Ar. 95% CI for β : ˆ β ±.96 se β Ar. 95% CI for β : ˆ β ±.96 se β 4 ( ) ( ) β x = σ x ( ˆ x se β ) = ˆ σ + n ( x x ) se ˆ ˆ Ldt om estmatonsmetoden og standard errors Estmaterne for β og β fndes vha. af Maxmum Lkelhood metoden, der denne model svarer tl mndste kvadraters metode. Estmaterne kan beregnes hånden, men det gør man aldrg. Obs. de to estmater er kke uafhængge. De standard errors er gvet ved: Hældnngen er bedst bestemt hvs den tlfældg varaton er llle eller x erne varerer meget. Afskærngen er godt bestemt hvs: den tlfældg varaton er llle, stkrøven er stor eller gennemsnttet af x erne er tæt å nul. 5 Smel lnear regresson: Tests Hyoteser angående β eller β kan testes å sædvanlg vl baseret å estmat og stadard error: Eksakt -værd kanfndes vha af t-fordelng : Hyotese: Test størrelse: β = β Η ˆ β β z se H = P-value: P( tn < z ) ( ˆ β ) De test, der står et outut fra et statstk rogram vl teste hyotesen om den gvne arameter er lg nul, β j = Hvs n er stor kan -værden fndes vha. standard normalfordelngen, som v lejer. 6 Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Resume af resultaterne. generate w65=weght-65. regress lasma w65 Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- w65.465 684.86.9.655.89757 _cons.97.8488 5.4..7888 6 Resume af resultaterne. generate w65=weght-65. regress lasma w65 Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- w65.465 684.86.9.655.89757 _cons.97.8488 5.4..7888 6 Mddel lasma volumen for en rask mand, der vejer 65kg, er.9(.7;.) lter. Mddel dfferensen lasma volumen mellem to mænd, hvor den ene vejer kg mere end den anden, er.4(.6;.8)lter. Plasma volumen er statstsk sgnfkant assoceret med vægten (=.9%). 7 Et 95% rædktonsnterval omkrng lnen vl være å ±.96*.88= ±.4 lter. 57.6% af varatonen lasma volumen kan forklares ved at forskel vægt. Dvs. r =76 se næste sldes. 8 (Pearson) korrelatonskoeffcent, ρ, er et mål for styrken af den lneære sammenhæng mellem to varable x og y der følger en bvarate normal fordelng. Dette betyder at blandt andet at x og y skal være normal fordelte og der skal være en lneær sammenhæng mellem x og y. Korrelatonskoeffcenten har følgende egenskaber: ρ er symmetrsk x og y ρ er uafhængg af enheder for x og y ρ = ± hvs x og y lgger ræcst å en ret lne. - ρ (Pearson) korrelatonskoeffcent Hvs x og y er uafhængge, så ρ = 9 The (Pearson) correlaton coeffcent Korrelatonskoeffcenten kan bedst forstås som hvs man kvadrerer den. ρ = Hvor stor en andel af varatonen den ene varable kan forklares ved varatonen af den anden varabel. Så hvs ρ =.8 så er ρ =.64 = 64%, og man kan dermed sge at 64% af varatonen y kan forklares ved varaton x og omvendt. ρ blver estmeret ved den emrske korrelatonskoeffcent r: ˆ ρ = r = ( x x ) ( y y ) ( x x ) ( y y ) Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- The (Pearson) correlaton coeffcent Det er mulgt at lave aroxksmatve skkerhedsntervaller for Pearson korrelaton (se s95-96 n Krkwood & Sterne). Det er mulgt at lave et eksakt test for hyotesen : ρ = Dette test er dentsk med tested for hældnng lg nul den smle lneære regressons models. Anvendelse af korrelatonskoeffcenter: Korrelatonskoeffcenter blver anvendt mange artkler, desværre ofte forkert eller uden egentlg at gve den relevante nformaton. Den meste udbredte msbrug er ved sammenlgnng af målemetoder, hvor korrelatons koeffcenter som regel er uden menng. Subject Searman s rank korrelaton Body weght Plasma volume Obs Rank Obs Rank 58..75 7. 5.86 4 74. 8.7 7 4 6.76 5 6..6 6 7 6.49 8 7 7. 7 5 8 66. 4. 6 X og y rang- ordnes, hver for sg. Searman s rank beregnes som korrelatonen mellem rangene! Den har samme egenskaber som korrelatonen, men kan kke fortolkes. Men et test baseret Searman s rank korrelaton å for ngen sammenhæng mellem x o y er oftest valdt. Eksemler å Pearson og Searman korrelatoner Lungefunkton FEV hos 66 eruvanske børn r =. r =.74 r = -.98 FEV (ltres) FEV (ltres) searman =.67 r = searman =.78 r =.87 searman = -.9 r = -.8 7 8 9 Age (years) 4 5 Heght (cm) FEV (ltres) FEV (ltres) searman = searman = searman =.75 NO boy Yes NO Yes Resratory symtoms n revous months Husk: Lav altd en tegnng af data!!!! 4 Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Lungefunkton FEV hos 66 eruvanske børn En multle regressons model: FEV = β + β age + β heght + β boy + Error Hvor boy = hvs barnet er en dreng og hvs det er en ge. Error er normal fordelt med mddelværd og srednng σ 5 Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Antagelser:. FEV er mddel en lneær funkton af alder, højde og køn.. Der tl lægges, der noget tlfældg/uforklaret varaton.. Den tlfældge/uforklarede afvgelse er uafhængg fra erson tl erson. 4. Den uforklarede varaton antages at være normalfordelt med mddelværd og srednng σ. Modellen ndeholder FEM arametre β, β, β, β Estmater fndes vha. comuter. og σ 6 Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Tolknng: β β β β σ Mddel FEV for en ge, cm og år ngen menng! Men hvs v vælger anden reference for alder og højde gver det menng. Dfference mddel FEV for to ersoner med samme køn og højde, men hvor den ene er år ældre end den anden Dfference mddel FEV for to ersoner med samme køn og alder, men hvor den ene er cm højere end den anden Dfference mddel FEV en dreng og en ge med samme højde og alder Gang med.96 så har v et rædktons nterval. Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Mddel dfference mellem A: Pge 9 år cm B: Dreng år 5 cm [ β + β 9år + β cm + β ] [ β + β år + β 5cm + β ] = β ( 9 ) år + β ( 5) cm + β ( ) = år β + 5cm β β 7 8 Edemolog og Bostatstk: Uge Mandag
Morten Frydenberg Bostatstk verson dato: -4- Lungefunkton FEV hos 66 eruvanske børn Lungefunkton FEV hos 66 eruvanske børn ( 9) ( 4) FEV = β + β age + β heght + β boy ( 9) ( 4) FEV = β + β age + β heght + β boy + Error + Error generate h4=heght-4 generate age9=age-9 regress fev age9 h4 boy Source SS df MS Number of obs = 66 -------------+------------------------------ F(, 6) = 9.7 Model 7.96745 9.788 Prob > F =. Resdual.89885 6.488786 R-squared =.475 -------------+------------------------------ Adj R-squared =.477 Total 58.8584 65.9694 Root MSE =.9 fev Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- age9.945975 86 6...647758.449 h4.4567.75 4.4...84 boy.75778 6.9..8686 58494 _cons 747.795 7.8. 75 69 Som K&S table.6 ånær 9 ge 9 år og 4 cm ˆ β: :7(4;6) lter ˆ β :.95(.65;.4) lter / år ˆ β : (.;.8) lter / cm ˆ β :.(.87;6) lter ˆ σ :. lter Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Estmeret mddel dfference mellem A: Pge 9 år cm B: Dreng år 5 cm df: -dreng -år 5 cm år ˆ β + 5cm ˆ β ˆ β (.95 5.) = + =.88lter Standard error kan kke fndes hånden!!! lter Multle lneær regresson - generelt = (, ) Y = β + β x + Error Error N σ Antag at erson A har værderne: A x, A x,, A x Antag at erson B har værderne: B x, B x,, B x Mddel dfferensen Y mellem A og B er A B β + β x β + β x = = A B ( ) = β x x = β x = = x = x x A B Edemolog og Bostatstk: Uge Mandag