Morten Frydenberg Biostatistik version dato:

Relaterede dokumenter
6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Morten Frydenberg Version: Thursday, 16 June 2011

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Kvantitative metoder 2

Lineær regressionsanalyse8

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Kvantitative metoder 2

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Ugeseddel 8. Gruppearbejde:

Morten Frydenberg Biostatistik version dato:

Økonometri 1 Efterår 2006 Ugeseddel 9

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Morten Frydenberg Biostatistik version dato:

Bilag 6: Økonometriske

Økonometri 1 Efterår 2006 Ugeseddel 13

Binomialfordelingen: april 09 GJ

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Kvantitative metoder 2

Kvantitative metoder 2

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

DLU med CES-nytte. Resumé:

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Simpel Lineær Regression - repetition

Brugen af R^2 i gymnasiet

χ 2 -fordelte variable

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Morten Frydenberg Biostatistik version dato:

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

RESEARCH PAPER. Nr. 7, Prisoptimering i logitmodellen under homogen og heterogen forbrugeradfærd. Jørgen Kai Olsen

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Kvantitative metoder 2

Sandsynlighedsregning og statistik med binomialfordelingen

Scorer FCK "for mange" mål i det sidste kvarter?

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Repetition. Forårets højdepunkter

23. februar Epidemiologi og biostatistik. Uge 5, mandag 27. februar 2006 Michael Væth, Institut for Biostatistik.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Tabsberegninger i Elsam-sagen

Fysik 3. Indhold. 1. Sandsynlighedsteori

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Validering og test af stokastisk trafikmodel

Binomialfordelingen. Erik Vestergaard

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Beregning af strukturel arbejdsstyrke

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

TALTEORI Følger og den kinesiske restklassesætning.

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Husholdningsbudgetberegner

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Løsninger til kapitel 12

Måleusikkerhed i kalibrering Nr. : AB 11 Dato : Side : 1/3

Spørgsmål 1 (5 %) Bestem sandsynligheden for at batteriet kan anvendes i mere end 5 timer.

10. Usikkerhed og fejlsøgning

Forelæsning 11: Kapitel 11: Regressionsanalyse

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Undersøgelse af pris- og indkomstelasticiteter i forbrugssystemet - estimeret med AIDS

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Notat om porteføljemodeller

Inertimoment for arealer

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, tirsdag

BESKÆFTIGELSES- OG LØNSTATISTIK FOR KVINDER

Korrelation Pearson korrelationen

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, tirsdag. Noget om meta-analyse og vægtning af estimater.

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Regressionsmodeller. Kapitel Ikke-lineær regression

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Fastlæggelse af strukturel arbejdsstyrke

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Transkript:

Morten Frydenberg Bostatstk verson dato: -4- Bostatstk uge mandag Morten Frydenberg, Afdelng for Bostatstk Resume: Hvad har v været gennem ndtl nu Lneær (normal) regresson en kontnuert forklarende varabel - Model Systematsk og tlfældg del - Antagelser - Parametre - Inferens Korrelaton Pearson korrelaton - Searman korrelaton flere forklarende varabel - Model Systematsk og tlfældg del - Antagelser - Parametre - Inferens Resume de første fre dage Generel om nferens Resume de første fre dage Beskrve og sammenlgne ersoner/gruer Estmat Standard error Arok. Skkerhedsnterval (eksakt skkerhedsntervaller nogle secelle tlfælde) Statstk hyotese Test og -værd Standard error for dfferens mellem to uafhængge estmater Standard error for samvægtede estmater Prædktonsnterval (normalfordelt data) Emne Bnære resons Tme to event data En grue To gruer Flere gruer (test) Korrekton v. vægtnng Regresson Kum. Incdens Prævalens ro. Uge RR, RD, OR Uge X -test Uge 4 Vægtnng Uge 7 Logstsk Uge Rate Uge 4 IRR IRD Uge 4 Vægtnng Uge 7 Cox ro. haz. Uge 4 Kontnuert Mddelværd Medan Uge 6 Dfferens Rato (log-data) Uge 6 Ensdet ANOVA Uge 6 Vægtnng Uge 7 Lneær Uge 4 Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Lnens lgnng y = β + β x Lnens lgnng Alternatve ræsentaton/arametrserng y = β + β x ( β β x ) β ( x x ) = + + β y β β β + β x y x x x 5 6 Plasma volume (l) KS Examle. Krosvægt og Plasmavolumen.6.4. Model: Vol = β + β Weght + Error Error N (, σ ) Antagelser:. Plasma volumen er mddel en lneær funkton af vægten.. Der tl lægges, der noget tlfældg/uforklaret varaton.. Den tlfældge/uforklarede afvgelse er uafhængg fra erson tl erson. 4. Den uforklarede varaton antages at være normalfordelt med mddelværd og srednng σ..8 Model:.6 55 6 65 7 75 Body weght (kg) Vol = β + β Weght + Error Modellen ndeholder TRE arametre β, β og σ Estmater fndes vha. comuter. 7 8 Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Tolknng af arametrene Model: Vol = β + β Weght + Error Error N (, σ ) β er mddel lasmavolumen for en erson, der kke vejer noget det gver ngen menng! se næste slde. Tolknng af arametrene: alternatv arametrserng ( ) ( ) Vol = α65 + β Weght 65 + Error Error N, σ α = β + β 65 65 α 65 er mddel lasmavolumen for en erson, der vejer 65 kg. β er mddelforskellen lasmavolumen for to ersoner, der afvger enhed (her kg) vægt. Eller mddelforskellen lasma volumen for to ersoner, der afvger k enheder (k kg) vægt, er k β σ kan bedst forstås vha. et rædktons nterval: 95% af observatonerne vl lgge en afstand å mndre end.96 σ fra den rette lne. 9 β er mddelforskellen lasmavolumen for to ersoner, der afvger enhed (her kg) vægt. Eller mddelforskellen lasma volumen for to ersoner, der afvger k enheder (k kg) vægt, er k β σ kan bedst forstås vha. et rædktons nterval: 95% af observatonerne vl lgge en afstand å mndre end.96 σ fra den rette lne. Uændret Model: Vol = β + β Weght + Error Error N (, σ ) Den estmerede lne (kke den sande sammenhæng). regress lasma weght Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- weght.465 684.86.9.655.89757 _cons.85744.998.8.96 -.4999 958 ( lter ) se( ˆ β ) ( lter) ˆ β =.857 =.4 ( lter kg ) se( ˆ β ) ( lter kg ) ˆ β =.46 = ˆ α ˆ σ =.88 ( lter ) 4. semester ( lter) se( ˆ α ) 4 ( lter) =.97 =.8 65 65 Plasma volume (l) 4 y =.857 +.46 x 4 6 8 Body weght (kg) Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Den estmerede lne (kke den sande sammenhæng).6.4. y =.857 +.46 x ( x ) =.97 +.46 65 Smel lnear regresson: Skkerhedsntervaller Eksakte 95% skkerhedsntervaller for β og β fndes baseret å estmater og se ved brug af t-fordelngen.975 95% CI for β : ˆ β ± t se ˆ β.975 t ( ) ( ˆ ) n 95% CI for β : ˆ β ± t se β.975 n Hvor n er den øvre 97 ercentl en t-fordelng med n- frhedsgrader. Det er dsse skkerhedsntervaller comuteren beregner..8.6 55 6 65 7 75 Body weght (kg) Hvs n er stor vrker den sædvanlge aroksmaton ( ˆ ) ( ˆ ) Ar. 95% CI for β : ˆ β ±.96 se β Ar. 95% CI for β : ˆ β ±.96 se β 4 ( ) ( ) β x = σ x ( ˆ x se β ) = ˆ σ + n ( x x ) se ˆ ˆ Ldt om estmatonsmetoden og standard errors Estmaterne for β og β fndes vha. af Maxmum Lkelhood metoden, der denne model svarer tl mndste kvadraters metode. Estmaterne kan beregnes hånden, men det gør man aldrg. Obs. de to estmater er kke uafhængge. De standard errors er gvet ved: Hældnngen er bedst bestemt hvs den tlfældg varaton er llle eller x erne varerer meget. Afskærngen er godt bestemt hvs: den tlfældg varaton er llle, stkrøven er stor eller gennemsnttet af x erne er tæt å nul. 5 Smel lnear regresson: Tests Hyoteser angående β eller β kan testes å sædvanlg vl baseret å estmat og stadard error: Eksakt -værd kanfndes vha af t-fordelng : Hyotese: Test størrelse: β = β Η ˆ β β z se H = P-value: P( tn < z ) ( ˆ β ) De test, der står et outut fra et statstk rogram vl teste hyotesen om den gvne arameter er lg nul, β j = Hvs n er stor kan -værden fndes vha. standard normalfordelngen, som v lejer. 6 Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Resume af resultaterne. generate w65=weght-65. regress lasma w65 Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- w65.465 684.86.9.655.89757 _cons.97.8488 5.4..7888 6 Resume af resultaterne. generate w65=weght-65. regress lasma w65 Source SS df MS Number of obs = 8 -------------+------------------------------ F(, 6) = 8.6 Model.96845.96845 Prob > F =.89 Resdual.876568 6.4787764 R-squared = 76 -------------+------------------------------ Adj R-squared = 57 Total.677956 7.9685 Root MSE =.88 lasma Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- w65.465 684.86.9.655.89757 _cons.97.8488 5.4..7888 6 Mddel lasma volumen for en rask mand, der vejer 65kg, er.9(.7;.) lter. Mddel dfferensen lasma volumen mellem to mænd, hvor den ene vejer kg mere end den anden, er.4(.6;.8)lter. Plasma volumen er statstsk sgnfkant assoceret med vægten (=.9%). 7 Et 95% rædktonsnterval omkrng lnen vl være å ±.96*.88= ±.4 lter. 57.6% af varatonen lasma volumen kan forklares ved at forskel vægt. Dvs. r =76 se næste sldes. 8 (Pearson) korrelatonskoeffcent, ρ, er et mål for styrken af den lneære sammenhæng mellem to varable x og y der følger en bvarate normal fordelng. Dette betyder at blandt andet at x og y skal være normal fordelte og der skal være en lneær sammenhæng mellem x og y. Korrelatonskoeffcenten har følgende egenskaber: ρ er symmetrsk x og y ρ er uafhængg af enheder for x og y ρ = ± hvs x og y lgger ræcst å en ret lne. - ρ (Pearson) korrelatonskoeffcent Hvs x og y er uafhængge, så ρ = 9 The (Pearson) correlaton coeffcent Korrelatonskoeffcenten kan bedst forstås som hvs man kvadrerer den. ρ = Hvor stor en andel af varatonen den ene varable kan forklares ved varatonen af den anden varabel. Så hvs ρ =.8 så er ρ =.64 = 64%, og man kan dermed sge at 64% af varatonen y kan forklares ved varaton x og omvendt. ρ blver estmeret ved den emrske korrelatonskoeffcent r: ˆ ρ = r = ( x x ) ( y y ) ( x x ) ( y y ) Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- The (Pearson) correlaton coeffcent Det er mulgt at lave aroxksmatve skkerhedsntervaller for Pearson korrelaton (se s95-96 n Krkwood & Sterne). Det er mulgt at lave et eksakt test for hyotesen : ρ = Dette test er dentsk med tested for hældnng lg nul den smle lneære regressons models. Anvendelse af korrelatonskoeffcenter: Korrelatonskoeffcenter blver anvendt mange artkler, desværre ofte forkert eller uden egentlg at gve den relevante nformaton. Den meste udbredte msbrug er ved sammenlgnng af målemetoder, hvor korrelatons koeffcenter som regel er uden menng. Subject Searman s rank korrelaton Body weght Plasma volume Obs Rank Obs Rank 58..75 7. 5.86 4 74. 8.7 7 4 6.76 5 6..6 6 7 6.49 8 7 7. 7 5 8 66. 4. 6 X og y rang- ordnes, hver for sg. Searman s rank beregnes som korrelatonen mellem rangene! Den har samme egenskaber som korrelatonen, men kan kke fortolkes. Men et test baseret Searman s rank korrelaton å for ngen sammenhæng mellem x o y er oftest valdt. Eksemler å Pearson og Searman korrelatoner Lungefunkton FEV hos 66 eruvanske børn r =. r =.74 r = -.98 FEV (ltres) FEV (ltres) searman =.67 r = searman =.78 r =.87 searman = -.9 r = -.8 7 8 9 Age (years) 4 5 Heght (cm) FEV (ltres) FEV (ltres) searman = searman = searman =.75 NO boy Yes NO Yes Resratory symtoms n revous months Husk: Lav altd en tegnng af data!!!! 4 Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Lungefunkton FEV hos 66 eruvanske børn En multle regressons model: FEV = β + β age + β heght + β boy + Error Hvor boy = hvs barnet er en dreng og hvs det er en ge. Error er normal fordelt med mddelværd og srednng σ 5 Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Antagelser:. FEV er mddel en lneær funkton af alder, højde og køn.. Der tl lægges, der noget tlfældg/uforklaret varaton.. Den tlfældge/uforklarede afvgelse er uafhængg fra erson tl erson. 4. Den uforklarede varaton antages at være normalfordelt med mddelværd og srednng σ. Modellen ndeholder FEM arametre β, β, β, β Estmater fndes vha. comuter. og σ 6 Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Tolknng: β β β β σ Mddel FEV for en ge, cm og år ngen menng! Men hvs v vælger anden reference for alder og højde gver det menng. Dfference mddel FEV for to ersoner med samme køn og højde, men hvor den ene er år ældre end den anden Dfference mddel FEV for to ersoner med samme køn og alder, men hvor den ene er cm højere end den anden Dfference mddel FEV en dreng og en ge med samme højde og alder Gang med.96 så har v et rædktons nterval. Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Mddel dfference mellem A: Pge 9 år cm B: Dreng år 5 cm [ β + β 9år + β cm + β ] [ β + β år + β 5cm + β ] = β ( 9 ) år + β ( 5) cm + β ( ) = år β + 5cm β β 7 8 Edemolog og Bostatstk: Uge Mandag

Morten Frydenberg Bostatstk verson dato: -4- Lungefunkton FEV hos 66 eruvanske børn Lungefunkton FEV hos 66 eruvanske børn ( 9) ( 4) FEV = β + β age + β heght + β boy ( 9) ( 4) FEV = β + β age + β heght + β boy + Error + Error generate h4=heght-4 generate age9=age-9 regress fev age9 h4 boy Source SS df MS Number of obs = 66 -------------+------------------------------ F(, 6) = 9.7 Model 7.96745 9.788 Prob > F =. Resdual.89885 6.488786 R-squared =.475 -------------+------------------------------ Adj R-squared =.477 Total 58.8584 65.9694 Root MSE =.9 fev Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- age9.945975 86 6...647758.449 h4.4567.75 4.4...84 boy.75778 6.9..8686 58494 _cons 747.795 7.8. 75 69 Som K&S table.6 ånær 9 ge 9 år og 4 cm ˆ β: :7(4;6) lter ˆ β :.95(.65;.4) lter / år ˆ β : (.;.8) lter / cm ˆ β :.(.87;6) lter ˆ σ :. lter Lungefunkton FEV hos 66 eruvanske børn FEV = β + β age + β heght + β boy + Error Estmeret mddel dfference mellem A: Pge 9 år cm B: Dreng år 5 cm df: -dreng -år 5 cm år ˆ β + 5cm ˆ β ˆ β (.95 5.) = + =.88lter Standard error kan kke fndes hånden!!! lter Multle lneær regresson - generelt = (, ) Y = β + β x + Error Error N σ Antag at erson A har værderne: A x, A x,, A x Antag at erson B har værderne: B x, B x,, B x Mddel dfferensen Y mellem A og B er A B β + β x β + β x = = A B ( ) = β x x = β x = = x = x x A B Edemolog og Bostatstk: Uge Mandag