Basal Statistik for medicinske PhD-studerende November 2008

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Basal Statistik for medicinske PhD-studerende November 2008"

Transkript

1 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet Logistisk regression Logistisk regression omhandler analyse af responsvariable der kun har to mulige udfald også kaldet 0-1 variable binære variable ja-nej variable November 2008: Logistisk regression 1 Eksempler er: Syg-rask død-levende stor-lille Responsvariablen ønskes forklaret af en eller flere forklarende variable. November 2008: Logistisk regression 2

2 Eksempel på 0-1 variabel Knoglemarvstransplantation på 37 leukæmipatienter, udfaldet er forekomst af acute graft versus host disease, GvHD (DGA, s.361). Obs gvhd donage preg type November 2008: Logistisk regression 3 Udfaldet gvhd = Forklarende variable: { 1 hvis patienten oplevede GvHD 0 hvis patienten ikke oplevede GvHD donage: donors alder preg: har donor nogensinde været gravid = { 1 ja 0 nej November 2008: Logistisk regression 4 1 akut myeloid leukæmi (AML) type: leukæmitype = 2 akut lymfatisk leukæmi (ALL) 3 kronisk myeloid leukæmi (CML) Hvilken betydning har de forklarende variable for risikoen for at opleve GvHD? November 2008: Logistisk regression 5

3 Sædvanlig lineær regression Her er responsvariablen y i kvantitativ og vi antager, at den er normalfordelt y i = b 0 + b 1 x 1i + b 2 x 2i + e i, e i N(0, σ 2 ) eller: y i N(b 0 + b 1 x 1i + b 2 x 2i, σ 2 ) Forklarende variable: x 1i, x 2i Regressionskoefficienter: b 0, b 1, b 2 November 2008: Logistisk regression 6 Fortolkning af lineær regression: Hvad påvirker størrelse af thymus hos spædbørn: thymus størrelse = dreng+0.35 fødslesvægt i 100 gram For et givent køn vokser thymus med 0.35 pr. 100 g fødselsvægt. For en given vægt er thymus 1.06 større hos drenge end hos piger. For et pige barn med vægt lig 0 er den forventede thymus størrelse November 2008: Logistisk regression 7 Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen. Effekten af de forklarende variable er lineær. November 2008: Logistisk regression 8

4 Analyse af 0-1 variabel Responsvariabel binær (0/1) hvordan udtrykkes afhængighed af donors alder (donage), donors graviditetshistorie (preg) og patientens type af leukæmi (type) Model for p = P {GvHD} [0,1] Upraktisk med p = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 November 2008: Logistisk regression 9 Transformationer Lidt bedre med ln(p) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 Bedst med logistisk regression som benytter logaritmen (naturlige) til odds ( ) p ln = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 1 p November 2008: Logistisk regression 10 Logistisk regression - lidt mere præcist ( ) p logit(p) = ln = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 1 p Binære udfald: Y {0, 1} Sandsynlighed: p = P {Y = 1} [0,1] Odds: ω = p ω [0,+ ] dvs. p = 1 p 1 + ω Odds-ratio: OR = p / 1 p2 [0,+ ] 1 p 1 1 p 2 November 2008: Logistisk regression 11

5 ( ) p log-odds: logit(p) = ln 1 p logit kaldes også for link-funktionen. Lineær prediktor: Prædikteret odds: logit(p) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 = η ω = exp(η) Prædikteret sandsynlighed: p = ω 1 + ω = exp(η) 1 + exp(η) November 2008: Logistisk regression 12 Logistisk regression fortolkning To grupper, med sandsynligheder p 1 hhv. p 2 : ( ) ( ) p1 p2 logit(p 1 ) logit(p 2 ) = ln ln 1 p 1 1 p 2 ( / ) p1 p2 = ln 1 p 1 1 p 2 = ln(or) Lineære modeller for logit(p) giver sammenligninger via odds-ratios. November 2008: Logistisk regression 13 Estimation af regressionskeofficienterne foregår ved en metode kaldet maksimum likelihood estimation. I logistisk regression er denne metode en iterativ procedure som der ikke er nogle simple formler for. Hjælpen er SAS (eller anden statistik software). November 2008: Logistisk regression 14

6 Logistisk regression af GvHD En model kun med den binære forklarende variabel preg (har donor nogensinde været gravid). p = P {GvHD} ( ) p logit(p) = ln = b 0 + b 1 preg 1 p Resulterende model: logit(p) = preg November 2008: Logistisk regression 15 Modellen logit(p) = preg udtrykkes som sandsynlighed: p = exp( preg) 1 + exp( preg) = { 0.33 hvis preg= hvis preg=1 November 2008: Logistisk regression 16 Binær forklarende variabel Log-odds for GvHD for en patient hvis donor har været gravid (preg=1): ( ) p1 ln = ln(ω 1 ) = b 0 + b 1 1 = b 0 + b 1 1 p 1 Log-odds for GvHD for en patient hvis donor IKKE har været gravid (preg=0): ( ) p0 ln = ln(ω 0 ) = b 0 + b 1 0 = b 0 1 p 0 November 2008: Logistisk regression 17

7 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 + b 1 b 0 = b 1 Husk regnereglerne for logaritmer: ln(ω 1 ) ln(ω 0 ) = ln ( ω1 ω 0 ) = b 1 Dvs. odds ratio mellem de to typer af patienter er OR = ω 1 ω 0 = exp(b 1 ) = exp(2.0794) = 8 November 2008: Logistisk regression 18 Fortolkningen er, at en patient hvis donor har været gravid har 8 gange større odds for GvHD end en patient hvis donor ikke har været gravid. Donor gravid Ja Nej Total GvHD GvHD Total Odds ratio i denne 2 x 2 tabel beregnes som... Sandsynlighederne for GvHD afhængig af donorerens November 2008: Logistisk regression 19 graviditetshistorie... sammenlign med slide nr.??. November 2008: Logistisk regression 20

8 Donor gravid Ja Nej Total GvHD GvHD Total OR = 8/2 9/18 = = 8 p 1 = 8 10 = 0.8, p 0 = = 0.33 RR = = 2.4 November 2008: Logistisk regression 21 I dette eksempel er værdierne for OR og RR meget forskellige. Hvorfor? Hvis udfaldet er forholdsvis sjældent vil OR og RR ligge tættere i værdi. November 2008: Logistisk regression 22 Vi udvider nu med at inkludere donors alder, donage: logit(p) = b 0 + b 1 preg + b 2 donage logit(p) = preg donage Kontrolleret for donors alder er odds ratio for preg nu exp(1.6982) = 5.46, dvs lidt mindre end i den tidligere model. I denne model er der også en antagelse om, at uanset hvilken alder donoren havde vil odds ratio for preg være Hvad er fortolkningen af estimatet for donage? November 2008: Logistisk regression 23

9 Kvantitativ forklarende variabel Fortolkningen af donage hvis donor aldrig har været gravid (preg=0): Log-odds for GvHD for en patient hvis donor var A+1 år: ( ) p1 ln = ln(ω 1 ) = b 0 +b 1 0+b 2 (A+1) = b 0 +b 2 (A+1) 1 p 1 Log-odds for GvHD for en patient hvis donor var A år: ( ) p0 ln = ln(ω 0 ) = b 0 + b b 2 A = b 0 + b 2 A 1 p 0 November 2008: Logistisk regression 24 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 +b 2 (A+1) (b 0 +b 2 A) = b 2 = Dvs. OR A+1,A = exp(0.0806) = Når donors alder stiger med 1 år stiger forholdet mellem patienter der får hhv. ikke får GvHD med en faktor Tilsvarende hvis donor har været gravid. November 2008: Logistisk regression 25 Fortolkningen af donage hvis donor aldrig har været gravid: Log-odds for GvHD for en patient hvis donor var A+10 år: ( ) p1 ln = ln(ω 1 ) = b 0 +b 1 0+b 2 (A+10) = b 0 +b 2 (A+10) 1 p 1 Log-odds for GvHD for en patient hvis donor var A år: ( ) p0 ln = ln(ω 0 ) = b 0 + b 2 A 1 p 0 November 2008: Logistisk regression 26

10 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 +b 2 (A+10) (b 0 +b 2 A) = b 2 10 = Dvs. OR A+10,A = exp( ) = exp(0.0806) 10 = = Når donors alder stiger med 10 år stiger forholdet mellem patienter der får hhv. ikke får GvHD med en faktor Tilsvarende hvis donor har været gravid. November 2008: Logistisk regression 27 Hvad betyder interceptet b 0? logit(p) = preg er log-odds for GvHD hos en patient hvis donor aldrig har været gravid. logit(p) = preg donage er log-odds for GvHD hos en patient hvis donor aldrig har været gravid og donors alder var 0 år ikke særligt meningsfyldt. Vi vender tilbage til dette senere. November 2008: Logistisk regression 28 Konfidensintervaller (Wald type) Som for lineær regression: estimat ± z 1 α/2 std.error Std. error er også noget som maximum likelihood estimationen giver os. Men i logistisk regression er estimaterne log-odds eller log-odds-ratio. November 2008: Logistisk regression 29

11 GvHD data: 95% konfidensinterval for estimat (log-odds-ratio) associeret med donors graviditetshistorie: For odds ratio: ± = ( ,3.5188) (exp( ), exp(3.5188)) = (0.885, ) November 2008: Logistisk regression 30 95% konfidensinterval for estimat (log-odds-ratio) associeret med 1 års forskel i donors alder: For OR: ± = ( ,0.1804) (exp( ), exp(0.1804)) = (0.981, 1.198) 95% konfidensinterval for estimat (log-odds-ratio) associeret med 10 års forskel i donors alder: ± = 10 ( , ) = ( November 2008: Logistisk regression 31 For OR: (exp( ) 10,exp(0.1804) 10 ) = ( , ) = (0.826,6 November 2008: Logistisk regression 32

12 Wald test Alternativt kan man teste hypotesen om en regressionskoefficient er lig 0 med Wald χ 2 -testet: X 2 = ( ) 2 estimat χ 2 (1). std.error Hvis χ 2 (1) er større end 3.84 forkastes hypotesen med et signifikansniveau på 5%. November 2008: Logistisk regression 33 Test af hypotesen H 0 : ingen association mellem GvHD og donors graviditesthistorie (dvs. teste om estimatet for preg = 0): ( ) X 2 = = , p > Test af hypotesen H 0 : ingen association mellem GvHD og donors alder (dvs. teste om estimatet for donage = 0): X 2 = ( ) = , p > November 2008: Logistisk regression 34 GvHD data analyseret i SAS uden Analyst data gvhd; input gvhd donage preg type; cards; ; proc logistic data=gvhd; model gvhd(event="1") = preg donage / cl; November 2008: Logistisk regression 35

13 Output fra SAS-program The LOGISTIC Procedure Model Information Data Set WORK.GVHD Response Variable gvhd Number of Response Levels 2 Model binary logit Optimization Technique Fisher s scoring Number of Observations Read 37 Number of Observations Used 37 Response Profile Ordered Total Value gvhd Frequency Probability modeled is gvhd=1. November 2008: Logistisk regression 36 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg donage Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg donage Wald Confidence Interval for Parameters Parameter Estimate 95% Confidence Limits Intercept preg donage November 2008: Logistisk regression 37 Kategoriske forklarende variable preg: har donor nogensinde været gravid = { 1 ja 0 nej Fortolkningen af OR for preg var forskellen i risiko for GvHD mellem preg=1 og preg=0, eller svarende til en forskel på 1 i den forklarende variabel. Men her er det vigtigt at preg var kodet som 0/1. Hvis man vil være sikker i SAS skal man benytte et såkaldt class statement. November 2008: Logistisk regression 38

14 SAS: class statement proc logistic data=gvhd; class preg / param=ref; model gvhd(event="1")=preg; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 0 vs November 2008: Logistisk regression 39 Estimatet for preg er det samme som tidligere men med minus foran og OR er den recibrokke af den tidligere OR. Interceptet er også ændret: Uden class statement: logit(p) = preg OR = exp(2.0794) = 8 Med class statement: logit(p) = preg OR = exp( ) = November 2008: Logistisk regression 40 Dette skyldes, at SAS som default vælger den største værdi af en klassevariabel som referencekategori, i dette tilfælde preg = 1. Hvad betyder interceptet i de to modeller? (hhv og ) November 2008: Logistisk regression 41

15 Man kan vælge reference med ref="" (Husk citationstegn også når variablen er numerisk!) proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 1 vs November 2008: Logistisk regression 42 Variable med mere end to kategorier 1 akut myeloid leukæmi (AML) type: leukæmitype = 2 akut lymfatisk leukæmi (ALL) 3 kronisk myeloid leukæmi (CML) proc logistic data=gvhd; model gvhd(event="1")=type; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept type Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits November 2008: Logistisk regression 43 type November 2008: Logistisk regression 44

16 SAS: class statement proc logistic data=gvhd; class type / param=ref; model gvhd(event="1")=type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept type type Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits type 1 vs type 2 vs November 2008: Logistisk regression 45 Valg af akut lymfatisk leukæmi som referencekategori: proc logistic data=gvhd; class type(ref="2") / param=ref; model gvhd(event="1")=type; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept type type Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits type 1 vs type 3 vs November 2008: Logistisk regression 46 SAS class statement genererer automatisk to binære variable (indikatorvariable) for de kategorier som ikke er reference: I{type=1} = Modellen bliver så: { 1 hvis type = 1 0 ellers I{type=3} = logit(p) = b 0 + b 1 I{type=1} + b 2 I{type=3} = I{type=1} I{type=3} { 1 hvis type 0 ellers November 2008: Logistisk regression 47

17 Log-odds for GvHD for en patient med akut myeloid leukæmi (type=1) logit(p 1 ) = ln(ω 1 ) = b 0 + b b 2 0 = b 0 + b 1 Log-odds for GvHD for en patient med akut lymfatisk lekæmi (type=2) logit(p 2 ) = ln(ω 2 ) = b 0 + b b 2 0 = b 0 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 2 ) = b 0 + b 1 b 0 = b 1 November 2008: Logistisk regression 48 Dvs. odds ratio mellem AML og ALL er OR AML vs. ALL = ω 1 ω 2 = exp(b 1 ) = exp(0.9163) = 2.5 Tilsvarende er odds ratio mellem CML og ALL OR CML vs. ALL = exp(b 2 ) = exp(2.4849) = 12 Hvad betyder interceptet? November 2008: Logistisk regression 49 Log-odds for GvHD for en patient med AML (type=1) logit(p 1 ) = ln(ω 1 ) = b 0 + b b 2 0 = b 0 + b 1 Log-odds for GvHD for en patient med CML (type=3) logit(p 2 ) = ln(ω 2 ) = b 0 + b b 2 1 = b 0 + b 2 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 2 ) = b 0 + b 1 (b 0 + b 2 ) = b 1 b 2 Dvs. odds ratio mellem AML og CML er OR AML vs. CML = ω 1 ω 2 = exp(b 1 b 2 ) = exp( ) = exp( November 2008: Logistisk regression 50

18 Wald test for kategoriske forklarende variable Det Wald χ 2 -test (med 1 frihedsgrad) vi tidligere har set på var beregnet for hver parameterestimat for sig. Med en kategorisk forklarende variabel med mere end to niveauer vil vi også gerne udtale os om variablen er statistisk signifikant associeret til risikoen for responsen. Til dette findes en version af Wald χ 2 -testet med antal frihedsgrader lig antal af kategorier minus 1. Dette kan man også kalde et test for uafhængighed mellem variablen og responsen. November 2008: Logistisk regression 51 For variablen type fra GvHD eksemplet er antallet af kategorier 3 så Wald testet for hypotensen om ingen sammenhæng mellem GvHD og type af leukæmi vil have 2 frihedsgrader. Dette svarer også til simultant at teste, at begge parameterestimater for type er lig 0 eller at teste om alle tre kategorier har samme risiko for GvHD. Heldigvis beregner SAS også dette for os (i SAS kaldet Type III analysis ). Det har ingen betydning for testet, hvilken kategori der er blevet anvendt som reference: November 2008: Logistisk regression 52 proc logistic data=gvhd; class type / param=ref; model gvhd(event="1") = type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type proc logistic data=gvhd; class type(ref="2") / param=ref; model gvhd(event="1")=type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type November 2008: Logistisk regression 53

19 Effekt af centrering af kvantitativ forklarende variabel For GvHD data havde vi modellen logit(p) = preg donage. Interceptet er log-odds for GvHD for en patient hvis donor aldrig har været gravid og donors alder var 0 år. Centrerer vi donage omkring gennemsnitsalder for donorer (som er 26 år) er interceptet log-odds for GvHD for en patient hvis donor aldrig har været gravid og donors alder var 26 år: November 2008: Logistisk regression 54 data gvhd2; set gvhd; donage26=donage-26; proc logistic data=gvhd2; model gvhd(event="1")=preg donage26; The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg donage November 2008: Logistisk regression 55 Hvis kovariaterne centreres omkring en værdi: ændres estimaterne ikke ændres standardafvigelsen ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log-odds for den værdi af kovariaterne man centrerer omkring. November 2008: Logistisk regression 56

20 Interaktion Modellen fra GvHD eksemplet: logit(p) = b 0 + b 1 preg + b 2 donage26 antager, at effekten af donors alder på risikoen for GvHD er den samme blandt donorer som har været hhv. ikke har været gravide. Dette bør vi teste. Dette gøres typisk ved at tilføje en ekstra variable interact som er produktet mellem preg og donage26: interact = preg*donage26 November 2008: Logistisk regression 57 Dvs. interact = { donage26 hvis donor har været gravid 0 hvis donor ikke har været gravid November 2008: Logistisk regression 58 Modellen bliver logit(p) = b 0 + b 1 preg + b 2 donage26 + b 3 interact b 1 er forskellen i log-odds mellem preg=1 og preg=0 for en donor med en alder på 26 år. b 2 er effekten af donage26 blandt donorer som IKKE har været gravide. b 3 er den ekstra effekt donage26 har blandt donorer som har været gravide ud over b 2. Dvs. hvis denne effekt er lig 0 vil effekten af donage26 være den samme for donorer der har hhv. ikke har været gravide. November 2008: Logistisk regression 59

21 proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26 interact; Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq preg donage interact <- TEST FOR INGEN INTERAKTION Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg donage interact November 2008: Logistisk regression 60 proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26 preg*donage26; < LIDT LETTERE Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq preg donage donage26*preg Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg donage donage26*preg November 2008: Logistisk regression 61 Alternativ parametrisering til interaktion To nye variable: { donage26 hvis donor aldrig gravid donage26 notpreg = 0 hvis donor tidl. gravid { 0 hvis donor aldrig gravid donage26 preg = donage26 hvis donor tidl. gravid Modellen skal så være logit(p) = b 0 +b 1 preg+b 2 donage26 notpreg+b 3 donage26 November 2008: Logistisk regression 62

22 logit(p) = b 0 +b 1 preg+b 2 donage26 notpreg+b 3 donage26 b 1 er forskellen i log-odds mellem preg=1 og preg=0 for en donor med en alder på 26 år. b 2 er effekten af donage26 blandt donorer som IKKE har været gravide. b 3 er nu effekten af donage26 blandt donorer som HAR været gravide. November 2008: Logistisk regression 63 data gvhd2; set gvhd; donage26_notpreg=donage26*(preg=0); donage26_preg=donage26*(preg=1); proc logistic data=gvhd2; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26_notpreg donage26_preg; Interaction: test donage26_notpreg=donage26_preg; <- TEST FOR INGEN INTERAKTION November 2008: Logistisk regression 64 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept preg donage26_notpreg donage26_preg Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 1 vs donage26_notpreg donage26_preg Linear Hypotheses Testing Results Wald Label Chi-Square DF Pr > ChiSq Interaction <- TEST FOR INGEN INTERAKTION November 2008: Logistisk regression 65

23 Ordnede kategoriske forklarende variable Data fra DGA s. 261: Sammenhæng mellem kejsersnit og skostørrelse (skostørrelse er en simpel indikator for størrelse af bækken): Skonummer Kejsersnit < Ialt Ja Nej I alt Odds for kejsersnit er 0.29, 0.25, 0.17, 0.17, 0.17, 0.07 for stigende skostørrelse. November 2008: Logistisk regression 66 data sko; input cs $ skonr antal; cards; Y Y Y Y Y Y N N N N N N ; proc logistic data=sko descending; class skonr / param=ref; model cs=skonr; weight antal; November 2008: Logistisk regression 67 Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Type 3 Analysis of Effects Effect DF Chi-Square Pr > ChiSq skonr Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept skonr skonr skonr skonr skonr November 2008: Logistisk regression 68

24 proc logistic data=sko descending; model cs=skonr; weight antal; Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept skonr <- TEST FOR TREND November 2008: Logistisk regression 69 Likelihood ratio test Likelihood-ratio er forholdet mellem likelihood funktionens maximum under to forskellige modeller, som alene adskiller sig ved at den mindste mangler en eller flere parametre (nestede modeller). I SAS skal man køre de to modeller hver for sig og derefter trække værdien af -2 Log L Intercept and Covariates for den største model fra -2 Log L Intercept and Covariates fra den mindste model. Dette tal skal vurderes i en χ 2 -fordeling med antal frihedsgrader lig forskellen i frihedsgrader (DF) i de to modeller. November 2008: Logistisk regression 70 Test for linearitet For at undersøge om den lineære model er acceptabel skal vi sammenligne de to modeller Model 1: skonr som en class variabel Model 2: skonr som en kvantitativ variabel Forskellen i -2 Log L Intercept and Covariates er (model 2) - (model 1) = = November 2008: Logistisk regression 71

25 Antal frihedsgrader findes under overskriften Testing Global Null Hypothesis: BETA=0 : Dvs. DF model 1 DF model 2 = 5 1 = 4. Likelihood ratio test = χ 2 (4) p = Testet er IKKE signifikant så vi accepterer den lineære model. November 2008: Logistisk regression 72 Beregning af p-værdi i SAS data; p=1-probchi(1.785,4); put p; LOG VINDUE data; 41 p=1-probchi(1.785,4); 42 put p; NOTE: The data set WORK.DATA4 has 1 observations and 1 variables. NOTE: DATA statement used (Total process time): real time 0.01 seconds cpu time 0.01 seconds November 2008: Logistisk regression 73 Præsentation af resultater fra logistisk regression Typisk vil man præsentere odds ratio med tilhørende 95% confidensintervaller. For klassevariable vil man også supplere med en p-værdi fra testet om uafhængighed mellem variablen og resonsen. Nogle tidsskrifter forlanger også p-værdier for hvert estimat men dette er unødvendigt da confidensintervallet indeholder samme information. November 2008: Logistisk regression 74

26 Case-kontrol studier I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer. Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk vil man på forhånd fastsætte forholdet mellem antallet af cases og kontroller. November 2008: Logistisk regression 75 Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! November 2008: Logistisk regression 76 Case-kontrol studier I populationen: p = P {case} p 1 p = odds(case) Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 og π 1 : P {inklusion i studiet case} = π 1 P {inklusion i studiet kontrol} = π 0 November 2008: Logistisk regression 77

27 I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet. Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i). November 2008: Logistisk regression 78 p 1 p case kontrol π 1 1 π 1 π 0 1 π 0 inkluderet inkluderet P {case & inkl.} = p π 1 P {kontrol & inkl.} = (1 p) π 0 p π 1 odds(case inkl.) = = p (1 p) π 0 1 p π 1 π 0 November 2008: Logistisk regression 79 Logistisk regression Model for populationen: [ ] p ln = b 0 + b 1 x 1 + b 2 x 2 1 p Model for det observerede: [ ] [ ] p π1 ln[odds(case inkl.)] = ln + ln 1 p π 0 ( [ ] ) π1 = ln + b 0 + b 1 x 1 + b 2 x 2 π 0 November 2008: Logistisk regression 80

28 Analyse af P {case inklusion} dvs. binære observationer: { 1 case Y = 0 kontrol Effekt af kovariater estimeres korrekt. Intercept uden mening. afhænger af π 0 og π 1 der sædvanligvis er ukendte. November 2008: Logistisk regression 81

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban Appendikset Om appendikset Appendikset indeholder overordnet fire afsnit: - Teoretisk udledning og definition af modeller, - Supplerende statistiske resultater - Deskriptiv statistik - Udeladte undermodeller

Læs mere

Konfidensinterval for µ (σ kendt)

Konfidensinterval for µ (σ kendt) Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk 21. marts 2013 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder,

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model,

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................

Læs mere

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Ensidet variansanalyse

Ensidet variansanalyse Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004 Dagens program Økonometri 1 Dummyvariabler 21. oktober 2004 Emnet for denne forelæsning er kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt, Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger Af Karen Helle Sloth og Flemming Skjøth, AgroTech Sammendrag

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september 2006. Oversigt: De næste forelæsninger

Økonometri 1. Inferens i den lineære regressionsmodel 25. september 2006. Oversigt: De næste forelæsninger Oversigt: De næste forelæsninger Økonometri Inferens i den lineære regressionsmodel 5. september 006 Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan drage konklusioner på

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25.

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. marts) En stikprøve bestående af 65 mænd og 65 kvinder

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A) Økonometri 1 Forår 2003 Ugeseddel 13 Program for øvelserne: Gruppearbejde Opsamling af gruppearbejdet og introduktion af SAS SAS-øvelser i computerkælderen Øvelsesopgave 6: Hvem består første årsprøve

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Logistisk regression og prædiktion

Logistisk regression og prædiktion Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling. Sammenligning af privatansatte kvinder og mænds løn Privatansatte kvindelige djøfere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 procent af den løn deres mandlige kolleger får. I sammenligningen

Læs mere

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif). Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at

Læs mere