Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Relaterede dokumenter
Basal Statistik - SPSS

Basal Statistik - SPSS

Basal Statistik - SPSS

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Basal Statistik - SPSS

Basal Statistik - SPSS

Basal Statistik - SPSS

Basal Statistik - SPSS

Basal Statistik - SPSS

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Basal Statistik - SPSS

Vejledende besvarelse af hjemmeopgave, forår 2018

Opgave 1: Graft vs. Host disease

Vejledende besvarelse af hjemmeopgave, forår 2017

Opgavebesvarelse, Basalkursus, uge 3

Vejledende besvarelse af hjemmeopgave, forår 2019

Vejledende besvarelse af hjemmeopgave, efterår 2018

Opgavebesvarelse, Basalkursus, uge 3

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 31. oktober / 112

Basal Statistik. Logistisk regression mm. Typer af outcome. Eksempel fra tidligere: Farveblindhed og køn. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 29. oktober / 117

Opgavebesvarelse, logistisk regression

Basal Statistik. Logistisk regression mm. Eksempel fra tidligere: Farveblindhed og køn. Typer af outcome. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. i R. Lene Theil Skovgaard. 25. marts / 114

Lineær og logistisk regression

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Besvarelse af opgave om Vital Capacity

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Vejledende besvarelse af hjemmeopgave, efterår 2017

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Opgavebesvarelse, brain weight

Løsning til opgave i logistisk regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Morten Frydenberg 26. april 2004

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Simpel og multipel logistisk regression

Generelle lineære modeller

Opgavebesvarelse, korrelerede målinger

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Logistisk Regression - fortsat

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Statistiske Modeller 1: Kontingenstabeller i SAS

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 1. november / 107

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Lineær regression i SAS. Lineær regression i SAS p.1/20

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Morten Frydenberg 14. marts 2006

Kommentarer til øvelser i basalkursus, 2. uge

Introduktion til GLIMMIX

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Basal Statistik Kategoriske Data

Dag 6: Interaktion. Overlevelsesanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning til øvelsesopgaver dag 4 spg 5-9

Statistik Lektion 4. Variansanalyse Modelkontrol

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistik II 4. Lektion. Logistisk regression

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Statistik Lektion 17 Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgavebesvarelse, Basalkursus, uge 3

Postoperative komplikationer

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Afdeling for Anvendt Matematik og Statistik December 2006

Morten Frydenberg Biostatistik version dato:

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Basal statistik. 30. januar 2007

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Logistisk regression og prædiktion

Logistisk regression

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Eksamen Efterår 2013

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Besvarelse af vitcap -opgaven

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Basal statistik. Overlevelsesanalyse. Eksempel: Lungecancer blandt krigsveteraner. Faculty of Health Sciences

Opgavebesvarelse, brain weight

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Faculty of Health Sciences. Basal statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 1. april 2019

Logistisk regression

Opgavebesvarelse vedr. overlevelsesanalyse

Besvarelse af juul2 -opgaven

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Opgavebesvarelse, brain weight

Vejledende besvarelse af hjemmeopgave, forår 2018

Transkript:

Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22

APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære data med loess-udglatning, s. 4 Logistisk regression, s. 5-7 Modelkontrol, s. 8-10, 16 Diagnostics, s. 11 Overspredning, s. 12, 15, 20 Alternative links, s. 13-14 Ordinale data, s. 17-18 Tælletal, s. 19-22 2 / 22

To-gange-to tabeller Slide 7-10 Da vi ikke har individ-data, men en kolonne med antal, skal vi lave en vægtet analyse. Der benyttes Data/Weight Cases/, afkrydses i Weight cases by, hvorefter antal flyttes over i Frequency Variable. Herefter tabelanalysen i Analyze/Descriptive Statistics/Crosstabs, hvor gender sættes i Row(s) og farveblind sættes i Column(s). Det er vigtigt, hvad der er rækker og søjler Herefter går man i Statistics og afkrydser Chi-square og Risk samt i Cells, hvor man afkrydser Expected samt under Percentages: Row 3 / 22

Figurer Slide 13 Benyt Graph/Chart Builder/Scatter/Grouped Scatter, sæt infektion i Y, alder i X og over2timer i Set color. Herefter OK, hvorved figuren fremkommer uden udglattet kurve. For at lægge den udglattede kurve på ser det ud til at være nødvendigt først at lave variablen infektion om til en scale-variable, hvis den ikke var det i forvejen. Dette gøres i Variable View. Når man så laver grafen, kan man efterfølgende dobbeltklikke på den, klikke Add Fit Line at Subgroups, afkrydse Loess og Apply/Close. Det kommer dog ikke helt til at ligne den tilsvarende SAS-figur 4 / 22

Logistisk regression i SPSS Slide 23-24 For at lave den logistiske regression benytter vi Analyze/Regression/Binary Logistic, hvor vi sætter infektion som Dependent, begge forklarende variable (alder og over2timer) i Covariates. Herefter går vi ind i Categorical Covariates og sætter over2timer ind her, da den ikke indeholder numerisk information. Her kan man vælge, om referencen skal være første eller sidste kategori. Vælg f.eks. First og klik Change/Continue. Herefter går vi ind i Options og afkrydser CI for exp(β). 5 / 22

Andre metoder til logistisk regression Slide 23-24 Der finde i SPSS en meget generel indgang til analyse af mange forskellige slags data, nemlig Generalized Linear Models, hvor man skal udfylde en del faneblade (dem foroven i det grå felt) Først udfylder man på indgangssiden, hvor man afkrydser Custom, vælger Binomial under Distribution og Logit under Link function. Derefter benyttes de andre faneblade: 6 / 22 Response: Her sættes infektion ind under Dependent Variable, og under Reference category vælges First (lowest value), fordi dette bevirker, at vi vurderer udfald 1 mod udfald 0, altså risikoen for at få en infektion, ikke for at gå fri af en infektion.

Andre metoder til logistisk regression, II Slide 23-24 Fortsættelse af faneblade fra s. 6 Predictors: Her sættes alder i Covariates og over2timer sættes i Factors (og her kan man i Options afkrydse descending under Category Order for Factors for at få 0 som reference. Model: Her sættes begge variable ind som Main Effects Senere også som Interaction Statistics: Afkryds Include exponential parameter estimates 7 / 22

Goodness of fit Slide 36-38 I opsætningen af den logistisk regressionsanalyse (se s. 5) benyttes Options, hvor man afkrydser Hosmer-Lemeshow Goodness-of-fit 8 / 22

Check af linearitetsantagelsen for alder Slide 39-42 Alderseffekt modelleret med både alder og ln(alder) (output s. 39-40). Definer: lnalder50=ln(alder)/ln(1.1)-ln(50)/ln(1.1); og indsæt denne variabel i Covariate(s) sammen med de øvrige, se s. 5 Alderseffekt modelleret som lineær spline (output s. 41-42): Definer alder_over60=(alder>60)*(alder-60) og alder_over75=(alder>75)*(alder-75) og indsæt denne variabel i Covariate(s) sammen med de øvrige, se s. 5 9 / 22

Plot af standardiserede residualer Slide 43 Modellen er den på s. 23, og i opsætningen af den logistiske regression (se s. 5 her i appendix), og man gemmer diverse størrelser ved at klikke Save og afkrydse de ønskede størrelser, f.eks. Predicted probabilities, Cook s, Standardized residuals og DfBeta(s) Datasættet indeholder nu disse ekstra størrelser, så man kan nu selv styre plottene ved at benytte Graph/Chart Builder/Scatter/Grouped Scatter Slide 44 Plot af kumulerede residualer synes ikke at være tilgængeligt i SPSS 10 / 22

Diagnostics Slide 46-47 Modellen er den på s. 23 (øverste del), se vejledning her i appendix, s. 5, hvor vi har yderligere har gemt diverse størrelser ved at klikke Save og afkrydse de ønskede størrelser, her Cook s, og DfBeta(s), se s. 10 Ud fra det udbyggede datasæt kan man nu selv styre plottene ved at benytte Graph/Chart Builder/Scatter/Grouped Scatter, hvor man sætter enten cook eller DfBetas i Y, alder i X og over2timer i Set color. Herefter OK, hvorved figuren fremkommer uden udglattet kurve. For at lægge kurver på, se s. 4 11 / 22

Overspredning i SAS Slide 53 Under Generalized Linear Models (se s. 6-7), går man ind under fanebladet Estimation og skifter Scale parameter Method fra Fixed value til Pearson Chi-square 12 / 22

Relativ risiko for farveblindhed Slide 55-56 Da vi ikke har individ-data, men en kolonne med antal, skal vi lave en vægtet analyse. Der benyttes Data/Weight Cases/, afkrydses i Weight cases by, hvorefter antal flyttes over i Frequency Variable. Risk Ratio (relativ risiko) estimeres ved at benytte log-link, og vi må derfor benytte den generelle metode Generalized Linear Models, (se s. 6-7), men hvor man denne gang vælger Log under Link function. 13 / 22

Test for trend Slide 59-60 Her benytter vi Generalized Linear Models, hvor man afkrydser Custom, vælger Binomial under Distribution og Identity under Link function. Under Response sættes kejsersnit over i Dependent Variable, og der afkrydses i Number of events occurring in a set of trials samt i Variable, hvor man så sætter total over i Trials Variable. Under Predictors sættes skonummer i Covariates og ellers fortsættes som s. 6-7. 14 / 22

Test for trend, overspredning Slide 61 Under Generalized Linear Models (se s. 14), går man ind under fanebladet Estimation og skifter Scale parameter Method fra Fixed value til Pearson Chi-square 15 / 22

Modelkontrol af lineariteten, kejsersnit Slide 62-63 Check af linearitet kan foretages ved at lave en kopi af skonummeret: Benyt Transform/Compute og definer skostr=skonummer. I modellen fra s. 14 tilføjes nu skostr som Factor, og under Statistics/Chi-square Statistics skiftes fra Wald til Likelihood Ratio. 16 / 22

Proportional odds model Slide 70-71 Logistisk regression for hver tærskel, med samme afhængighed af kovariaterne, som her alle er log 2 -transformerede. Dette udføres nemt i SPSS ved at benytte Analyze/Regression/Ordinal, hvor vi sætter degree_fibr som Dependent og alle 3 forklarende variable (lha, lpiiinp og lykl40) i Covariates. For at få tilbagetransformeret til Odds Ratio er, er man nødt til at benytte Generalized linear models (se s. 6-7), hvor man vælger Ordinal Response og videre Ordinal logistic 17 / 22

Proportional odds model, fortsat Slide 70-71 For at få et test for proportional odds, går vi ind i Output og afkrydser Test of parallel lines. Herved får vi dog ikke helt det samme, da SPSS laver et Likelihood Ratio test, mens SAS laver det som et score-test. Man kan endvidere afkrydse Estimated response probabilities og Predicted category 18 / 22

Poisson analyse Slide 75-76 Vi skal her igen benytte Analyze/Generalized Linear Models/Generalized Linear Models hvor man går videre med Counts/Poisson loglinear. Herefter udfylder man fanerne således Response: total sættes i Dependent Variable Predictors: gender sættes i Factor og years_from_2004 sættes i Covariates Model: husk interaktion her, hvis den skal med Estimation: giver mulighed for overspredning i modellen, hvis man afkrydser Robust estimator 19 / 22 Statistics: Afkryds Include exponential parameter estimates

Poisson analyse Slide 78-79 Korrektion for overspredning foregår ved at afkrydse Robust estimator under Estimation. Ellers helt som s. 19 20 / 22

Normalfordelingsmodel for tælletal Slide 80 her benytter vi logaritmetransformerede data (logtotal=lg10(total)): og derefter blot Analyze/General Linear Model/Univariate, hvor vi sætter logtotal i Dependent Variable, gender i Fixed Factor(s) og years_since_2004 i Covariate(s) For at undgå at få interaktionen med i modellen, klikkes nu på Model, hvorefter man vælger Custom, markerer begge kovariater, skifter fra Interaction til Main Effects og klikker på pilen og Continue. Husk også i Options at vælge Parameter Estimates 21 / 22

Opdelte plot (panels) Slide 82 Benyt Graph/Chart Builder/Groups/Point ID, afkryds Rows panel variable og sæt gender ind i denne, og sæt nu antal i Y, years_from_2004 i X og age i Set color. Herefter OK Slide 83 Benyt Graph/Chart Builder/Groups/Point ID, afkryds Rows panel variable og sæt year ind i denne, og sæt nu antal i Y, age i X og gender i Set color. Herefter OK 22 / 22