Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Relaterede dokumenter
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Lineær og logistisk regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Morten Frydenberg 26. april 2004

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Logistisk regression

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Morten Frydenberg 14. marts 2006

Analyse af binære responsvariable

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Eksamen Efterår 2013

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Træningsaktiviteter dag 3

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Eksamen i Statistik og skalavalidering

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Multipel Lineær Regression

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Synopsis til eksamen i Statistik

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Logistisk Regression - fortsat

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik og skalavalidering. Opgave 1

Uge 13 referat hold 4

Statistik II 4. Lektion. Logistisk regression

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

1 Multipel lineær regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Logistisk regression

1 Multipel lineær regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Morten Frydenberg 25. april 2006

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvantitative metoder 2

Løsning til opgave i logistisk regression

Generelle lineære modeller

Anvendt Statistik Lektion 8. Multipel Lineær Regression

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

9. Chi-i-anden test, case-control data, logistisk regression.

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Basal statistik. 21. oktober 2008

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Opgavebesvarelse, logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Statistik Lektion 16 Multipel Lineær Regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik & Skalavalidering

Hver anden vil benytte øget åbningstid i dagtilbud

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Morten Frydenberg Biostatistik version dato:

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

2 Logaritme- og eksponentialfunktion 6

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Oplæg til den første skalavalideringsøvelse. Eksamens opgaven i 2004

8.2 Statistiske analyse af hver enkelt indikator

Statistiske Modeller 1: Kontingenstabeller i SAS

Tandstatus hos søskende

Opgavebesvarelse, brain weight

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Workshop 6 Sundhedsprofilen metode og muligheder. Anne Helms Andreasen, Forskningscenter for Forebyggelse og Sundhed

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Module 12: Mere om variansanalyse

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge

Besvarelse af juul2 -opgaven

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Løsning til eksamen d.27 Maj 2010

8.2 Statistiske analyse af hver enkelt indikator

Transkript:

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom

Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede uddannelse (i 1986). Egen socialklasse, Familiesocialklasse og Oplysninger om tilstedeværelse af vedvarende (kronisk) sygdom. Socialklassen: mål for social status baseret på oplysninger om uddannelse og arbejde, hvor personer i socialklasse I har størst social status, mens personer i socialklasse V har lavest status. Egen socialstatus er baseret på personens egne oplysninger om uddannelse og arbejde. Familiesocialklassen er defineret som den højeste af personens egen og en eventuel ægtefælles eller samlevers socialklasse. Formål: undersøge om personens egen socialklasse og familiesocialklassen har betydning for forekomsten af kroniske sygdomme. 1

Indhold Jeg vil have fokus på de statistiske metoder - ikke så meget præsentation (overordnet set er studenterbesvarelsen et fint eksempel på hvordan resultater af en statistisk analyse præsenteres). 1. Analyse i 2-vejs tabeller 2. Mantel-Haenszel analyser 3. Logistisk regression (a) modelsøgning (b) vekselvirkning Her mest fokus på logistisk regression. 2

Deskriptiv statistik Beskriv fordelingen af de variable der indgår i analysen. Studenter besvarelsen er for kort - mangler fordeling af potentielle confoundere: Egen socialgrp. I: 5.1; II: 10.4; III: 19.7; IV: 36.9; V: 28.0 Alder 30-40: 27.0; 40-50: 24.7; 50-60: 17.6; 60-70: 17.5; 70-80: 13.2 Kronisk sygdom nogle: 51.0 Køn kvinde: 51.3.. Fordeling af analysevariable: relativ hyppighed i procent (N=4561). Angiv også for hver variabel antallet af uoplyste. 3

Marginale sammenhænge De vigtigste sammenhænge i denne analyse er relationen mellem socialklasse og kronisk sygdom. I II III IV V Egen socialklasse 34% 39% 47% 48% 61% Familiesocialklasse 36% 39% 49% 51% 66% Hypotesen om ingen sammenhæng H 0 : p 1 = p 2 = p 3 = p 4 = p 5 Egen socialklasse χ 2 = 103, df = 4, p < 0.0005 Familiesocialklasse χ 2 = 148, df = 4, p < 0.0005 Her kunne man også have angivet γ Jo dårligere socailklasse jo højere risiko for sygdom 4

Confounding? socialklasse confounder sygdom I stratificerede analyser og ved logistisk regression kan vi undersøge om den stærke sammenhæng vi har fundet mellem socialklasse og sygdom er et resultat af confounding 5

Sammenhæng mellem de to socialklassevariable Familie Egen I II III IV V Total I 219 0 1 1 0 221 II 37 412 0 1 0 450 III 30 54 764 2 0 850 IV 70 105 355 1060 4 1594 V 9 26 94 265 814 1208 Total 365 597 1214 1329 818 4323 Familiesocialgruppe bør ikke være dårligere end egen socialgruppe, dvs alle personer burde ligge på eller under diagonalen. Det er ikke tilfældet. Vi antager at data er korrekte. Man kunne også have ekskluderet disse få cases. Sådanne problemer opstår i mange data, når de opdages må man henvende sig til den dataansvarlige. χ 2 = 9277, df = 16, p < 0.001, γ = 0.879, p < 0.001, Meget stærk sammenhæng mellem de to socailklasse-variable. 6

Mantel-Haenszel analyse Mantel-Haenszel analyser kræver en binær eksponeringsvariabel og passer derfor ikke umiddelbart til disse data. Mantel-Haenszel analysen er en del af pensum, så ved en mundtlig eksamen kan spørgsmål i dette emne forekomme. Her er det en fordel for studenten at have konkrete resultater at tale ud fra. Derfor er det en god ide at skære data lidt til så Mantel-Haenszel analyser kan foretages. For begge socialklassevariable bruges grupperingen: I+II mod III+IV+V Tabel 3 undersøger effekt af potentielle confounders på eksponering og outcome. Mantel-Haenszel resultater i Tabel 4 og 5 i studenterbesvarelse. 7

Generel stratificeret analyse Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k syg soc Ja Nej lav a 1 b 1... syg soc Ja Nej lav a z b z... syg soc Ja Nej lav a k b k høj c 1 d 1 høj c z d z høj c k d k ÔR 1 ÔR z ÔR k 8

Socialklasse-Sygdom: stratifikation efter alder (fra 3. søjle i Tabel 4) 30-39 40-49 50-59 60-69 70-79 OR 1.81 1.44 1.79 1.80 1.22 Hypotesen om ingen effektmodifikation H 0 : OR 1 = OR 2 =... = OR 5 Hypotesen testes ved Breslow-Day testet: χ 2 = 2.1, df = 4, p = 0.72 Alder modificerer ikke effekt af socialklasse på risiko for sygdom Mantel Haenzel OR estimat: 1.64 95% CI (1.37; 1.95) Alder kan ikke forklare effekten af socialklasse på sygdom 9

Hvorfor indgår køn ikke i Tabel 4 og 5? I Tabel 3 ses at køn ikke påvirker risiko for sygdom. Hermed opfylder køn ikke kravene til en confounder. Men det udelukker ikke at køn kunne være en effektmodifikator: vigtigheden af socialklasse for helbred kunne afhænge af køn. Det ville have været mere korrekt at have ladet køn indgå i Mantel-Haenzel analysen 10

Mantel-Haenszel og confounding s. 6 midten: formålet er at afgøre om alder, uddannelse, egen og familiesocialklasse er rent faktisk er konfoundere Nej, formålet er at estimere effekten af exposure på outcome korrigeret for mulige konfoundere. s. 7 midten: Afsnit ender med at konkludere: Alder er en konfounder. Lidt underlig konklusion. Jeg vil hellere sige at analysen har vist at det er vigtigt at korrigere for alder - ret stor forskel på marginal OR (1.83) og korrigeret OR (1.64). 11

Logistisk regressionsanalyse (og notation) Her bruger vi de oprindelige socialklassevariable som kategoriske kovariater: logit(p) = α + β soc Bogen og studenterbesvarelsen skriver modellen op med dummy-variable: logit(p) = α+β soc1 soc1+β soc2 soc2+β soc3 soc3+β soc4 soc4 = α+σ i β soci soci soc1, soc2, soc3, soc4 er dummy variable, der udpeger grupperne I til IV, V er reference gruppen. Dvs soc1=1 for personer i gruppe I og 0 ellers. Se også s. 462-469 i bogen. β soci er logit forskellen mellem gruppe i og V (referencegruppe). OR i = exp(β soci ) 12

Hvorfor? Model logit(p) = α + β soc1 soc1 + β soc2 soc2 + β soc3 soc3 + β soc4 soc4 logit i gruppe I: logit(p) = α + β soc1 1 + β soc2 0 + β soc3 0 + β soc4 0 = α + β soc1 logit i gruppe V: logit(p) = α + β soc1 0 + β soc2 0 + β soc3 0 + β soc4 0 = α logit-forskel = α + β soc1 α = β soc1 OR 1vs5 = exp(β soc1 ) 13

Resultat: familiesocialklasse Variables in the Equation B S.E. Wald df Sig. Exp(B) famsoc86 143,576 4,000 famsoc86(1) -1,248,130 91,987 1,000,287 Step 1 a famsoc86(2) -1,111,110 101,650 1,000,329 famsoc86(3) -,706,092 59,016 1,000,494 famsoc86(4) -,605,091 44,658 1,000,546 Constant,658,072 82,416 1,000 1,931 a. Variable(s) entered on step 1: famsoc86. Sammenlignes gruppe I med V (referencegruppen) fåes en OR på 0.287 [exp( 1.248)], dvs. i gruppe I udgør odds for sygdom kun 29% af odds i gruppe V. Det samlede test for ingen effekt af socialgruppen aflæses i 1. række: p < 0.001. H 0 : β soc1 = β soc2 = β soc3 = β soc4 = 0 Effekten af familiesocialgruppe er stærkt signifikant. 14

Multipel logistisk regressionsanalyse En vigtig fordel ved logistisk regressions analyse er at det er let at lave confounderkorrektion. En potentiel confounder medtages som endnu en kovariat. Aldersjustering: logit(p) = α + Σ i β soci soci + β al alder Nu estimeres odds-ratio værdier mellem personer fra forskellige socialgrupper, men med samme alder. 15

Modelsøgning - Hvilke variable skal med i modellen? Socialklasse skal med - det er jo den vi vil finde effekten af (primær del) Hvilke confounder variable? og hvad med vekselvirkninger? Baglæns selektion: Start med stor model og fjern insignifikante variable. Denne metode benyttes i studenterbesvarelsen se Tabel 6. Startmodel: egen socialklassse, familiesocialklasse, køn, alder, uddannelse, samt vekselvirkninger: egen socialklasse familiesocialklasse, egen socialklasse køn, egen socailklasse alder, egen socailklasse uddannelse, familiesocialklasse køn, familiesocailklasse alder, familiesocialklasse uddannelse. 16

Baglæns selektion - studenterbesvarelse Trin 1: vekselvirkningen egen socialklasse familie socialklasse fjernes fordi variablen er insignifikant og har den højeste p-værdi (p = 0.71). Trin 2: vekselvirkningen egen socialklasse uddannelse fjernes fordi variablen er insignifikant og har den højeste p-værdi (p = 0.30).... Trin 8: model indeholder: familiesocialklasse, køn, alder, uddannelse, familiesocialklasse køn - alle led er signifikante 17

Det hierarkiske princip for interaktioner Hvis en model indeholder interaktionen X Z skal modellen også indeholde hovedvirkningerne X og Z Dvs. i en baglæns selektionsprocedure må man ikke fjerne X eller Z hvis X Z er i modellen. Tabel 6: uddannelse kan først fjernes efter at egen socailklasse uddannelse og familie socailklasse uddannelse er fjernet. Fint illustreret i tabellen 18

Modelsøgning: anbefalet metode En svaghed ved metoden i studenterbesvarelsen og bogens afsnit 16.5.6 er at man let ender med en model med vekselvirkninger. Vi foreslår: 1. Start med en model med alle potentielle confoundere men uden vekselvirkninger. Lav evt baglæns selektion. Fortolk resultatet i den endelige model. 2. Linearitetstjek af kontinuerte variable (her alder). Ikke-lineære effekter: f.eks alder 2 og alder 3. Eller logaritme. En ikke-lineær effekt rapporteres i en tegning. 3. Inkluder udvalgte vekselvirkninger og lav baglæns modelsøgning blandt disse. Kovariater med ikke-lineær effekt i trin 2 kan evt erstattes med kategoriserede variable. 19

Startmodeller Vi har to socialklasse-variable som er meget stærkt relaterede. Jeg starter med at se på dem hver for sig. logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder Hvor soc-variablen angiver enten familiesocialklasse eller egen socialklasse 20

Output: familiesocialklasse B S.E. Wald df Sig. Exp(B) sex(1),134,065 4,222 1,040 1,144 alder86,030,002 157,523 1,000 1,031 udd86 17,020 4,002 udd86(1) -,336,150 5,037 1,025,715 udd86(2) -,328,136 5,812 1,016,721 udd86(3) -,303,079 14,608 1,000,738 udd86(4) -,258,134 3,725 1,054,772 famsoc86 47,624 4,000 famsoc86(1) -,851,158 28,990 1,000,427 famsoc86(2) -,712,129 30,656 1,000,491 famsoc86(3) -,549,099 30,796 1,000,577 famsoc86(4) -,341,098 12,004 1,001,711 Constant -,976,152 40,988 1,000,377 Alle confoundere er signifikante: modelsøgning stopper. Høj familiesocialklasse giver lavere risiko for sygdom når man sammenligner personer med samme køn, alder og uddannelse. 21

Output: egen socialklasse B S.E. Wald df Sig. Exp(B) sex(1),220,068 10,419 1,001 1,246 alder86,031,002 157,064 1,000 1,031 udd86 16,665 4,002 udd86(1) -,289,176 2,695 1,101,749 udd86(2) -,364,140 6,790 1,009,695 udd86(3) -,319,083 14,754 1,000,727 udd86(4) -,254,136 3,473 1,062,776 socgrp86 25,399 4,000 socgrp86(1) -,814,207 15,499 1,000,443 socgrp86(2) -,550,150 13,455 1,000,577 socgrp86(3) -,400,102 15,327 1,000,670 socgrp86(4) -,242,088 7,520 1,006,785 Constant -1,210,146 68,601 1,000,298 Igen ses en signifikant effekt af socialklasse. 22

Egen eller familiesocialklasse? Hvis vi vil afgøre hvilken type af socialklasse der er vigtigst kan vi prøve at inkludere begge variable som kovariater samtidigt. 23

Output: begge socialklasse variable B S.E. Wald df Sig. Exp(B) sex(1),157,070 5,035 1,025 1,170 alder86,030,002 149,664 1,000 1,031 udd86 15,417 4,004 udd86(1) -,286,177 2,611 1,106,751 udd86(2) -,353,142 6,194 1,013,703 udd86(3) -,311,084 13,764 1,000,733 udd86(4) -,248,137 3,281 1,070,780 socgrp86 1,547 4,818 socgrp86(1) -,224,283,628 1,428,799 socgrp86(2),058,220,069 1,793 1,059 socgrp86(3),068,154,196 1,658 1,070 socgrp86(4),047,120,155 1,694 1,048 famsoc86 21,218 4,000 famsoc86(1) -,729,224 10,626 1,001,482 famsoc86(2) -,758,193 15,484 1,000,469 famsoc86(3) -,598,150 15,840 1,000,550 famsoc86(4) -,364,131 7,676 1,006,695 Constant -1,002,156 41,243 1,000,367 Familiesocialklasse er vigtigst. Efter korrektion for familiesocialklasse er effekten af egen socialklasse klart insignifikant. Men efter korrektion for egen socialklasse er familiesocialklasse stadig signifikant. 24

Fortolkning af resultatet Familiesocialklasse har betydning for risiko for kronisk sygdom - ikke egen socialklasse Sammenlignes personer med samme egen socialklasse, men forskellig familiesocialklasse, så vil personen med den bedste familiesocialklasse have mindst sygdomsrisiko. Sammenlignes personer med samme familiesocialklasse men forskellig egen socialklasse, så vil der ikke være signifikant forskel på sygdomsrisikoen. 25

Er alderseffekten lineær? Testes ved at inddrage et 2. og 3. grads led i alder. Disse variable genereres og indsættes som ekstra kovariater. Herved opnås en mere fleksibel beskrivelse af alderseffekten (3. grads polynomium): logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder +β al2 alder 2 + β al3 alder 3 Hvis β al2 = β al3 = 0 er alderseffekten lineær. 26

Output: 1., 2. og 3. grad Variables in the Equation B S.E. Wald df Sig. Exp(B) sex(1),135,065 4,229 1,040 1,144 alder86,189,119 2,520 1,112 1,208 udd86 17,881 4,001 udd86(1) -,346,150 5,340 1,021,708 udd86(2) -,339,136 6,193 1,013,713 udd86(3) -,311,080 15,320 1,000,732 Step 1 a udd86(4) -,263,134 3,873 1,049,768 famsoc86 47,222 4,000 famsoc86(1) -,849,159 28,659 1,000,428 famsoc86(2) -,710,129 30,412 1,000,492 famsoc86(3) -,549,099 30,651 1,000,578 famsoc86(4) -,338,098 11,830 1,001,713 alder2 -,003,002 2,076 1,150,997 alder3,000,000 2,351 1,125 1,000 Constant -3,371 1,967 2,937 1,087,034 a. Variable(s) entered on step 1: sex, alder86, udd86, famsoc86, alder2, alder3. 3. gradsled er insignifikant og fjernes derfor 27

Output: 1. og 2. grad Variables in the Equation B S.E. Wald df Sig. Exp(B) sex(1),135,065 4,273 1,039 1,145 alder86,009,020,203 1,652 1,009 udd86 17,182 4,002 udd86(1) -,340,150 5,181 1,023,711 udd86(2) -,333,136 5,994 1,014,717 udd86(3) -,304,079 14,628 1,000,738 Step 1 a udd86(4) -,261,134 3,794 1,051,771 famsoc86 46,528 4,000 famsoc86(1) -,841,158 28,200 1,000,431 famsoc86(2) -,705,129 29,993 1,000,494 famsoc86(3) -,545,099 30,295 1,000,580 famsoc86(4) -,338,098 11,822 1,001,713 alder2,000,000 1,218 1,270 1,000 Constant -,452,498,825 1,364,636 a. Variable(s) entered on step 1: sex, alder86, udd86, famsoc86, alder2. også 2. gradsleddet er insignifikant. Dvs en linie giver en tilstrækkelig beskrivelse af alderseffekten 28

Hvad betyder α? logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder Det er logit-værdien for personer med værdien 0 på alle kovariater. Her familiesocialklasse V, kvinde, 0 år gammel, ingen uddannelse. logit(p) = log[p/(1 p)] = 0.976 p = exp( 0.976)/[1+exp( 0.976)] = 0.27 Men vi har ikke data for 0-årige, så resultatet er en ekstrapolation. Åndsvage α-værdier angives for ofte. Bør droppes i artikeltabeller - eller også kan nulpunktet ændres. Dette gøres ved at lave en ny aldersvariabel der er 0 f.eks for 50-årige nyalder = alder 50 29

Output med nyalder B S.E. Wald df Sig. Exp(B) sex(1),134,065 4,222 1,040 1,144 udd86 17,020 4,002 udd86(1) -,336,150 5,037 1,025,715 udd86(2) -,328,136 5,812 1,016,721 udd86(3) -,303,079 14,608 1,000,738 udd86(4) -,258,134 3,725 1,054,772 Step 1 a famsoc86 47,624 4,000 famsoc86(1) -,851,158 28,990 1,000,427 famsoc86(2) -,712,129 30,656 1,000,491 famsoc86(3) -,549,099 30,796 1,000,577 famsoc86(4) -,341,098 12,004 1,001,711 nyalder,030,002 157,523 1,000 1,031 Constant,542,082 44,194 1,000 1,720 logit(p) = log[p/(1 p)] = 0.542 p = exp(0.542)/[1+exp(0.542)] = 0.63 30

Modelsøgning: Vekselvirkninger? Nu tilføjes vekselvirkningsled. Hvilke? Socialklasse med hver af de tilbageværende confoundere, dvs familiesocailklasse køn, familiesocailklasse alder, familiesocailklasse uddannelse Baglænsselektion: 1. familiesocailklasse uddannelse (p = 0.35) 2. familiesocailklasse alder (p = 0.12) Dvs vi ender med en model med signifikant interaktion mellem køn og familiesocialklasse. 31

Output: vekselvirkning mellem køn og socialklasse B S.E. Wald df Sig. Exp(B) sex(1) -,272,149 3,299 1,069,762 udd86 17,894 4,001 udd86(1) -,349,153 5,239 1,022,705 udd86(2) -,319,136 5,489 1,019,727 udd86(3) -,316,080 15,691 1,000,729 udd86(4) -,255,134 3,597 1,058,775 famsoc86 48,195 4,000 famsoc86(1) -1,002,203 24,278 1,000,367 famsoc86(2) -1,039,177 34,535 1,000,354 famsoc86(3) -,809,139 33,905 1,000,445 famsoc86(4) -,582,136 18,225 1,000,559 nyalder,030,002 156,027 1,000 1,031 famsoc86 sex 10,539 4,032 famsoc86(1) by sex(1),302,271 1,239 1,266 1,353 famsoc86(2) by sex(1),628,229 7,546 1,006 1,874 famsoc86(3) by sex(1),513,190 7,319 1,007 1,670 famsoc86(4) by sex(1),480,187 6,572 1,010 1,616 Constant,754,109 47,426 1,000 2,125 Vekselvirkningen er signifikant - men hvordan skal den forståes? 32

Vekselvirkning mellem køn og socialklasse (forklaring af Tabel 8 i studenterbesvarelse) logit(p) = α + Σ i β uddi uddi + β al nyalder + Σ i β soci soci + β sex1 sex1 +β soc1,sex1 soc1 sex1 + β soc2,sex1 soc2 sex1 +β soc3,sex1 soc3 sex1 + β soc4,sex1 soc4 sex1 Sidste 4 led beskriver vekselvirkningen. logit beregnes for forskellige persontyper: 1. udd=v,alder=50, soc=v: sex=kvinde: logit= α 2. udd=v,alder=50, soc=v sex=mand: logit= α + β sex1 logit-forskel= β sex1 (2-1) 3. udd=v,alder=50, soc=iv sex=mand: logit= α + β sex1 + β soc4 + β soc4,sex1 logit-forskel=β sex1 + β soc4 + β soc4,sex1 (3-1) 33

Beskrivelse af vekselvirkningen logit-forskel for sygdom i forhold til kvinder med laveste socialklasse β SEX(1) -0.272 SOC(1) -1.002 SOC(2) -1.039 SOC(3) -0.809 SOC(4) -0.582 SOC(1)bySEX(1) 0.302 SOC(2)bySEX(1) 0.628 SOC(3)bySEX(1) 0.513 SOC(4)bySEX(1) 0.480 SEX V IV III II I 2 0-0.582-0.809-1.039-1.002 1-0.272-0.272-0.272-0.272-0.272-0.582-0.809-1.039-1.002 +0.480 +0.513 +0.628 +0.302 34

Vekselvirkningen - effekt af socialklasse logit-forskel for sygdom i forhold til kvinder med laveste socialklasse V IV III II I kvinde 0-0.582-0.809-1.039-1.002 mand -0.272-0.272-0.272-0.272-0.272-0.582-0.809-1.039-1.002 +0.480 +0.513 +0.628 +0.302 Effekt af socialklasse for hvert køn V IV III II I kvinde 0-0.582-0.809-1.039-1.002 (mand) 0-0.582+0.480-0.809+0.513-1.039 +0.628-1.002+0.302 mand 0-0.102-0.296-0.411-0.700 35

OR for familiesocialklasse OR 95%-CI p Kvinder soc V 1 - - soc IV 0.559 0.428 ; 0.730 <0.0001 soc III 0.445 0.339 ; 0.585 <0.0001 soc II 0.354 0.250 ; 0.500 <0.0001 soc I 0.367 0.247 ; 0.547 <0.0001 Mænd soc V 1 - - soc IV 0.903 0.692 ; 1.179 0.4533 soc III 0.744 0.570 ; 0.971 0.0293 soc II 0.663 0.477 ; 0.922 0.0147 soc I 0.497 0.326 ; 0.756 0.0011 Socialklasse-effekten er stærkere for kvinder 36

SPSS: Hvordan findes 95%-CI og p? Ret let. SPSS angiver jo socialklasse-effekten for reference-værdien af køn (kvinder). Effekt for mænd findes ved at vælge denne gruppe som referencen. 37

Vekselvirkning - effekt af køn V IV III II I kvinde 0-0.582-0.809-1.039-1.002 mand -0.272-0.272-0.272-0.272-0.272-0.582-0.809-1.039-1.002 +0.480 +0.513 +0.628 +0.302 Effekt af køn for hver socialklasse V IV III II I kvinde 0 0 0 0 0 (mand) -0.272-0.272 +0.480-0.272+0.513-0.272+0.628-0.272 +0.302 mand -0.272 0.208 0.241 0.357 0.031 38

OR for køn Socialklasse 5 OR 95%-CI p kvinde 1 - - mand 0.762 0.569 ; 1.022 0.0693 Socialklasse 4 kvinde 1 - - mand 1.232 0.984 ; 1.542 0.0687 Socialklasse 3 kvinde 1 - - mand 1.273 1.011 ; 1.603 0.0404 Socialklasse 2 kvinde 1 - - mand 1.429 1.016 ; 2.009 0.0401 Socialklasse 1 kvinde 1 - - mand 1.031 0.661 ; 1.609 0.8927 For nogle socialklasse-niveauer er mænd bedre end kvinder for andre gælder det modsatte. 39

SPSS: Hvordan findes 95%-CI og p? Ret let - men lidt besværligt. SPSS angiver jo køns-effekten for reference-værdien af socialklasse (5). Effekt af køn for f.eks socialklasse 4 findes ved at vælge denne gruppe som referencen. Dette kræver omkodning. Lav ny socialklassevariabel (famsoc4) der er identisk med den gamle, bortset fra at når den gamle variabel er 4 er den nye 10. Analysen køres med den nye socialklassevariabel (famsoc4) hvorved gruppe 4 automatisk bliver referencen. 40

Vekselvirkning Når køn indgår i en vekselvirkning giver det ikke mening at tale om en kønseffekt. Effekten af køn afhænger af socialklasse. Tilsvarende kan man ikke tale om en effekt af socialklasse. Effekten afhænger af køn. 41