Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Transkript

1 Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom

2 Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede uddannelse (i 1986). Egen socialklasse, Familiesocialklasse og Oplysninger om tilstedeværelse af vedvarende (kronisk) sygdom. Socialklassen: mål for social status baseret på oplysninger om uddannelse og arbejde, hvor personer i socialklasse I har størst social status, mens personer i socialklasse V har lavest status. Egen socialstatus er baseret på personens egne oplysninger om uddannelse og arbejde. Familiesocialklassen er defineret som den højeste af personens egen og en eventuel ægtefælles eller samlevers socialklasse. Formål: undersøge om personens egen socialklasse og familiesocialklassen har betydning for forekomsten af kroniske sygdomme. 1

3 Indhold Jeg vil have fokus på de statistiske metoder - ikke så meget præsentation (overordnet set er studenterbesvarelsen et fint eksempel på hvordan resultater af en statistisk analyse præsenteres). 1. Analyse i 2-vejs tabeller 2. Mantel-Haenszel analyser 3. Logistisk regression (a) modelsøgning (b) vekselvirkning Her mest fokus på logistisk regression. 2

4 Deskriptiv statistik Beskriv fordelingen af de variable der indgår i analysen. Studenter besvarelsen er for kort - mangler fordeling af potentielle confoundere: Egen socialgrp. I: 5.1; II: 10.4; III: 19.7; IV: 36.9; V: 28.0 Alder 30-40: 27.0; 40-50: 24.7; 50-60: 17.6; 60-70: 17.5; 70-80: 13.2 Kronisk sygdom nogle: 51.0 Køn kvinde: Fordeling af analysevariable: relativ hyppighed i procent (N=4561). Angiv også for hver variabel antallet af uoplyste. 3

5 Marginale sammenhænge De vigtigste sammenhænge i denne analyse er relationen mellem socialklasse og kronisk sygdom. I II III IV V Egen socialklasse 34% 39% 47% 48% 61% Familiesocialklasse 36% 39% 49% 51% 66% Hypotesen om ingen sammenhæng H 0 : p 1 = p 2 = p 3 = p 4 = p 5 Egen socialklasse χ 2 = 103, df = 4, p < Familiesocialklasse χ 2 = 148, df = 4, p < Her kunne man også have angivet γ Jo dårligere socailklasse jo højere risiko for sygdom 4

6 Confounding? socialklasse confounder sygdom I stratificerede analyser og ved logistisk regression kan vi undersøge om den stærke sammenhæng vi har fundet mellem socialklasse og sygdom er et resultat af confounding 5

7 Sammenhæng mellem de to socialklassevariable Familie Egen I II III IV V Total I II III IV V Total Familiesocialgruppe bør ikke være dårligere end egen socialgruppe, dvs alle personer burde ligge på eller under diagonalen. Det er ikke tilfældet. Vi antager at data er korrekte. Man kunne også have ekskluderet disse få cases. Sådanne problemer opstår i mange data, når de opdages må man henvende sig til den dataansvarlige. χ 2 = 9277, df = 16, p < 0.001, γ = 0.879, p < 0.001, Meget stærk sammenhæng mellem de to socailklasse-variable. 6

8 Mantel-Haenszel analyse Mantel-Haenszel analyser kræver en binær eksponeringsvariabel og passer derfor ikke umiddelbart til disse data. Mantel-Haenszel analysen er en del af pensum, så ved en mundtlig eksamen kan spørgsmål i dette emne forekomme. Her er det en fordel for studenten at have konkrete resultater at tale ud fra. Derfor er det en god ide at skære data lidt til så Mantel-Haenszel analyser kan foretages. For begge socialklassevariable bruges grupperingen: I+II mod III+IV+V Tabel 3 undersøger effekt af potentielle confounders på eksponering og outcome. Mantel-Haenszel resultater i Tabel 4 og 5 i studenterbesvarelse. 7

9 Generel stratificeret analyse Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k syg soc Ja Nej lav a 1 b 1... syg soc Ja Nej lav a z b z... syg soc Ja Nej lav a k b k høj c 1 d 1 høj c z d z høj c k d k ÔR 1 ÔR z ÔR k 8

10 Socialklasse-Sygdom: stratifikation efter alder (fra 3. søjle i Tabel 4) OR Hypotesen om ingen effektmodifikation H 0 : OR 1 = OR 2 =... = OR 5 Hypotesen testes ved Breslow-Day testet: χ 2 = 2.1, df = 4, p = 0.72 Alder modificerer ikke effekt af socialklasse på risiko for sygdom Mantel Haenzel OR estimat: % CI (1.37; 1.95) Alder kan ikke forklare effekten af socialklasse på sygdom 9

11 Hvorfor indgår køn ikke i Tabel 4 og 5? I Tabel 3 ses at køn ikke påvirker risiko for sygdom. Hermed opfylder køn ikke kravene til en confounder. Men det udelukker ikke at køn kunne være en effektmodifikator: vigtigheden af socialklasse for helbred kunne afhænge af køn. Det ville have været mere korrekt at have ladet køn indgå i Mantel-Haenzel analysen 10

12 Mantel-Haenszel og confounding s. 6 midten: formålet er at afgøre om alder, uddannelse, egen og familiesocialklasse er rent faktisk er konfoundere Nej, formålet er at estimere effekten af exposure på outcome korrigeret for mulige konfoundere. s. 7 midten: Afsnit ender med at konkludere: Alder er en konfounder. Lidt underlig konklusion. Jeg vil hellere sige at analysen har vist at det er vigtigt at korrigere for alder - ret stor forskel på marginal OR (1.83) og korrigeret OR (1.64). 11

13 Logistisk regressionsanalyse (og notation) Her bruger vi de oprindelige socialklassevariable som kategoriske kovariater: logit(p) = α + β soc Bogen og studenterbesvarelsen skriver modellen op med dummy-variable: logit(p) = α+β soc1 soc1+β soc2 soc2+β soc3 soc3+β soc4 soc4 = α+σ i β soci soci soc1, soc2, soc3, soc4 er dummy variable, der udpeger grupperne I til IV, V er reference gruppen. Dvs soc1=1 for personer i gruppe I og 0 ellers. Se også s i bogen. β soci er logit forskellen mellem gruppe i og V (referencegruppe). OR i = exp(β soci ) 12

14 Hvorfor? Model logit(p) = α + β soc1 soc1 + β soc2 soc2 + β soc3 soc3 + β soc4 soc4 logit i gruppe I: logit(p) = α + β soc1 1 + β soc2 0 + β soc3 0 + β soc4 0 = α + β soc1 logit i gruppe V: logit(p) = α + β soc1 0 + β soc2 0 + β soc3 0 + β soc4 0 = α logit-forskel = α + β soc1 α = β soc1 OR 1vs5 = exp(β soc1 ) 13

15 Resultat: familiesocialklasse Variables in the Equation B S.E. Wald df Sig. Exp(B) famsoc86 143,576 4,000 famsoc86(1) -1,248,130 91,987 1,000,287 Step 1 a famsoc86(2) -1,111, ,650 1,000,329 famsoc86(3) -,706,092 59,016 1,000,494 famsoc86(4) -,605,091 44,658 1,000,546 Constant,658,072 82,416 1,000 1,931 a. Variable(s) entered on step 1: famsoc86. Sammenlignes gruppe I med V (referencegruppen) fåes en OR på [exp( 1.248)], dvs. i gruppe I udgør odds for sygdom kun 29% af odds i gruppe V. Det samlede test for ingen effekt af socialgruppen aflæses i 1. række: p < H 0 : β soc1 = β soc2 = β soc3 = β soc4 = 0 Effekten af familiesocialgruppe er stærkt signifikant. 14

16 Multipel logistisk regressionsanalyse En vigtig fordel ved logistisk regressions analyse er at det er let at lave confounderkorrektion. En potentiel confounder medtages som endnu en kovariat. Aldersjustering: logit(p) = α + Σ i β soci soci + β al alder Nu estimeres odds-ratio værdier mellem personer fra forskellige socialgrupper, men med samme alder. 15

17 Modelsøgning - Hvilke variable skal med i modellen? Socialklasse skal med - det er jo den vi vil finde effekten af (primær del) Hvilke confounder variable? og hvad med vekselvirkninger? Baglæns selektion: Start med stor model og fjern insignifikante variable. Denne metode benyttes i studenterbesvarelsen se Tabel 6. Startmodel: egen socialklassse, familiesocialklasse, køn, alder, uddannelse, samt vekselvirkninger: egen socialklasse familiesocialklasse, egen socialklasse køn, egen socailklasse alder, egen socailklasse uddannelse, familiesocialklasse køn, familiesocailklasse alder, familiesocialklasse uddannelse. 16

18 Baglæns selektion - studenterbesvarelse Trin 1: vekselvirkningen egen socialklasse familie socialklasse fjernes fordi variablen er insignifikant og har den højeste p-værdi (p = 0.71). Trin 2: vekselvirkningen egen socialklasse uddannelse fjernes fordi variablen er insignifikant og har den højeste p-værdi (p = 0.30).... Trin 8: model indeholder: familiesocialklasse, køn, alder, uddannelse, familiesocialklasse køn - alle led er signifikante 17

19 Det hierarkiske princip for interaktioner Hvis en model indeholder interaktionen X Z skal modellen også indeholde hovedvirkningerne X og Z Dvs. i en baglæns selektionsprocedure må man ikke fjerne X eller Z hvis X Z er i modellen. Tabel 6: uddannelse kan først fjernes efter at egen socailklasse uddannelse og familie socailklasse uddannelse er fjernet. Fint illustreret i tabellen 18

20 Modelsøgning: anbefalet metode En svaghed ved metoden i studenterbesvarelsen og bogens afsnit er at man let ender med en model med vekselvirkninger. Vi foreslår: 1. Start med en model med alle potentielle confoundere men uden vekselvirkninger. Lav evt baglæns selektion. Fortolk resultatet i den endelige model. 2. Linearitetstjek af kontinuerte variable (her alder). Ikke-lineære effekter: f.eks alder 2 og alder 3. Eller logaritme. En ikke-lineær effekt rapporteres i en tegning. 3. Inkluder udvalgte vekselvirkninger og lav baglæns modelsøgning blandt disse. Kovariater med ikke-lineær effekt i trin 2 kan evt erstattes med kategoriserede variable. 19

21 Startmodeller Vi har to socialklasse-variable som er meget stærkt relaterede. Jeg starter med at se på dem hver for sig. logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder Hvor soc-variablen angiver enten familiesocialklasse eller egen socialklasse 20

22 Output: familiesocialklasse B S.E. Wald df Sig. Exp(B) sex(1),134,065 4,222 1,040 1,144 alder86,030, ,523 1,000 1,031 udd86 17,020 4,002 udd86(1) -,336,150 5,037 1,025,715 udd86(2) -,328,136 5,812 1,016,721 udd86(3) -,303,079 14,608 1,000,738 udd86(4) -,258,134 3,725 1,054,772 famsoc86 47,624 4,000 famsoc86(1) -,851,158 28,990 1,000,427 famsoc86(2) -,712,129 30,656 1,000,491 famsoc86(3) -,549,099 30,796 1,000,577 famsoc86(4) -,341,098 12,004 1,001,711 Constant -,976,152 40,988 1,000,377 Alle confoundere er signifikante: modelsøgning stopper. Høj familiesocialklasse giver lavere risiko for sygdom når man sammenligner personer med samme køn, alder og uddannelse. 21

23 Output: egen socialklasse B S.E. Wald df Sig. Exp(B) sex(1),220,068 10,419 1,001 1,246 alder86,031, ,064 1,000 1,031 udd86 16,665 4,002 udd86(1) -,289,176 2,695 1,101,749 udd86(2) -,364,140 6,790 1,009,695 udd86(3) -,319,083 14,754 1,000,727 udd86(4) -,254,136 3,473 1,062,776 socgrp86 25,399 4,000 socgrp86(1) -,814,207 15,499 1,000,443 socgrp86(2) -,550,150 13,455 1,000,577 socgrp86(3) -,400,102 15,327 1,000,670 socgrp86(4) -,242,088 7,520 1,006,785 Constant -1,210,146 68,601 1,000,298 Igen ses en signifikant effekt af socialklasse. 22

24 Egen eller familiesocialklasse? Hvis vi vil afgøre hvilken type af socialklasse der er vigtigst kan vi prøve at inkludere begge variable som kovariater samtidigt. 23

25 Output: begge socialklasse variable B S.E. Wald df Sig. Exp(B) sex(1),157,070 5,035 1,025 1,170 alder86,030, ,664 1,000 1,031 udd86 15,417 4,004 udd86(1) -,286,177 2,611 1,106,751 udd86(2) -,353,142 6,194 1,013,703 udd86(3) -,311,084 13,764 1,000,733 udd86(4) -,248,137 3,281 1,070,780 socgrp86 1,547 4,818 socgrp86(1) -,224,283,628 1,428,799 socgrp86(2),058,220,069 1,793 1,059 socgrp86(3),068,154,196 1,658 1,070 socgrp86(4),047,120,155 1,694 1,048 famsoc86 21,218 4,000 famsoc86(1) -,729,224 10,626 1,001,482 famsoc86(2) -,758,193 15,484 1,000,469 famsoc86(3) -,598,150 15,840 1,000,550 famsoc86(4) -,364,131 7,676 1,006,695 Constant -1,002,156 41,243 1,000,367 Familiesocialklasse er vigtigst. Efter korrektion for familiesocialklasse er effekten af egen socialklasse klart insignifikant. Men efter korrektion for egen socialklasse er familiesocialklasse stadig signifikant. 24

26 Fortolkning af resultatet Familiesocialklasse har betydning for risiko for kronisk sygdom - ikke egen socialklasse Sammenlignes personer med samme egen socialklasse, men forskellig familiesocialklasse, så vil personen med den bedste familiesocialklasse have mindst sygdomsrisiko. Sammenlignes personer med samme familiesocialklasse men forskellig egen socialklasse, så vil der ikke være signifikant forskel på sygdomsrisikoen. 25

27 Er alderseffekten lineær? Testes ved at inddrage et 2. og 3. grads led i alder. Disse variable genereres og indsættes som ekstra kovariater. Herved opnås en mere fleksibel beskrivelse af alderseffekten (3. grads polynomium): logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder +β al2 alder 2 + β al3 alder 3 Hvis β al2 = β al3 = 0 er alderseffekten lineær. 26

28 Output: 1., 2. og 3. grad Variables in the Equation B S.E. Wald df Sig. Exp(B) sex(1),135,065 4,229 1,040 1,144 alder86,189,119 2,520 1,112 1,208 udd86 17,881 4,001 udd86(1) -,346,150 5,340 1,021,708 udd86(2) -,339,136 6,193 1,013,713 udd86(3) -,311,080 15,320 1,000,732 Step 1 a udd86(4) -,263,134 3,873 1,049,768 famsoc86 47,222 4,000 famsoc86(1) -,849,159 28,659 1,000,428 famsoc86(2) -,710,129 30,412 1,000,492 famsoc86(3) -,549,099 30,651 1,000,578 famsoc86(4) -,338,098 11,830 1,001,713 alder2 -,003,002 2,076 1,150,997 alder3,000,000 2,351 1,125 1,000 Constant -3,371 1,967 2,937 1,087,034 a. Variable(s) entered on step 1: sex, alder86, udd86, famsoc86, alder2, alder3. 3. gradsled er insignifikant og fjernes derfor 27

29 Output: 1. og 2. grad Variables in the Equation B S.E. Wald df Sig. Exp(B) sex(1),135,065 4,273 1,039 1,145 alder86,009,020,203 1,652 1,009 udd86 17,182 4,002 udd86(1) -,340,150 5,181 1,023,711 udd86(2) -,333,136 5,994 1,014,717 udd86(3) -,304,079 14,628 1,000,738 Step 1 a udd86(4) -,261,134 3,794 1,051,771 famsoc86 46,528 4,000 famsoc86(1) -,841,158 28,200 1,000,431 famsoc86(2) -,705,129 29,993 1,000,494 famsoc86(3) -,545,099 30,295 1,000,580 famsoc86(4) -,338,098 11,822 1,001,713 alder2,000,000 1,218 1,270 1,000 Constant -,452,498,825 1,364,636 a. Variable(s) entered on step 1: sex, alder86, udd86, famsoc86, alder2. også 2. gradsleddet er insignifikant. Dvs en linie giver en tilstrækkelig beskrivelse af alderseffekten 28

30 Hvad betyder α? logit(p) = α + Σ i β soci soci + β sex1 sex1 + Σ i β uddi uddi + β al alder Det er logit-værdien for personer med værdien 0 på alle kovariater. Her familiesocialklasse V, kvinde, 0 år gammel, ingen uddannelse. logit(p) = log[p/(1 p)] = p = exp( 0.976)/[1+exp( 0.976)] = 0.27 Men vi har ikke data for 0-årige, så resultatet er en ekstrapolation. Åndsvage α-værdier angives for ofte. Bør droppes i artikeltabeller - eller også kan nulpunktet ændres. Dette gøres ved at lave en ny aldersvariabel der er 0 f.eks for 50-årige nyalder = alder 50 29

31 Output med nyalder B S.E. Wald df Sig. Exp(B) sex(1),134,065 4,222 1,040 1,144 udd86 17,020 4,002 udd86(1) -,336,150 5,037 1,025,715 udd86(2) -,328,136 5,812 1,016,721 udd86(3) -,303,079 14,608 1,000,738 udd86(4) -,258,134 3,725 1,054,772 Step 1 a famsoc86 47,624 4,000 famsoc86(1) -,851,158 28,990 1,000,427 famsoc86(2) -,712,129 30,656 1,000,491 famsoc86(3) -,549,099 30,796 1,000,577 famsoc86(4) -,341,098 12,004 1,001,711 nyalder,030, ,523 1,000 1,031 Constant,542,082 44,194 1,000 1,720 logit(p) = log[p/(1 p)] = p = exp(0.542)/[1+exp(0.542)] =

32 Modelsøgning: Vekselvirkninger? Nu tilføjes vekselvirkningsled. Hvilke? Socialklasse med hver af de tilbageværende confoundere, dvs familiesocailklasse køn, familiesocailklasse alder, familiesocailklasse uddannelse Baglænsselektion: 1. familiesocailklasse uddannelse (p = 0.35) 2. familiesocailklasse alder (p = 0.12) Dvs vi ender med en model med signifikant interaktion mellem køn og familiesocialklasse. 31

33 Output: vekselvirkning mellem køn og socialklasse B S.E. Wald df Sig. Exp(B) sex(1) -,272,149 3,299 1,069,762 udd86 17,894 4,001 udd86(1) -,349,153 5,239 1,022,705 udd86(2) -,319,136 5,489 1,019,727 udd86(3) -,316,080 15,691 1,000,729 udd86(4) -,255,134 3,597 1,058,775 famsoc86 48,195 4,000 famsoc86(1) -1,002,203 24,278 1,000,367 famsoc86(2) -1,039,177 34,535 1,000,354 famsoc86(3) -,809,139 33,905 1,000,445 famsoc86(4) -,582,136 18,225 1,000,559 nyalder,030, ,027 1,000 1,031 famsoc86 sex 10,539 4,032 famsoc86(1) by sex(1),302,271 1,239 1,266 1,353 famsoc86(2) by sex(1),628,229 7,546 1,006 1,874 famsoc86(3) by sex(1),513,190 7,319 1,007 1,670 famsoc86(4) by sex(1),480,187 6,572 1,010 1,616 Constant,754,109 47,426 1,000 2,125 Vekselvirkningen er signifikant - men hvordan skal den forståes? 32

34 Vekselvirkning mellem køn og socialklasse (forklaring af Tabel 8 i studenterbesvarelse) logit(p) = α + Σ i β uddi uddi + β al nyalder + Σ i β soci soci + β sex1 sex1 +β soc1,sex1 soc1 sex1 + β soc2,sex1 soc2 sex1 +β soc3,sex1 soc3 sex1 + β soc4,sex1 soc4 sex1 Sidste 4 led beskriver vekselvirkningen. logit beregnes for forskellige persontyper: 1. udd=v,alder=50, soc=v: sex=kvinde: logit= α 2. udd=v,alder=50, soc=v sex=mand: logit= α + β sex1 logit-forskel= β sex1 (2-1) 3. udd=v,alder=50, soc=iv sex=mand: logit= α + β sex1 + β soc4 + β soc4,sex1 logit-forskel=β sex1 + β soc4 + β soc4,sex1 (3-1) 33

35 Beskrivelse af vekselvirkningen logit-forskel for sygdom i forhold til kvinder med laveste socialklasse β SEX(1) SOC(1) SOC(2) SOC(3) SOC(4) SOC(1)bySEX(1) SOC(2)bySEX(1) SOC(3)bySEX(1) SOC(4)bySEX(1) SEX V IV III II I

36 Vekselvirkningen - effekt af socialklasse logit-forskel for sygdom i forhold til kvinder med laveste socialklasse V IV III II I kvinde mand Effekt af socialklasse for hvert køn V IV III II I kvinde (mand) mand

37 OR for familiesocialklasse OR 95%-CI p Kvinder soc V soc IV ; < soc III ; < soc II ; < soc I ; < Mænd soc V soc IV ; soc III ; soc II ; soc I ; Socialklasse-effekten er stærkere for kvinder 36

38 SPSS: Hvordan findes 95%-CI og p? Ret let. SPSS angiver jo socialklasse-effekten for reference-værdien af køn (kvinder). Effekt for mænd findes ved at vælge denne gruppe som referencen. 37

39 Vekselvirkning - effekt af køn V IV III II I kvinde mand Effekt af køn for hver socialklasse V IV III II I kvinde (mand) mand

40 OR for køn Socialklasse 5 OR 95%-CI p kvinde mand ; Socialklasse 4 kvinde mand ; Socialklasse 3 kvinde mand ; Socialklasse 2 kvinde mand ; Socialklasse 1 kvinde mand ; For nogle socialklasse-niveauer er mænd bedre end kvinder for andre gælder det modsatte. 39

41 SPSS: Hvordan findes 95%-CI og p? Ret let - men lidt besværligt. SPSS angiver jo køns-effekten for reference-værdien af socialklasse (5). Effekt af køn for f.eks socialklasse 4 findes ved at vælge denne gruppe som referencen. Dette kræver omkodning. Lav ny socialklassevariabel (famsoc4) der er identisk med den gamle, bortset fra at når den gamle variabel er 4 er den nye 10. Analysen køres med den nye socialklassevariabel (famsoc4) hvorved gruppe 4 automatisk bliver referencen. 40

42 Vekselvirkning Når køn indgår i en vekselvirkning giver det ikke mening at tale om en kønseffekt. Effekten af køn afhænger af socialklasse. Tilsvarende kan man ikke tale om en effekt af socialklasse. Effekten afhænger af køn. 41