Statistik og skalavalidering. Opgave 1

Relaterede dokumenter
Logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Introduktion til SPSS

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Generelle lineære modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Synopsis til eksamen i Statistik

Lineær og logistisk regression

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Morten Frydenberg 26. april 2004

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Program dag 2 (11. april 2011)

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Statistik & Skalavalidering

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Logistisk Regression - fortsat

Eksamen i statistik 2009-studieordning

Morten Frydenberg 14. marts 2006

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistik II 4. Lektion. Logistisk regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Et psykisk belastende arbejde har store konsekvenser for helbredet

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Eksamen i Statistik og skalavalidering

Konfidensintervaller og Hypotesetest

Regressionsanalyse i SurveyBanken

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Synopsis til kursus i Statistik og skalavalidering på Folkesundhedsvidenskab

Løsning til opgave i logistisk regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Multipel Lineær Regression

Statistik II 1. Lektion. Analyse af kontingenstabeller

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Eksamen i Statistik for biokemikere. Blok

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kursets hjemmeside:

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik Lektion 4. Variansanalyse Modelkontrol

1 Multipel lineær regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Økogården. Virksomheds- og situationsbeskrivelse. Problemformuleringer. Økogården

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Øvelse 2. SPSS og sandsynlighedsregning

1 Multipel lineær regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Bilag 12 Regressionsanalysens tabeller og forklaringer

Ralph Bøge Jensen 20. december Lønligningen. Resumé:

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Statistik Lektion 17 Multipel Lineær Regression

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Brugervejledning til udskriften ReproAnalyse

Introduktion til overlevelsesanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Transkript:

Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk formål, der typisk både drejer sig om at lære hvordan man kan få SPSS til at foretage de beregninger, som man har brug for, og om at lære at læse det output som SPSS producerer. Og for det andet et metodisk formål, der drejer sig om at gennemføre en fornuftig statistisk analyse, der kan give løsning på en række fagligt motiverede problemer. Datamaterialet til denne øvelse stammer fra en spørgeskemaundersøgelse af arbejdsmiljøet i den danske folkeskole i slutningen af 90 erne. I det datamateriale, som hører til øvelsen, er der inkluderet demografiske oplysninger (køn og alder), oplysninger om helbred (angivet ved antal sygeperioder), oplysninger om det fysiske arbejdsmiljø, oplysninger om dagligt forbrug af alkohol- og tobak samt oplysninger om forbrug af fire forskellige type af medicin. Det overordnede formål er at finde ud af, hvilken betydning de faktorer, der er inkluderet i datamaterialet, har for forbruget af medicin under hensyntagen til eventuel konfounding og effektmodifikation. For at løse det problem, skal der opstilles en statistisk model med medicinforbrug som afhængig variabel og nogle af datamaterialets øvrige variable som uafhængige (forklarende) variable. Der er to krav til en god løsning. Det ene er, at der er tale om en enkel model, der ikke indeholder mere end nødvendigt, således at tolkningen af det, som modellen fortæller, ikke bliver for kompliceret. Det andet krav er, at modellen ikke er udtryk for en overforenkling, således at resultaterne af den statistiske analyse er konfoundede. Et af de praktisk/tekniske formål med øvelsen er, at give jer en mulighed for at repetere det, I lærte på bachelorkurset om logistisk regression ved hjælp af SPSS. 1

Et andet teknisk formål er at lære, hvordan man foretager likelihood-analyser ved hjælp af SPSS. For at kunne gøre det, skal I dels lære at læse noget mere af det output, som SPSS producerer i forbindelse med disse analyser, og dels vide, hvordan I får SPSS til at beregne likelihood ratio test som supplement til de Wald test, I ellers har brugt. For at besvare det overordnede problem skal I opstille og kontrollere en statistisk model, i dette tilfælde en logistisk regressionsmodel, der beskriver hvorledes en af medicin variablene afhænger af andre variable i materialet. For at kunne gøre det, skal I kunne bruge de faciliteter til logistisk regression, som SPSS stiller til rådighed, men SPSS løser ikke alle problemerne for jer: 1) Skal alle andre variable afprøves? Og hvis ikke: hvilke variable kan udelades fra starten? 2) Visse variable foreligger i flere versioner. Hvilke af disse variable skal bruges? Kontinuert eller kategoriseret alder? Tobak og alkohol med to, tre eller fire kategorier? 3) Skal der inkluderes interaktioner i modellerne? Hvorfor eller hvorfor ikke? Skal alle interaktioner med eller kun nogle (hvilke)? 4) Hvordan skal resultaterne tolkes? 5) Hvilke resultater skal rapporteres? For at hjælpe jer med dette vil vi dele opgaven op i flere trin. De første skal hjælpe jer med det rent spss-tekniske, mens de sidste i højere grad handler om det metodiske. Følgende variable skal bruges i denne opgave: Afhængig variabel: berolmid Uafhængige variable: køn, alder, sygeperioder, tobak, alkohol (Vi har altså taget stilling til de to første problemer i ovenstående liste for at I kan komme i gang med øvelsen. I praksis kan valget af variable til analyserne være alt afgørende. Hvis I vil overbevises om det kan I jo prøve at gennemføre analyserne med alderen opdelt i forskellige kategorier og med dikotomiserede alko- og tobaksvariable). 2

Formålet med opgaven er at undersøge om det er nødvendigt at tage højde for effektmodifikation i den model, der skal beskrive effekten af de uafhængige variable på forbruget af beroligende midler. For at undersøge det, er det nødvendigt at regne tingene igennem for en model uden interaktionsled og en model med alle de interaktionsled som kan komme på tale., og derefter at sammenligne resultaterne af de to analyser ved hjælp af et likelihood ratio test. Analysen forløber derfor i følgende fire trin, hvor det første trin blot er den form for deskriptiv analyse, som man altid starter med for at sætte sig ind i hvilke variable, der er til rådighed for analyserne. Trin 1: Foretag en univariat deskriptiv analyse (frekvenstabeller og/eller søjlediagrammer) af alle variablene i datamaterialet Trin 2: a) Gennemfør en logistisk regressionsanalyse ved hjælp af ovenstående variable, men uden interaktioner. Husk at angive hvilke variable, der er kategoriale, og hvilke kategorier, der skal være referencekategorier. For at tvinge SPSS til også at beregne likelihood ratio test for hver enkelt variabel skal I sætte Method til Backwards LR og Removal = 1.00 i Options 1. Likelihood ratio testene vil blive skrevet i en output-tabel med overskriften Model if term removed b) Find tabellen med estimater af parametre og odds-ratio værdier. Kan I huske hvad tallene er udtryk for? Er der signifikant effekt af alle variable? c) Find tabellen med likelihood ratio testene. Sammenlign med Wald testene. Er der forskelle? Hvis der er forskel skal I tro mere på likelihood ratio testet end på Wald testet. d) Udfyld skema1. Oplysningerne kan findes i outputtet. 1 Hvis removal ikke sættes lig med 1,00 vil SPSS starte en automatisk backwards modelsøgning, hvilket ikke er hensigten på dette tidspunkt. 3

Skema 1: Resultater vedrørende model med hovedvirkninger for all variable uden interaktioner Resultat Afsnit i outputtet Antal personer i analysen 1754 Case processing Summary Antal ukendte parametre i modellen 11 Lig med df i tabellen med Omnibus Tests of Model Coefficients (Block 1) Test af den tomme model mod modellen med all hovedvirkninger 47.619 0.000 Chi-square og Sig. For Model i Omnibus tests -2 log likelihood 399.627 Fra model summary (Block 1) Trin 3: e) Gennemfør en logistisk regressionsanalyse på samme måde som i Trin 2, men nu med en model, hvor der er to-vejs interaktioner mellem samtlige variable. Er der nogle af to-vejs interaktionerne, der er signifikante? (husk at lægge mærke til forskellen på Wald-testene og likelihood ratio testene. De er slående). f) Udfyld skema 2. Oplysningerne kan findes i outputtet. Skema 2: Resultater vedrørende model med hovedvirkninger for all variable med interaktioner Resultat Afsnit i outputtet Antal personer i analysen 1754 Case processing Summary Antal ukendte parametre i modellen 54 Lig med df i tabellen med Omnibus Tests of Model Coefficients (Block 1) Test af den tomme model mod modellen med all hovedvirkninger 112.04 0.000 Chi-square og Sig. For Model i Omnibus tests -2 log likelihood 335.206 Fra model summary (Block 1) Bemærk, at antallet af ukendte parametre er større end i skema 1, men at -2 log likelihood er mindre. Hvorfor? Trin 4: g) Kontroller, at antallet af personer er det samme i de to skemaer. h) Beregn likelihood ratio test størrelsen med modellen uden interaktioner som nul-hypotese og modellen med interaktioner som alternativ. (træk -2log likelihood fra skema 2 fra den tilsvarende værdi i skema 1). LR = 399.627-335.206 = 64.4, df=54-11=43 i) Antallet af frihedsgrader er lig med forskellen på antallet af parametre i de to modeller. Beregn p-værdien for likelihood ratio testet ved hjælp af syntaks-filen pchi.sps. Kan 4

modellen uden interaktioner accepteres? p = 0.02. Modellen uden vekselvirkninger bliver derfor forkastet. Der er med andre ord signifikant evidens for, at der er tale om en eller anden form for effekt modifikation. Resultatet er følgende SPSS-syntaksen i pchi.sps udfyldes på følgende måde temporary. n of cases 1. compute chi=399.627-335.206. compute df=54-11. compute pvalue=1.0-cdf.chisq(chi,df). format chi(f8.1) / df(f3) / pvalue(f8.5). LIST VARIABLES= chi df pvalue. chi df pvalue 64,4 43,01881 Number of cases read: 1 Number of cases listed: 1 Trin 5 (eventuelt): Hvis modellen forkastes må der være tale om en eller anden form for interaktion. Undersøg i output-tabellen med Model if term removed, om der er nogle interaktionsled, der er signifikante og fjern alle de insignifikante led. Kontroller den reducerede model mod modellen med alle interaktionsled på samme måde som i trin 3. Kan denne model accepteres? Der er tre signifikante interaktionsled: - køn*tobak (p = 0.007) - alkohol*sygeperioder (p = 0.014) - alkohol*tobak (p = 0.024) 5

Et test af en model med disse tre interaktionsled accepterer modellen. Beregningen af teststørrelsen er som følger: LR = 357.913 335.206 = 22.7 df = 54 35 = 19 p = 0.25 Trin 6 (eventuelt): Hvis modellen ikke accepteres, er det nødvendigt at foretage en trinvis elimination af interaktionsled fra modellen med alle interaktioner. Til dette formål skal I bruge likelihood ratio test i stedet for Wald test. Dette gøres ved at vælge backward LR i method og ved at sætte Removal = 1,00 i Options (for at sikre at modelsøgningen bliver manuel). Kontroller slutmodellen. Modellen blev accepteret, så dette trin skal springes over Trin 7. Foretag en trinvis manuel modelsøgning fra den reducerede model på samme måde som I gjorde på bachelorkurset. Husk principperne for hierarkiske modeller. Kontroller slutmodellen i forhold til modellen med alle interaktionsled, og fortolk alle parametrene. Bemærk: Når man foretager et likelihood ratio test af en model i forhold til en anden er det vigtigt, at antallet af personer er det samme i de to analyser, hvor -2*loglikelihood beregnes. For at sikre, at det er tilfældet skal i beregne en variabel, der angiver antallet af missing values blandt de variable, der indgår i den mest komplicerede model, og derefter foretager analyserne for de variable, hvor antallet af missing values er lig med 0. (brug Select cases i datamenuen). For at holde styr på hvad der sker i løbet af modelsøgningen, inklusiv den løbende kontrol i forhold til den mættede model med samtlige to-faktor vekselvirkninger, er det en god ide, at samle resultaterne op i en tabel svarende til skemaet på næste side. 6

Mættet model: (altså modellen med alle to-faktor vekselvirkninger) Antal personer = 1754 Antal parametre = 54-2 * log likelihood = 335.206 Modelsøgning Oplysninger om modellen efter elimination af en interaktion eller en variabel Antal personer Oplysninger om modellen efter elimination af en interaktion eller en variabel Antal parametre -2 * loglike LR df p Elimineret p- værdi køn*tobak 0.066 1754 31 366,708 31.5 23 0.11095 køn 0.311 1754 30 367.737 32.5 24 0.11436 alko*tobak 0.107 1754 14 390.980 55.8 40 0.04986 Forsøget med at slette alko*tobak fører til en model, der lige akkurat forkastes i forhold til modellen med alle to-faktor vekselvirkninger. Alko*tobak interaktionen kan altså ikke fjernes fra modellen. Der er intet andet, der kan elimineres pga. det hierarkiske princip. Ifølge analysen afhænger forbruget af beroligende midler derfor af alder, sygeperioder, tobak og alkohol. Effekten af alkohol modificeres af tobak og sygeperioder. Hvis man skulle få lyst til at fjerne alko*tobak fra modellen fordi en p-værdi på 0.04986 ikke er særlig overbevisende fortsætter modelsøgningen indtil der kun er alder og sygeperioder tilbage. Et test af denne model i forhold til modellen med to-faktor vekselvirkninger bliver klart forkastet. Den er klart et udtryk for overforenkling. 7

Hvad betyder interaktionerne? Det er naturligvis kompliceret, men så heller ikke værre. Et 3d-søjlediagram, der viser andelen, der bruger beroligende midler i forhold til alko og tobak ser således ud. Der er en påfaldende stor andel af personer, der tidligere har drukket, og som ikke ryger, som bruger beroligende midler. 8

Appendiks Medicin-2010.sav Nedenstående tabel indeholder en oversigt over alle de variable, som findes i datamaterialet til denne øvelse. Bemærk, at de korte spss-labels er skrevet med fed skrift samt at visse variable (alder samt jævnligt tobaks- og alkoholforbrug findes i flere forskellige variationer). Descriptive Statistics N Minimum Maximum køn Køn 1931 1 2 alder Alder 1945 22 69 rengøring Generes af utrilstrækkelig rengøring 1952 1 4 vedligehold Generes af manglende vedligeholdelse af lokaler 1945 1 4 træk Generes af træk 1930 1 4 ventilation Generes af dårlig ventilation, tør luft m.m. 1942 1 4 sygeperioder Antal sygeperioder 1873,00 16,00 tobak Jævnligt tobaksforbrug 1902,00 4,00 alkohol Jævnligt alkoholforbrug 1921,00 4,00 alder10 Alder i 10-årsgrupper 1945 1,00 6,00 berolmid jvt. forbrug af beroligende midler 1903 0 1 sovemid Jvt. forbrug af sovemedicin 1903 0 1 smrtstil jvt. forbrug af smertestillende midler 1909 0 1 stoffer jvt forbrug af stærkere stoffer 1876 0 1 tobak3 Tobaksforbrug i tre kategorier 1902,00 2,00 alko3 Alkohold i tre kategorier 1921,00 2,00 tobak2 Tobaksforbrug i to kategorier 1902,00 1,00 alko2 Alkohol i to kategorier 1921,00 1,00 Valid N (listwise) 1672 9