Introduktion til SPSS

Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger uforholdsmæssigt megen tid og mange mentale kræfter på at få statistikprogrammerne til at fungere i stedet for at bruge kræfterne på at forstå forudsætningerne og pointerne i de statistiske metoder. For at modvirke dette starter vi med to gange tre timers introduktion til SPSS, hvor I kan få mulighed for at lære programmet at kende, før vi skal i gang med den egentlige statistik. Øvelserne stiller i princippet ikke krav om kendskab til andet end de deskriptive statistiske metoder, som I kender fra undervisningen i folkeskolen og gymnasiet. Filen DEMO95 september 2011.xls, der kan hentes på hjemmesiden, er en excelfil med oplysninger fra en undersøgelse af sundheden blandt voksne (mindst 18 år) i København i 1995. En fil indeholdende det spørgeskema, der blev brugt til undersøgelsen kan hentes på samme side. I forbindelse med disse øvelser skal vi 1) indlæse excelfilen i SPSS, 2) definere variablene så de bliver parate til den statistiske analyse 3) omkode nogle variable og beregne nye 4) indlæse en excelfil med nogle supplerende variable og flette denne fil sammen med den første fil 5) foretage nogle simple deskriptive statistiske analyser Bemærk, at du bør gemme resultaterne af hver øvelse, således at du i efterfølgende øvelser kan gå tilbage og hente oplysninger. SPSS filen skal i øvrigt bruges i forbindelse med senere øvelser i analyse af data, så det er også af den grund vigtigt at du gemmer filen og har styr på, hvad den indeholder. 1

Opgave 1. Indlæsning af excel fil Download Excel-filen og gem den med navnet DEMO95 september 2011.xls på din egen computer. Excel-filen indeholder svarene på spørgsmål 1, 5, 33, 40, 41, 73 76. Formuleringen af disse spørgsmål kan I se på de næste sider. Luk Excel-filen op, så I kan se, hvad den indeholder. Der er tale om en almindelig data matrice med personer i rækkerne og variablene i søjlerne. Bemærk, at der i toppen af hver søjle er angivet et søjlenavn, der refererer til spørgsmålet i skemaet. V1-søjlen indeholder således svarene på spørgsmål 1. SPSS vil bruge disse søjletekster som variabelnavne, når I beder SPSS om at indlæse excelfilen. For at indlæse Excel-filen skal I klikke på File menuen i SPSS, vælge Open Data og finde den fil der skal indlæses. Husk at filtypen skal være Excel. (Alternativt kan I højreklikke på Excel-filen, vælge Åben med og vælge SPSS). Når filen er indlæst skal I - Gemme filen som en SPSS fil (filtypen er SAV) kald den DEMO95.SAV - Bede SPSS om at kortlægge frekvensfordelingerne for samtlige variable (menupunkterne er Analyze Descriptives Frequencies) Brug lidt tid til at bladre tabelsamlingen i gennem, så I vænner jer til SPSSs måde at præsentere output på. Som I kan se i tabellerne, så mangler der en hel del oplysninger om variablene i SPSSfilen. Det vil der blive rådet bod på i forbindelse med næste opgave. 2

Opgave 2 Definition af variable I forbindelse med indlæsningen af Excel-filen definerede SPSS nogle variable med navne, der svarede til variabelnavnene i den øverste række af Excel-filen, men udover det blev der ikke gemt noget, der kunne fortælle hvad de registrerede oplysninger dækkede. Formålet med denne opgave er derfor at færdiggøre variabeldefinitionerne, således at de oplysninger, som spørgeskemaet indeholder om spørgsmålene bliver overført til variabeldefinitionerne (jf. spørgeskemaet ovenfor). Variabeldefinitionen foregår i SPSSs variable view Følgende skal defineres for samtlige variable: Forklarende tekster til variable (variabel labels) Kategori tekster (value labels) Brugerdefinerede missing values de tilladelige værdier fremgår af spørgeskemaet. Alle andre værdier, som der måtte være i datasættet, skal defineres som missing values (jf. de frekvenstabeller du lavede i øvelse 1) I kan også ændre variabelnavne, hvis I synes det er hensigtsmæssigt. I stedet for at navnet på den variabel, der indeholder oplysninger om køn hedder V74 kan den med fordel hedde Køn. Da der er tale om mange variable kan dette tage en hel del tid, hvis man ikke benytter sig af mulighederne for klippe og klistre i SPSS. V5a-V5i referer til spørgsmål, der alle har de samme svarkategorier. I stedet for at definere dem en ad gangen kan I nøjes med at definere dem for V5a og derefter først tage en kopi af dem kopiere dem (Ctrl C) som kan klistres til de øvrige variable. Samme procedure kan i øvrigt bruges til oplysninger om koder for uoplyste og alle de andre variabelinformationer. Efter at variablene er defineret kan I gå tilbage til data-viewet. I View-menuen kan I bede om at få kategoritekster i stedet for de observerede variabelværdier i datamatricen, hvis dette vurderes mere praktisk end at se kodeværdierne. Check variabeldefinitionerne ved at bruge Variables-muligheden under Utilities-menuen eller ved at bruge Display Data File Information-muligheden under File-menuen. 5

Opgave 3a Deskriptiv statistik på hele eller dele af materialet. Formålet med opgaverne 3a og 3b er dels at afprøve SPSSs faciliteter til deskriptiv databehandling og dels at lære, hvordan man kan foretage analyser af dele af datamaterialet, uden at man behøver at lave nye datamaterialer, der kun indeholder de personer, som man vil arbejde med. Der skal foretages tre deskriptive analyser. Der skal først udarbejdes univariate beskrivelser af fordelingerne af samtlige variable i datamaterialet ved hjælp af frekvenstabeller, søjlediagrammer og/eller histogrammer. I behøver ikke at lave alle ting for alle variable, men tænk lidt over hvordan I selv synes det vil være bedst at få fordelingen af de forskellige variable beskrevet. Derefter skal der laves to-vejs tabeller, der viser hvorledes det selvrapporterede helbred hænger sammen med svarene på spørgsmål 5, 33, 40 og 74. Til sidst skal I plotte personernes vægt mod personernes højde i et såkaldt scatterplot. Man skelner mellem to typer af deskriptive metoder, grafiske og numeriske. De grafiske metoder findes under menuen GRAPHS. Vælg Legacy dialogs (de andre muligheder er alt for langsommelige at arbejde med), hvor I kan finde muligheder for at lave Histograms (til kontinuerte fordelinger), Bar Charts (til fordelinger af kategoriske variable) og Scatter plots (til at vise sammenhængen mellem variable). Numeriske metoder findes under menuen ANALYZE. Vælg Descriptive Statistics, hvor det i denne øvelse især er Frequencies og Crosstabs, som I skal bruge. I forbindelse med brugen af Crosstabs skal I tænke over hvad der skal vises i cellerne (række procenter eller søjleprocenter?). Tryk på Cells for at fastlægge indholdet af cellerne. 6

Opgave 3b Deskriptiv statistik på dele af materialet. I den første del af denne opgave skal i gennemføre de samme deskriptive analyser, som I lavede i opgave 3a, men analyserne skal kun foretages for de personer, der ryger. For at gøre dette skal I vælge DATA Select Cases og derefter give SPSS oplysning om, at I kun vil arbejde med de personer, hvor V33 = 1 (rygerne). Husk at slå valget fra, når I er færdige med denne del af øvelsen. I den anden del af denne øvelse skal I gennemføre de samme deskriptive analyser for mænd og kvinder hver for sig (udvælg 2-3 analyser, som du vil gentage). For at overtale SPSS til det, skal I vælge DATA Split file og derefter bede om at få output organiseret (eller sammenlignet) ved grupper givet ved V74. Opgave 4 Repetition af indlæsning og klargøring af excel materiale, og sammenfletning af to datamaterialer Spørgsmål 2 og 3 i spørgeskemaet var ikke inkluderet i den excel fil, som I startede med. Svarene på disse to spørgsmål findes i filen V2v3.xls. Denne fil skal nu indlæses og klargøres som SPSS materiale, og derefter flettes sammen med det store materiale i DEMO95. De manglende spørgsmål var 7

Arbejdsgangen er følgende: 1) Indlæs Excell-filen (V2v3.xls) i SPSS, gem den som en SPSS-datafil, og gør variablene klar til brug. 2) Sortér begge datafiler på løbenummer i stigende orden og gem dem. 3) Læg de to filer (DATA MERGE FILES ADD VARIABLES) med løbenummeret som key -variabel og dem filen med et nyt navn 4) Flyt v2 og v3til de rette pladser i datamaterialet. Opgave 5. Beregning af nye variable. Næste skridt er at danne nye variable, der skal bruges til de statistiske analyser. Der er to måder, man kan gøre dette på. Man kan enten beregne dem som funktioner af en eller flere variable eller man kan omkode eksisterende variable. I denne øvelse skal I udelukkende beregne ved hjælp af SPSSs Compute-procedure. Omkodningen kommer i næste øvelse. Før I går i gang med beregningen af de nye variable er det en god ide, hvis I først gemme materialet under det oprindelige navn og derefter gemmer materialet under et nyt navn. De beregninger, som I foretager vil kun blive foretaget i materialet med det nye navn, således at I har muligheder for at vende tilbage til det oprindelige materiale, hvis I opdager, at I har lavet fejl i forbindelse med beregningerne (det sker for os alle på et eller andet tidspunkt). De variable, der skal beregnes, er fremhævet med fed skrift i det efterfølgende. Kommentarerne til beregningerne er skrevet med almindelig skrift. Brug Compute-proceduren under Transform-menuen til at beregne 2 nye variable: a) Alder = 1995 fødselsår b) BMI = vægt i kg /højde 2 I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende: - Check konstruktionen begge variable ved at lave en Case Summary tabel (Analyze-menuen, Reports og Case Summary) og konstatér for et par personer at beregningerne er foretaget korrekt! 8

Opgave 6. Omkodninger Brug SPSSs Recode into different-procedure at danne følgende nye variable: a) En binær selvrapporteret helbreds-variabel b) En aldersvariabel, hvor alderen er angivet i 10-års alderskategorier c) En BMI-variabel, der angiver, om BMI er større eller mindre end 30 Den omkodede helbreds-variabel skal have værdien 0 for meget dårligt til nogenlunde og 1 for godt til meget godt. Omkod BMI-variablen, så BMI under 30 får værdien 0 (ikke obese) og BMI over 30 får værdien 1 (obese) I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende: - Check om den binære helbreds-variabel (a) er omkodet korrekte ved hjælp af en krydstabel. - Check om aldersvariablen (b) er omkodet korrekt ved at sammenligne frekvenserne for den nye og den oprindelige variabel - Lav en Case Summary tabel for at checke at BMI-variablen (c) er omkodet korrekt. 9

Opgave 7. Beregning af nye variable med brug af logiske betingelser Den næste variabel skal kun beregnes for rygerne. Øvelsen er kompliceret. Hvis tiden er knap er I derfor velkomne til at springe den over. - En variabel som samler spørgsmålene 40 og 41 til én variabel, der angiver, hvor mange gange personen har forsøgt at holde op med at ryge. Start med at undersøge fordelingen af spørgsmålene 40 og 41 for rygerne (V33 = 1 eller 2). Den nye variabel skal kun beregnes for disse personer. Vi vil kalde den nye variabel Nforsøg Start med at sætte Nforsøg = 0 for personer med V33 = 1 eller 2 og V40 = 2 (nej) For en ordens skyld bør du lave en frekvenstabel for Nforsøg. Den skal have værdien 0 for de rygere, der aldrig har forsøgt og være uoplyst for alle andre. Sæt derefter Nforsøg = V41 personer med V33 = 1 eller 2 og V40 = 1 (ja) I anden omgang vil SPSS vil advare dig om at du er i færd med at ændre en eksisterende variabel. Det er ofte en dårlig ide, men i dette tilfælde er det i orden. Derefter skal du igen udarbejde en frekvenstabel for Nforsøg. Den skal være uoplyst for alle ikke rygere. 10