Introduktion til SPSS



Relaterede dokumenter
SPSS introduktion Om at komme igang 1

Program dag 2 (11. april 2011)

Statistik og skalavalidering. Opgave 1

Multipel Lineær Regression

Klargøring af data til aflevering til DDA. Instruks

Øvelser til basalkursus, 2. uge

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Kommentarer til øvelser i basalkursus, 2. uge

Basal Statistik - SPSS

HOFTEALLOPLASTIK - DATAUDTRÆK OG IMPORT TIL EXCEL

Statistik i GeoGebra

Vejledning til prototypen af RaConverter

Statistik II 1. Lektion. Analyse af kontingenstabeller

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Sådan afleverer du forskningsdata til arkivering

Forskelllige spørgsmålstyper: Signle, multipel, matrice, tekstfelt, fritekst

Indledning. På de følgende sider vises, primært i tegneserieform, lidt om mulighederne i PC-AXIS for Windows.

Manual opdateret Oktober 2015 Copyright ABC Softwork Aps. Materialet må ikke gengives eller kopieres uden tilladelse. Download din gratis 30 dages

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Regressionsanalyse i SurveyBanken

Basal Statistik - SPSS

Statistik Lektion 4. Variansanalyse Modelkontrol

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Data management Vejledning til ph.d. studerende og andre v/ Willy Karlslund

Øvelse 2. SPSS og sandsynlighedsregning

Statistik Lektion 16 Multipel Lineær Regression

Arbejd videre med statistik

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Fig. 1 Billede af de 60 terninger på mit skrivebord

KURSUS I ANALYSEPORTALEN (AP) DANSK PALLIATIV DATABASE 3 1. ÅBNING AF ANALYSEPORTALEN 3 2. OPRETTELSE AF EN RAPPORT DVS. START AF DATAANALYSE 4

Et CAS program til Word.

Stolpediagrammer for kategoriske data med -catplot-

Generelle lineære modeller

Dannelse af PDF-dokumenter

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Manual til udvidet abonnement

Vejledning til udtræk fra UNIK (Version: UNIK Bolig 4)

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Undervisning i Dansk Palliativ Database

Eksamen i Statistik og skalavalidering

Kort om indlæsning af excel filer til budgetkladder i Navision

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Øvelser til Kemometri

Specialkort med Valgdata

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Jacob Hviid Hornnes, Anne Christensen og Ulrik Hesse. Arbejdsnotat. Metode- og materialeafsnit til Sundhedsprofil for Gribskov Kommune

Øvelse i SurveyBanken: Traditionelle værdier

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

GIS. Guide til indlæsning af data i ArcGIS herunder KMS-data fra internettet

Hvorfor SAS Kort intro til SAS

Moltrup-sogn.dk - Vejledning i redigering af undersider, og oprettelse af nye sider.

Phd-kursus i Basal Statistik, Opgaver til 1. uge

OPBYGNING AF INSTRUMENTER. Online Designeren Record ID Felttyper Validering og variabelnavne

Indstillinger. 1. Built-in viewer 2. Built-in viewer embedded 3. Ekstern viewer

... øvelser. Fortæl mig, og jeg glemmer. Vis mig, og jeg husker. Involver mig, og jeg forstår. Konfutse

Dannelse af PDF dokumenter

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Kapitel 4 Løkker i C#

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

Vejledning i LPR-Avanceret (LPR-kuben)

WORKSHOP 2C, DLF-kursus, Krogerup, 26. november 2015

R / RStudio. Intro til R / RStudio

Udbrændthed og brancheskift

Newtons afkølingslov

GECKO Booking Vejledning til spørgeskema-modul. Læsevejledning. Indholdsfortegnelse

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Dannelse af PDF-dokumenter

Basal Statistik - SPSS

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Opgaver. Notater. Opgave 1: Find kursus hjemmeside og bladre lidt rundt på siderne.

Udarbejdet af: Frontal Lobe teamet, Jonathan Lawaetz og Joachim Skovbo Dato for opdatering: 27/05/18. Indholdsfortegnelse

Basal Statistik - SPSS

Mappen Lænderyg præsentation DaneSpine kan placeres et vilkårligt sted på PC (drev/mappe).

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Basal Statistik - SPSS

Nyt i Analyseportalen og Web Report Studio. Analyseportalen

Simulering af stokastiske fænomener med Excel

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Øvelse: Pladetektonik

5. OPSÆTNING DOKUMENTSKABELONER 5.1 TRIN

Statistik (deskriptiv)

Vejledning til udtræk fra UNIK (Version: UNIK Bolig 4)

SÅDAN BRUGER DU REGNEARK INTRODUKTION

SAS formater i Danmarks Statistik

Easy Guide i GallupPC

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

NVivo-øvelser for PC. Når NVivo er åbent, kan importen ske på to måder:

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Spørgeskemaundersøgelser og databehandling

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Transkript:

Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger uforholdsmæssigt megen tid og mange mentale kræfter på at få statistikprogrammerne til at fungere i stedet for at bruge kræfterne på at forstå forudsætningerne og pointerne i de statistiske metoder. For at modvirke dette starter vi med to gange tre timers introduktion til SPSS, hvor I kan få mulighed for at lære programmet at kende, før vi skal i gang med den egentlige statistik. Øvelserne stiller i princippet ikke krav om kendskab til andet end de deskriptive statistiske metoder, som I kender fra undervisningen i folkeskolen og gymnasiet. Filen DEMO95 september 2011.xls, der kan hentes på hjemmesiden, er en excelfil med oplysninger fra en undersøgelse af sundheden blandt voksne (mindst 18 år) i København i 1995. En fil indeholdende det spørgeskema, der blev brugt til undersøgelsen kan hentes på samme side. I forbindelse med disse øvelser skal vi 1) indlæse excelfilen i SPSS, 2) definere variablene så de bliver parate til den statistiske analyse 3) omkode nogle variable og beregne nye 4) indlæse en excelfil med nogle supplerende variable og flette denne fil sammen med den første fil 5) foretage nogle simple deskriptive statistiske analyser Bemærk, at du bør gemme resultaterne af hver øvelse, således at du i efterfølgende øvelser kan gå tilbage og hente oplysninger. SPSS filen skal i øvrigt bruges i forbindelse med senere øvelser i analyse af data, så det er også af den grund vigtigt at du gemmer filen og har styr på, hvad den indeholder. 1

Opgave 1. Indlæsning af excel fil Download Excel-filen og gem den med navnet DEMO95 september 2011.xls på din egen computer. Excel-filen indeholder svarene på spørgsmål 1, 5, 33, 40, 41, 73 76. Formuleringen af disse spørgsmål kan I se på de næste sider. Luk Excel-filen op, så I kan se, hvad den indeholder. Der er tale om en almindelig data matrice med personer i rækkerne og variablene i søjlerne. Bemærk, at der i toppen af hver søjle er angivet et søjlenavn, der refererer til spørgsmålet i skemaet. V1-søjlen indeholder således svarene på spørgsmål 1. SPSS vil bruge disse søjletekster som variabelnavne, når I beder SPSS om at indlæse excelfilen. For at indlæse Excel-filen skal I klikke på File menuen i SPSS, vælge Open Data og finde den fil der skal indlæses. Husk at filtypen skal være Excel. (Alternativt kan I højreklikke på Excel-filen, vælge Åben med og vælge SPSS). Når filen er indlæst skal I - Gemme filen som en SPSS fil (filtypen er SAV) kald den DEMO95.SAV - Bede SPSS om at kortlægge frekvensfordelingerne for samtlige variable (menupunkterne er Analyze Descriptives Frequencies) Brug lidt tid til at bladre tabelsamlingen i gennem, så I vænner jer til SPSSs måde at præsentere output på. Som I kan se i tabellerne, så mangler der en hel del oplysninger om variablene i SPSSfilen. Det vil der blive rådet bod på i forbindelse med næste opgave. 2

5. 3

4

Opgave 2 Definition af variable I forbindelse med indlæsningen af Excel-filen definerede SPSS nogle variable med navne, der svarede til variabelnavnene i den øverste række af Excel-filen, men udover det blev der ikke gemt noget, der kunne fortælle hvad de registrerede oplysninger dækkede. Formålet med denne opgave er derfor at færdiggøre variabeldefinitionerne, således at de oplysninger, som spørgeskemaet indeholder om spørgsmålene bliver overført til variabeldefinitionerne (jf. spørgeskemaet ovenfor). Variabeldefinitionen foregår i SPSSs variable view Følgende skal defineres for samtlige variable: Forklarende tekster til variable (variabel labels) Kategori tekster (value labels) Brugerdefinerede missing values de tilladelige værdier fremgår af spørgeskemaet. Alle andre værdier, som der måtte være i datasættet, skal defineres som missing values (jf. de frekvenstabeller du lavede i øvelse 1) I kan også ændre variabelnavne, hvis I synes det er hensigtsmæssigt. I stedet for at navnet på den variabel, der indeholder oplysninger om køn hedder V74 kan den med fordel hedde Køn. Da der er tale om mange variable kan dette tage en hel del tid, hvis man ikke benytter sig af mulighederne for klippe og klistre i SPSS. V5a-V5i referer til spørgsmål, der alle har de samme svarkategorier. I stedet for at definere dem en ad gangen kan I nøjes med at definere dem for V5a og derefter først tage en kopi af dem kopiere dem (Ctrl C) som kan klistres til de øvrige variable. Samme procedure kan i øvrigt bruges til oplysninger om koder for uoplyste og alle de andre variabelinformationer. Efter at variablene er defineret kan I gå tilbage til data-viewet. I View-menuen kan I bede om at få kategoritekster i stedet for de observerede variabelværdier i datamatricen, hvis dette vurderes mere praktisk end at se kodeværdierne. Check variabeldefinitionerne ved at bruge Variables-muligheden under Utilities-menuen eller ved at bruge Display Data File Information-muligheden under File-menuen. 5

Opgave 3a Deskriptiv statistik på hele eller dele af materialet. Formålet med opgaverne 3a og 3b er dels at afprøve SPSSs faciliteter til deskriptiv databehandling og dels at lære, hvordan man kan foretage analyser af dele af datamaterialet, uden at man behøver at lave nye datamaterialer, der kun indeholder de personer, som man vil arbejde med. Der skal foretages tre deskriptive analyser. Der skal først udarbejdes univariate beskrivelser af fordelingerne af samtlige variable i datamaterialet ved hjælp af frekvenstabeller, søjlediagrammer og/eller histogrammer. I behøver ikke at lave alle ting for alle variable, men tænk lidt over hvordan I selv synes det vil være bedst at få fordelingen af de forskellige variable beskrevet. Derefter skal der laves to-vejs tabeller, der viser hvorledes det selvrapporterede helbred hænger sammen med svarene på spørgsmål 5, 33, 40 og 74. Til sidst skal I plotte personernes vægt mod personernes højde i et såkaldt scatterplot. Man skelner mellem to typer af deskriptive metoder, grafiske og numeriske. De grafiske metoder findes under menuen GRAPHS. Vælg Legacy dialogs (de andre muligheder er alt for langsommelige at arbejde med), hvor I kan finde muligheder for at lave Histograms (til kontinuerte fordelinger), Bar Charts (til fordelinger af kategoriske variable) og Scatter plots (til at vise sammenhængen mellem variable). Numeriske metoder findes under menuen ANALYZE. Vælg Descriptive Statistics, hvor det i denne øvelse især er Frequencies og Crosstabs, som I skal bruge. I forbindelse med brugen af Crosstabs skal I tænke over hvad der skal vises i cellerne (række procenter eller søjleprocenter?). Tryk på Cells for at fastlægge indholdet af cellerne. 6

Opgave 3b Deskriptiv statistik på dele af materialet. I den første del af denne opgave skal i gennemføre de samme deskriptive analyser, som I lavede i opgave 3a, men analyserne skal kun foretages for de personer, der ryger. For at gøre dette skal I vælge DATA Select Cases og derefter give SPSS oplysning om, at I kun vil arbejde med de personer, hvor V33 = 1 (rygerne). Husk at slå valget fra, når I er færdige med denne del af øvelsen. I den anden del af denne øvelse skal I gennemføre de samme deskriptive analyser for mænd og kvinder hver for sig (udvælg 2-3 analyser, som du vil gentage). For at overtale SPSS til det, skal I vælge DATA Split file og derefter bede om at få output organiseret (eller sammenlignet) ved grupper givet ved V74. Opgave 4 Repetition af indlæsning og klargøring af excel materiale, og sammenfletning af to datamaterialer Spørgsmål 2 og 3 i spørgeskemaet var ikke inkluderet i den excel fil, som I startede med. Svarene på disse to spørgsmål findes i filen V2v3.xls. Denne fil skal nu indlæses og klargøres som SPSS materiale, og derefter flettes sammen med det store materiale i DEMO95. De manglende spørgsmål var 7

Arbejdsgangen er følgende: 1) Indlæs Excell-filen (V2v3.xls) i SPSS, gem den som en SPSS-datafil, og gør variablene klar til brug. 2) Sortér begge datafiler på løbenummer i stigende orden og gem dem. 3) Læg de to filer (DATA MERGE FILES ADD VARIABLES) med løbenummeret som key -variabel og dem filen med et nyt navn 4) Flyt v2 og v3til de rette pladser i datamaterialet. Opgave 5. Beregning af nye variable. Næste skridt er at danne nye variable, der skal bruges til de statistiske analyser. Der er to måder, man kan gøre dette på. Man kan enten beregne dem som funktioner af en eller flere variable eller man kan omkode eksisterende variable. I denne øvelse skal I udelukkende beregne ved hjælp af SPSSs Compute-procedure. Omkodningen kommer i næste øvelse. Før I går i gang med beregningen af de nye variable er det en god ide, hvis I først gemme materialet under det oprindelige navn og derefter gemmer materialet under et nyt navn. De beregninger, som I foretager vil kun blive foretaget i materialet med det nye navn, således at I har muligheder for at vende tilbage til det oprindelige materiale, hvis I opdager, at I har lavet fejl i forbindelse med beregningerne (det sker for os alle på et eller andet tidspunkt). De variable, der skal beregnes, er fremhævet med fed skrift i det efterfølgende. Kommentarerne til beregningerne er skrevet med almindelig skrift. Brug Compute-proceduren under Transform-menuen til at beregne 2 nye variable: a) Alder = 1995 fødselsår b) BMI = vægt i kg /højde 2 I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende: - Check konstruktionen begge variable ved at lave en Case Summary tabel (Analyze-menuen, Reports og Case Summary) og konstatér for et par personer at beregningerne er foretaget korrekt! 8

Opgave 6. Omkodninger Brug SPSSs Recode into different-procedure at danne følgende nye variable: a) En binær selvrapporteret helbreds-variabel b) En aldersvariabel, hvor alderen er angivet i 10-års alderskategorier c) En BMI-variabel, der angiver, om BMI er større eller mindre end 30 Den omkodede helbreds-variabel skal have værdien 0 for meget dårligt til nogenlunde og 1 for godt til meget godt. Omkod BMI-variablen, så BMI under 30 får værdien 0 (ikke obese) og BMI over 30 får værdien 1 (obese) I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende: - Check om den binære helbreds-variabel (a) er omkodet korrekte ved hjælp af en krydstabel. - Check om aldersvariablen (b) er omkodet korrekt ved at sammenligne frekvenserne for den nye og den oprindelige variabel - Lav en Case Summary tabel for at checke at BMI-variablen (c) er omkodet korrekt. 9

Opgave 7. Beregning af nye variable med brug af logiske betingelser Den næste variabel skal kun beregnes for rygerne. Øvelsen er kompliceret. Hvis tiden er knap er I derfor velkomne til at springe den over. - En variabel som samler spørgsmålene 40 og 41 til én variabel, der angiver, hvor mange gange personen har forsøgt at holde op med at ryge. Start med at undersøge fordelingen af spørgsmålene 40 og 41 for rygerne (V33 = 1 eller 2). Den nye variabel skal kun beregnes for disse personer. Vi vil kalde den nye variabel Nforsøg Start med at sætte Nforsøg = 0 for personer med V33 = 1 eller 2 og V40 = 2 (nej) For en ordens skyld bør du lave en frekvenstabel for Nforsøg. Den skal have værdien 0 for de rygere, der aldrig har forsøgt og være uoplyst for alle andre. Sæt derefter Nforsøg = V41 personer med V33 = 1 eller 2 og V40 = 1 (ja) I anden omgang vil SPSS vil advare dig om at du er i færd med at ændre en eksisterende variabel. Det er ofte en dårlig ide, men i dette tilfælde er det i orden. Derefter skal du igen udarbejde en frekvenstabel for Nforsøg. Den skal være uoplyst for alle ikke rygere. 10