Data management Vejledning til ph.d. studerende og andre v/ Willy Karlslund

Data management Vejledning til ph.d. studerende og andre v/ Willy Karlslund Denne korte vejledning om data management gennemgår hvordan data i et projekt håndteres, og hvordan datagangen kan styres i et program. Desuden beskrives hvordan man anonymiserer data, foretager fejlsøgninger, retter fundne fejl, håndterer manglende værdier og genererer ekstra variable. Endelig gennemgås det, hvordan et datasæt oparbejdes til analysebrug. - Da data management ofte ender med, at data overgives til Dansk Data Arkiv er dette også beskrevet. Operationalisering. Noget af det første man skal gøre, når man har bestemt sig for at undersøge en problemstilling ved hjælp af data fra registre eller fra spørgeskemaer er at operationalisere. Hvad er det man skal undersøge? Med andre ord, hvilke enheder skal i spil: Patienter, læger, lægepraksis, laboratorieprøver, sygdomsepisoder. - Hvad er det der skal tælles? Hvilke spørgeskemaer og registre man skal bruge, kan man fx komme frem til ved forestille sig de tabeller, der bedst kan illustrere ens pointer i en tænkt fremtidig artikel. Det kan give en idé ikke kun om enhed(er), men også om stikprøven. Hvem skal med? - og hvor mange? Det kan forekomme, at man både skal bruge patient og lægeoplysninger - og eventuelt også på forskellige tidspunkter i et forløb. Hvordan skal den endelige datastruktur så være for at sige noget om det problem der er fokus på? Det er en god idé at have diskuteret dette, og eventuelt teste det i et pilotprojekt inden det fastlægges, hvilke data der skal hentes hjem. Fra rådata til analysedatasæt. Hvordan data håndteres er vigtigt for ikke at fare vild i analyserne, for den senere dokumentation af hvad der er sket og for den endelige arkivering af projektet. Det mest hensigtsmæssige er så vidt muligt at skrive det hele i ét langt program, som i den ene ende tager rådata ind, og i den anden skriver de analysedatasæt ud, der skal bruges til den egentlige analyse. Man kan udføre meget i fx SPSS, uden at programmere, - men i så fald bliver det svært at bevare overblikket endsige at reproducere processen. Programmet kan være skrevet i fx SAS, i STATA eller måske i SPSS-syntaks. Hvilken applikation (SAS etc.) man bruger, må man overveje ud fra en række faktorer. Hvad man har til rådighed, naturligvis. Men også om applikationen har alle de nødvendige funktioner, og har tilstrækkelig kompatibilitet. Kan applikationen importere de aktuelle data? Vil de resulterende analysedatasæt kunne anvendes af de aktuelle statistikprogrammer? - Det vigtigste er imidlertid, at der programmeres. Resten af dette skrift er en beskrivelse af et sådant program og dets elementer.

Hvordan får man data ind? Data kan komme fra udfyldte spørgeskemaer eller registreringsark på papir, - fra spørgeskemaer, som er udfyldt på nettet eller fra diverse mere eller mindre offentlige registre og databaser. Data fra et andet datamedie leveres almindeligvis i en kompatibel form, fx som regneark, database-tabeller eller lignende. Af og til kan de også leveres direkte som SPSS, eller SAS-datasæt. Spørgeskemaer på papir skal enten scannes ind eller tastes. For at skemaerne kan scannes forudsættes det normalt at de er konstrueret, med layout og alt, af det samme program som skal scanne de udfyldte skemaer. Det er ikke alle institutioner, som kan tilbyde den metode. Det er ret dyrt, og kan kun betale sig ved et ret stort flow af spørgeskemaundersøgelser. Skal skemaerne derimod tastes bør det ske ved dobbelttastning. Dvs. at der tastes to gange, uafhængigt af hinanden, og at de resulterende data derefter sammenlignes. Eventuelt kan man vælge kun at taste én gang, men med en efterfølgende korrekturlæsning. Erfaringsmæssigt vil man, hvis man ikke dobbelttaster eller korrekturlæser, få en eller flere fejl i hvert eneste skema, selv ved ret lille antal spørgsmål. De data der føres ind havner i et datasæt, som er den form for fil der normalt anvendes til statistisk analyse. Dvs. en rektangulær datafil (datamatrix), hvor hver linje er en observation, fx et spørgeskema på en patient, - og hver søjle er en variabel (se nedenstående figur). Hver celle repræsenterer således et svar, eller rettere en svarmulighed. Et spørgsmål med mulighed for flere samtidige svar skal fx have en variabel for hvert afkrydsningsfelt. Det er formålstjenligt men ikke absolut nødvendigt, at hver observation har en identifikationsvariabel, altså en variabel som entydigt identificerer observationen.

Af datasættet fås den allermest elementære og grundlæggende tabel, en kontingenstabel, se nedenstående figur: Anonymisering. Rådata skal eventuelt anonymiseres inden de tages ind i det overordnede program. Det kan ske i et eget lille program, normalt skrevet i samme programsprog som hovedprogrammet. Navne og personnumre fjernes og erstattes af løbenumre. Der skal eventuelt også dannes et nøgle datasæt, som indeholder løbenumre og fx et CPR-nummer. Nøgle datasættet kan leveres tilbage til dataleverandøren, fx en almen praksis, således at det kun er her anonymiteten kan brydes. Hvis patienterne oprindeligt er identificeret ved hjælp af et CPR-nummer kan det også være formålstjenligt i samme program at trække køn og fødselsdata ud. Disse data, inklusive ovennævnte løbenummer lægges i et specielt datasæt, som tages ind i hovedprogrammet sammen med de anonymiserede rådata.

Fejlsøgning. Det første element i det overordnede program består således i import af rådata. Derefter følger arbejdsmæssigt: Fejlsøgningen! Hvis data er dobbelttastet skal de to indtastninger sammenlignes. Først for uoverensstemmelser på værdierne, og derefter på observationerne. Det kan ske at samme skema ved et uheld er tastet to gange, eller at der ved den ene indtastning mangler et skema. Det skal programmet rapportere. Hvis der er en fejl i identifikationsvariablen vil det fremstå ved, at der i begge indtastninger er en observation, som ikke findes i den anden indtastning. Når sammenligningen er gjort og fejlene er skrevet ud gøres denne del af programmet, dvs. sammenligningen mellem de to indtastninger til en kommentar. Dvs. at man kan se hvordan sammenligningen er udført, men at denne del af hovedprogrammet ikke længere er i brug. Herefter kan man lede efter såkaldte vilde koder eller værdier. Dvs. koder der ikke bør forekomme. En variabel som beskriver patientens køn bør fx normalt ikke indeholde mere end to værdier: en for mand og en for kvinde. Den slags fejl er lette at opdage. Lige så snart man har læst data ind kan man fortage en udskrift af kontingenstabeller på samtlige variable, også kaldet en randfordeling. Gå alle variable igennem, og du ser de vilde koder. De vilde koder kan man helt undgå ved at anvende en indtastningdatabase, hvor der er sat regler op for hvilke koder der er tilladt i de enkelte variable Hvis der forekommer filtre i et spørgeskema skal der søges efter inkonsekvent udfyldelse af skemaet. Visse spørgsmål skal måske ikke bevares af alle respondenter. Typisk når man betjener sig af en hvis ja -klausul. Hvis sådanne spørgsmål alligevel er besvaret på trods af det indledende filter kan der enten være tale om en tastefejl, som ikke er fanget af dobbelttastningen eller om udfyldelsesfejl, dvs. at respondenten formodentlig har svaret på noget andet end det der er spurgt om. Endelig kan man søge efter umuligheder eller usandsynligheder: etbenede patienter med kondital eller gynækologiske undersøgelser på mænd, for eksempel. Disse skemaer skrives ud for eventuelt at opdage flere fejltastninger eller udfyldelsesfejl. Er her kun tale om usandsynligheder skal den del af søgningen siden hen udkommenteres. Som supplement til dette kan man vælge at skrive en tilfældig stikprøve af skemaer ud for en ekstra korrekturlæsning. Fejlrettelse. Nu følger fejlrettelsen. Eller mere korrekt: Rettelserne skal skrives ind sekventielt før fejlsøgningerne i hovedprogrammet. Derved vil fejlene ikke længere blive skrevet ud, forudsat rettelserne er udført korrekt. Hvis der er udført en dobbelttastning bruger man naturligvis kun den mest korrekte rådatafil, og foretager rettelserne ud fra den. Tastefejl rettes ved, for hver observation med fejl at indføre de korrekte værdier i de fejlbehæftede variable. Man kan fx skrive, at for løbenummer 26 skal en specifik variabel være lig 5. Hvis der i rådata stod noget andet er det hermed rettet i det kommende analysedatasæt, samtidigt med at rettelsen er dokumenteret.

Er der ved en dobbelttastning rod i identifikationen af observationerne kan det kun rettes ved at søge tilbage til rådata. Hvis der ved den ene tasteoperation er glemt en eller flere observationer kan disse tilføjes i programmet. Hvis en observation er tastet to gange i rådatafilen kan den ene fjernes, men det må ikke gøres i rådatafilen. Hvis der er en tastefejl i identifikationsvariablen kan man forsøge at sammenligne de øvrige variable for at få afklaret, hvad den rigtige værdi af identifikationsvariablen i den aktuelle indtastning skal være. Rettelserne skrives i programmet, når man har identificeret de fejlbehæftede observationer, eventuelt ved hjælp af nogle af de øvrige variable. Inkonsekvent udfyldelse eller åbenbart umulige besvarelser rettes ved, at alle de modstridende oplysninger fjernes. Dvs. at alle de relevante variable gøres ubesvarede for den aktuelle observation. Eventuelt kan man, hvis meningen kan ses af sammenhængen, nøjes med at ændre en af variablene til ubesvaret, så modstriden fjernes. I øvrigt udføres rettelsen og dokumentationen på samme måde som ovenfor. Så danne rettelse bør desuden rapporteres skriftligt. Det er altid en god idé før man har data i hus at diskutere hvilke kodemæssige forholdsregler man vil tage i brug, når der er inkonsekvent besvarelse, eller der er givet flere svar til en variabel, hvor man kun forventer ét svar. Det anbefales at søge information om håndtering af dette i litteraturen om spørgeskemaer. Manglende værdier. Der kan være mange grunde til at en variabel er blank. Dvs. at der i den aktuelle celle ikke er anført nogen værdi. I daglig tale kaldes det ofte for missing data, men det begreb omfatter også manglende observationer. Altså observationer der burde være med i stikprøven, men ikke har svaret på henvendelsen eller ikke deltager i projektet. Det kaldes almindeligvis for bortfald. Der skelnes klassisk mellem to former for manglende besvarelse (missing value): ukorrekt uoplyst og korrekt uoplyst. Korrektheden henviser her til validiteten. Korrekt betyder, at den manglende besvarelse er planlagt, og altså valid. Ukorrekt uoplyst kaldes ofte bare uoplyst og korrekt uoplyst kaldes irrelevant, sidstnævnte er ofte repræsenteret med bogstavet R. Det kan desuden være på sin plads at skelne mellem flere former for uoplyst (ukorrekt uoplyst), fx ubesvaret og utolkelig, jvf. afsnittet om fejlrettelse ovenfor. Hvor om alting er det vigtigt at skelne mellem de forskellige former for manglende værdi. I modsat fald kan tabellerne siden hen være svære at tolke. De større statistikprogrammer har en række specialværdier til rådighed for manglende værdier, hvor man kan bestemme om disse skal tages med i analyser og tabeller eller ej. Manglende værdier repræsenteres almindeligvis af et bogstav i variable, som ellers er numeriske. I alfanumeriske variable, dvs. variable hvor de egentlige værdier kan være et bogstav eller et ord, giver begrebet manglende værdi ingen mening. Et tomt felt (celle) er ligeværdigt med et udfyldt. Alfanumeriske variable skal bruges med forsigtighed, fordi de er svære at håndtere i statistiske analyser. Normalt skal alle besvarelser repræsenteres af tal (læs om værdietiketter i næste afsnit). I hovedprogrammet skrives definitionerne af manglende værdier ind sammen med fejlrettelserne. Fx: Hvis der er svaret nej i en ja-klausul, og de efterfølgende variable er blanke, så skal den manglende værdi i alle de relevante variable sættes til irrelevant, som fx er repræsenteret med bogstavet R. På den måde kan man i tabellerne se forskel på uoplyste og irrelevante.

Oparbejdning af datasæt. Et datasæt karakteriseres af hvad og hvilke vi tæller. Altså enhed og stikprøve. Derfor skal etiketten på datasættet beskrive dette. Fx at et datasæt indeholder patienter fra en bestemt praksis, eller konsultationer i et bestemt år. Til hver variabel skal der skrives en etikette. Hvis variablen fx repræsenterer et spørgsmål er det bedst at formulere spørgsmålet i en kort version, med et efterfølgende spørgsmålstegn. Er variablen en størrelse, fx vægt eller blodtryk, kan etiketten skrives som et navn eller en betegnelse med efterfølgende kolon. Værdietiketter er som navnet siger en etikette som sættes på en variabels værdier (koder). Fx at 1 betyder mand og 2 betyder kvinde. I nogle programmer skal man skrive disse etiketter for én variabel af gangen. Medens man i andre kan anvende formater. Ofte har man en række variable hvor svaret er ja/nej eller positiv/negativ. Her er det behændigt at bruge et format. Et format er helt enkelt et sæt værdietiketter, der kan bruges af flere variable. Formatet skal så have et navn man kan referere til. Programmet skal desuden give mulighed for i en sætning at skrive hvilke variable, der skal bruge et aktuelt format, fx formatet janej, som sætter ja i stedet for 1 og nej i stedet for 2. Formater kan også bruges til at klassedele en variabel. Man kan fx have flere formater til en variabel som alder. Et hvor man for alle værdier mellem 0 og 18 skriver børn, og for alle mellem 19 og 29 skriver unge osv. Et andet hvor man fx deler op i yngre end 65 og 65+ årige. At anvende formater på den måde kan imidlertid kun bruges i kontingenstabeller og lignende. Det giver ikke megen mening at klassedele med et format når det gælder mere komplicerede statistiske beregninger. I så fald skal man generere en variabel til formålet (se nedenfor). Ved kombinationen af variabel-etiketter og formater skal man tænke på, at det i tabellerne kommer til at fremstå som en helhed. Formuler det derfor som et spørgsmål eller en betegnelse med et efterfølgende svar eller resultat. Hvis man desuden i sin titel på analysen eller tabellen er omhyggelig med at skrive hvilken enhed og hvilken stikprøve beregningerne foretages på, bliver tabellerne umiddelbart læselige og mange misforståelser kan undgås. Formatdefinitionerne og deres tilknytning til variablene skrives ind hovedprogrammet. I SAS indlæses formaterne ikke i datasættet, men i en ekstern fil kaldet et format-katalog. Dette katalog skal siden hen altid benyttes sammen med datasættet. Man kan betragte format-kataloget som en slags hjælpefil til analysedatasættet (se senere). Genererede variable. Et eksempel på en variable defineret på grundlag af en eller flere variable fra rådata kan fx være en aldersvariabel. Man kan beregne alderen på en bestemt dato ud fra fødselsdatoen. Datoer kan man imidlertid kun regne på, hvis de er genereret som egentlige datovariable. En datovariabel har en værdi som udtrykker et antal dage fra et nulpunkt. En datovariabel med værdien: -10 000, er dagen 10 000 dage før 1. januar 1960, hvis den dato nu er nulpunktet i den anvendte applikation. Med datovariable kan man beregne alderen ved en bestemt undersøgelse ved at trække fødselsdatoen fra datoen for undersøgelsen. Resultatet bliver alderen i dage, men det kan let omregnes til år

ved hjælp af en funktion. I SAS hedder funktionen YRDIF og hele udtrykket bliver: YRDIF(undersøgelsesdato, fødselsdato). For nu at gøre det lidt mere konkret. Hvis datovariable skal skrives ud fx i tabeller bliver det helt uforståeligt med variablens egentlige værdier (fx: - 10 000 for 15. august 1932). Imidlertid stiller applikationen normalt et færdigt format til rådighed, som oversætter værdierne til læsbare datoer. Man skal bare tilknytte det rette format til variablen (se ovenfor). Man kan også generere en variabel, der klassedeler en oprindelig variabel, som så kan bruges i en statistisk model. Hvis der fx er tale om en oprindeligt ordinal variabel kan man tildele alle værdier over en vis størrelse én kode og de øvrige en anden. Vær opmærksom på, at der allerede ved operationaliseringen af et projekt skal tages stilling til hvilke koder (værdier) man anvender til sine svarkategorier. Det har betydning for mange statistiske modeller. Det vil spare en for en del ekstra arbejde, hvis man bruger de mest hensigtsmæssige kode i første omgang (overvej fx om alle dårlige svar skal tildeles den laveste værdi eller den højeste). Genererede variable til brug i analysedatasættene skrives ind i hovedprogrammet efter fejlrettelse og fejlsøgning. Man kan også definere nye variable i de senere analyseprogrammer, men i så fald bliver dokumentationen mindre overskuelig.

Sammensætning af flere datasæt. Datasæt kan i princippet sættes sammen på to måder. De kan sammenkædes eller de kan flettes. Hvis man fx har hentet de samme data i flere lægepraksis. Dvs. de samme oplysninger, men på forskellige patienter. I så fald står man med flere rådatafiler, som man gerne vil sætte sammen til et datasæt over patienter fra et bestemt område. I så fald sammenkæder man datasæt. Hvis man derimod henter oplysninger om de samme patienter fra flere kilder, så fletter man datasæt, fx ved hjælp af et patientnummer. Sammenkædning af rådata indføjes i hovedprogrammet før fejlsøgning og fejlrettelse. Eventuelle sammenfletninger af datasæt udføres i forbindelse med udskrivning af analysedatasæt. Se nedenfor. Analysedatasæt. Analysedatasættene skal være så få som mulige for at forenkle analysearbejdet. Hvis man kan nøjes med et datasæt per enhed vil det være det bedste. Altså et datasæt for patienter, ét for lægepraksis, ét for konsultationer, ét for ydelser osv. Det kan også være formålstjenligt med et datasæt over alle udtrukne (fx patienter) med eventuelle oplysninger om ikke-deltagere. Man kan samle data ind for konsultationer ved hjælp af sygesikringsregninger eller lignende, og derefter tælle dem op for hver patient til eksempelvis et kumuleret patient-datasæt. Modsat kan man generere et ydelses-datasæt fx ud fra patientdata med tilhørende oplysninger om ydelser.

Der er mange muligheder. Men hvilke analysedatasæt man vil have skal som sagt først og fremmest være styret af hvordan data skal analyseres. Det handler om operationalisering. Det er et spørgsmål om hvilke data, hvor mange data og på hvilken form. Sammenfletning af datasæt. Generering af analysedatasæt skrives sidst i hovedprogrammet. Arkivering af projektet. Et projekt arkiveres normalt hos Dansk Data Arkiv ( www.sa.dk/dda/ ). Foruden de overordnede oplysninger om undersøgelsen, spørgeskemaer og eventuelle registreringsskemaer skal data indleveres: Analyse datasættene: Det kan ske i SPSS, SAS eller STATA. Input filerne, som leveret fra registre og/eller ind-scannede eller indtastede spørgeskemafiler. Desuden et eventuelt formatkatalog, og selvfølgelig hovedprogrammet. Har man gjort det, er projektet endeligt dokumenteret, og kan gendannes.