Usability-evaluering Undersøgelse af slutbrugertest versus ekspertbaseret gennemgang

Relaterede dokumenter

Ole Gregersen 26. november 2009 IT Universitetet

Udvikling af IT-baserede kliniske informationssystemer, modul 3

EVALUERING AF BOLIGSOCIALE AKTIVITETER

Metoder og produktion af data

Et oplæg til dokumentation og evaluering

Brugervenlighed som en fast del af udviklingsprocessen

Ledelsesevaluering. Formål med afsæt i ledelsespolitik og ledelsesværdier. Inspiration til forberedelse og gennemførelse

Software Design (SWD) Spørgsmål 1

Forskning om usability-arbejde i praksis. Kasper Hornbæk Datalogisk Institut, Københavns Universitet

DIO. Faglige mål for Studieområdet DIO (Det internationale område)

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

PROCESKONFIRMERING! - hvordan du som leder kan facilitere løbende forbedring og fastholde en standard!

Fremstillingsformer i historie

Akademisk Idégenrering. Astrid Høeg Tuborgh Læge og PhD-studerende, Børne og Ungdomspsykiatrisk Center, AUH

Software Design (SWD) Spørgsmål 1

Software Design (SWD) Spørgsmål 1

Findes den gode evaluering?

Dansk Clearinghouse for Uddannelsesforskning

Akademisk tænkning en introduktion

Indførelse og integrering af usabilityarbejde i en IT-virksomhed

BRUGERTESTEN Introduktion

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Læringsmå l i pråksis

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

På kant med EU. Fred, forsoning og terror - lærervejledning

Kursusgang 2. Oversigt: Sidste kursusgang Computeren Brugbarhedsevaluering: etablering af rammer. Design af brugerflader 2.1

Kvantitative og kvalitative metoder. Søren R. Frimodt-Møller, 29. oktober 2012

Usability-arbejde i virksomheder

Hassansalem.dk/delpin User: admin Pass: admin INTERFACE DESIGN

AT og Synopsisprøve Nørre Gymnasium

d e t o e g d k e spør e? m s a g

TESTPLAN: SENIORLANDS WEBSHOP

MARKETING USABILITYMETODER FOR WEBSITES MMD

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

Test Plan Vi har testet brugervenligheden på vores applikation, Bloodstream. Testen vil vise et forløb gennem applikationen og dens funktioner.

Pilottest af epilepsi proxy spørgeskema

CATE BANG FLØE ANNIE FEDDERSEN EMIL MØLLER PEDERSEN

Undervisnings på forskellige niveauer i grundfag efter reformen

Udvikling af trivselsstrategi eller læseplan med et forebyggende sigte

Kompetencemål for Matematik, klassetrin

LearningTech vejledning til peer review-procedure til redaktion og medlemmer af kritikerpanelet

isearch Testsamling til evaluering af integreret søgning

Brugerundersøgelse Lægemiddelkorpus

Metoder og struktur ved skriftligt arbejde i idræt.

Metodehåndbog til VTV

Det erhvervsrelaterede projekt 7. semester. Projekt plan

1: Hvilket studium er du optaget på: 2: Hvilke af nedenstående forelæsninger har du deltaget i?

Metoder til undersøgelse af læringsmålstyret undervisning

Bilag 4. Beskrivelse af test og målinger af kvalitet (front end)

Noter til SfR checkliste 3 Kohorteundersøgelser

1. Hvad er det for en problemstilling eller et fænomen, du vil undersøge? 2. Undersøg, hvad der allerede findes af teori og andre undersøgelser.

Evaluering af 1. semester cand.it. i itledelse,

Evaluering af familierådslagning i Børne- og Ungerådgivningen

Kursusgang 11. Planlægning af en usability-evaluering

Videnskabsteoretiske dimensioner

Aktivitet: Du kan skrive et specialeoplæg ud fra punkterne nedenfor. Skriv så meget du kan (10)

Skoleevaluering af 20 skoler

Gruppeopgave kvalitative metoder

Dato: Præsenteret af: e-stimate international. Powered by e-stimate

Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling

Lær jeres kunder - bedre - at kende

Ergoterapeutuddannelsen i Aarhus. Resultatrapport. Modulevaluering for Ergoterapeutuddannelsen i Aarhus. Foråret Ref.: TRHJ Dato:

Stofmisbrug -bedre behandling til færre penge Munkebjerg marts 2012

Indledning. Problemformulering:

Kompetencemål i undervisningsfaget Matematik yngste klassetrin

BibDok. Guide til BibDok. En metode til at dokumentere effekt af bibliotekets indsatser

Effektiv søgning på web-steder

From Human Factors to Human Actors - The Role of Psychology and Human-Computer Interaction Studies in System Design

Den gode User Experience. Michelle Andreassen ITAddiction Blogs: QED.dk

Almen studieforberedelse. 3.g

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Dansk-historieopgaven (DHO) skrivevejledning

Hans Hansen STANDARD RAPPORT. Adaptive General Reasoning Test

udviklingsfasen! Brugervenlighedskonsulent Elisabeth Landbo Nyborg Strand 5. november 2009

Engelsk på langs. Spørgeskemaundersøgelse blandt lærere på gymnasiale uddannelser Gennemført af RAMBØLL Management fra februar til april 2005

Grundlæggende metode og videnskabsteori. 5. september 2011

AKADEMISK IDÉGENERERING JULIE SCHMØKEL

Unges madkultur. Sammenfatning. Forfattet af. Rebekka Bille, Marie Djurhuus, Eline Franck, Louise Weber Madsen & Ben Posetti

Kvalitative og kvantitative

Projektarbejde vejledningspapir

Evaluering af Avu-didaktik og pædagogisk. Projektbeskrivelse fra EVA, maj 2015

Fokusgruppeinterview. Gruppe 1

Underbilag 14 C: Afprøvningsforskrifter til prøver og tests

Rapport - Trivselsundersøgelsen Tandplejen. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Indhold. Dansk forord... 7

Software Design (SWD) Spørgsmål 1

I det kommende afsnit vil vi løbende komme ind på de enkelte resultater og samtidig komme med bud på, hvordan disse kunne løses i fremtiden.

Sæt dig et mål. Kom godt i gang. [Foto udeladt]

Skriv Akademisk. Konsulent vs. Studerende. - Gennemsigtighed. Problemformulering. - Rammen om opgaven. Opgavens-opbygning

Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen

3.g elevernes tidsplan for eksamensforløbet i AT 2015

Akkreditering af nye uddannelser og udbud Eksperternes vurdering. Eksperternes vurdering af akkrediteringsprocessen og samarbejdet

Det Fælles Usability-evalueringsprojekt

Om indsamling af dokumentation

Nyt lys på telemedicin og telesundhed i Danmark

Informationssøgeadfærdens betydning og workshop-metodens anvendelighed ved design af metadatasystemer

CENTER FOR KLINISKE RETNINGSLINJER - CLEARINGHOUSE

Guide til kvalitetsvurdering af evalueringsrapporter

Generel vejledning vedrørende obligatoriske opgaver på voksenunderviseruddannelsen

Transkript:

Usability-evaluering Undersøgelse af slutbrugertest versus ekspertbaseret gennemgang Projektafhandling ved Master i Bibliotek og informationsvidenskab Danmarks Biblioteksskole Eva Bye Andersen Marts 2008

Indhold Abstract 2 Indledning Problemformulering 2 Motivation 3 Metode 3 Teori Human computer interaction (HCI) og definition af usability 5 Kognitiv IR-model og HCI 8 Usability-evalueringsmetode 9 Ekspertbaseret gennemgang og Heuristisk evaluering 11 Slutbruger-gennemgang 12 Evaluator-karakteristik og effekt 12 Tænke-højt 14 Worktask 14 Relevans 15 Empiri Dataopsamling 16 Undersøgelsesleder og observatør 16 Design af ekspertbaseret evaluering 17 - udvælgelse af evaluatorer, evaluering Design af brugertest 18 - udvælgelse af evaluatorer, rekruttering, opgaver og evaluering Pilottest 20 Resultater og Analyse 21 Ekspertbaseret evaluering 22 Brugertest 27 Diskussion 32 Konklusion 33 Perspektivering 34 Litteraturliste og bilag 34 1

Abstract Nærværende afhandling er en komparativ empirisk undersøgelse af 2 metoder og tilgange indenfor usability-evaluering. Formålet med undersøgelsen er at afdække typer af data ved de 2 metoder og hvordan metoderne adskiller og supplerer hinanden. Summativ heuristisk evaluering som ekspertbaseret gennemgang testes i et undersøgelsesdesign hvor 4 eksperter evaluerer et website baseret på heuristisk evaluerings-metode efter Nielsen (1993) suppleret med problemkategorisering efter Molich (2003). Slutbrugertest testes i et undersøgelsesdesign med 4 slutbrugere, der bygger på den holistiske tilgang indenfor det kognitive synspunkt i Information Seeking-forskningen med brug af simulerede worktask (Borlund, 2000). Resultatet af undersøgelsen viste at heuristisk evaluering hurtigt og nemt frembringer resultater af overfladekarakter. 167 problemer, heraf 73 % unikke, blev fundet af 4 eksperter nogen erfaring/ ekspertkarakteristik og bekræfter at eksperter i computerviden, domæne og usability finder flest problemer. Problemerne havde karakter af overfladeproblemer. Brugertest efter simulerede, scenarieopbyggede worktask involverede 4 slutbrugere. Resultatet bekræfter at simulerede worktask sikrer kontrol.og valide resultater. Der blev observeret problemer i 6 ud af 7 worktask; 37 problemer af faktuel og konceptuel karakter og domænerelaterede i alt. Konklusionen er at de 2 undersøgelsesmetoder indenfor nærværende undersøgelsesdesign supplerer hinanden med forskellige sæt af resultater som resultat af 2 forskellige tilgange. Heuristisk evalueringsmetode er let at anvende. Brugertesten er fleksibel og kan varieres på varighed og deltagere, og worktask kan tilrettes domæne og målgruppe. Omkostningerne er små og metoderne realistiske at gennemføre i små biblioteker. Resultatet er for så vidt validt, idet metoderne er anvendt systematisk og evaluatorkarakteristik og antal ligger indenfor anbefalingerne. Indledning Problemformulering Fokus er en komparativ undersøgelse af slutbrugertest versus ekspertbaseret gennemgang. Centrale undersøgelsesspørgsmål søges besvaret: 1. Hvilke typer af data afdækkes ved undersøgelse gennemført af slutbrugere som testpersoner og eksperter som testpersoner? 2. På hvilke måde adskiller og supplerer de 2 testgrupper hinanden? Faglig motivation Omkostningerne spiller en rolle for små bibliotekers mulighed for at foretage usability-test. Heuristisk evalueringsmetoden er billig og kan foretages af bibliotekets eksperter. Heuristisk evaluering anses for at være et supplement eller erstatning for de omkostningstunge laboratorietest. Modellen er veltestet fra ekspertbaserede studier og giver resultater på kort tid. Undersøgelser viser at metoden er velegnet til at frembringe resultater. Metoden viser ikke noget om brugernes konceptuelle problemer (Blanford et al. 2004) og brugerne er ikke inddraget. Derfor vil undersøgelsen afdække resultaterne fra 2 forskellige metoder og analysere hvorledes de 2 metoder supplerer hinanden. Resultatet 2

vurderes i forhold til hvordan et mindre bibliotek kan anvende metoderne med størst muligt udbytte og under hensyn til omkostningerne. Parametre som fundne problemer og evaluatorkarakteristik er relevante til sammenligning. Siden 1990 erne er der foretaget en række studier af heuristisk evaluerings-metodens performance, validitet i resultaterne, stabilitet og troværdighed og sammenlignelighed med andre metoder. Flere forskere (Hartson 1998; Dumas og Redich, 1999; Dillon, 2001) peger på det værdifulde i brugerorienterede usability-studier men også det nødvendige i fremskaffelse af valide data. Mange brugere af det digitale bibliotek foretager informationssøgning uden mediator og interaktionen sker mellem system og bruger. På grund af den interaktive proces mellem system og bruger inddrages testbrugere. Desurvire (1994, s. 174) peger på at de 2 metoder afslører forskellige sæt af problemer hvilket taler for, at den heuristiske evaluering som hurtig og billig løsning ikke kan erstatte empiriske undersøgelser. Undersøgelsen tager sit afsæt i en kontekst på Københavns Tekniske Bibliotek, der er et studiebibliotek for ingeniørstuderende i forskningsanvendte uddannelser på Ingeniørhøjskolen i København (IHK). Det digitale bibliotek præsenteres ved et website. Til bibliotekets egen base er der fri adgang men for alle elektroniske databaser får kun indskrevne studerende og ansatte adgang fra campus eller via fjernadgang. I forbindelse med nyt webdesign har biblioteket ændret den materialeorienterede tilgang til en brugerorienteret tilgang på baggrund af fokusgruppeinterview gennemført i 2005 med studerende og undervisere (Københavns Tekniske Bibliotek, 2005) og inspireret af flere store undersøgelser i danske forskningsbiblioteker gennem de senere år med netop en brugerorienteret vinkel (UNI.C, 2004; DEFF, 2006). Der er behov for at vurdere websitet fra både en mere faktuel vinkel og checke om alt virker men også hvorvidt det understøtter brugernes informationssøgninger. Metode Ord-definition. For en række ord og begreber har jeg valgt at anvende den engelske term. Det drejer sig om ordet usability som jeg anvender frem for det danske ord brugervenlighed. Ligeledes anvender jeg ordet task og worktask idet jeg finder ordet bedre dækkende end det danske ord opgave eller arbejdsopgave. I opgaverne rettet mod evaluatorerne anvendes dog ordet opgaven af forståelseshensyn. Jeg anvender query som betegnelse for det danske ord søgespørgsmålet. Testdeltagerne omtales som evaluator mens undersøgelsesleder, observant og forfatter til nærværende undersøgelse er én og samme person. Afhandlingens opbygning. Afhandlingen er bygget op i afsnittene teori om human computer interaction (HCI) og definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode, ekspertbaseret gennemgang og heuristisk evaluering, slutbruger-gennemgang, evaluatorkarakteristik og effekt, tænke-højt metoden, worktask og relevans. Herefter følger afsnit om undersøgelsesleder og observatør, dataopsamling, design af empiri, rekruttering af evaluatorer, worktask. Derefter følger pilottest resultater og analyse. Afhandlingen afsluttes med diskussion, konklusion og perspektivering. 3

Til at besvare afhandlingens undersøgelsesspørgsmål slutbrugertest versus ekspertbaseret er valgt 2 typer af undersøgelser: Den ene er empirisk brugerundersøgelse med brug af slutbruger og worktask, indenfor paradigmet af det hermeneutiske videnskabsideal og med en brugerorienterede tilgang inden for det kognitive synspunkt i Information Seeking-forskningen. Simulerede worktask anvendes med udgangspunkt i rigtige informationssøgebehov i lokal kontekst. Den anden er en summativ ekspertgennemgang efter heuristisk evalueringsmetode. Undersøgelsen gennemføres efter metodens præmis og anbefalinger. Den ekspertbaserede gennemgang benytter sig af både kvalitativ dataindsamling samt kvantitativ dataindsamling. De kvalitative data indhentes ved interview og observerende data og slutter af med et struktureret interview. De kvantitative data indhentes ved hjælp af checklisten efter den heuristiske evalueringsmetode og spørgeskema. Slutbrugetest benytter sig af både kvalitativ dataindsamling samt kvantitativ dataindsamling. De kvalitative data indhentes empirisk test og observerende data. Kvantitative data indhentes ved hjælp af spørgeskema. Det teoretiske grundlag indenfor HCI og usability-forskningen præsenteres ved Nielsen (1992, 1993) og Molich (2003, 2004) og teoretikere og empiri fra Hertzum og Jacobsen (2003) og Hartson (1998). I gennemgang af evaluator-karakteristik og effekt inddrages Kaasgaard (2000), Nielsen (1993), Hartson (1998) og Borgman (1986, 1996, 2004). Teori inden for Information retrieval og Information seeking-forskning præsenteres ved Kuhlthau (1991), Vakkari (2000) og Ingwersen og Järvelin (2005). Om brug af simulerede worktask inddrages Borlunds resultater (2000). Relevansbegrebet præsenteres ved Saracevic (1996) og Borlund (2001). Det teoretiske afsæt danner grundlag for etablering af undersøgelsesdesign efter de 2 udvalgte metoder. Teori HCI og definition af usability Usability placerer sig indenfor området HCI Human Computer Interaction. HCI beskrives som en disciplin på tværs af forskningsfelter som ergonomi, kognitiv psykologi, adfærdspsykologi, systemudvikling og computervidenskab, der alle har det mål at opnå høj bruger-usability af computerbaserede systemer (Hartson, 1998, s. 103). Usability ses af Hartson som det centrale begreb indenfor HCI (1998, s. 103). I usability er brugernes interaktion med computersystemet centralt. Nedenfor følger dels definition dels forståelsesrammer samt diskussion af begrebet usability. Usability placeres af Nielsen (1993, s. 25), som et attribut indenfor det større aspekt system accept (system acceptability på engelsk), der består af social og praktisk accept. Praktisk accept foldes ud i pris, anvendelighed, driftssikkerhed, kompatibilitet og nytte. Nytte foldes ud i brugbarhed (usability på engelsk) som igen foldes ud i 5 attributter: learnability, efficiency, memorability, errors, satisfaction og præciserer attributterne som målbare komponenter med det mål for øje at usability bliver en systematisk og evalueret tilgang. 4

Bilag 1. A model of the attributes of system acceptability (Nielsen, 1993, s. 25) Learnability præciseres som systemet skal være let at lære så brugeren hurtigt gå i gang med sin opgave og nå sit mål, Efficiency præciseres som systemet skal fungere effektivt at bruge, så brugeren kan nå et højt niveau af produktivitet, når man har lært systemet at kende, Memorability præciseres som systemet er let at huske så den sjældne (casual) bruger kan vende tilbage til systemet uden at skulle lære systemet at kende forfra, Errors præciseres som systemet skal have få fejl, så brugeren laver få fejl og hvis brugeren laver fejl skal han hurtigt kunne komme videre. Katastrofale fejl må ikke forekomme, Satisfaction præciseres som systemet skal være behageligt at bruge så den enkelte bruger er tilfreds efter brug (Nielsen, 1993, s. 26). Molich omtaler usability som en fællesbetegnelse for nytteværdi og nemhed (2003, s. 21) og fremhæver drift, vedligehold og omlægning som 3 vigtige egenskaber ved et websted. Den del af usability, der har med nemhed at gøre, defineres som let at lære, let at huske, effektivt at bruge, forståeligt, tilfredsstillende at bruge. Let at lære præciseres som den tid det tager brugeren at lære at løse bestemte opgaver, let at huske præciseres som den tid det tager brugere, der sjældent anvender webstedet, at løse bestemte opgaver, effektivt at bruge præciseres som hastigheden hvormed bestemte opgaver løses fx svartid, fejl, fejlmeddelelser, forståeligt præciseres som brugerens evne til at svare korrekt på spørgsmål om webstedet efter brug, tilfredsstillende at bruge præciseres som den tilfredshed brugerne udtrykker (s. 23). Dumas og Redich (1999, s. 4) bruger usability i den betydning at brugeren kan bruge produktet hurtigt og let for at opnå egne mål. Definitionen bygger på 4 pointer: fokus på brugeren, produktivitet, brugeren stræber efter at opnå mål og brugeren beslutter hvorvidt produktet er let at bruge. Fokus på brugeren i den betydning at ingen kan erstatte den faktiske bruger. Produktivitet i den betydning let at lære og let at bruge; tidsforbruget og antal trin igennem produktet og succes i målsøgning. Brugeren stræber efter at opnå mål i den betydning at målet, ikke processen, er interessant. Brugeren, i modsætning til designere og udviklere, afgør produktets anvendelighed. Samme fokus på brugeren finder vi i Hartsons (1998, s. 103) forståelse af usability med ease of use plus usefullness som inkluderer brugerens behov i modsætning til ease of use. 5

DS/EN ISO 9241-11 standard definerer usability som Extent to which a product can be used by specified users to achieve specified goals with effectiveness, efficiency and satisfaction in a specified context to use (1998, s. 2). Dillon fremhæver ISO-standarden s definition effectiveness, efficiency og satisfaction i kontekst med bruger, task og situation som værdifuld men selv om usability-evalueringen inkluderer repræsentative brugere og task-orienterede design er der flere problemstillinger fx omkring brugen af task, hvor svaret ikke er målbart med ét rigtigt svar, hvorfor målingen af effectiveness påvirkes (Dillon, 2001, s. 58). Dillons alternativ inddrager brugerens erfaring på process, outcome og affect, hvor process præciseres som aktion og respons som brugeren opnår i processen, outcome dækker variabler, der måler eller refererer til det brugeren opnår ved interaktionen og affect dækker følelsesmæssige elementer. Alternativet præsenterer en liste af elementer til undersøgelse, ikke i en færdig programform men mere som ide (s. 61-63). Sammenligning af definitionerne: Nielsens og Molichs opdeling ligger sig tæt op ad hinanden med operationelle og gennemprøvede mål. Dumas og Redich og Hartson arbejder med en tilgang, hvor brugeren er af primær betydning, mens Dillon supplerer målbare attributter fra DS/EN ISO-standarden med brugerens oplevelser og opstiller approach til modellen (Dillon, 2001, s. 62). Dillon peger på forskellen i resultater fra engangsundersøgelser og undersøgelser over tid og at data fra brugerorienterede undersøgelser er bedst indikator for kvaliteten. Følgende skema giver en oversigt over usability-definitioner: 6

Dumas og Redich Fokus på brugeren Produktivitet (let at lære og let at bruge) Brugeren stræber efter mål (målet, ikke processen, er interessant) Brugeren beslutter om systemet er let at brug (i modsætning til designere og udviklere) Fokus på brugeren Ease of use Usefullness Efficiency (systemet skal fungere effektivt at bruge, så brugeren kan nå et højt niveau af produktivitet, når man har lært systemet at kende) Memorability (systemet er let at huske så den casual bruger kan vende tilbage til systemet uden at skulle lære systemet at kende forfra) Errors (systemet skal have få fejl, så brugeren laver få fejl og hvis brugeren laver fejl skal han hurtigt kunne komme videre. Katastrofale fejl må ikke forekomme) Satisfaction (systemet skal være behageligt at bruge så den enkelte bruger er tilfreds efter brug) Effektivt at bruge Let at huske Forståeligt Hartson Nielsen Molich DS/EN ISO 9241 Learnability (systemet skal Let at lære Effectiveness være let at lære så brugeren hurtigt gå i gang med sin opgave og nå sit mål) Tilfredsstillende at bruge Efficiency Satisfaction Dillon Effectiveness Efficiency Satisfaction Process (aktion og respons som brugeren opnår i processen) Outcome (det brugeren opnår ved interaktionen) Affect (følelsesmæssige elementer) 7

Kognitiv IR-model og HCI I Information Seeking-forskning anerkendes den brugerorienterede tilgang indenfor det kognitive synspunkt og ses i samspil med IR-systemet. Belkins ASK-hypotese, fremsat i 1980, undersøgt i 1982 og placeret indenfor det kognitive synspunkt formulerer at The ASK [Anamalous State of Knowledge]-hypothesis is that a information need arises from a recognized anomaly in the users state of knowledge concerning some topic or situation and that, in general, the user is unable to specify precisly what is needed to resolve that anomaly (Belkin, Oddy, Brooks, 1982). Tilgangen er siden 1990 erne udviklet holistisk og inddrager alle kommunikationsprocesserne i informationsoverførslen, fx dokumentrepræsentationen, queries og IR-teknikker I Ingwersens model Cognitive model of IR interaction, se figur i bilag 5, præsenteres dokumentsurrogat i katalogen, IR-systemet, query, interface og brugeren med både worktask, problem og følelsesmæssig tilstand set i en social/organisatorisk kontekst (Ingwersen, 1992, s. 48; Ingwersen, 1996, s. 9; Ingwersen og Järvelin, 2005, s. 247). Modellen er medtaget, fordi den viser brugeren i social og organisatorisk kontekst og interaktionen mellem (IR) system, interface og bruger og tilbyder en helhedsforståelse af informationssøgeprocessen. Model Cognitive model of IR interaction (Ingwersen og Järvelin, 2005, s. 333) Bilag 2 Mange brugere af det digitale bibliotek foretager informationssøgning uden mediator (Pors, 2005) og interaktionen sker mellem system og bruger, altså kobles informationssøgeprocessen sammen med forskningsfeltet human computer interaction. I nærværende undersøgelse er usability-evalueringen foretaget af slutbruger at placere i interaktionen mellem system og bruger, Intermediary i Ingwersens model. På grund af den interaktive proces mellem system og bruger inddrages testbrugere i undersøgelsesdesignet for at arbejde med personlige informationsbehov (i dette tilfælde simulerede worktask). 8

Mange aspekter af human-computer interaction involverer komplekse processer og det involverer mentale modeller. De mange niveauer i computerprocessen inkluderer model for såvel hardware, operativsystemer, software og applikationer, og det er teoretisk uløst om modellerne kan arbejde sammen. Højst sandsynlig er brugerens model mere enkel i forhold til systemudviklernes. Men overfører vi mentale modeller fra et formål til et andet opstår enten en synergieffekt eller konflikt (Allen, 1997, s. 51). Systemudviklerne og computerprocessernes mentale modeller behandles ikke, idet det vurderes at ligge i yderzonen af undersøgelsens område. I den holistiske tilgang inddrages brugernes søgeadfærd, fx har Kuhlthau (1991) demonstreret at informationssøgeren gennemgår 6 følelsesmæssige stadier igennem informationssøgeprocessen, der starter med indledende fase og ender ved afslutning/præsentation. Tankerne starter med at være vage og generelle, bliver derefter mere snæver og klar, interessen stiger og ender mere klart og fokuseret. Også arten af information ændrer sig og starter med generel baggrundsinformation og fokuserer til sidst. Undersøgelsen viste også at brugerne har problemer i indledende stadier og bekymring opstår når man er uvant med systemet og teknologien. Evaluatorerne i nærværende brugertest formodes ikke at mangle tekniske færdigheder (Uhrskov, 2002, s. 14; Pors, 2005, s. 42). Vakkari (2000b) har påvist at informationssøgerens konkrete vidensniveau påvirker søgning og relevansvurdering. Brugerens mentale model udvikler sig gennem søgeprocessen; de bliver mere fokuserede og vidende (s. 5). De søger generel baggrundsinformation, mere facetterede baggrundslitteratur midt i processen og ender med mere specifik information. Relevansvurderingen ændrer sig i takt med at brugeren opnår læring. Resultaterne peger på at interaktion mellem system og bruger er mest effektiv når brugerens mentale model er klarere. Også brug af søgeteknik stiger gennem søgeprocessen. Brugere med mere viden om emnet anvender rigere ordvalg hele processen igennem (Vakkari, 2000a, s. 9). Eksperter bruger også beslægtede emneord og komplekse søgesæt mens novicer fortsætter med emneord, bruger simple søgestrenge, har et højere tidsforbrug og giver hurtigere op. Med andre ord får uerfarne IR-brugere dårligere søgeresultater (Sutcliff, Ennis og Watkinson, 2000, s. 1213, 1217). Få aspekter af søgeadfærden afdækkes i undersøgelsen men anvendes i brugerkarakteristik. Usability-evalueringsmetoder Evaluering som begreb dateres til begyndelse af systemanalyse mens usability evaluering ses sammen med starten af HCI. Usability evalueringsmetoder omtalt i publicerede artikler tager sin begyndelse i 1980 erne efterfulgt af studier, der sammenligner metoderne (Hartson, Andre og Williges, 2001, s. 373-374). Definition af usability-evalueringsmetode refererer som oftest til formative usability evaluering fx laboratorietest med brugere, heuristikker og andre ekspertbaserede metoder og modelbaserede analytiske metoder og ekspertbaseret evaluering (Hartson, Andre og Williges, 2001, s. 377) og tilbyder kvalitative data. 9

Der er udviklet en række forskellige inspektionsmetoder, herunder cognitive walkthroughs, claims analysis og heuristic evaluation som er effektive til at finde nogle slags usability-problemer men er begrænset af rammen om guidelines (Hartson, 1998, s. 108). Metoder og kriterier er forskellige og selv om alle har det mål at beskrive usabilityproblemer, er sammenligning vanskelig netop på grund af forskellighederne og mangel på sammenlignelige standardkriterier (Hartson, Andre og Williges, 2001, s. 379). Manglerne fører til usikre evalueringer og sammenligningsundersøgelser og vanskeliggøre det valg en undersøger må tage ved en undersøgelse vedrørende metode. Gray og Salzman (1998, s. 206) kalder studierne i usability-evalueringsmetoder for potentielle vildledende. Der mangler standardkriterier for sammenligning, standard for hvilke definitioner, mål og måling kriterierne baseres på og stabile processer og evaluering og sammenligning (Hartson, Andre og Williges, 2001, s. 376). Da metoderne selv ikke er stabile og forskningsfeltet ungt er meta-sammenligninger af usability studier nærmest umulige (s. 406). I Hertzum og Jacobsens studie af 3 usability evalueringsmetoder (2003) påvises det at både cognitive walkthrough-metoden, heuristic evaluation-metoden og thinking aloudmetoden påvirkes væsentlig af evaluatorerne, både hvad angår novice-evaluatorer og ekspert-evaluatorer og hvad angår mindre og alvorlige problemer og i simple som avancerede systemer. Metoderne er præget af vage målanalyser (s. 196), evalueringsprocedurer (s. 197) og problemkriterier (s. 199). De vage målanalyser opstår fordi heuristisk evaluation baseres på en mere mental målanalyse. Vag målanalyse fører til mange skøn foretaget af evaluator. De vage evalueringsanalyser opstår også fordi der ikke er en systematisk procedure, der sikre at hele interface evalueres af alle heuristikker. Heuristikkerne tjener som sådan til inspiration og kan bruges på forskellige måder i varierende grad. En sådan uformel metode fører til evaluator-effekt (s. 197). I Nielsens model anvises ikke graden af problem og mere præcise definitioner af konceptet er nødvendigt indenfor forskningen for at kunne gennemføre troværdige studier. Metoden kan også angribes for ikke at angive løsninger men kun problemer. På digitale bibliotekers website er vidensorganiseringen omfattende, der er mange oplysninger og flere veje at vælge igennem søgeprocessen, og en heuristisk gennemgang der gennemgår hver side, synes umulig. Alternativt anvendes task, hvilket stiller krav til veldefinerede task på baggrund af brugermodel. Det er problemer med bl.a. formulering af query og vurdering af søgeresultat og at arbejde med flere vinduer, der gør bibliotekerne vanskelige at bruge, ikke overfladeproblemer (Blandford et al., 2004, s. 29). Heuristisk evaluering fokuserer på overfladeproblemer og med risiko for at fordybe sig i enkeltsager frem for the big picture og afdækker ikke konceptuelle problemstillinger ved det digitale bibliotek og informationssøgning og afdækker ikke potentielle brugerproblemer. Eksperterne i evalueringen må have viden om brugere af det digitale bibliotek fx kendskab til brugerens task og terminologi men dybere forståelse kan kun fås ved at supplere med/anvende andre undersøgelsesmetoder. Netop checkliste-formen gør heuristisk evaluering populær men Blandford et al. (2004, s. 34) peger på at der mangler forskning i brug af metoden indenfor det digitale bibliotek. I en undersøgelse af evalueringsmetoder ses det at heuristisk evaluation minder evaluatorerne om at analysere flere aspekter af interface, hvor cognitive walkthrough fokuserer på små 10

detaljer, der forstyrrer indtryk af det overordnede formål med websitet og tenderer til at kede evaluatorerne (Desurvire, 1994), s. 190). Sandusky (2002, s. 36) har præsenteret en supplerende checkliste til dels fleksibel, holistisk tankerække dels identifikation af ligheder, forskelle og mønstre mellem forskellige digitale biblioteker. De 6 grupper af attributter med underliggende dimensioner tilbydes til analyse af digitale biblioteker, enkelvist og sammenlignende. At anvende attributterne i nærværende opgave vurderes som omfattende og delvist uden for undersøgelsens fokus. Jeg har i min undersøgelse vægt på udbyttet ved af brug af evalueringsmetoder, der i sit udgangspunkt er forskelligt, hvorved forskellighed og lighed i dataudbyttet er genstand for undersøgelsen. Molich (2004, s. 74) anbefaler efter 2 studier i usability evaluation (CUE-1 og -2) at anvende et mix af evalueringsmetoder og tilføjer at ingen test kan give en fuldstændig liste af fejl. Også Nielsen (1993, s. 160) karakteriserer heuristisk evaluering som en usability engineering method, der ikke garanterer det perfekte resultat eller finder ethvert problem, men In the cause of usability, doing something is almost better than doing nothing (Gray og Salzman, 1998, s. 207). Ekspertbaseret gennemgang heuristisk evaluering Jeg vil i min undersøgelse anvende Nielsens definition af usability og heuristisk evaluering som usability-evalueringsmetode, da den netop er velegnet til ekspertbaseret gennemgang (Hartson, Andre og Williges, 2001, s. 379), stemmer overens med undersøgelsesspørgsmålet og metoden er veldokumenteret. Hartson påpeger at Nielsens tilgang og metode, der med sin opmærksomhed på omkostningerne også kaldes discount usability methods tilbyder en metode med lavt omkostningsniveau the practical goal of achieving specifications and not perfection (1998, s. 108). Hertzum har påpeget evaluatoreffekt ved heuristisk evaluering som metode indenfor målanalyser, evalueringsprocedurer og problemkriterier. Det er præmisser i undersøgelsesdesignet og som må vurderes ved analysen af resultaterne. I forhold til problemkriterierne inddrager jeg Molichs kategorier og i forhold til evalueringsprocedurerne indskærpes evaluator at være opmærksom på at inddrage alle heuristikker ved gennemgangen, men der er en vis indbygget usikkerhed hvorvidt evaluator gør det, når modellen ikke er bygget til det. Det er ligeledes en præmis i undersøgelsesdesignet og som må vurderes ved analysen af resultaterne, hvor jeg også vil vurdere, hvorvidt det er realistisk og relevant. Kaasgaard (2000, s. 55) fremhæver at der vælges forkerte metoder i usability-evaluering og taler imod fokusgruppe som omtales som et marketingværktøj. Jeg har fravalgt at afslutte evalueringerne med fokusgruppeinterview og i stedet valgt interview med den enkelte evaluator. Heuristisk evaluering kan involvere et mindre antal evaluatorer, der skal undersøge webinterface og vurdere om det er i overensstemmelse med accepterede usabilityprincipper/heuristikker (Nielsen, 1993, s. 155). Det gør metoden operationel indenfor de rammer nærværende undersøgelse skal foregå i. Nielsens 10 heuristikker: visability of system status, match between system and real world, user control and freedom, consistency and standards, error preventing, recognition rather 11

than recall, flexibility and efficiency of use, aesthetic and minimalist design, help users recognize, Help and documentation, se bilag 4. Teori om gennemgang foretaget af slutbruger Brugerdata er den bedste indikator for interaktionskvalitet, udtrykt som importance of extending the classic usability approach to evaluation to include a more holistic set of user experience measures (Dillon, 2001, s. 67-68) og..the individuals process of getting and using information is a vital aspect that cannot be overlooked (Kuhlthau, 2004, s. 1). Selvom muligheden for kontrol og sammenlignelighed falder i de rene brugerorienterede test og stiger i laboratoriekontrollerede test giver brugertest indblik i kognitive processer og problemer. Indblik som laboratorietest ikke simulerer. The conflict between laboratory an operational experiments is essentially a conflict between, on the one hand, control over experimental variables, observability, and repeatability, and on the other hand, realism (Robertson og Hancock-Beaulieu, 1992, s. 460). Forståelsen af relevans er medvirkende årsag til at inddrage brugere, idet relevans her opfattes som subjektivt. En mulighed er at anvende personas (på dansk modelbruger) bygget op over brugermodel med en række brugerkarakteristika En brugerkarakteristik er en konkret, realistisk beskrivelse af en person i en målgruppe. En brugerkarkateristik beskriver en fiktiv person, men denne person skal være en god fællesnævner for et større antal brugere af websitet (Molich, 2003, s. 45). Den typiske bruger findes ikke men 3-5 brugerkarakteristikker udspænder et fornuftigt designrum. Personas kan hjælpe systemudviklere i forestillingerne om rigtigere brugere (Blandford et al. 2004, s. 32). Målgruppen for websitet er institutionens studerende og undervisere og en brugerprofilsanalyse vil kunne afdække de 2 grupper med individuelle karakteristika. I nærværende opgave tager undersøgelsen udgangspunkt i brug af virkelige brugere og for at understøtte resultatet vil jeg anvende 3 brugerkarakteristika fra Nielsens brugermodel (1993, s. 44). Jeg vil vurdere efterfølgende om karakteristikkerne helt eller delvist kan understøtte fremtidigt arbejde i usability-test og vidensorganisation. Følgende karakteristikker undersøgelse og kortlægges i nærværende undersøgelse: Domæneviden. Både fra IR-forskningen og HCI-domænet ved vi at domæneviden spiller en afgørende rolle (Fidel og Soergel, 1983; Belbin, Oddy og Brooks, 1992; Nielsen, 1993; Vakkari, 2000). Computerviden beskrevet viden om computere generelt viden om søgning og brug af bibliotekskataloger og elektroniske ressourcer. Viden om usability. Evaluator-karakteristik og effekt: Nielsen trækker i sin argumentation tråde til 80 erne i sin opdeling af computer-novice og domæneekspert (Kaasgaard, 2000, s. 58). I 1980 erne var det en udbredt tro at brugere først var novicer og derefter blev de eksperter i mange år i brug af webinterfaces. (s. 59). Hartson breder sin opdeling ud i 3 grupper..novices and casual users, intermediate user[s], expert users (Hartson, 1998, s. 103). I sin model, se også bilag 7, viser Nielsen de 3 væsentlige områder hvor brugers erfaring adskiller sig, generel computerviden, viden om det specifikke system og domæneviden. 12

Bilag 1. Figur. Brugeres forskellige viden. (Nielsen, 1993, s. 44) Bilag 3. Indenfor IR-forskningen præsenteres en model over videns- og erfaringsniveauer med hensyn til task og informationssøgning. Indenfor vurdering af niveau for evaluators computerviden tilføjes even expert searchers assuming that the system operates in a fashion similar to other systems with which they are familiar. Peopel carry over knowledge from one automated system to the next (Borgman, 1996, s. 498). Jeg vælger i min karakteristik af evaluator at skelne imellem evaulators computerviden, domæneviden samt viden om usability, fordi det er variabler, der kan have indflydelse på processen og resultatet i sidste ende og derfor bør tages i betragtning (Fidel og Soergel, 1983, s. 164; Nielsen, 1993, s. 160-162). Også parametre i erfaringsniveau i computerviden (bruger af søgemaskiner på www, bruger af bibliotekskataloger, bruger af bibliografiske databaser), herunder konceptuel viden, semantisk viden og viden om syntaks i query (Borgman, 1986, s. 388; Borgman, 1996, s. 495; Borgman, 2004, s. 103-104). Parametre i domæneviden (uddannelse og anciennitet) og demografiske data (køn og alder) medtages. Evaluatorens (aktørens) opfattelse og fortolkning i alle niveauer i forløbet påvirker søgeproces og resultat og hænger sammen med evaluatorens (aktørens) livserfaring, karriere og organisationen sammen med pres (for eksempel travlhed) og følelser (Ingwersen og Järvelin, 2005, s. 316-317). Nielsen påviser i et case studie at evaluators egen baggrund og viden har indflydelse på resultatet i en heuristisk evaluering. Usability novicer (almen computerviden uden usability ekspertise), enkelt eksperter (usability eksperter uden domæneviden) og dobbelt eksperter (usability eksperter uden domæneviden) finder forskellige antal problemer, hvor novicerne har det laveste fund, dobbelt-eksperterne det højeste fund. Nielsen definerer eksperter som graduate degrees and/or several years of job experience in the usability area. (1992, s. 376). Nielsen konkluderer (s. 375-377) at den optimale ydelse af fundne fejl kræver brug af dobbelt-eksperterne, men de fleste systemer bør testes af både novicer og eksperter (Nielsen, 1993, s. 177). Det er variabler, der kan have indflydelse på resultatet og tages derfor med i betragtning i undersøgelsesdesignet. 13

Gray og Salzman (1998, s. 231) påpeger, at Nielsens undersøgelse fra 1992 ikke afgør hvorvidt problemerne faktisk er usability problemer. Alternativt kan usability evalueringen gennemføres som pluralistisk usability walkthrough hvis man kun har usability novicer til rådighed. I en sådan undersøgelse bruges repræsentative brugere, produktudviklere og usability-eksperter (Nielsen, 1993, s. 162). Den metode er fravalgt i denne undersøgelse da undersøgelsesspørgsmålet netop er at sammenligne ekspertbaseret gennemgang med slutbrugertest og derfor skal brugere og eksperter ikke mixes. Metoden kan overvejes ved fx et mindre set-up. Modeller anvendes til kategoriseringer frem for individuelle modeller. Et eksempel på kategorisering er novice-ekspert forskellen. Forskellen på eksperter og novicers adfærd kunne være brugbare i fx undervisning. Mens forskel i viden er åbenlyse ved en konkret task, er det straks svære at klassificere mennesker, fordi viden er flerdimensionel (Allen, 1997, s. 53). Jeg vælger at anvende Hartsons 3-opdeling i karakteristik af evaluator og undersøger desuden evaluators ekspertise inden for usability og domæne samt anden computerviden, da de alle er variabler, der kan have indflydelse på processen og resultatet. I spørgeskemaform bedes evaluatorerne beskrive sig selv i ovennævnte kategorier. Forskel på evaluatorgrupper er ikke yderligere genstand for undersøgelse. Tænke-højt metode Tænke-højt er en metode, der ofte ses anvendt i empiriske usability-studier (Ingwersen og Järvelin, 2005, s. 247). I et studie fremhæves metoden af praktiske hensyn frem for retrospektiv tænke-højt og konstruktiv interaktion. Metodens styrke er, at den påviser observerbare problemer, endda flere end de 2 øvrige (Van den Haag, De Jong og Schellens, 2004, s.1168). Ved at verbalisere tanker giver evaluator observatør indblik i ikke bare hvad hun gør, men hvorfor hun gør det (Nielsen, 1993, s. 18). Dertil kommer et stort resultat af kvalitative data selv fra et forholdsvis lille antal deltagere (s. 195). Nielsen omtaler metoden som en der kan benyttes ved en smule træning (s. 19), mens Ingwersen og Järvelin (2005, s. 92) taler om obligatoriske træningssessioner. Men som beskrevet i afsnit om evalueringsmetoder er metoder og kriterier forskellige og sammen med manglende standardkriterier for sammenligning vanskeliggør det studier (Hartson, Andre og Williges, 2001, s. 379). Som andre metoder er den påtrængende, idet deltagerne ved at de er under observation; en præmis der kan sikres gennem statistisk validitet (Ingwersen og Järvelin, 2005, s. 247) Metoden giver indblik i de kognitive processer (Nielsen og Mack, 1994, s. 311). Teori om worktask Borlund (2000) har undersøgt empirisk, hvor vidt simulerede worktask kan anvendes i evaluering af IR-systemer (Information Retrieval) og sikre kontrol og valide resultater som i eksperimentelle forsøg i en så realistisk form som muligt (s. 76). I undersøgelsen indgik 3 komponenter: potentielle brugere som testpersoner, dynamiske og individuelle informationsbehov, flerstrenget relevansvurdering (s. 72). I undersøgelsen blev anvendt 4 simulerede worktask (s. 82). Elementer i simuleret worktask: semantisk og åben beskrivelse af scenariet og konteksten vedrørende worktask. Baseret på scenariet formulerer testpersonen sin søgning. Situationen tjener 2 formål: 1) trigger og udløser et stimuleret informationsbehov og fører 14

til et individuelt informationsbehov som ved et ægte behov og 2) herfra måles relevans (s. 77). I testen blev testpersonerne instrueret i at finde det antal dokumenter, der skulle til at tilfredsstille deres informationsbehov og altså ikke så mange relevante dokumenter som muligt (s. 81-82). Undersøgelsen konkluderer, at der ingen forskel er mellem brug af simulerede og brugerdefinerede worktask. De simulerede worktask kan mixes eller erstatte de brugerdefinerede (s. 84) og metoden skaber eksperimental kontrol (s. 77). I 2004 anfører Madsen i UNI.C s undersøgelse at simulerede test ikke afspejler en naturlig brugeradfærd med reelle informationsbehov, hvorimod brugeren ved åbne, interviewbaserede opgaver..løser opgaver han med sikkerhed har haft behov for at løse frem for at han løser opgaver som testlederen har fundet på. (UNI.C, 2004, s. 104). Scenario-teknikken gør worktask mere realistisk med et mål uden at angive vejen og opløse det kunstige i situationen. For at et scenario er godt skal det være kort, brugervenligt sprog, uambitiøst i forhold til undersøgelseslederen. Det gode scenario bibringer evaluator tilstrækkelig information og er tilpasset undersøgelsens mål (Dumas og Redish, 1999, s. 172-173) samt bygge på brugerkarakteristika og varierende scenarierne imellem (Molich, 2003, s. 51). Analyse af task består af: - Et objektivt mål at nå - Et udgangspunkt, der giver afsættet - Aktion - Afslutning, hvor information er indhentet. Analysen kan endvidere beskrive forventet viden og færdigheder. Værdien i task analyse er fokus på brugeren (Dumas og Redish, 1999, s. 42-44). Indenfor IS- og IR-forskning skelnes mellem worktask som arbejds- og fornøjelsesrelaterede med en start og slutning og search task som en aktivitet med det mål at finde specifik information (Ingwersen og Järvelin, 2005, s. 73). For vurdering af task kompleksitet har Byström og Järvelin (1995, s. 211) udviklet en tasklevel analyse. Task kompleksitet stiger: - når kompleksiteten af informationsbehovet stiger - når behovet for domæneinformation og information om problemløsning stiger - når deling af kilder med generelle formål stiger og kilder til problem- og factsorientering aftager - når succes med informationssøgningen aftager - når interne kanaler aftager - når antallet af kilder aftager Analysemodellen for task kompleksitet og forståelsen af task som dels en opgave, der kan bruges til specifik informationssøgning men som også har et indbygget udgangspunkt og slutning indgår i formulering af worktask. Relevans Relevansvurdering er en del af informationssøgeprocessen og derved interaktionen mellem bruger og system. Forståelsen af relevansbegrebet i nærværende undersøgelse ligger indenfor den kognitive brugerorienterede tilgang, hvor relevans er subjektiv og 15

vurderes i forhold til informationsbehov mere end søgespørgsmål, hvor svaret fra IRsystemet kunne opfattes binært (Robertson og Hancock-Beaulieu, 1992, s. 458). Relevansbegrebet er præsenteret i oversigtsartikel af Borlund (2001) og fremstilles som både dynamisk over tid (Tang og Solomon, 1998, s. 255), situationsbestemt og ikke-binært (Spink, Greisdorf og Bateman, 1998, s. 599) indenfor det kognitive synspunkt. Empiriske undersøgelser vil påvise at også emne og kontekst er vigtigste faktorer, og at brugeren er den central og aktive deltager i vurderingen. Saracevic (1996) bidrager med en model for relevansvurdering som med 4 niveauer bygger ovenpå Ingwersens model af IR-interaktionen. I modellen skelner Saracevic (s. 241) mellem 5 typer af relevans: relation mellem query og informationsobjekt, reletion mellem subject og topic udtrykt i query og søgeresultat, reletion mellem brugerens vidensniveau og kognitive informationsbehov og søgeresultatet, relation mellem situation, task, problem og søgeresultat relation mellem brugerens intention, mål og motivation og søgeresultat. Empiri Generelt for begge evalueringer har jeg foretaget til- og fravalg hvad angår rapportering og undersøgelsesleder/observatør. Dataopsamling Jeg har fravalgt at optage evalueringen med video og lyd. Det kan være overordentlig ubehageligt at blive observeret og endda optaget (Nielsen, 1993, s. 181). Dertil kommer at optagelser, der efterfølgende skal transskriberes er tidskrævende og udbyttet begrænset (Nielsen, 1993, s. 19; Molich, 2003, s. 148). Molich (2007, s. 29) vurderer at man nok overser/hører et par detaljer, men der er gode chancer for at man har tid nok til at notere de væsentlige problemer. Resultatet kan enten dokumenteres i en skriftlig rapport fra hver evaluator eller ved brug af observatør under sessionen, hvor evaluatoren verbalt kommenterer. Fordelen ved den skriftlige rapport er den formelle afrapportering. Ulempen er at det kræver større anstrengelser af evaluatoren og de skriftlige rapporter skal efterfølgende forstås og sammenskrives af undersøgelseslederen. I stedet vil undersøgelseslederen foretage noter under evalueringen (Molich, 2003, s. 160), idet de økonomiske og tidsmæssige dispositioner spiller en betydning i nærværende opgave, der gennemføres af én person. Dataopsamling fra ekspertbaseret gennemgang er skriftlig ved at evaluatorer udfylder checkliste og spørgeskema. Observerende data samt data fra interview noteres skriftligt. Dataopsamling fra brugerorienteret gennemgang er skriftlig ved evaluatorers udtalelser under besvarelse af worktask. Andre observerende data og data fra interview noteres skriftligt. Undersøgelsesleder og observatør. Fordelen ved at bruger observatør er at reducere arbejdsmængden for evaluatoren og åbner for muligheden for adgang til resultatet kort efter sessionen, idet kun egne noter skal redigeres. Observatøren kan tillige hjælpe undervejs. Ulempen er øget tidsforbrug. 16

I nærværende undersøgelse har jeg valgt at bruge observatør, idet observatøren dels kan hjælpe undervejs dels optimere adgang til resultatet kort efter sessionen, begge dele for at sikre testens gennemførelse efter præmisserne i undersøgelsesdesignet. For at imødekomme eventuel bias gennem samtalepåvirkning fra observatør til evaluator følges anbefalinger som fx brug af neutrale ord, vend spørgsmål om og svar ikke direkte på spørgsmål (Dumas og Redish, 1999, s. 297-298). Undersøgelseslederen og observatør er i nærværende undersøgelse den samme person. Det har ikke været muligt indenfor rammerne at udpege en observatør. Derfor har undersøgelsesleder foretaget observation, rapportering, sammenskrivning, interview og vurdering. Fordele og ulemper belyses efterfølgende. Design af ekspertbaseret evaluering Udvælgelse af evaluatorer Selvom det er muligt at gennemfører en heuristisk evaluering med bare en person, viser erfaringer at en enkelt evaluator vil overse de fleste usability-problemer (Nielsen, 1993, s. 156). Også Hertzum og Jacobsen er stærk betænkelig ved bug af 1 evaluator (2003, s. 182). Forskellige evaluatorer finder forskellige fejl, og Nielsen opsummerer at der opnås bedre resultater ved at sammenholde evalueringerne fra flere evaluatorer, gerne 5 og i hvert fald 3 evaluatorer (s. 156). I nærværende undersøgelse anvendes 4 evaluatorer, idet det var indenfor valgmulighederne og indenfor metodens anbefalinger. I nærværende undersøgelse deltager biblioteksuddannede som evaluatorer i den ekspertbaserede undersøgelse. De anses for på forhånd at have stor ekspertise indenfor domænet og informationssøgning, både teoretisk og praktisk og delvis viden om usability. Biblioteksuddannede vurderes at opfylde metodens model for evaluatorkarakteristik. Evaluering Evalueringen indledes med udfyldelse af spørgeskema, bilag 7. Beskriv din computerviden bruger af søgemaskiner på www bruger af bibliotekskataloger bruger af bibliografiske databaser Nybegynder Bruger med nogen erfaring Ekspert Beskriv din domæneviden Nybegynder Bruger med nogen erfaring Ekspert Beskriv din viden om usability (brugbarhed af et system) Nybegynder Bruger med nogen erfaring Ekspert Demografiske data køn Kvinde: Mand: alder år Baggrund (uddannelse/erhverv) Anciennitet 17

Deltagerne er anonyme. Evalueringen gennemføres med én evaluator ad gangen. Først derefter kan evaluatorerne diskutere resultaterne. Adskillelsen er væsentlig for at sikre uafhængig evaluering. Evalueringen fastsættes til 1-2 timer (Nielsen, 1993, s. 158). I undersøgelsen anvendes Nielsens 10 heuristikker som målbare komponenter med det mål for øje at sikre systematisk og evalueret tilgang. Svarene klassificeres i 5 kategorier (Molich, 2003, s. 154): godt, forbedringsforlag, mindre problem, alvorligt problem, kritisk problem, bilag 5 og 6. Uddrag fra rapporteringskema Relevant feedback i ordentlig tid holder brugeren orienteret om det der foregår Klart og tydeligt sprog i forhold til brugere, hvad angår sprogterm, form og rækkefølge Navigation, gør om og gå tilbage - knap Konsistens og standarder Undgå fejl Godt Forbedringsforslag Med skemaet med heuristikker og mål i hånden gennemgår evaluatorer systemet side for side, funktion for funktion. Evaluatorerne opfordres til at tale-højt. Metoden er en variant af tænke-højt (Ingwersen og Järvelin, 2005, s. 92). Den er lettere tilgængelig men sikre ikke tilsvarende indblik i de kognitive processer. I en arbejdsopgave udenfor et undersøgelsesdesign kan det være meget realistisk at resultatet dokumenteres i en skriftlig rapport fra hver evaluator og i undersøgelsen er tænke-højt metoden fravalgt af samme grund Biasen ved ikke at anvende tænke-højt metoden vurderes mindre væsentligt i ekspertevalueringen. Evalueringen afsluttes med en samtale, der struktureres med vægt på evaluatorens egne frie udsagn, sorteres efter udsagn af semantisk karakter og forbedringsmuligheder, bilag 6. Evaluator stilles 2 åbne spørgsmål omkring hvilke 3 ændringer man helst ser og hvilke 3 ting der er bedst på websitet. Design af brugertest Udvælgelse af evaluatorer Ideelt set skal websitet evalueres af alle målgrupper (Nielsen, 1993, s. 175; Molich, 2003, s. 139). Studerende er som den primære målgruppe valgt i nærværende undersøgelse. Da det er undersøgelsesmetoden, der testes, vurderes det mindre væsentligt at flere målgrupper inddrages. Jeg har valgt 4 testpersoner idet færre end 4 kan overse vigtige problemer og mere end 6 vil præstere de samme resultater som de øvrige (Nielsen, 1993, s. 156; Molich, 2003, s. 140). De 4 testpersoner er repræsentativ for brugergruppen og er rekrutteret fra forskellige uddannelsesretninger og semestre. Deltagerne er anonyme. 18

Rekruttering Testpersonerne er udvalgt ved direkte henvendelse, idet lutter frivillige evaluatorer er urealistiske motiverede. 1 testperson er rekrutteret ved biblioteksundervisning, 3 er opsøgt udenfor biblioteket og uden sammenhæng med biblioteksbrug. Ved rekrutteringen får testpersonerne mundtlig og skriftlig forklaring på evalueringens formål (Molich, 2003, s. 139-140). I kontakten til testpersonerne er Molich (2007) anvendt til inspiration. Fx omkring den skriftlige og mundtlige kontakt mellem undersøgelsesleder og testpersoner før, under og efter testen. Som tak for medvirken modtager testpersonerne et gavekort til skolens boghandel. Opgaver Worktask er simuleret efter Borlunds anbefalinger: en god worktask er karakteriseret ved at testpersonerne skal kunne relaterer sig, emnet skal interessere testpersonerne og worktask skal være velbeskrevet (Borlund, 2000, s. 86). Opgavesættet består af 8 åbne og lukkede simulerede scenarioopbyggede task. Antallet af task skal være af en størrelse, så de gennemføres indenfor tidsrammerne af evalueringen (1-2 timer) men ikke så få, at det forekommer trivielt (Nielsen, 1993, s. 186). For at vurdere tidsforbruget kan man overveje hvor lang tid udførelsen af wordtask tager, og hvor lang tid det er acceptabelt for evaluator at gennemføre worktask (Dumas og Redish, 1999, s. 16). Inspiration til formulering af worktask er opsamlet fra daglige forespørgsler i biblioteket og understøtter både realisme og brugernes rigtige informationsbehov (s. 142-143). Snittet ligger omkring det der må formodes at være kernen i websitet (Molich, 2007, s. 13). Første opgave er en let opgave, der kan virke afstressende. Worktask og scenarier er renset for skjulte antydninger og med et mål uden at angive vejen dertil. Oversigt over worktask i uddrag med uddybende bemærkninger, bilag 9 Opgave 1 Du skal teste Københavns Tekniske Biblioteks hjemmeside. Find hjemmesiden Opgave 2 Forny dine lån. En meget anvendt facilitet i det elektroniske forskningsbibliotek Opgave 3 Jobansøgning. Realistisk, idet en stor del af studerende har fritidsjob/studierelevant beskæftigelse. Opgave 4 Standarder for legepladser. Din gruppe skal finde ledige lokaler hvor I kan arbejde i fred. Et scenario, der er realistisk i forhold til studerendes projektarbejde. Opgave 5 Adgang til ordbog hjemmefra. Realistisk. Kan inddrage en populær base og fjernadgangsmulighed Opgave 6 Vejledningstilbud på biblioteket. Realistisk og anvendt. Alle kender til ét eller flere muligheder for vejledning. Opgave 7 Adgang til Ingeniørens artikler. Realistisk og stimulerende da vi er indenfor ingeniørdomænet Opgave 8 Reglement for husbyggeri. Et scenario, der er realistisk enten fordi man er bygningsingeniør eller fordi flere spørger på andres vegne. Opgaverne er permuteret for at udelukke specielle mønstre i evalueringens resultat, der kunne stamme fra netop rækkefølgen. Det er også væsentligt at alle opgaver samlet set blev afprøvet. Det valg er taget af hensyn til evaluering af resultatet og derved er evaluators eget valg om rækkefølge valgt fra. Google var valgt som startside. 19