Pilot-usabilitytest af TV2.dk ved brug af Card-sorting og Tænke-højt metoderne Katrine Eriksen Kim Jacobsen Mathilde Uhrskov DKM IT-højskolen, København - 30. april 2001 Miniprojekt #2 UES2001 Vejleder: Ulrik H. Gade 1
1.0 Indledning og problemformulering Usability er et buzz word i IT fora i dag, hvor der er ved at komme mere fokus på brugeren. TV2 Interaktiv har ingen erfaring med usability og bød gruppen velkommen med ønsket om en usability undersøgelse og en gensidig læringsdialog. Denne testrapport er en pilotrapport til den større usabilityundersøgelse af tv2.dk. Vi definerer usability som brugbarhed, et begreb der dækker både indhold og form i forhold til brugerens oplevelse af sitet. Vores formål med pilotundersøgelsen er at få et bredt billede af brugeroplevelsen på sitet. Sitet er meget stort og informationsrigt, vi blev derfor nødt til at bestemme et fokus. Vi valgte at koncentrere os om navigation og informationssøgning på tv2.dk. 2.0 Anvendt metode For at teste navigationen og informationssøgningen på tv2.dk udførte vi en Card-sort undersøgelse med to informanter og en Tænke-højt undersøgelse med fire informanter. Derudover gennemførte vi indledningsvis to pilottests på to af gruppens medlemmer. 2.1 Card-sort To test kørt uafhængigt af hinanden tirsdag den 24. april. Før testen blev informanterne spurgt om de kendte til tv2.dk: Kender ikke tv2.dk Kender tv2.dk Kender tv2.dk godt. 2
De blev desuden spurgt om deres erfaring som internetbrugere: Ekspertbruger Normalbruger Ikke-bruger (ikke relevant for denne undersøgelse) Under testen: Moderatoren stillede nogle få uddybende spørgsmål og præsenterede indekskortene, mens en anden tog noter. Informanten sorterede kortene i grupper og kommenterede undervejs på de tanker der lå bag grupperingen. Derefter bad vi informanten give en overordnet titel til hver gruppering. Til sidst skulle informanten beskrive hvilket indhold de forventede at finde under hver titel. 2.2 Tænke-højt Før testen besvarede informanterne de samme indledende spørgsmål som under Cardsort. Vi forklarede informanterne at de så vidt muligt skulle prøve at surfe som de ville derhjemme og vide at det var sitet og ikke dem der blev testet. Derefter spurgte vi dem om deres forventninger til tv2.dk. Før/under testen: Informanterne fik en liste med 15 opgaver, og blev bedt om at tænke højt mens de løste opgaverne ved at interagere med tv2.dk. Efter: Da informanterne havde været igennem opgaverne bad vi dem kort fortælle om deres generelle indtryk af sitet. Vi spurgte dem også om testformen generelt, fx om de mente at opgaverne var realistiske. 3
2.3 Testdeltagere Vi valgte umiddelbart tilgængelige informanter, der måtte være en realistisk del af tv2.dks målgruppe. Der blev brugt to informanter til Card-sort testene: Informant A er studerende ved IT højskolen, 25 år, kender tv2.dk og er ekspertbruger. Informant B er studerende ved IT højskolen, 38 år, kender ikke tv2.dk og er normalbruger. Til Tænkehøjt testene brugte vi seks informanter: Vi foretog to indledende pilottest, hvor informanterne var to af gruppens egne medlemmer. Til den reelle test fordelte informanterne sig således: Informant nr.1 er uddannet etnolog, 26 år, kender ikke tv2.dk og er normalbruger. Informant nr.2 er studerende ved IT højskolen, 27 år, kender tv2.dk godt og er ekspertbruger. Informant nr. 3 er studerende ved IT højskolen, 30 år, kendte tv2.dk og er ekspertbruger. Informant nr. 4 er pædagog, 25 år, kender tv2.dk godt og er normalbruger. 4
3.0 Testresultater 1 3.1 Resultater Erfarenhed med internettet spiller ind: Registrerede usabilityproblemer i forhold til informanter Fig. 1 Antal usabilityproblemer i alt 30 25 20 15 10 5 0 1 2 3 4 Informantnummer Nr. 1 er normalbruger Nr. 2 er ekspertbruger Nr. 3 er ekspertbruger Nr. 4 er normalbruger Vi har samlet alle observationer i en graf (Fig. 1) for at se på forholdet antal problemer og brugerens erfaringsniveau. Ud fra denne graf kan vi udlede at det var de to normalbrugere, der stødte ind i flest usabilityproblemer. Forholdet illustreres i de følgende citater: Jeg synes deres TV-oversigter er latterlige! (Informant nr. 1) og Det er en fornuftig TV-guide (Informant nr. 2). Som citaterne udtrykker kan det der er et problem for en normalbruger være et godt værktøj for en ekspertbruger. Informant nr. 4 havde også problemer med TV-guiden første gang, men da der var en anden opgave der gjorde brug af TV-guiden kunne hun sagtens bruge den. Vi mener altså at TV-guiden er et godt værktøj, men at den skal forklares til en førstegangsbruger. 1 Test vedlagt i bilag 1-6 5
Hvor problemerne ligger i forhold til opgaverne: Antal problemer i alt 14 12 10 8 6 4 2 0 Usabilityproblemer i forhold til opgave 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Opgave nr. Fig. 2 1. Find vejrudsigten for i dag. 2. Find indslaget om det danske gidsel i Columbia fra morgen nyhederne. 3. Hvad sender TV2 på lørdag? 4. Kan du sætte en brugt bil til salg? 5. Hvem er direktør på TV2? 6. Kan du finde Hugo spillet til dit barn? 7. Find flybillet til Chile. 8. Find en ejerlejlighed på Frederiksberg til max 2 mio. 9. Hvornår sendes Ally? 10. Find information om nye motorbåde. 11. Find koncerter i København. 12. Prøv at finde informationer fra morgen TV i morges? 13. Find et job hos TV2. 14. Find programoversigten for i går. 15. Kontakt TV2 med hensigten at klage over et givent program. Problemer med opgave 6 og 9 (hvornår tv-serien Ally bliver vist og om at finde Hugo spillet ) er signifikant højere end de andre. Også opgave 5 og 7 ( find TV2s direktør og Flybillet til Chile ) var forholdsvis svære at løse for informanterne. Det er vores vurdering at det er særligt problematisk at informanterne har svært ved at bruge de TVrelaterede funktioner (6,9,7) da dette er hvad de forventer at finde information om på tv2.dk. Andre funktioner så som køb/salg af båd, finde bolig etc. kan her tillade en højere grad af tålmodighed, da disse funktioner retter sig mod mere personlige behov, hvorfor graden af tolerance sandsynligvis er højere. På den anden side er disse features ikke eksklusive TV2 områder, hvorfor informanten måske hurtigt ville opgive tv2.dk og søge på et andet site. Problemer fordelt på evalueringskriterier 2 : Antal Hyppigst forekommende usabilityproblemer 20 18 16 14 12 10 8 6 4 2 0 2 Niels Ebbe Jakobsen, IT-C 20.04.01 1 2 3 4 5 6 7 8 Fig. 3 1. Usability Systemet målekriterier går ned. 2. Opgiver at udføre 1. opgaven. Systemet går ned. 3. 2. Kan Opgiver ikke at gennemføre udføre opgaven. 3. inden Kan ikke for 3 gennemføre min. inden 4. Prøver for 3 min. 3 gange 4. forgæves. Prøver 3 gange forgæves. 5. Viser overraskelse. 6. Udtrykker sig negativt om om sitet. sitet. 7. Kommer med designforslag. 8. designforslag. Andre registrede problemer 8. Andre registrede problemer 6
Det er klart evalueringskriterierne 2,3,4 og 6 der er oftest forekommende. Det kan skyldes, at de er nemme at registrere. Det er også denne type kriterier, der typisk overlapper hinanden i den samme opgave. Fx prøver informanten at udføre en given opgave tre gange forgæves, bruger mere end tre minutter, udtrykker sig negativt og opgiver til sidst at fuldføre opgaven. Sekvensen er alvorlig og især i denne forbindelse, hvor opgaverne knytter sig til testpersonernes primære forventninger om tv2.dk nemlig TV2 relaterede informationer. 4.0 Der tegner sig et mønster i de behandlede data Det vigtige i behandlingen af testresultaterne er ikke nødvendigvis, hvor mange problemer en enkelt opgave foranlediger, men nærmere hvor store problemerne er, eller om de overhovedet tæller som problemer. En observation kan, statistisk set, fremstå som et problem, men i realiteten være acceptabel fordi det er forventet i forhold til det specifikke indhold opgaven omhandler. Det er vigtigt, at man ikke alene ser på de statistisk målbare resultater, men i høj grad sætter dem op overfor informanternes forventninger og behov. Altså medregnes den kvalitative uddybning, fx hvad informanterne gav udtryk for, mens de løste de specifikke opgaver. Det problem, som blev observeret flest gange i testen, "Opgiver at udføre opgaven", er misvisende, hvis det blot er et kryds i et skema. Det viste sig nemlig, at informanterne "opgav" af forskellige grunde f.eks. var en enkelt informant ekstrem utålmodig (ville hellere være kritisk mod sitet end virke "uerfaren"), hvor en anden gjorde en stor indsats og først opgav da vedkommende var sikker på, at informationen ikke kunne findes internt på tv2.dk. Der er selvfølgelig problemer, som ikke må forekomme og som er indiskutable, f.eks "Systemet går ned" og "Prøver tre gange forgæves" eller en helt tredje "døde links", sidstnævnte findes fx ikke som evalueringskriterie, men forekom en enkelt gang. 7
4.1 Brugerens forventninger og behov Både i forbindelse med Card-sorting og Tænke-højt blev informanterne spurgt om deres forventninger til tv2.dk, de faldt således: TV relateret stof så som TV-programmer, programoversigt, nyheder, sporten, underholdning, om TV2 Internet funktioner: spil, konkurrencer, om tv2.dk Diverse forventninger: lidt af hvert, jobs hos tv2.dk 4.1.1 Mange stier til et mål De fire navigationsstrukturer topmenuen, site kroppen, indeks og søgefunktion blev brugt af forskellige informanter og supplerer hinanden. Nederst på forsiden findes et indeks over kategorier og underkategorier, men den ligger under skærmlinien og bliver derfor ikke altid opdaget en af informanterne nævnte i debriefingen, at man skal bruge scrollbaren for meget og at der savnes en mere oversigtsagtig indgang. Informanten lagde ikke mærke til indeksfunktionen, som han ville have opdaget hvis han havde været mere villig til at scrolle. 5.0 Metodereflektion 5.1 Card-sort Der er ca. 250 titler, mellemtitler og undertitler på tv2.dk, så vi afgrænsede vores Cardsort til de 39 mellemtitler. Vores Card-sort undersøgelse var ikke lige efter bogen; vi havde to informanter og indekskortene beskrev kun over- og mellemniveautitler og altså ikke selve indholdet. Formålet med en Card-sort er at teste et sites informationsarkitektur i forhold til brugerens forventninger altså navigation og struktur 3. Det mener vi ikke at vi har testet med vores Card-sort test. Sorteringen som informanterne gennemførte var unaturlig pga. afgrænsningen til titler. Testen kunne vise noget om hvordan titlerne (de forskellige informationsgrupper) kunne sættes sammen i grupper, men den viste ikke så meget om titlernes indhold. 8
For at undersøge navigationen skulle vi have foretaget yderligere Card-sort test med hhv. titel- og indholdskort. Da der er over 250 undertitler er dette dog urealistisk, med mindre man opdeler sitet i dele - hvilket ville være omstændigt omend naturligt, da sitet består af en række selvstændige kerneområder som fx Om nyheder og Om underholdning. Selvom vi må konkludere, at vores Card-sort, som værktøj til at beskrive arkitekturen, ikke lever op til kravet om validitet og reliabilitet så mener vi alligevel, at de data vi indsamlede var anvendelige fordi de startede en dialog med brugerne om tv2.dk. Vi blev delagtiggjort i hvad to brugere forventer sig på tv2.dk, hvordan de vægter og grupperer forskellige elementer. Vi fik et indblik i hvorvidt deres forventninger baseret på titlerne var i overensstemmelse med titlernes reelle indhold. Vi har altså omdefineret og justeret metoden i forhold til vores formål med testen. 5.2 Tænke-højt test Tænke-højt testen er en af de mest anvendte metoder indenfor usability engineering. Metoden er forholdsvis nem at kritisere fx i forhold til evaluatoreffekten 4, fordi den indeholder så mange variabler og kræver fortolkning. Alligevel er Tænke-højt testen meget givende til at få del i brugerens oplevelse af et site, både ved det de siger og ved simpelthen at observere hvordan de søger information. Vi gennemførte i alt seks tests, men da de første to var pilottests med et større antal opgaver end de efterfølgende fire tests kan vi ikke behandle dem samlet. Det var brugbart for os at gennemføre to pilottests. Vi udarbejdede 41 arbejdsopgaver som vi forventede at kunne løse vha. sitet. I løbet af pilottesten fandt vi dog at mange af opgaverne ikke kunne besvares. Endelig tog opgaverne længere tid at løse end vi havde forventet. Vi anslog at ca. 15 opgaver var maksimum for en test. De to interne informanter var selv novicer til sitet dvs. mange af de kommentarer der kom frem undervejs var anvendelige. Endeligt var det lærerigt selv at opleve informantrollen. 3 Ibid side 65 4 Niels Ebbe Jakobsen, IT-C 20.04.01 9
Vi havde bevidst valgt at lave opgaverne før vi kendte sitet godt, ud fra forestillingen om at de ikke skulle afspejle et kendskab til sitets begrænsninger, men istedet indeholde mere naturlige brugerforventninger til sitet. Vi har tidligere haft dårlige erfaringer med at udforme fortænkte spørgsmål udfra rundture på et site. Vores valgte fremgangsmåde afspejler et ønske om at gøre opgaverne mere realistiske i forhold til brugernes forventninger. Begge de to interne informanter var overraskede over hvor påvirkede de var af testsituationen. De blev begge stressede. De var enige om at flere af reaktionerne ville have været anderledes i en ikke-test situation. Vi kan anbefale, at en moderator selv prøver informantrollen så man bliver en bedre moderator både til at hjælpe informanten med at slappe af, men også ved at medtage denne erfaring med sig i fortolkningsarbejdet fx som kritik af data hvad informanten gør i testsituationen er ikke nødvendigvis, hvad de ville gøre derhjemme. Vi blev enige om at gøre det tydeligt for informanterne, at de skulle prøve at gøre som derhjemme (altså ikke være mere tålmodige med en opgave fordi de ville løse den for vores skyld). De to interne informanter søgte løsninger meget forskelligt en var meget modvillig til at bruge søge funktion, mens den anden brugte den konstant. Ligeledes var der stor forskel i graden af tålmodighed med løsning af opgavescenarierne. Den ene forsøgte ihærdigt at løse opgaverne, mens den anden hurtigt blev utålmodig og gav op. På den måde fik vi to forskellige brugerprofiler, som også var en del af det mønster vi så med de egentlige tests. Enkelte af de endelige opgaver kunne ikke løses på tv2.dk. Dette valgte vi ikke at rette op på efter pilottestene fordi vi mente at de var realistiske brugerscenarier, hvilket informanterne tilsluttede sig. Det rejste dog nye spørgsmål så som hvornår en opgave er løst. Er det fx ok hvis opgaven løses men udenfor tv2.dks domæne? Har informanten opgivet eller løst opgaven når han eller hun kan udelukke at løsningen findes på sitet? 10
Vi konkluderer til dette aspekt, at det er vigtigt at have konkrete opgaveformuleringer og løsningskriterier så informanterne ikke kan omdefinere opgaverne så de bedre kan løses. For det andet kunne tv2.dk med fordel have en forklaring på sitets egne begrænsninger. Fx burde det være muligt når man søger på skærmtrolden Hugo (opg. 6), at man får at vide at Hugo ikke findes på tv2.dk (evt. støttet med en eksternt link) så folk ikke søger igen og igen på noget de forventer at finde. Fire informanter til Tænke-højt test, mener vi er lige i underkanten. De fire var så forskellige i deres måde at søge på flere informanter ville givetvis have fået mønstre til at træde tydeligere frem. Ligeledes kan man diskutere, hvor mange opgavescenarier der skal til at sikre validitet i forhold til testformålet. Hertil har det udelukkende været vores hensigt at bruge testen som pilottest til senere undersøgelser. 6.0 Konklusion Herunder vil vi kort opsummere de væsentligste metodiske spændingspunkter vi har erfaret: 1. Antal af informanter betyder meget når man laver mindre empiriske undersøgelser. En informant fra eller til kan ændre et mønster meget. 2. Evaluatoreffekten. Vi fortolkede informantopførsel og kommentarer forskelligt. For at omgå dette problem var vi altid to om at fortolke data ud fra gruppens fælles kriterier. Alligevel er det svært at opstille kriterier for hvornår noget er et problem eller ej fx om TV-guiden der for én var svær at bruge og for en anden var et effektivt værktøj ved nærmere bekendtskab. 3. Selvom vi ikke fulgte en Card-sort metoden slavisk kunne vi godt bruge resultaterne. Praksis overfor teori når målet er resultater og ikke kun metodebrug. 4. Opgavernes formulering: I udviklingsfasen skal man vælge om man vil gøre opgaverne realistiske i forhold til brugernes forventninger eller om de skal kunne løses internt/eksternt på sitet. 11
5. Er testen realistisk? Det er væsentligt at være bevidst om at informanten formentlig ikke opfører sig helt naturligt (nogle bliver stressede, utålmodige mens andre vil bruge lang tid på at gennemføre testen). Forslag til tv2.dk Tv2.dk er meget gennemført i layout og struktur med faste menupunkter. På indholdssiden bliver man overrasket over udbuddet - der er alt hvad man kunne forvente sig og mere til. Efter at have foretaget en usabilitytest på tv2.dk ikke for at finde fejl, men for at belyse brugeroplevelsen og brugeres forventninger til sitet kan vi konstatere, at Tv2.dk ikke har nogle alvorlige usabilityproblemer. Dog viste testen flere steder hvor sitets usability kunne forbedres. Dette er gengivet i punkterne nedenunder: Ting der fungerede godt på tv2.dk Det var umiddelbart nemt for informanterne at finde konkrete oplysninger - fx om koncerter i København. Det udvidede indeks giver gode navigationsmuligheder. Ingen systemet går ned tilfælde. Det er et flot site. Ting der kunne fungere bedre Forslag til forbedring af brugeroplevelsen - link til virksomheder ikke blot visning af firmalogo. Usikkerhed mht. hvordan TV-guiden fungerer. Søgefunktionen Albot er kritisabel Flere informanter var forvirrede over at funktionen intern/ekstern søgning var så let at overse samt hvad Fonetik betød i forhold til søgningen. Markedsfunktionerne skal være nemmere at bruge - job- og boligmarked fungerer godt, mens rejseguiden og bil/bådmarkedet har flere usabilityproblemer. 12
Brugerne forventer at finde information om TV-relateret stof, så som TVprogrammer, nyheder og vejret. Den type information skal være tilstede og være lettilgængelig. Den vigtigste konklusion på denne pilottest er, at tv2.dk balancerer mellem at være en supplerende service til TV2 - med programoversigt og information fra TV udsendelser m.v.- og en portal med egen søgemaskine ud til internettet og mange eksterne services. Tv2.dk er et af de mest besøgte sites i Danmark, der burde altså være brugere nok til at understøtte begge funktioner. Alligevel var alle informanterne i vores undersøgelse enige om, at det var TV servicen, der måtte være kernefunktionen på tv2.dk det er her at sitet kan noget andre konkurrerende portaler ikke kan. Alligevel er det her mange af usabilityproblemerne ligger. 13