Query expansion med sociale tags til forbedret ranking af søgeresultater



Relaterede dokumenter
Web of Science Core Collection

Et oplæg til dokumentation og evaluering

Søgning i PubMed. Onsdag d. 7. januar Undervisere: Birgit Nørgaard Christensen Maria Østerbye

isearch Testsamling til evaluering af integreret søgning

Bringe taksonomier i spil

Litteratursøgning i PubMed

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare.

EVALUERING AF BOLIGSOCIALE AKTIVITETER

Det erhvervsrelaterede projekt 7. semester. Projekt plan

Matematik, maskiner og metadata

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

Bilag 1 Søgeprotokol Charlotte Enger-Rasmussen & Anne Kathrine Norstrand Bang Modul 14 Bachelorprojekt 4. juni 2013

10 Vigtigste SEO Ranking Faktorer

Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling

På kant med EU. Det forgyldte landbrug - lærervejledning

Metoder og struktur ved skriftligt arbejde i idræt.

Artikler

Google Scholar. Søgning. Udgiver Google

TIL OPGAVESKRIVEREN. Før selve opgaveugen. Formål med opgaven.

Evaluering af familierådslagning i Børne- og Ungerådgivningen

Akademisk tænkning en introduktion

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring

PsycINFO (Ebsco) VIA manual

Opgavekriterier. O p g a v e k r i t e r i e r. Eksempel på forside

Naturvidenskabelig metode

Videnskabsteoretiske dimensioner

Lene Gry Huybens Hald. Abstract

Villa Venire Biblioteket. Af Heidi Sørensen og Louise Odgaard, Praktikanter hos Villa Venire A/S. KAN et. - Sat på spidsen i Simulatorhallen

Vidensbegreber vidensproduktion dokumentation, der er målrettet mod at frembringer viden

Business Source Premier EBSCO

En intro til radiologisk statistik. Erik Morre Pedersen

Indhold. Del 1 Kulturteorier. Indledning... 11

LITTERATURSØGNING. ref. Lund H(1999)

Formålet med undervisning fra mediateket er at styrke elevernes informationskompetence, således de bliver i stand til:

Opgavekriterier Bilag 4

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

Seminaropgave: Præsentation af idé

Guide til informationssøgning ved idrætsstudiet på Institut for Idræt. Per Kahlen Hansen Biblioteket

Læremiddelanalyser eksempler på læremidler fra fem fag

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Informationssøgning metoder og scenarier

Du kan søge på emner, forfattere eller titler og lave kædesøgninger på baggrund af artiklernes referencelister.

Almen studieforberedelse. 3.g

Indholdsfortegnelse. DUEK vejledning og vejleder Vejledning af unge på efterskole

Noter til SfR checkliste 3 Kohorteundersøgelser

AKADEMISK IDÉGENERERING JULIE SCHMØKEL

Kursus i Infomedia. Udarbejdet af Annette Öhrström, Silkeborg bibliotek, september 2016

Vurderingskriterier i forbindelse med valg af læremidler til distributionssamlingerne på Centre for undervisningsmidler

Bilag til AT-håndbog 2010/2011

Hvordan kan man evaluere effekt?

PubMed er en stor sundhedsfaglig database med henvisninger til videnskabelige artikler.

En intro til radiologisk statistik

DIO. Faglige mål for Studieområdet DIO (Det internationale område)

Kapitel 2: Erkendelse og perspektiver

PubMed - tips til søgning

Vidensmedier på nettet

Filen indeholder: - PowerPoint fra oplæg ved ph.d. cand.scient.bibl. Jens Peter Andersen, Medicinsk Bibliotek om Publiceringsstrategi (gennemført

Case til opgaven: Evaluering som belutningsmodel for forandring. Case til opgaven: Evaluering som beslutningsmodel for forandring.

Dansk Clearinghouse for Uddannelsesforskning

Positiv effekt af omstridt pointsystem på dansk forskningsproduktion Ingwersen, Peter; Larsen, Birger

PsycINFO (Ebsco) VIA manual

Den sproglige vending i filosofien

Kompetencemål for Matematik, klassetrin

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

Inspiration til arbejdet med børnefaglige undersøgelser og handleplaner INSPIRATIONSKATALOG

(bogudgave: ISBN , 2.udgave, 4. oplag)

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

Bilag 4. Planlægningsmodeller til IBSE

Almen Studieforberedelse

Hvad er socialkonstruktivisme?

Kan anbefalinger af anbefalere anbefales?

Litteratursøgning. Program

Akademisk Idégenrering. Astrid Høeg Tuborgh Læge og PhD-studerende, Børne og Ungdomspsykiatrisk Center, AUH

GPS stiller meget præcise krav til valg af målemetode

Dorthes Bog Centrum har ca forskellige bøger (bibliografiske enheder), som alle skal være søgbare fra prototypen.

Nyt lys på telemedicin og telesundhed i Danmark

The Joanna Briggs Institute EBP Database Vejledning

Data science og søgning

Generelle bemærkninger om statusrapporter

Dansk-historieopgaven (DHO) skrivevejledning

The Joanna Briggs Institute EBP Database Vejledning

Studieordning for kandidatuddannelsen i informationsteknologi ved IT-Universitetet i København, Digital design og interaktive teknologier

Modulbeskrivelse. Modul 14. Bachelorprojekt. Sygeplejeprofessionen kundskabsgrundlag og metoder. Professionsbachelor i sygepleje

Indledning. Problemformulering:

Teknologihistorie. Historien bag FIA-metoden

Den åbne skole samarbejde mellem skoler og idrætsforeninger

Eksempel på den aksiomatisk deduktive metode

Det Nye Testamente lyd-app. v. Stefan Lykkehøj Lund

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet

SEO. en digital værktøjskasse for begyndere og øvede

De 5 positioner. Af Birgitte Nortvig, November

VÆRKTØJSKASSEN TIL INNOVATION OG ENTREPRENØRSKAB I UNDERVISNINGEN

Notat vedr. resultaterne af specialet:

Ledelsesmodel for Gladsaxe kommunes skolevæsen

At læse videnskabelige artikler viden og øvelse. Mette Kildevæld Simonsen Sygeplejerske, MPH, Ph.D- studerende

Metoder og produktion af data

TIPS OG TRICKS I PROJEKTSKRIVNING

AT og Synopsisprøve Nørre Gymnasium

Generel vejledning vedrørende obligatoriske opgaver på voksenunderviseruddannelsen

Transkript:

Query expansion med sociale tags til forbedret ranking af søgeresultater Kandidatspeciale af Jens Peter Andersen Mikkel Just Tronhus 23. maj 2008, 31.212 ord Frederik Bajers Vej 7K 9220 Aalborg Ø

Query expansion med sociale tags til forbedret ranking af søgeresultater Skrevet af Jens Peter Andersen og Mikkel Just Tronhus, 23. maj 2008. Kandidatspeciale,, Aalborg Antal ord: 31.212 Vejleder: Jesper W. Schneider ABSTRACT Specialet undersøger effekten af automatisk query expansion i en konkret sammenhæng. Udvidelserne af søgeforespørgslerne sker på baggrund af klynger indeholdende tags, fundet gennem koforekomstanalyser af tags fra den bibliografiske database CiteULike. Klyngerne er dannet som complete link klynger ved hjælp af en hierarkisk agglomerativ klyngealgoritme, med anvendelse af Ochiai lighedsmålet, og en fast tærskelværdi på 0,2. Der implementeres automatisk stemming i form af Porter stemmeren, samt en stopordsliste og en nedre grænseværdi for frekvensen af tags der inkluderes i klyngeanalysen. Testen af systemet er udført på et medicinsk bestmatch informationssystem, og effekten måles ved hjælp at en kombination af simulated worktask og to forskellige evalueringsmetoder, Cumulated Gain, og Relex. ENGLISH ABSTRACT This thesis investigates the effect of automatic query expansion in a specific setting. The expansions of the requests are based on a collection of clusters of tags as discovered through cooccurence analysis of tags from the bibliographic database CiteULike. The clusters are formed as complete link clusters through a hierarchic agglomerative clustering algorithm utilizing the Ochiai similarity measure, and a threshold for similarity between objects fixed on 0.2. Automatic stemming in the form of the Porter stemmer has been implemented, as well as a stopword list and a lower frequency threshold for inclusion of tags in the clustering algorithm. The system has been tested on a medical bestmatch informations system, and the effect is measured through a combination of simulated worktasks and two separate methods of evaluation, Cumulated Gain and Relex. Jens Peter Andersen Mikkel Just Tronhus 1 Indholdsfortegnelse Side 1

1 Indholdsfortegnelse 1 Indholdsfortegnelse... 2 2 Indledning... 4 3 Problemformulering... 9 4 Review... 11 4.1 Query Expansion... 11 4.2 Klyngeanalyse... 14 4.3 Evaluering af genfindingssystemer... 15 5 Metode... 19 5.1 Fremgangsmåde... 19 5.2 Tilgang... 19 5.2.1 Teoretisk baggrund... 20 5.2.2 Begrebsafklaring... 22 5.2.3 Litteratur... 23 5.3 Data... 24 5.3.1 Indsamling... 24 5.3.2 Egenskaber... 25 5.3.3 Gruppering af termer... 29 5.4 Anvendte metoder... 33 5.4.1 Klynger... 33 5.4.2 Simulated work tasks... 45 5.4.3 Søgning med query expansion... 47 5.4.4 Relevansvurdering... 50 5.4.5 Evaluering af Query Expansion... 53 5.4.6 Evaluering af Klyngekvalitet... 59 6 Analyse... 61 6.1 Analyse af ranking performance... 61 6.2 Analyse af cumulated gain... 66 6.3 Analyse af klyngekvalitet... 71 6.4 Opsamling... 81 7 Diskussion... 82 7.1 Effekt af query expansion... 82 7.2 Erkendte interne fejlkilder... 83 7.3 Erkendte eksterne fejlkilder... 84 7.4 Evaluerings og analysekritik... 85 7.5 Alternative fremgangsmåder... 88 7.6 Videreudvikling... 90 7.6.1 Fraser... 90 7.6.2 Klyngemetode... 91 8 Konklusion... 93 9 Litteratur... 95 1 Indholdsfortegnelse Side 2

Bilag 1. Klynger med tærskelværdi 0,2... 101 Bilag 2. Klynger med tærskelværdi 0,3... 111 Bilag 3. Klynger med tærskelværdi 0,4... 118 Bilag 4. Klynger med tærskelværdi 0,5... 123 Bilag 5. Klynger med tærskelværdi 0,6... 126 Bilag 6. Klynger med tærskelværdi 0,7... 128 Bilag 7. Klynger med tærskelværdi 0,8... 130 Bilag 8. Klynger med tærskelværdi 0,9... 131 Bilag 9. Oversigt over datamateriale... 132 Bilag 10. Eksempler på koforekomstdata... 133 1 Indholdsfortegnelse Side 3

2 Indledning Alle informationssystemer, fra biblioteket i Alexandria til Wikipedia 1 har en ting til fælles: De forsøger at placere materialer, der omhandler samme emne ʺi nærhedenʺ af hinanden. Formålet med dette er naturligvis, at en informationssøger, eller skulle man hellere sige videnssøger, bliver præsenteret for noget andet og mere, end det, der specifikt blev søgt efter. Det vil sige, at søgeren ikke blot finder det, der søges efter, men også noget andet. Dette andet skulle gerne være noget søgeren finder relevant, eller i det mindste interessant. Udfordringen for ethvert system, der vil gøre brug af denne teknik, er at afgøre hvilke materialer, der skal knyttes sammen, og dermed præsenteres sammen. I Alexandria blev dette gjort manuelt, ved at bibliotekaren bestemte hvor de enkelte materialer skulle opbevares, og dermed hvilke materialer, der blev ʺopdagetʺ i genfindingsprocessen. Det medførte dog visse hovedpiner for den stakkels bibliotekar, der skulle beslutte sig for, hvilken form for relation materialerne skulle sorteres efter. Det vil sige, skulle de arrangeres kronologisk, således, at dokumenter fra samme tidsperiode ville blive genfundet sammen, eller skulle man arrangere dem alfabetisk efter titel, således at dokumenter med ens titler blev genfundet sammen. Eller skulle man forsøge at afgøre entydigt hvilket emne et givent dokument drejer sig om? Dette stiller igen den stakkels bibliotekar overfor en ny hovedpine, for hvordan afgør man entydigt hvilket emne det enkelte dokument omhandler? I nogle tilfælde er det elementært, i andre er det fuldstændigt umuligt. Det er klart, at de forskellige medier der er tale om kræver forskellige definitioner af hvad ʺnærhedʺ er. Papyrusruller liggende på samme hylde forventes at have en eller anden relation, ligesom Wikipedia artikler der hører under kategori, forventes at have det. Det er dog en stor fordel ved de digitale medier, at deres ʺplaceringʺ ikke er den eneste måde at finde dem. Gennem indeksering og gennem fuldekstsøgning er det muligt, at placere dokumenter ʺi nærhedenʺ af mange forskellige placeringer, og dermed muliggøre genfinding i mange forskellige sammenhænge. Hvordan kan dette faktum bruges til at facilitere en emnesøgning? Det kommer igen an på konteksten. I Alexandria drejer det sig om at gøre søgeren opmærksom på hvilken type relationer, der er mellem papyrusruller på samme hylde; det kan man bare ikke så godt gøre i online informationssystemer, da strukturen er usynlig for brugeren. Man kan ikke se den hylde artiklen ligger på. Der bliver det nyttigt, at indbygge en funktion i søgesystemet, der kan håndtere at gøre søgeren opmærksom på, at der muligvis findes andet interessant materiale, end det der specifikt er blevet søgt på, gennem udnyttelse af flere af de føromtalte ʺplaceringerʺ. Denne funktionalitet kan i online informationssystemer implementeres på mange forskellige måder. En af de mest benyttede er query expansion, hvor den oprindelige søgeforespørgsel udvides med andre søgetermer, der har en 1 http://www.wikipedia.org/ 2 Indledning Side 4

relation til det emne der søges efter. Dette kan igen gøres på flere måder: Enten manuelt/interaktivt, hvor søgeren selv, efter at have set det første søgeresultat, kommer i tanke om, at der var et par andre termer, der kunne være interessante til enten at udvide eller modificere den første søgning. Denne cyklus kan gennemføres flere gange og på flere måder: Enten gennem en intermediær, gennem et søgeinterface, eller rent manuelt, hvor søgeren blot indtaster sin forespørgsel en gang til, men med de ønskede modifikationer. Der er dog visse problemer forbundet med denne model, idet en intermediær er dyr i drift, og en slutbruger ikke nødvendigvis er specielt kompetent indenfor informationssøgning eller for den sags skyld har et indgående kendskab til det system og den samling han/hun benytter. Og derfor ikke nødvendigvis laver den optimale modifikation af søgeforespørgslen. Alternativt kan denne query expansion foretages på systemniveau, det vil sige rent automatisk uden slutbrugerens indblanding. Det medfører naturligvis også nogle problemer, f.eks. i form af meningsforskelle mellem bruger og system (når brugeren søger på hane, skal systemet så udvide med husdyr og fugl, eller skal det udvide med vandrør og sprinklersystemer?), men det er fra vores synspunkt alligevel den mest interessante metode, idet en god løsning ad denne vej vil være billig i drift, og uafhængig af slutbrugerens kompetencer. For at lave en automatisk query expansion kræves det, at der identificeres nogle mulige søgetermer og forbindelser imellem disse, således at det kan bestemmes hvilke termer en søgning skal udvides med. Dette kan igen gøres på mange måder. Udfordringen er, at bestemme hvilke typer relationer, der skal udvides med, og derefter også hvordan disse relationer identificeres. Udfordringen for dette projekt bliver, at identificere de ønskede relationer automatisk, således at den dyre fagperson der blev sparet væk i forbindelse med anvendelsen af systemet, også kan fjernes fra budgettet under udviklingen og vedligeholdelsen af systemet. Denne automatiske identifikation af relationer mellem søgetermer kræver en analyse af implicitte forhold mellem termer på baggrund af deres forekomster både med og uden hinanden. Da det er vores ønske at query expansion skal komme en slutbruger til gode vil vi tage udgangspunkt i de ord slutbrugerne selv anvender, idet de ord antages at være udtryk for den enkelte brugers positive identifikation af et væsentligt aspekt ved det givne dokument. Givet tilpas mange af disse positive identifikationer, bør det dermed være muligt at afdække en meget stor del af et dokuments aspekter. Og derigennem bør det være muligt at lave den ønskede query expansion så søgningerne bliver udvidet til at medtage både mere exhaustive og mere specifikke søgetermer. 2 Indledning Side 5

Den simpleste adgang til en stor mængde brugergenererede termer, er de efterhånden allestedsnærværende internetbaserede tagging systemer, hvor alle brugere af et system har mulighed for at knytte tags til de materialer, der er i systemet, og dermed mulighed for at indikere overfor hinanden, hvad den enkelte mener er det relevante fokus for materialet. Dette muliggør en form for indeksering, der tager højde for mange af de problemer der er forbundet med den traditionelle manuelle indeksering. Blandt andet udfordringerne i forhold til exhaustivitet og specificitet i indekseringen. Det bliver med et sådant system unødvendigt at bekymre sig om, at søge på samme niveau som indekseringen, idet der i teorien er lavet så mange indekseringer, at alle niveauer er dækket. Tilsvarende er sprogbrugen i søgesituationen også triviel, idet indekseringen i teorien også er lavet på de sprog der forventes anvendt i forhold til det konkrete system. Det er væsentligt her at bemærke, at der i ovenstående ofte bruges udtryk som i teorien og ideelle situation, for det er netop udfordringen med tagging i øjeblikket. Det er potentielt et meget stærkt værktøj til at overkomme mange indekseringsvanskeligheder, men det er også vist tidligere, blandt andet af Tronhus (Tronhus, 2008), at det ikke er hensigtmæssigt, at anvende disse tags, og deres koforekomstmønster som grundlag for en automatisk query expansion. Et af de problemer der blev identificeret af Tronhus er, at taggere ikke nødvendigvis overholder de retningslinier en systemdesigner har lavet til et givent taggingsystem. Det viser sig desværre, at de har en tendens til at tildele tags så ukontrolleret, at enhver analyse af koforekomster er fejlbehæftet fra starten. Datamaterialet er simpelthen ikke konsistent nok, til at de identificerede relationer mellem tags er brugbare. Problemet ved de generelle tagging systemer er, at brugernes motivation for at bruge systemet er meget individuel, hvor nogen tagger et dokument for at gøre det tilgængeligt for andre brugere, tagger andre udelukkende for sig selv. Der er andre parametre man kan klassificere taggere, og deres tags, efter. Men den væsentligste pointe her, er at tags er af så forskellig karakter, at de generelle tagging systemer ikke egner sig som datagrundlag for query expansion På baggrund af disse erfaringer med uforudsigelige brugere, vil nærværende projekt i stedet beskæftige sig med tagging indenfor et videnskabeligt område. Nærmere bestemt indenfor det medicinske/sundhedsvidenskabelige domæne. Et domæne der er kendt og respekteret indenfor IR forskningstraditionen for deres store sproglige disciplin. Udgangspunktet for denne analyse er følgelig, at undersøge, om tags genereret af et fagligt homogent community, samlet om medicin/sundhedsvidenskab er bedre egnet som datagrundlag for ovennævnte query expansion. Med denne analyse in mente, er det også nødvendigt, at overveje hvorledes man afgør, om et alternativt system er bedre respektivt ringere end det oprindelige. Dette er en ligeså gammel disciplin, som den ovennævnte, idet 2 Indledning Side 6

den har været erkendt længe før biblioteket i Alexandria blev bygget. Evalueringen har gennem tiden antaget mange forskellige former, men der har de sidste halvtres år været en klar tendens til, at de evalueringsmetoder der hører til i den systemorienterede tilgang til systemanalyse har vundet så meget indpas, at der kun har været meget lidt efterspørgsel af de andre metoder. Den systemorienterede tilgang til analysen er af natur kvantitativ, og naturvidenskabelig i oprindelse. Den bygger da også, i de tilfælde, der fremhæves her, såvel som i resten af periodens teorier, på optællinger af mængden af relevante poster i et søgeresultat, i forhold til størrelsen på søgeresultatet, og i forhold til størrelsen af basen. Disse målemetoder, hvor vidunderligt lette de end er at arbejde med, har nogle indbyggede fejl og mangler. For eksempel er det i mange tilfælde et problem, at de begrænser sig til at arbejde med binær relevans. Det vil sige, at for en given søgeforespørgsel, kan samlingen deles i to dele: En der er relevant, og en del der er irrelevant for søgeforespørgslen. Dette har været state of the art ind til for ganske nyligt; der har naturligvis været en del udviklinger i teorien omkring systemevaluering, men overordnet set, er selve maskinen inden i evalueringerne ikke blevet ændret et tankevækkende fænomen, taget i betragtning hvor meget de kognitive og brugerorienterede tilgange til systemanalyse har vundet frem i de sidste tyve tredive år. Det er først for nylig, at der for alvor er kommet fart i forskningen omkring system og performanceevaluering i et interaktivt, brugerorienteret perspektiv, f.eks. i form af Pia Borlunds IIR model (Borlund, 2003) og Järvelin & Kekäläinens (D)CG mål (Järvelin & Kekäläinen, 2000). Der har været gjort forsøg tidligere på at inddrage kognitive tanker i selve evalueringen, men meget ofte er man endt med at anvende recall og precision til at udtrykke hvorvidt et system var bedre eller ringere end et andet system. Borlund foreslår i sin artikel, at man kombinerer de to teorier, og således opnår begge systemers fordele. Det brugerorienterede element i Borlunds model udgøres af simulated worktasks, og brugergenererede relevansvurderinger, hvilket muliggør et mere differencieret relavansmål, end det binære. Denne kvalitative tilgang suppleres så med en kvantitativ databehandling af de indsamlede relevansvurderinger. Efterfølgende er der udviklet adskillige nye og lovende performancemål på baggrund af blandt andre Borlunds tanker. Nogle af disse vil her blive forsøgt anvendt til evaluering af det konstruerede query expansion system. Dette projekt ligger i forlængelse af de ovennævnte problemstillinger, og forsøger derved at besvare to overordnede spørgmål, et om klyngeanalysens fordele og ulemper i forbindelse med query expansion, og et om forskellige performancemåls evne til at afgøre hvorvidt den foregående analyse har haft en positiv effekt på et givet informationssystem. Dette speciale tager udgangspunkt i en brugerorienteret tilgang både til query expansion og system og performanceevaluering. Derfor anvendes der udelukkende brugergenererede informationsstrukturer som grundlag for en klyngeanalyse, med henblik på automatisk query expansion. Resultaterne af 2 Indledning Side 7

denne query expansion vil ligeledes blive evalueret af brugere, for at kunne afgøre om denne automatiske udvidelse af deres søgeforespørgsler har haft et positivt resultat eller ej. Som supplement til disse brugerorienterede metoder ønskes der desuden en analyse af de klynger, der fremkommer, for på et mere overordnet plan at kunne afgøre hvor godt denne metode virker på bruger tildelte tags, uafhængigt af den faktiske effekt de måtte have. 2 Indledning Side 8

3 Problemformulering Med udgangspunkt i ovenstående indledning opstilles der her en formulering af det problemfelt der vil blive undersøgt, og der opstilles på baggrund af dette en række hypoteser, der ønskes testet. Genstanden for denne undersøgelse er bruger genererede tags fra CiteULike 2, en Internet database, der indeholder bibliografiske poster for videnskabelige artikler og bøger, oprettet af brugerne af databasen. Udover denne forskel fra klassiske bibliografiske databaser, hvor indholdet styres af professionelle indeksører, indeholder CiteULike en mulighed for at brugere kan tildele tags til deres poster, som en slags ukontrollerede emneord. Undersøgelsens formål er, at undersøge om indsamlede tags fra CiteULike, og deres indbyrdes koforekomster er anvendelige som basis for en klyngeanalyse med henblik på automatisk query expansion. Dette ud fra en antagelse om, at der findes en korrelation mellem bruger genererede emneord og brugergenererede søgeforespørgsler. Da det er brugeren, der er centrum for undersøgelsen, er det derfor heller ikke de klassiske recall/precision mål, i en exact match søgealgoritme, der søges forbedret gennem query expansion, men derimod en test af to rankede best match søgesystemer med samme søgealgoritme, men henholdsvis med, og uden query expanion, og deres respektive performance, som målt gennem deres evne til effektivt at ranke et søgesæt Dette fører til følgende hypoteser, som ønskes testet gennem undersøgelsen: H1. Automatisk query expansion ved hjælp af klynger dannet af brugergenererede tags, fra en videnskabelig database, kan forbedre ranking af søgninger i en bibliografisk database bestående af videnskabelige dokumenter, indekseret og fremfundet vha. en best match algoritme. H2. Query expansion med bruger genererede tags, fra en videnskabelig database, kan returnere flere højrelevante dokumenter i den højest rankede del af et søgesæt. H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en videnskabelig database består primært af termer med semantiske og emnemæssige relationer. H1 og H2 vil blive undersøgt ved hjælp af et brugerorienteret perspektiv, således at alle relevansvurderinger og søgetermer skal være brugerafhængige. Det er således brugernes egne søgeforespørgsler og egne vurderinger af søgesættene der er afgørende for resultatet. Derfor er det heller ikke hensigten med hypotesetesten at afsige generelle lovmæssigheder, men derimod at teste hvad resultatet er i det specifikke tilfælde, for dermed at kunne indikere mulige områder til videre undersøgelse. 2 http://www.citeulike.org 3 Problemformulering Side 9

Den tredje hypotese (H3) vil blive undersøgt uden brugerindragelse, da spørgsmålets karakter muliggør en høj grad af objektivitet i analysen. Undersøgelsen gennemføres indenfor det medicinske domæne, af flere forskellige årsager. Først og fremmest indeholder CiteULike mange dokumenter fra netop dette domæne, og med mange forskellige emner der indenfor. Det medicinske domæne er også kendt for, at have en særlig stringent sprogbrug, hvilket f.eks. er kendetegnet ved National Library of Medicines Medical Subject Headings, der anvendes som kontrollerede emneord i bl.a. Medline og derigennem PubMed. Vi antager, at denne sprogbrug har indflydelse på brugeres tildeling af tags, og at lige netop det medicinske domæne derfor er et brugbart udgangspunkt for denne undersøgelse. Desuden er der vha. PubMed god mulighed for at fremstille en testdatabase til at foretage testsøgninger med og uden query expansion, da det er muligt at hente lige netop det antal bibliografiske poster der måtte være nødvendigt. Endelig har der været gode muligheder for at finde brugere indenfor netop dette domæne. Omend der i undersøgelsen vil indgå litteratur om tagging, og der vil blive foretaget mindre undersøgelser af særlige egenskaber ved de anvendte data, er dette ikke en undersøgelse af tagging som socialt, teknologisk eller kulturelt fænomen, eller omkring taggings anvendelighed i andre sammenhænge end dem, der specifikt er anført i denne problemformulering. Ligeledes er dette heller ikke en undersøgelse af klyngeanalyse eller query expansion generelt. I nærværende sammenhæng er dette blot metoder til at undersøge den egentlige genstand, nemlig tags anvendelighed til query expansion. 3 Problemformulering Side 10

4 Review I det følgende kapitel præsenteres et literært review af de tre centrale emneområder for specialet, nemlig query expansion, klyngeanalyse og evaluering af genfindingssystemer. Dette med henblik på at skabe et overblik over tidligere forskning indenfor disse områder, og gøre status over hvor forskningen indenfor områderne er nået til i dag. 4.1 Query Expansion Af Mikkel Just Tronhus Query Expansion betegner den proces, hvor en brugers søgeforespørgsel (query) modificeres, og kan både foretages manuelt og automatisk. Den manuelle query expansion kan foretages af brugeren selv, men involverer ofte en professionel intermediær. Det der er hovedfokus for denne undersøgelse, og dermed dette review, er dog den automatiske query expansion, der siden 1960ʹerne har været et væsentligt forskningsområde inden for IR. Automatisk query expansion (herefter vil automatisk være underforstået) kan enten betyde, at den oprindelige søgeforespørgsel udvides med nye termer (f.eks. synonymer, specificerende relaterede termer e.l.) eller at den helt omformuleres. Modifikationen af søgeforespørgslen kan foregå flere steder i søgeprocessen, f.eks. i forbindelse med relevance feedback, hvor modifikationen bliver semiautomatisk, idet den sker automatisk, men på baggrund af relevansvurderinger foretaget af brugeren, og derfor kan foretages op til flere gange i løbet af en enkelt søgning. En mere almindelig metode er, at modificere brugeres søgeforespørgsel automatisk i forhold til en på forhånd eksisterende tesaurus. Uanset hvilken udgave af query expansion der er tale om, er formålet, at forbedre genfindingssystemets resultat, enten i form af forbedret recall, precision eller ranking (Efthimiadis, 1996). I det følgende beskrives udviklingen af query expansion fra den tidligste forskning og op til den nuværende forskningsfront. Term baseret query expansion Et af de første eksempler på query expansion ses i SMART systemet, der inkorporerer en relevance feedback funktion (Rocchio, 1971). Til forskel fra den tesaurus centrerede query expansion, forsøgte man i SMART systemet at tilpasse vektorrumsrepræsentation af søgeforespørgslen til de dokumenter brugeren havde vurderet relevant. De termer, som forespørgslen blev udvidet med behøvede derfor ikke nødvendigvis at have nogen semantisk eller emnemæssig relation i forhold til søgeforespørgslen, hvilket betyder, at brugeren med en vis sandsynlighed får flere dokumenter, der ligner de 4 Review Side 11

allerede fundne, relevante, men til gengæld ikke finder dokumenter fra f.eks. andre forskningsfronter. En lignende fremgangsmåde blev forsøgt med CITE systemet, der blev designet som et relevance feedback interface til Medline. På baggrund af brugerens relevansvurderinger blev den originale søgeforespørgsel udvidet med MeSH tesaurustermer der var tilknyttet de relevante dokumenter (Efthimiadis, 1996). Metoden minder meget om Rocchios metode, med den forskel, at CITE anvendte kontrollerede emneord. OKAPI er et andet eksempel på et relevance feedback system, men anvendte derudover en automatisk udvidelse af søgeforespørgslen med synonyme termer, hvorved semi automatiske og fuldautomatiske query modifikations metoder blev kombineret (Fieldhouse & Beaulieu, 1994; Efthimiadis, 1996). En helt anden måde at foretage query expansion på term niveau er ved at gruppere termer på baggrund af deres morfologiske former, f.eks. ved hjælp af stemming. Harman har undersøgt tre forskellige stemmingalgoritmer på Cranfield 1400 og to andre systemer, og finder, at ingen af de tre algoritmer gav en signifikant forøgelse i retrieval performance (Harman, 1991). Nyere forskning fokuserer primært på den type query expansion, der beskrives nedenfor, men den term baserede query expansion er stadig genstandsfelt for undersøgelser. Query expansion på term niveau er f.eks. blevet sammenlignet med (pseudo )relevance feedback for både korte og lange passager, hvor det har vist sig, at expansion af enkelttermer giver langt bedre resultater end forventet (Diaz & Allan, 2005). Rocchios oprindelige relevance feedback model er også stadig et emne for diskussion, f.eks. i sammenhæng med latent semantisk indeksering (Efron, 2008). Query expansion baseret på videnstrukturer i en samling I modsætning til term baseret query expansion er query expansion baseret på en samlings videnstruktur ikke i samme omfang afhængigt af en brugers tilbagemeldinger, da modifikationen som regel udføres fuldautomatisk på baggrund af relationer, der eksisterer uafhængigt af brugerens søgeforespørgsel. Metoden kom frem i 1960ʹerne og ʹ70ʹerne, hvor der var fokus på automatisk gruppering af søgetermer i klynger. Klyngernes anvendelse har været mange forskellige, men en af mulighederne er automatisk udvidelse af søgeforespørgsler således at hver enkel term i forespørgslen erstattes af samtlige elementer fra den klynge termen hører til. Spärck Jones har gennem en række publikationer udviklet og demonstreret metoderne, og finder at de bedste resultater af query expansion opnås, når der dannes forholdsvis små klynger (Spärck Jones, 1971; Efthimiadis, 1996). Siden 1970ʹerne er teorierne om automatisk query expansion baseret på klynger af termer og på term co occurrence blevet diskuteret livligt, og der er 4 Review Side 12

løbende publiceret negative resultater, som har demonstreret metodernes mangler. Nogle af disse kritikpunkter er kontekstafhængige, andre er generelle for de problemer der er med disse metoder (Efthimiadis, 1996). Nogle af de centrale kritikpunkter af klyngeanalysen som metode til query expansion er valget af lighedsmål, der som regel er baseret på termfrekvens på én eller anden måde (Peat & Willett, 1991), samt samlingernes heterogenitet (Elkalifa, 1991). Elkalifas Ph.D. afhandling viser, at opdelingen af en samling i homogene delsamlinger giver klart forbedrede resultater, omend han selv kun anvender en meget begrænset datamængde. En anden fremgangsmåde ses i Inquery systemet, der anvender en associations tesaurus til at tilføje fraser til den oprindelige søgeforespørgsel. Systemet er testet af bl.a. Broglio, Callan, Croft & Nachbar (1995) og Jing & Croft (1994), der finder, at systemet giver en forbedret retrieval performance. Nyere forskning i query expansion ved hjælp af videnstrukturer anvender gerne latent semantisk indeksering som alternativ til klyngeanalyse, f.eks. Abdelali, Cowie & Soliman (2007). Query modifikation baseret på videnstrukturer udenfor samlingen At basere query expansion på vidensstrukturer der er uafhængige af den samling systemet arbejder på, involverer en tilegnelse af disse strukturer. Hvis det skal gøres automatisk, kræver det at systemet involverer elementer udefra i sin etablering af disse strukturer. Dermed kan strukturerne ikke længere siges at være uafhængige af samlingen, og deraf følger, at query expansion baseret på eksterne vidensstrukturer ikke kan være rent automatiske, og dermed ikke er relevante for dette speciale. Siden de noget negative rapporter fra Efthimiadis blev publiceret i 1996, er der dog sket en del med området. Som eksempel på noget af det nyere inden for query expansion kan nævnes for eksempel at basere udvidelsen på logfiler af brugeres søgeadfærd i systemet. Cui, Wen, Nie & Ma (2002) har demonstreret en god performanceforbedring ved denne metode, dog har deres udgangspunkt været internetsøgninger, i stedet for søgning i mere begrænsede databaser (Cui, Wen, Nie, & Ma, 2002). En anden, omtrent lige så optimistisk, forskningsretning repræsenteres her af Carpineto, de Mori, Romano & Bigi (2001) der rapporterer fra en TRECkonference, hvor en stor del af de tilstedeværende projekter har fundet potentiale i en model der baserer query expansion på en automatisk emneudtrækning fra de højest rangerede dokumenter i det indledende søgeresultat (Carpineto, de Mori, Romano, & Bigi, 2001). Uanset, at det tilsyneladende har været problematisk at skaffe endegyldigt bevis for at query expansion producerer brugbare resultater, i hvert tilfælde indtil 1996 (1996), er det et emne der stadig bliver gjort til genstand for 4 Review Side 13

forskning (Billerbeck & Zobel, 2006; Abdelali, Cowie, & Soliman, 2007; Willett, 2006; White & Marchionini, 2007). 4.2 Klyngeanalyse Af Mikkel Just Tronhus Ideen om at gruppere objekter er ældgammel. Lige så længe videnskab har eksisteret har der været brug for disse grupperinger for at overskue samlinger af objekter. Det har også været tilfældet indenfor informationsvidenskaben, hvor særligt bibliotekerne har en lang tradition for at gruppere materialer efter alle mulige forskellige kriterier. Der skete dog noget af en revolution indenfor denne forskningsretning, da det med computerens invasion af videnskaben pludselig blev muligt at gruppere mange flere objekter efter mange flere forskellige parametre. I den forbindelse var det et problem, at beskrivelsen af objekterne var usystematisk og ofte mangelfuld. Derfor opfattes Gerald Salton og hans hold på Cornell University i IR forskningen som en slags katalysatorer for den udvikling der kom til at ske i forlængelse af computerens fremkomst. Det Salton og hans kolleger på Cornell i 1960ʹerne gjorde, var at de opfattede informationsobjekter i en matematisk/datalogisk tankegang, hvor en samling af objekter kunne beskrives objektivt efter på forhånd definerede parametre (Salton, 1971). Denne vektorrumsmodel, omend den ikke blev ʺopfundetʺ før langt senere (Dubin, 2004), ligger til grund for de tanker van Rijsbergen og Jardine formulerede i 1971 i deres artikel ʺ The use of hierarchical clustering in information retrievalʺ, hvor de formulerer klyngehypotesen, der siger, at nært associerede dokumenter har en tendens til at være relevante for de samme søgeforespørgsler (Jardine & van Rijsbergen, 1971; van Rijsbergen, 1979; Voorhees, 1985). Disse associationer kunne man med vektorrumsmodellen og moderne computere identificere på mange forskellige måder. Disse måder at udforske objektrelationer blev et vigtigt fokus for IRforskningen, og der opstod to parallelle forskningsretninger, den ene beskæftigede sig med hierarkiske metoder og den anden med partitionelle algoritmer. Forskellen på de to metoder er overordnet graden af kompleksitet i selve databehandlingen. Hvor hierarkisk klyngeanalyse er ekstremt processortungt på store datasamlinger, er partitionelle algoritmer som for eksempel k means algoritmen langt mere effektive på store datamængder. K means algoritmen og dens variationer er traditionelt blevet beskyldt for ikke at levere lige så gode resultater som de hierarkiske metoder. Men denne forskydning i performance mellem de to metoder er lige så stille blevet, om ikke udvisket, så i det mindste udfordret, af resultater der viser gode resultater gennem anvendelse af k means algoritmer (Steinbach, 2000). En anden forgrening af klyngeanalyseforskningen har sit udspring i en artikel af Scott Deerwester og hans kolleger fra 1990 (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990), hvor forfatterne introducerer en måde at overkomme de polysemi og synonymi problemer som klyngealgoritmer har 4 Review Side 14

haft siden starten. Løsningsforslaget var latent semantisk indeksering (LSI), hvor man gennem matrixmanipulationer identificerer latente dimensioner, og anvender disse som grundlag for genfindingen i stedet for de oprindelige term dokument matricer. Dette skulle muliggøre genfinding på begrebsniveau, idet de fundne latente dimensioner opfattes som udtryk for de underliggende begreber i sproget. Dette er en metode, der har trukket en stor mængde forskning efterfølgende, og som desuden er blevet udvidet til at involvere probabilistiske elementer (Hofmann, 1999). Siden 2000 har det primære fokus for forskningen indenfor klyngeanalyse været koncentreret omkring udvikling af algoritmer, der kan håndtere store mængder data. Det betyder, at forskningen har grupperet sig i to retninger. En retning der arbejder med at udvikle bedre k means algoritmer (Modha & Spangler, 2007), og en der arbejder videre med de hierarkiske metoder, men hvor fokus er på hvilke data der ligger til grund for klyngeanalysen (Tombros, Villa, & van Rijsbergen, 2002). Det er desuden blevet påvist, at de gammeldags hierarkiske metoder kan skaleres til store datamængder og stadig være håndterbare i forhold til runtime (Cathey, Jensen, Beitzel, Frieder, & Grossman, 2007). 4.3 Evaluering af genfindingssystemer Af Jens Peter Andersen Som det er antydet i indledningen til dette speciale, kan genfindingssystemer, og deres evaluering spores tilbage til de allerældste biblioteker (Singhal, 2001), men efterhånden som genfindingssystemerne har udviklet sig, er deres evaluering fulgt med. Den type evaluering, der vil blive brugt i dette speciale, og dermed beskrevet i dette review, er den type, der har med evaluering af elektroniske genfindingssystemer at gøre. 4 Review Side 15

Udgangspunktet for elektroniske genfindingssystemer er computeren, og de første forsøg med genfinding og evaluering fandt sted i 60 erne. De mest kendte er Cranfield forsøgene (Cleverdon, Mills, & Keen, 1966) og Medlars (Lancaster, 1969), hvor det sidstnævnte må siges at have været forud for sin tid, ved at involvere faktiske brugere i undersøgelsen et element der først blev almindeligt meget senere. Cranfield forsøgene startede en systemorienteret tradition indenfor informationsvidenskaben, der var præget af, at mange matematikere, fysikere og andre naturvidenskabsfolk var involveret i arbejdet, hvilket gav det et positivistisk præg evaluering skulle være kvantitativt og objektivt. Evaluering beskæftigede sig på det tidspunkt med mange forskellige aspekter af genfindingssystemerne, f.eks. var svartider, system og signalfejl ikke uvæsentlige, og meget af forskningen byggede på modeller, der var fremkommet f.eks. indenfor telefonvæsenet (f.eks. Hamming afstanden (Hamming, 1950) og Shannons kommunikationsmodel (Shannon, 1948)). De første relevans relaterede evalueringsmål var recall/precision og de dermed tilhørende underformer, f.eks. fall out (van Rijsbergen, 1979). Relevans blev opfattet som en binær, objektiv størrelse, dvs. et dokument var enten relevant eller irrelevant for en søgeforespørgsel der fandtes ikke forskellige grader af relevans, og det var endeligt afgjort, om et dokument var relevant det kunne ikke påvirkes af ydre omstændigheder, som personlig erfaring, tidligere gennemsete dokumenter, humør e.l. (Ingwersen & Järvelin, 2005). Omend Lancaster anvendte rigtige brugere i sin Medlars undersøgelse, var det ikke før et årti senere, at forskere begyndte at anvende brugeresom en del af undersøgelsers parametre. Afgørende for denne udvikling har især Belkin, Oddy & Brooks ASK model været (Belkin, Oddy, & Brooks, 1982). Sideløbende med denne udvikling, som Robertson & Hancock Beaulieu betegner den kognitive revolution (Robertson & Hancock Beaulieu, 1992) er den systemorienterede tradition fortsat toneangivende, og eksisterer stadig i bedste velgående, f.eks. i form af TREC (Text REtrieval Conference), der stadig primært fokuserer på binær, objektiv relevans, omend recall/precision er blevet udvidet med en række andre evalueringsmål (f.eks. Average precision (AveP), (Beaulieu, Robertson, & Rasmussen, Evaluating Interactive Systems in TREC, 1996)), og selvom de også er begyndt at medtage graderede relevansvurderinger som et sekundært evalueringskriterie (Voorhees, 2006). Robertson & Hancock Beaulieu identificerer yderligere to revolutioner, nemlig relevans og interaktionsrevolutionerne. Relevansrevolutionen er kendetegnet ved en omfattende forskning indenfor relevansbegrebet, en forskning der starter meget tidligt allerede (Cuadra & Katter, 1967), men som først for alvor tager fart omkring slutningen af 1970 erne. Relevans går i løbet af perioden fra at være objektiv og binær til også at kunne være subjektiv (f.eks. (Swanson, 1986)), at kunne måles på mange forskellige niveauer og at kunne inddeles i mange forskellige, unikke undergrupper. Antallet af undergrupper varierer i høj grad fra den ene undersøgelse til den anden, men Schamber identificerer ud fra tidligere undersøgelser i 1994 81 distinktivt forskellige typer af relevans (Schamber, 1994). Også antallet af grader af relevans der evalueres på svinger 4 Review Side 16

meget, især mellem laboratorieforsøg (Tang, Shaw, & Vevea, 1999; Cuadra & Katter, 1967; Rees & Schultz, 1967) og feltforsøg (Vakkari & Hakala, 2000; Kekäläinen & Järvelin, 2002). I nyere undersøgelser er der en tendens til, at graderet relevans inddeles i tre eller fire niveauer (f.eks. (Järvelin & Kekäläinen, 2000; Borlund, 2003; Borlund & Ingwersen, 1998; Sakai, 2004)). På trods af talrige undersøgelser, teorier og meninger omkring relevans og især hvorvidt den bør være binær eller ej, er det stadig ikke usædvanligt, at graderet relevans bliver normaliseret til binære data, når det kommer til evaluering af systemer, gerne med recall/precision eller andre mål, der er direkte relateret dertil (se f.eks. (Voorhees, 2006; Hildreth, 2001; Kekäläinen & Järvelin, 2002)). En væsentlig årsag til dette er sandsynligvis, at graderet relevans må betragtes som ordinale data, hvilket begrænser mulighederne for at analysere dem, hvilket bl.a. ses hos Kekäläinen & Järvelin, der konkluderer, at graderet relevans i princippet bør evalueres på de enkelte relevansniveauer, omend et samlet mål er mere ønskeligt (Kekäläinen & Järvelin, 2002). Begge dele bygger på tidligere undersøgelser, hvor de foretager AveP (Average Precision) evalueringer for de enkelte relevansniveauer, men også anvender det samlede mål CG (Cumulated Gain) og de dertil hørende underformer (Järvelin & Kekäläinen, 2000; Järvelin & Kekäläinen, 2002). Gruppen af CG evalueringsmål er pt. nogle af de mest fremtrædende og brugbare til evaluering med graderet relevans (Sakai, 2005), og bliver rent faktisk anvendt i nyere evalueringsundersøgelser uden normalisering til binære kategorier (Leifman, Meir, & Tal, 2005), og er også blevet anvendt i sammenhæng med TREC evalueringer (Voorhees, 2001), der ellers traditionelt anvender binær relevans. Ud over, at CG og lignende evalueringsmål ikke beskæftiger sig med binær relevans er der også en anden væsentlig forskel på disse evalueringsmål og recall/precision, nemlig genstanden for evalueringen. Evalueringsmålene forsøger alle at måle en form for performance, og for recall/precision var det et spørgsmål om hvor meget af det fundne, der var relevant, og hvor meget af det relevante, der var fundet, og på den måde passer målene meget godt på exact match genfindingssystemer, hvorimod best match genfindingssystemer i højere grad bør evalueres på deres evne til at ranke højrelevante dokumenter øverst i et søgeresultat precision bliver ligegyldig, når visse best match systemer i princippet returnerer alle poster i databsen til enhver søgeforspørgsel, blot ranket i forhold til brugerens forespørgsel. Ovenstående review beskæftiger sig udelukkende med de metoder til evaluering, der har med dokumentbaseret relevans at gøre. Der findes mange andre kriterier for performance evaluering, f.eks. systemets svartid, gennemsnitlige søgninger pr. informationsbehov eller brugerens generelle tilfredshed med systemet. Disse eksempler er primært relevante i forbindelse med systemudvikling og optimering af søgetilfredshed. Et andet synspunkt findes hos Soergel, der mener at det bedste evalueringskriterie er i hvilken grad søgeresultatet påvirker brugerens effektivitet i forhold til en given 4 Review Side 17

arbejdssituation, utility (Soergel, 1976). Soergels synspunkt er interessant, da det fokuserer på slutresultatet, hvorimod de relevans baserede evalueringsmål ser på et mellemresultat, med den forventning, at et forbedret mellemresultat giver et forbedret slutresultat, men Soergels forslag må nok siges at være blevet afløst af den relevanstype af samme navn, som betegner relevansen af et enkelt dokument i forhold til løsningen af en given arbejdsopgave. 4 Review Side 18

5 Metode 5.1 Fremgangsmåde For at besvare problemformuleringens undersøgelsesspørgsmål, opstilles et samlet undersøgelsesdesign, der tager udgangspunkt i bruger genererede tags fra en videnskabelig database (CiteULike). I det følgende kapitel beskrives de anvendte metoder, samt det videnskabsteoretiske grundlag for dette speciale. Undersøgelsens første trin er, at skaffe søgetermer, der kan bruges til query expansion. For at gøre søgninger uafhængige af vores foruddannede meninger og antagelser, udarbejdes fem simulerede arbejdsopgaver, som en række brugere bliver bedt om at udføre i et fiktivt søgeinterface. Brugernes søgetermer lagres, for at kunne anvendes i den følgende undersøgelse. En nærmere beskrivelse af worktasks og resultater vil fremgå af afsnit 5.4.2. På baggrund af disse brugerinput foretages søgninger i CiteULike, for derved at danne et datasæt som grundlag for klyngeanalysen. Der foretages analyser af de fremfundne data, for at kunne afgøre, om anvendelsen af metoder som stemming og frasortering af stopord vil være fordelagtigt (se afsnit 5.3.2). Den automatiske konstruktion af termklynger tager altså udgangspunkt i termer, der er fundet ved hjælp af brugerinput, og som er genereret af CiteULikes egne brugere. De klynger, der fremkommer, anvendes til at udvide de originale bruger søgninger med yderligere søgetermer. Både de originale og de udvidede søgninger gennemføres i en testdatabase indekseret vha. Terrier systemet, der foretager en ranking af søgeresultaterne ved hjælp af en vektorrumsmodel (se afsnit 5.4.3). De fremfundne dokumenter præsenteres derefter for de samme brugere, der genererede brugerinput, samt en række fag og informationsspecialister, med henblik på relevansvurdering i forhold til de simulerede arbejdsopgaver. Endelig evalueres søgeresultaternes ranking vha. Cumulated Gain og Relexmodellen, for at kunne afgøre, om query expansion ved hjælp af brugergenererede tags har nogen indflydelse på ranking. 5.2 Tilgang I det følgende beskrives den teoretiske baggrund for dette speciale, for derved at synliggøre indenfor hvilken ramme vores fremgangsmåde, resultater og konklusioner skal forstås. Derefter følger en begrebsafklaring, hvor anvendelsen af centrale begreber, der kan opfattes på forskellige måder, defineres. Endelig vil der følge en beskrivelse af hvilken litteratur der er anvendt, samt hvordan den er anvendt og fundet. Af dette afsnit vil der også fremgå baggrundslitteratur, som ikke bliver brugt direkte i specialet, men er med til at danne den teoretiske basis herfor. 5 Metode Side 19