OPTIMERING AF INTEGRERET SØGNING -

Transkript

1 IVA, FORÅRET 2011, BACHELOR- PROJEKT OPTIMERING AF INTEGRERET SØGNING - EKSPERIMENTER MED DOKUMENTTYPEVÆGTNING OG FUSION Vejleder: lektor Birger Larsen Antal ord: ca Skrevet af Diana Ransgaard Sørensen

2 Abstract in English Integrated search in test collections result in different challenges. Identical for all these is to get the system to deliver the most relevant search results compared to a query. This lab experiments explores the impact of weighting on three different types of documents in order to optimize the search engine's starting point. The test collection isearch is used for the purpose and the research questions are: (i) Are full-text articles more easily retrieved in an integrated search? (ii) Can the use of weighted document types optimize the baseline? (ii) Can data fusion further improve search engine performance? Mean average precision (MAP) and normalized discounted cumulative gain (ndcg) is used as evaluation methods. Result shows that different weighting of the individual document types improves search engine performance. Abstrakt på dansk Integreret søgning i testsamlinger medfører forskellige udfordringer. Ens for disse er at få systemet til at levere det mest relevante søgeresultat i forhold til en forespørgsel. Denne opgave undersøger eksperimenter med vægtning af tre forskellige dokumenttyper med henblik på at optimere søgemaskinens udgangspunkt. Testsamlingen isearch bruges til formålet, og forskningsspørgsmålene er: (i) Bliver fuldtekstartikler lettere genfundet i en integreret søgning? (ii) Kan anvendelsen af vægtede dokumenttyper optimere baseline? (ii) Kan datafusion anvendes til en yderligere forbedring af søgemaskinens ydeevne? Mean average precision (MAP) og normalized discounted cumulative gain (ndcg) bruges som evalueringsmetoder. Resultatet viser, at forskellig vægtning af de enkelte dokumenttyper forbedrer søgemaskine ydeevne. 2

3 Indholdsfortegnelse Figurer... 6 Tabeller Introduktion Forskningsdesign Den system-drevne tilgang Testsamlingen Forskningsspørgsmål Metode Indeksering Retrieval-model Valg af keyword-based quering Smoothing Vægtede dokumenttyper Datafusion Normalisering CombSUM datafusion Evalueringsmetoder Recall og precision MAP ndcg Analyse af eksperimentelle resultater Out of the box Testrun 1. Testrun (default) med de tre smoothing-teknikker: dir, jm og two (MAP/nDCG) Baseline Testrun 2. Baseline run med tuning af de tre smoothing-teknikker: dir, jm og two (MAP/nDCG) Testrun 3. Baseline run med individuelle qrels (MAP) Testrun 4. Baseline run med individuelle qrels (ndcg) Vægtede dokumenttyper Fibonacci-talrækken Testrun 5. Anvendelse af vægtede dokumenttyper med qrelsall (MAP) Testrun 6. Anvendelse af vægtede dokumenttyper med qrelsall (ndcg) Testrun 7. Anvendelse af vægtede dokumenttyper med qrelsbk (MAP/nDCG) Testrun 8. Anvendelse af vægtede dokumenttyper med qrelspf (MAP)

4 4.3.5 Testrun 9. Anvendelse af vægtede dokumenttyper med qrelspf (ndcg) Testrun 10. Anvendelse af vægtede dokumenttyper med qrelspn (MAP) Testrun 11. Anvendelse af vægtede dokumenttyper med qrelspn (ndcg) Vægtede dokumenttyper Fibonacci-talrækken proportionel Testrun 12. Anvendelse af proportionelt vægtede dokumenttyper med qrelsall (MAP/nDCG) Individuelle configure og individuelle qrels Testrun 13. Testrun med tuning af dir, jm og two med configbk og qrelsbk (MAP) Testrun 14. Testrun med tuning af dir, jm og two med configpf og qrelspf (MAP) Testrun 15. Testrun med tuning af dir, jm og two med configpn og qrelspn (MAP) Fusion score normalization - fusion method: Weighted CombSum Fibonacci-talrækken Testrun 16. Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall- (MAP) Testrun 17. Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall- (ndcg) Opsummering Diskussion Konklusion Acknowledgment Referencer Bilag Baseline Baseline run med de tre smoothing-teknikker: dir, jm og two (MAP) - confiqall og qrelsall Baseline run med de tre smoothing-teknikker: dir, jm og two (ndcg) - confiqall og qrelsall Testrun af baseline med individuelle qrels (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelsbk (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspf (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspn (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelsbk (ndcg) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspf (ndcg) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspn (ndcg) Vægtede dokumenttyper Fibonacci-talrækken Testrun med vægtede dokumenttyper med configall og qrelsall (MAP/nDCG) Testrun med vægtede dokumenttyper med configall og qrelsbk (MAP/nDCG) Testrun med vægtede dokumenttyper med configall og qrelspf (MAP/nDCG)

5 9.3.4 Testrun med vægtede dokumenttyper med configall og qrelspn (MAP/nDCG) Vægtede dokumenttyper Fibonacci-talrækken proportionel Testrun med proportionelt vægtede dokumenttyper med configall og qrelsall (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelsbk (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelspf (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelspn (MAP/nDCG) Individuelle configure og individuelle qrels Testrun med tuning af dir, jm og two med configbk og qrelsbk (MAP) Testrun med tuning af dir, jm og two med configpf og qrelspf (MAP) Testrun med tuning af dir, jm og two med configpn og qrelspn (MAP) Fused normalization - fusion method: CombSUM best results Testrun med fusion af de tre bedste individuelle resultater fra BK, PF og PN - (MAP) Testrun med fusion af de tre bedste individuelle resultater fra BK, PF og PN (ndcg) Fused weighted score normalization fusion method: Weighted CombSUM Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsbk - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelspf - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelspn - (MAP/nDCG)

6 Figurer Figur 1: En eksempelvisning fra isearch (terminalvinduet) af de 65 informationsbehov udtrykt ved hjælp af kategorien keywords (E) Figur 2: Systematisk tilgang af logikken i Fibonacci-talrækken (ikke fuldendt). De forskellige dokumenttyper er: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Ex betyder, at BK vægtes 21 gange mere end PF og PN. Der testes alle kombinationer af Fibonacci-talrækken op til Figur 3 Datafusion af de tre bedste resultater fra de forskellige dokumenttyper (BK, PF, PN)...19 Figur 4: Eksempelvisning af en R-P graf...22 Figur 5: Graf over de bedste resultater fra de IR-modellerne...38 Figur 6: Baseline: two-stage med lambda=0,5 og mu= Figur 7: Sammenligning af de forskellige hovedtyper...38 Figur 8: Forskellige Fibonacci-runs...38 Figur 9: De bedste Fibonacci-resultater...38 Figur 10: De bedste fusion-resultater...38 Tabeller Tabel 1: et testrun (det bedste run) uden tuning af de enkelte dokumenttyper. Default-værdierne er Dirichlet smoothing med mu=2500, Jelinek-Mercer smoothing med lambda=0,4 og Two-stage smoothing med lambda=0,4 og mu=2500. Der bliver evalueret med qrelsall. Testrun 1 anvendes til at se, hvorledes systemet præsterer uden indblanding samt har til formål at være det resultat, som de resterende testruns har til hensigt at forbedre Tabel 2: et baseline run (the best single run) med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configall og qrelsall. Formålet er, at se om systemets egen ydeevne, testrun 1, kan forbedres vha. af tuning Tabel 3: en testkørsel af baseline run med individuelle qrels (qrelsbk, qrelspf og qrelspn) for at se, hvorledes de enkelte dokumenttyper klarer sig i forhold til baselinen i tabel 2. Resultatet er evalueret med MAP. Kun Two-stage smoothing er valgt, eftersom den præsterer bedst ved tuning af baseline Tabel 4: en testkørsel af baseline run med individuelle qrels (qrelsbk, qrelspf og qrelspn) for at se, hvorledes de enkelte dokumenttyper klarer sig i forhold til baselinen i tabel 2. Resultatet er evalueret med ndcg. Kun Two-stage smoothing er valgt, eftersom den præsterer bedst ved tuning af baseline Tabel 5: et testrun, der anvender vægtede dokumenttyper, hvilket betyder at hver enkelt dokumenttype tillægges en vægt (en prioritet). Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP Tabel 6: et testrun, der anvender vægtede dokumenttyper, hvilket betyder at hver enkelt dokumenttype tillægges en vægt (en prioritet). Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med ndcg Tabel 7: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsbk for at se specifikt effekten af vægtning af BK i forhold til PF og PN. Resultatet er evalueret med MAP og ndcg

7 Tabel 8: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspf for at se specifikt effekten af vægtning af PF i forhold til BK og PN. Resultatet er evalueret med MAP Tabel 9: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspf for at se specifikt effekten af vægtning af PF i forhold til BK og PN. Resultatet er evalueret med ndcg Tabel 10: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspn for at se specifikt effekten af vægtning af PN i forhold til BK og PF. Resultatet er evalueret med MAP Tabel 11: et testrun, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspn for at se specifikt effekten af vægtning af PN i forhold til BK og PF. Resultatet er evalueret med ndcg Tabel 12: et testrun, der er vægtet proportionelt til hver enkelt dokumenttypes størrelse. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP og ndcg Tabel 13: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configbk og qrelsbk. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 14: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configpf og qrelspf. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 15: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configpn og qrelspn. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 16: et testrun baseret på fusion af de tre bedste individuelle resultater fra de individuelle config samt individuelle qrels af baseline. Der benyttes score normalization samt datafusionsteknikken CombSUM. Efter fusioneringen bruges der vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonaccitalrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP Tabel 17: et testrun baseret på fusion af de tre bedste individuelle resultater fra de individuelle config. Samt individuelle qrels af baseline. Der benyttes score normalization samt datafusionsteknikken CombSUM. Efter fusioneringen bruges der vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med ndcg Tabel 18: Samlet oversigt over de generelt bedste evalueringsresultater evalueret med MAP og ndcg

8 1. Introduktion Ifølge Ingwersen & Järvelin er definitionen af information retrieval (IR): The processes involved in representation, storage, searching, finding, filtering and presentation of potential information perceived relevant to a requirement of information desired by a human user in context [6, s.21]. En uddybende kommentar til denne definition er, at IR er en kunst og en videnskab, der omhandler søgning af information i dokumenter, søgning efter metadata, der beskriver dokumenter eller søgning i databaser efter tekst, lyd eller billeder. Kort beskrevet er IR, studiet der omhandler systemer (til indeksering), søgning og genfinding af data. Mængden af information stiger og stiger, og digitale biblioteker giver adgang til stadig større og mere forskelligartede informationskilder. Dette resulterer i et behov for at evaluere integreret søgning (integrated search), der dækker forskellige dokumenttyper og forskellige niveauer af metadata [1]. Integreret søgning er kort beskrevet søgning på tværs af mange forskellige datakilder. Formålet er at præsentere brugeren for et enkelt rangeret søgeresultat uanset dokumenttypen. Et andet begreb som bliver anvendt i denne sammenhæng er federated search. Federated searching indebærer søgning af forskellige ressourcer, og for hver ressource dannes en liste af resultater. Integreret søgning præsenterer derimod de fundne dokumenter (eller/og bibliografiske poster) fra forskellige ressourcer i en rangeret liste sorteret efter relevans. Integrering af dokumenter, hvad enten i form af fuldtekst eller poster, vanskeliggøres af forskelle i metadata, formater, domæner og kvalitet af data imellem de involverede samlinger. For at evaluere integreret søgnings mange udfordringer anvendes en testsamling med forskellige dokumenttyper og graduerede relevansvurderinger. Evaluering af dette område er ikke så ligetil, eftersom der findes få testsamlinger med tilstrækkelige dokumenttyper og relevansvurderinger 1. Til dette formål har Lykke, Larsen, Lund & Ingwersen udviklet en integreret testsamling (isearch) til evaluering af integreret søgning [2]. Nogle af de væsentlige udfordringer i evaluering af IR-systemer er, at alle dokumenter er potentielt lige relevante og ved at behandle de forskellige dokumenttyper ens under indekseringen, kan dette resultere i, at nogle dokumenttyper er mere fremtrædende end andre. Testsamlingen isearch består af forskellige dokumenttyper og en nyere artikel viser, at genfinding af bøger beskrevet udelukkende ved hjælp af metadata er svære at genfinde [3]. Dette skyldes, at bøgerne ikke kan fremfindes i fuldtekst, eftersom de er beskyttet af copyrightregler, samt nogle bøger er ikke tilgængelige elektronisk. Lioma, Larsen, Frommholz & Schuetze har undersøgt en tilgang til at forbedre genfinding af videnskabelige bogposter ved hjælp af vægtning af teknisk terminologi [3]. Evalueringen af de eksperimentelle resultater viste, at vægtning (tildele større betydning) af teknisk terminologi har en positiv effekt i forbindelse med genfinding, både ved søgning udelukkende i bogposter, men også ved søgning i heterogene samlinger bestående af bogposter, fuldtekstartikler, og metadataposter som beskriver artikler/dokumenter. I denne opgave undersøges problematikken med integreret søgning generelt. Det gælder om at finde den rigtige balance for at præsentere brugeren for et bearbejdet søgeresultat. Udgangspunktet er optimering af søgemaskinens ydeevne. Søgemaskinen kan selv levere et resultat uden nogen form for behandling, men kan ydeevnen forbedres? Er der mulighed for forbedring i form af flere højrelevante dokumenter præsenteret nærmere toppen af et søgeresultat? Med inspiration fra effekten af vægtning af termisk terminologi [3] vil der i denne opgavesammenhæng undersøges om vægtning af de enkelte dokumenttyper kan være med til at frembringe et bedre rangeret søgeresultat, der herefter kan vises til brugeren. Hypotesen er, at vægtes bogposterne betydeligt mere end fuldtekstartiklerne og metadataposterne, vil dette resultere i en generel forbedring af søgeresultatet. Endvidere undersøges effekten af datafusion, som 1 Indtil nu har en række evalueringer af IR-systemer, kaldet TREC, stået for udvikling af testsamlinger ( Testsamlingen iseach er forskellig fra TREC, fordi isearch omhandler videnskabelige artikler i modsætning til TREC. 8

9 kombinerer resultaterne fra flere dokumentrepræsentationer. Formålet med datafusion i IR er at vurdere mere præcist relevansen af alle fundne dokumenter for en given forespørgsel ved at fusionere fundne dokumenter fra forskellige dokumenttyper sammen til en enkelt liste. Teorien er, at ved at tage de bedste resultater fra hver dokumenttype, kan en datafusion af disse yderligere være med til at optimere udgangspunktet, dvs. maskinens egen ydeevne. Testsamlingen isearch er forholdsvis ny, og der er ganske få artikler omhandlende integreret søgning i denne [1] [2] [3] [4]. Forskningsspørgsmålene i denne opgave skal være med til at anskueliggøre undersøgelsen af dokumenttypevægtning og fusion i integreret søgning vha. testsamlingen isearch. Opgaven indeholder en kort beskrivelse af den system-drevne tilgang, der er den tradition, som testsamlingen isearch er bygget op omkring. En beskrivelse af de forskellige dele af testsamlingen følger derefter, her i blandt hvilke dokumenttyper som anvendes. Forskningsspørgsmålene, som hele opgaven er bygget op omkring, kommer inden selve metodeafsnittet, hvor de enkelte dele af processen er beskrevet med hver deres afsnit fra retrieval model til evalueringsmetoder. Formålet er at se om vægtning og fusion kan optimere systemets ydeevne. Begrebet vægtning referere til, at hver enkelt dokumenttype i testsamlingen kan tillægges en prioritet. Hensigten er, at se om forskellig vægtning af de enkelte dokumenttyper kan være med til at få systemet generelt til at præstere bedre. Dette måles ved de to evalueringsmetoder: mean average precision (MAP) og normalized discounted cumulative gain (ndcg). Jo højere MAP, jo bedre er systemet til at finde relevante dokumenter. Jo højere ndcg, jo bedre er systemet til at få højrelevante dokumenter i toppen af søgeresultatet. Disse to evalueringsmetoder beskrives afslutningsvis i metodeafsnittet. Rent formelt er alle test udført i et terminalvindue i Ubunto, som er et Linux-baseret operativsystem, uden nogen form for grafisk overflade 2. Hele processen er lavet uden foregående viden. Der anvendes engelske termer i opgaven. Den danske litteratur omkring IR-systemer og integreret søgning er næsten ikke eksisterende, og derfor giver det mening at anvende de engelske termer, som i forvejen anvendes, når IR og integreret søgning bliver diskuteret på dansk grund. 2 Forsidebilledet er et screenshot fra terminalvinduet, hvor alle test blev udført. 9

10 2. Forskningsdesign 2.1 Den system-drevne tilgang Indenfor IR findes der tre fremgangsmåder omhandlende systemevaluering: the system-driven approach, the user-oriented approach og the cognitive IR approach [5]. Denne opgave har alene fokus på den systemdrevne tilgang, hvilket både har fordele og ulemper. Ikke overraskende er det centrale i denne fremgangsmåde systemet. Fordelen ved den system-drevne tilgang er den eksperimentelle kontrol: Variabler er kontrollerbare og det endelige resultatet leder frem til konklusioner omkring ydeevnen og effektiviteten af et system. Informationsbehovet er, set fra denne synsvinkel, statisk. Det vil kort sige, at enten matcher dokumentet det foreskrevne statiske informationsbehov i forhold til nogle relevansvurderinger, eller også matcher dokumentet ikke. Begrænsningen er, at individers informationsbehov er divergerende. Selvom to forskellige brugere anvender de samme søgetermer, er dette ikke ensbetydende med, at de leder efter det samme dokument. En anden vinkel er, at informationsbehovet muligvis ændrer sig under en søgning. De ovenstående faktorer, og andre real-life forhold, er en del af den bruger-orienterede tilgang. Der er ingen eksperimentel kontrol, men i stedet er ord som subjektivitet og realistiske forhold mere beskrivende. Bruger-orientering kan være kompleks, eftersom informationsbehov kan redefineres, men samtidig er dette også styrken. Ved den system-drevne tilgang er det ikke muligt at ændre i søgetermerne, hvis brugeren finder mere passende beskrivelser, men dette er muligt ved den bruger-orienterede tilgang. Her ses system og bruger som afhængige variabler. Kombinationen af den system-drevne tilgang og den bruger-orienterede tilgang er kort sagt den kognitive tilgang. Denne tilgang er bestemt af fortolkningen af en given situation eller et problem, der skal løses, under indflydelse af en brugers nuværende kognitive og følelsesmæssige tilstand, som igen er påvirket af den kulturelle og sociale kontekst, som brugeren befinder sig i [5]. Formålet i denne opgave er at observere, hvorledes et systems ydeevne præsterer under eksperimentel kontrol med foruddefinerede informationsbehov. Dette leder hen på den system-orienterede IR forskning, hvor formålet er at udvikle metoder til at identificere og rangere et antal af (emneinddelte) relevante dokumenter til præsentation givet en (emneorienteret) forespørgsel [6]. Valget er faldet på den systemdrevne tilgang, primært på baggrund af at integreret søgning er noget forholdsvis nyt, og derfor kræver en vis form for evaluering, inden det bliver præsenteret direkte for brugeren. I stedet for at se den systemdrevne tilgang og den bruger-orienterede som to uforenelige områder, skal de i stedet ses som en del af en helhed. Den bruger-orienterede tilgang er vigtig, når der skal valideres om søgeresultatet matcher brugerens forespørgsel/forventning, men inden man kan komme dertil, er det fornuftigt at evaluere selve søgealgoritmen. Dette foregår under den system-drevne tilgang, og i denne opgaves sammenhæng udføres der yderligere test for at se om algoritmen kan forbedres. Derefter er anbefalingen at præsentere søgeresultatet for brugerne under real-life forhold, hvor søgeprocessen kan ses som et samlet hele, hvor søgesituationen spiller en væsentlig rolle 3. En anden praktisk fordel ved at anvende den system-drevne tilgang er, at test i princippet kun kræver en testsamling og et terminalvindue, hvorimod ved den brugerorienterede tilgang behøves testpersoner, hvilket kræver frivillige deltagere eller økonomiske midler. Emnet i denne opgave er integreret søgning og i nedenstående afsnit beskrives testsamlingen isearch, der anvendes til det videre testforløb. 3 Det er dog rigtige brugere, der evaluerer testsamlingen isearch ved at inddele relevante dokumenter vha. graduerede relevansbedømmelser, men det er ikke muligt for brugeren at foretage ændringer i forhold til eksempelvis ændret søgeadfærd, eller andet der kunne ændre forespørgslen. 10

11 2.2 Testsamlingen Testsamlinger anvendes til evaluering af IR-systemer. Formålet ved en testsamling er at udføre både realistiske og kontrollerede testsøgninger. En testsamling, hvor der skal udføres eksperimenter med integreret søgning, skal som et minimum indeholde følgende elementer [1]: - En samling af forskellige dokumenttyper med forskellige dokumentrepræsentationer - Et sæt passende søgeopgaver fra brugere med rigtige informationsbehov (dette styrker realismen) - Relevansvurderinger med en tilfredsstillende mængde af relevante dokumenter for hver dokumenttype 4 Disse elementer (krav) overholder testsamlingen isearch, som er en testsamling til evaluering af integreret søgning. isearch er baseret på virkelige arbejdssituationer, rigtige informationsbehov, og ikke-binære relevansvurderinger [2]. Dokumenterne omhandler emnet fysik, og dette valg er truffet på baggrund af, at det videnskabelige domæne fysik er et realistisk tilfælde med langvarige traditioner for selvstændig arkivering af publikationer i frit tilgængelige arkiver og informationsdeling mellem videnskabelige og faglige miljøer [7]. En af de største webportaler som indeholder frit tilgængelige fysikdokumenter er portalen arxiv.org 5. isearch består af fuldtekstartikler og metadataposter indsamlet fra arxiv.org, samt engelske bogposter fra danske digitale biblioteker. isearch indeholder følgende dokumenttyper 6 : 18,441 bogposter, med emnet fysik. Gennemsnit (antal ord): 189 uden abstracts fuldtekstartikler (i PDF-format), inkluderende separate metadata. Gennemsnit (antal ord): metadataposter, inkluderende abstrakts for de fleste dokumenter. Gennemsnit (antal ord): 272. Der er blevet indsamlet 65 reelle søgeopgaver, som stammer fra 23 fysikere fra tre forskellige universiteter, 12 fra Københavns Universitet (KU), 32 fra DTU, og 21 fra Aalborg Universitet. Fire opgaver kommer fra to seniorforskere, 25 opgaver fra 8 ph.d.-studerende, og 36 opgaver fra 13 erfarne specialestuderende [1]. Søgeopgaverne indeholder fem kategorier, som besvares: A) Hvad leder du efter? B) Hvorfor leder du efter det? C) Hvad er din baggrundsviden indenfor det område, du søger på? D) Hvad skal det ideelle svar indeholde for at løse problemet eller opgaven? E) Hvilke centrale søgetermer vil du anvende for at udtrykke din situation og dit informationsbehov? Følgende er relevansvurderinger foretaget efter at have hentet topresultater for hvert emne på tværs af en række forskellige søgemaskiner. Der er fjernet dubletter, og vurdering af et dokuments relevans estimeres af den person, som originalt skabte emnet i forhold til isearch. Den mest udbredte relevansvurdering er i binær form, men relevansvurderinger kan også ske ved hjælp af en gradueret relevansskala, hvilket vinder større og større udbredelse, eftersom graden af vurderingerne kan udtrykkes vha. flere værdier [8]. I testsamlingen isearch blev det enkelte søgeresultat beskrevet med graduerede relevansvurderinger med en relevansskala bestående af fire niveauer af relevant: highly (højrelevant), fairly (temmelig relevant), marginally (marginal relevant) og non-relevant (ikke relevant). Som nævnt blev der hentet relevansvurderinger for hver dokumenttype, og disse fremtræder i testsamlingen 4 Graduerede relevansvurderinger er en fordel, dog ikke et krav Disse tal varierer en smule fra de originale tal i artiklen: Developing a Test Collection for the Evaluation of Integrated Search af Marianne Lykke, Birger Larsen, Haakon Lund og Peter Ingwersen [9]. Denne inkonsistens skyldes, at en del fuldtekstartikler ikke kunne konverteres til det rigtige format. I stedet er der kun metadata fra de fuldtekstartikler, som ikke kunne konverteres. Dvs. det antal fuldtekstartikler der mangler, i forhold til de originale tal, hvilket er ca dokumenter, er i stedet lagt til antallet af metadataposter, som derved antalsmæssigt er steget. 11

12 enten individuelt (for hver dokumenttype) eller samlet (alle tre dokumenttyper). De kaldes qrels og betyder oversat til dansk relevansvurderingsfiler. Relevansvurderingerne blev hentet så proportional til samlingens distribution som muligt. På den måde skulle længere fuldtekstartikler ikke blive overrepræsenteret, hvilket var en mulighed, eftersom der er mere at tekst at søge i en fuldtekstartikel frem for en metadatapost. Dette lykkedes dog ikke helt efter hensigten, da der i mange situationer ikke var nok bog- og metadataposter tilgængelige, hvilket resulterede i en større mængde af fuldtekstartikler [2]. Eftersom alle dokumenter potentielt er lige relevante, er det ikke ideelt, at fuldtekstartiklerne er nemmere at genfinde og højere rangeret, end dokumenter kun beskrevet med metadata. Dette leder frem til denne opgaves forskningsspørgsmål. 2.3 Forskningsspørgsmål Udgangspunktet er integreret søgning i isearch, og derfor besvares følgende spørgsmål på baggrund af eksperimenter udført i denne testsamling: 1. Bliver fuldtekstartikler lettere genfundet i en integreret søgning? 2. Kan anvendelsen af vægtede dokumenttyper optimere søgeresultatet i forhold til baseline? Hvis ja, hvad er de optimale indstillinger? 3. Kan datafusion, af de bedste resultater fra hver dokumenttype, anvendes til en yderligere forbedring af søgemaskinens ydeevne? Forskningsspørgsmålene bliver besvaret i forhold til kategori E 7, hvilket begrundes i metodeafsnittet nedenfor. 7 For yderligere information se afsnit

13 3. Metode I dette afsnit gennemgås de forskellige dele, der er med til at gøre integreret søgning mulig. Først præsenteres indekseringsprocessen, der har til formål at etablere søgeindgange til de forskellige typer af dokumenter. Herefter beskrives retrieval-modellen, som beregner sandsynligheden for, at et dokument er relevant. Dernæst en præsentation de forskellige parametre, i form af smoothing, vægtning af dokumenttyper samt datafusion. Afsnittet omkring smoothing er primært inspireret af Croft, Metzler & Strohman [9]. Smoothing er anvendeligt, når der gøres brug af flere dokumentrepræsentationer. Ved vægtning af de forskellige dokumenttyper er Fibonacci-talrækken anvendt for at have en systematisk fremgangsmåde. Datafusion anvendes til at forbedre effektiviteten (højere retrieval) ved at anvende flere dokumentrepræsentationer og kombinere resultaterne i forhold til at anvende en enkelt repræsentation. Til alle test er der anvendt søgetermer, som er keywords fra kategori E, hvilket er forårsaget af, at keywords fra denne kategori er kortest, og derved afspejler en rigtig søgesituation, hvor forespørgslerne generelt set er korte [10]. Til sidst beskrives de forskellige evalueringsmetoder, som gør det muligt at sammenligne forskellige resultater. 3.1 Indeksering Indeksering er processen, hvor der sammenholdes en eller flere søgetermer med hvert enkelt dokument i en samling. Et indeks er uundværligt for effektiv adgang til alle former for information [11]. Et indeks kan variere fra få termer bagerst i en bog til en komplet liste over alle ord i en samling. Det sidste er tilfældet med isearch, og indekseringsstrategien er i denne sammenhæng automatisk indeksering, hvor formålet er at etablere søgeindgange til de forskellige typer af dokumenter. Til indekseringsprocessen anvendes Indri 8, som er en søgemaskine fra Lemur-projektet 9, hvilket er et samarbejde mellem University of Massachusetts og Carnegie Mellon University om at bygge IR-værktøjer. Valget er faldet på Indri, eftersom det er open source og kan håndtere store testsamlinger, der kan bestå af forskellige dataformater. Endvidere er der mulighed for at vægte termer 10, hvilket kan være med til at fremhæve de enkelte dokumenttyper. I indekseringsprocessen fjernes der ikke stopord og ingen tilføjelse af stemming. Begrundelsen for dette valg er, at en domænespecifik stopordsliste eller stemmer ikke er tilgængelig samtidig med, at ydeevnen for baseline 11 er større, når man beholder stopord og ikke stemmer, fremfor ingen stopord og med stemming [1]. 3.2 Retrieval-model Den retrieval-model, som er implementeret i Indri, er en udvidet udgave af modellen beskrevet i Metzler & Croft [12], som kombinerer Ponte & Croft s language model (LM) [13] med Turtle & Croft s inferens netværkstilgang til IR [14]. Den resulterende model tillader strukturerede forespørgsler at blive evalueret ved brug af language modelling inden for netværket [15]. Begrebet LM bliver brugt indenfor området talegenkendelse, og begrebet henviser til en sandsynlighedsdistribution, der finder sandsynligheden for forekomsten af en streng (en række søgetermer) fra et givent vokabular. Den simpleste form for LM, kendt som unigram LM, er en sandsynlighedsfordeling over ord fra sproget [9]: P uni ( t1t 2t3t 4 ) P( t1) P( t 2 ) P( t3 ) P( t 4 ) 8 Version For yderligere information se afsnit Et baseline run er et run, som køres uden behandling af forespørgslerne, eksempelvis ved vægtning. 13

14 I en unigram LM er termer, der søges på, uafhængige. De har derfor ingen indvirkning på hinanden, og sandsynligheden for sekvensen af ord bliver produktet af sandsynlighederne for de enkelte termer. Dette betyder, at LM en knytter en sandsynlighed til forekomsten af hvert enkelt ord i indekset, dvs. i samlingen. Et dokument er en god match til en forespørgsel, hvis LM en generer forespørgslen, hvilket vil ske, hvis dokumentet indeholder søgetermen [16]. Alternativet er n-gram LM er. En n-gram LM forudsiger et ord på baggrund af de forrige n - 1 ord. De to mest kendte n-gram modeller er biagram (forudsigelsen er baseret på det forrige ord) og triagram (forudsigelsen er baseret på de to forrige ord) [9]. Sådanne modeller er afgørende for opgaver som talegenkendelse, stavekontrol og maskinoversættelse, hvor sandsynligheden for en term er betinget af den omgivende kontekst. Imidlertid er det meste LM-arbejde i IR baseret på unigram LM er *16]. IR er ikke det sted, hvor man umiddelbart har brug for komplekse modeller, da IR ikke direkte afhænger af strukturen af sætninger i det omfang, som eksempelvis talegenkendelse gør. Unigrammodeller er ofte nok til at bedømme emnet for en tekst [16]. Eftersom isearch udelukkende består af tekstbaserede dokumenttyper er valget faldet på anvendelse af unigram LM en. 3.3 Valg af keyword-based quering En forespørgsel kan være meget simpel i form af en enkelt term, men det kan også være en mere kompleks kombination af flere termer. Søgning på termer, også kaldet keywords, er en af de primære typer af søgemuligheder. Keywords karakteriserer et dokuments emne eller indhold. De er væsentlige, fordi de skal udfylde hullet mellem brugerens beskrivelse af informationsbehovet (deres forespørgsel) og beskrivelsen af et dokuments emnemæssige fokus, hvor informationsbehovet holdes op imod [17]. Keyword-based quering er populært fordi det er intuitivt, nemt at udtrykke og tillader hurtig rangering [18]. Resultatet af keywordbased quering er et sæt af dokumenter, som indeholder mindst et keyword ud fra forespørgslen. Desuden er de dokumenter som matcher forespørgslen rangeret i forhold til en grad af ligheden til forespørgslen. I forhold til forskningsspørgsmålene anvendes søgning på keywords, der optræder i kategori E 12 : Hvilke centrale søgetermer vil du anvende for at udtrykke din situation og dit informationsbehov? Et keyword er følgelig et ord, der er vigtigt i forhold til at specificere et forespørgsels emne. Nedenstående er et uddrag fra de 65 informationsbehov udtrykt ved hjælp af keywords. Figur 1: En eksempelvisning fra isearch (terminalvinduet) af de 65 informationsbehov udtrykt ved hjælp af kategorien keywords (E). <query> <number>001</number> <text> #combine( manipulation nano spheres peptides immobilisation ) </text> </query> <query> <number>009</number> <text> #combine( dielectric properties microfluidic cell dielectricphoresis ) </text> </query> Alternativt kunne der søges på de andre kategorier (A, B, C, D), men valget er faldet på søgning af kategori E. Dette er forårsaget af, at det er det mest realistiske valg ud fra den betragtning, at de fleste 12 For yderligere information se afsnit

15 søgemaskiner er designet på baggrund af keywords, og derfor er keywords det, som brugeren er bedst bekendt med til at anvende som søgetermer. En undersøgelse fra 1997 viser desuden, at søgning i forespørgsler (queries) på Internettet i gennemsnit kun er 2,8 ord lange [15]. Kategori E i isearch er det felt med den korteste længde af forespørgsel, hvilket er længere end gennemsnittet beskrevet ovenfor, og for ikke at komme længere væk fra en realistisk søgesituation, anvendes søgning efter forespørgsel udtrykt ved kategori E. Generelt er søgning i fysikdokumenter karakteriseret ved et højt kompleks fagligt behov, hvilket gør forespørgslerne lange. Den primære grund for valget er kategori E, er på baggrund af ovenstående, grundet i, at det er den kategori med den korteste forespørgsel. 3.4 Smoothing I LM-tilgangen til IR er dokumenter og forespørgsler repræsenteret som sandsynlighedsmodeller [13]. Typiske dokumenter er rangeret efter deres sandsynlighed for at genere forespørgslen. Dette er tilfældet for eksempelvis query likelihood retrieval modellen [16]. I query likelihood retrieval modellen rangeres dokumenter ud fra den ide, at en query (en forespørgsel) generes ved hjælp af dokument LM en *9]. Forklaret lidt mere specifikt udregnes sandsynligheden for, hvor stor chancen er for at trække det enkelte forespørgselsord ud af bunken af ord, der repræsenterer dokumentet. Modellen bygger på, at sandsynligheden for at genere forespørgslen er måleenheden for, at dokumentet emnemæssigt omhandler det samme emne som forespørgslen. Query likelihood modellen rangerer dokumenter ved hjælp af P(D Q). Ved at anvende Bayes regel kan dette udregnes ved p(d Q) rank P(Q D)P(D), hvor symbolet betyder, at højresiden af ligningen er lig med rangeringen på venstresiden af ligningen, P(D) er den primære sandsynlighed, og P(Q D) er sandsynligheden for forespørgslen i forhold til dokumentet (query likelihood). I de fleste tilfælde er P(D) den samme for alle dokumenter og vil derved ikke påvirke rangeringen. Begrænsningen ved denne måleenhed er, at hvis bare ét enkelt ord i forespørgselen mangler, vil P(D Q) være lig med nul. Denne begrænsning er ikke passende for længere forespørgsler. Mangler der eksempelvis et ud af seks ord i forespørgslen, skal der ideelt set ikke produceres en score på 0. Hvis dette er tilfældet, er der ikke mulighed for at skelne mellem dokumenter, som mangler et forskelligt antal af forespørgselsord. På baggrund af denne overvejelse og med baggrund i, at dokumenter søges frem vha. emnet, skal ord der associeres med emnet have en sandsynlighed for at optræde, selvom det ene individuelle ord ikke er nævnt i dokumentet [9]. Eksempel fra Croft, Metzler & Strohman [9]: En LM som repræsenterer et dokument omhandlende computerspil, bør have en sandsynlighed, der ikke ender med P(D Q) =0 for ordet RPG (role playing games), selvom ordet ikke direkte nævnes i dokumentet. Ved at give ordet RPG en lille sandsynlighed åbnes muligheden for at genfinde et dokument fra forespørgslen RPG computerspil. Dog skal det understreges, at sandsynligheden for at finde dette dokument stadig er lavere, end hvis begge termer optrådte i forespørgslen. Smoothing er en teknik til at undgå denne problemstilling og omhandler ligeledes problematikken gældende data sparsity, hvilket henviser til, at der typisk ikke foreligger store mængder af tekst (data) til beregning af den statistiske sandsynlighed. Dokumentsamlinger af en vis størrelse er ofte sparsomme, og selvom funktionelle ord som den og en forekommer i næsten alle dokumenter, vises de mange ord (de relevante) kun i en meget lille brøkdel af dokumenter [19]. Det er ofte tilfældet, at disse meget sjældne ord, såsom navne, er interessante at søge efter [20]. Smoothing kan beskrives som en tilgang, hvor man sænker (discount) sandsynlighedsestimaterne for ord, der findes i et dokument og tildeler resten af portionen af sandsynlighed til de ord, som ikke kan findes i dokumentet [9+. Fordelingen til usete ord er normalt baseret på frekvensen af forekomster af ord i hele dokumentsamlingen. Hvis P(q i C) er sandsynligheden for fordelinger af forespørgsler, i, i samlingens LM for dokumentsamlingen C, så er estimatet, som anvendes for usete ord i et dokument, D P( q i C), hvor D er koefficienten, som kontrollerer rank 15

16 sandsynligheden, der bliver tildelt til de usete ord. Generelt kan D afhænge af dokumentet. Eftersom sandsynlighedssummen er 1, udtrykkes sandsynlighedsestimatet for ord set i dokumentet: ( 1 ) P( q D) P( q C). Der kan opnås forskellige resultater ved at angive forskellige værdier af D i D i D. Det simpleste valg er at sætte D til en konstant, for eksempel D (lambda). Det sandsynlighedsestimat, der anvendes til ord, q i, med baggrund i samlingens LM, er c qi / C, hvor c qi er antallet af gange et ord fra en forespørgsel optræder i dokumentsamlingen, og C er det samlede antal af forekomster i hele testsamlingen. Denne form for smoothing kaldes Jelinek-Mercer og resulterer i følgende estimat for ( q D) : P i P( q i f q, D C D) (1 ) i q i (1) D C Efter indsættelse i query-likelihood modellen 13 : n f q, D C P( Q D) ((1 ) i q i ) i 1 D C (2) Små værdier af producerer mindre smoothing og konsekvensen af dette er, at forespørgslen virker mere som den boolske operator OG, eftersom fraværet af ethvert ord fra forespørgslen væsentligt straffer scoren. Som modvægt er den relative vægtning af ord, målt vha. maximum likelihood, vigtig i forhold til at afgøre scoren. Når nærmer sig 1 vil den relative vægtning betyde mindre og mindre, og forespørgslen optræder i stedet som den boolske operator ELLER 14. I TREC-evalueringer er det blevet vist, at værdier af omkring 0,1 fungerer godt for korte forespørgsler, hvorimod værdier omkring 0,7 er bedre for længere forespørgsler. En anden form for estimering er Dirichlet smoothing, som er baseret på en værdi af D, der afhænger af dokumentlængden: D µ D µ (3) μ (mu) er et parameter, hvis værdier sættes empirisk. Ved at sætte denne formel (3) for D ind i sandsynlighedsestimatet for ord set i dokumentet: ( 1 ) P( q D) P( q C) kommer man frem til en formel for sandsynligheden: cq f µ i q i D C P( q D) (4) i D µ D i D i 13 Yderligere kan logaritmefunktionen anvendes, hvis scoren skal laves om til en scorebaseret på rangering. 14 Sent i processen er følgende fejl fundet ved Jelinek-Mercer smoothing: 0,0 og 1,0 kan ikke anvendes, fordi ganges ind i formlen. Ganger man med 0, bliver hele formlen 0. Endvidere bruges, som 1-, hvilket giver i tilfældet med en på 1,0 giver følgende: 1-1,0=0. Igen kan 0 ikke ganges ind i formlen, da resultatet ville blive 0. skal ligge et sted mellem 0 og 1, og i denne opgave er der anvendt et interval på 0,1. Fejlen er rettet i bilagene, men ved grafisk fremstilling i figur 5-10 er fejlen ikke rettet. 16

17 Ligheden mellem Jelinek-Mercer smoothing og Dirichlet smoothing er at lave værdier af parameteret ( eller µ ) øger vigtigheden af den relative vægtning af ord, og høje værdier favoriserer antallet af matchende termer. I TREC-eksperimenter er den typiske værdi af µ et sted mellem 1000 og 2000, og generelt set er Dirichlet smoothing mere effektiv, når det kommer til korte forespørgsler [9]. Men som anført i Zhai & Laferty vil ovenstående model ikke være i stand til at forklare samspillet mellem smoothing og typen af forespørgsler [21]. For at fange de mest anvendte ord i en forespørgsel er antagelsen, at en forespørgsel genereres ved hjælp af en kombination af Jelinek-Mercer og Dirichlet smoothing: P( q i c q (1 )( f µ i q D ) i C Cqi D) (5) D µ C I denne formel (5) foregår smoothing i to steps. Først er der anvendt Dirichlet smoothing dernæst Jelineksmoothing. Denne model kaldes two-stage modellen [22]. Denne model er empirisk bygget på den observation, der anskuer, at smoothing har to forskellige roller vedrørende query likelihood retrieval modellen. Den første rolle er at forbedre sandsynligheden for ord, der ikke er nævnt i dokumentet. Den anden rolle omhandler behandlingen af forudsigelsen af dokumentets emne. Den sidste rolle har til opgave at frasortere ofte anvendte ord i dokumentet, så modellen nemmere kan finde det egentlige specifikke emne [22]. Det bør tydeliggøres, at når = 0 er resultatet Dirichelt smoothing, og når μ = 0 forekommer Jelinek-Mercer smoothing. En interessant observation er, at effekten af smoothing er afhængig af typen af forespørgsler [21]. Dirichlet præsterer generelt godt, og har en tendens til at være en rigtig god metode i forhold til keyword-based quering. Det samme gælder two-stage, men i teorien er Dirchlet bedst, og anvendes også som default i Indri, hvis ikke andet er specificeret. Jelinek-Mercer præsterer også godt, men er bedre til længere beskrivelser (ordrige) af forespørgsler end forespørgsler kun baseret på keywords [21]. Alle tre smoothingmetoder er mulig i isearch. Den der klarer sig bedst i baseline run vil anvendes til det videre forløb. 17

18 3.5 Vægtede dokumenttyper Nøjagtigheden af resultatet kan forbedres ved at overveje, hvilke dokumenttyper, som bør placeres højere i resultatlisten. Dette gøres ved at tildele forskellige vægte til hver dokumenttype. Vægtningen kan styre, hvor meget indflydelse hver dokumenttype skal have. Formålet med at vægte de enkelte dokumenttyper er at forbedre udgangspunktet, det vil sige systemets ydeevne. Udfordringen er at finde den passende vægt for hver dokumenttype. For at anvende en systematisk tilgang, som er overskuelig at analysere, anvendes Fibonacci-talrækken 15. Nedenstående viser logikken (ikke fuldendt) og i bilag kan ses en samlet oversigt. Der testes alle mulige kombinationer for Fibonacci-talrækken op til tallet 21. Dokumenttyperne har følgende forkortelser: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Figur 2: Systematisk tilgang af logikken i Fibonacci-talrækken (ikke fuldendt). De forskellige dokumenttyper er: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Ex betyder, at BK vægtes 21 gange mere end PF og PN. Der testes alle kombinationer af Fibonacci-talrækken op til 21. BK PF PN Som eksempel betyder , at dokumenttypen BK vægtes 21 gange mere end dokumenttyperne PF og PN. Effekten skulle gerne være, at dokumenttypen BK kommer længere op i resultatlisten. Der testes indtil forbedringen er ikke eksisterende eller har en negativ indflydelse i forhold til optimering af baseline. 15 Fibonacci-talrækken er numrene i den følgende heltalssekvens: 0,1, 1, 2, 3, 5, 8, 13, 21 Ved definition, er de to første Fibonacci tal 0 og 1, og hvert efterfølgende nummer er summen af de to forhenværende. I matematiske termer, er sekvensen F n af Fibonacci numre defineret ved den gentagne relation: F n Fn Fn 2 med følgende værdier: F 0 0 og F

19 3.6 Datafusion Datafusion i IR kombinerer resultaterne fra flere retrieval-modeller eller dokumentrepræsentationer. Formålet er at vurdere mere præcist relevansen af alle fundne dokumenter for en given forespørgsel ved at samle fundne dokumenter fra forskellige dokumenttyper sammen til en enkelt liste [23]. Det der kan opnås ved hjælp af datafusionsteknikker afhænger i høj grad af kvaliteten af inputtene. Ifølge Alzghool & Inkpen forbedrer datafusionsteknikker ikke resultatet, hvis kvaliteten af resultaterne varierer fra lav til høj kvalitet [24]. Forklaringen er, at tilstedeværelsen af ringe inputs (dvs. resultater der indeholder meget få relevante dokumenter i toppen af et søgeresultat) medfører et betydeligt fald i fusionens ydeevne. Ovenstående afprøves i testsamlingen isearch ved at tage det bedste resultat for hver enkelt dokumenttype (BK, PF og PN) og fusionere sammen: Figur 3 Datafusion af de tre bedste resultater fra de forskellige dokumenttyper (BK, PF, PN) Evalueringen af datafusionen holdes op imod de tidligere beskrevne metoder for at se, om der kan findes en signifikant forskel. Før datafusionen kan finde sted, skal hvert resultat fra de enkelte dokumenttyper, beskrevet ovenfor, normaliseres (se næste afsnit). Datafusion kan også laves med vægtede dokumenttyper, hvilket er den sidste del af de eksperimentelle resultater. Her tildeles vægtningen under datafusionen efter normaliseringen Normalisering Når man anvender datafusion, er der to væsentlige faktorer [25]: Hvordan normaliserer man resultaterne fra forskellige kørsler, således at scorerne er sammenlignelige Hvordan man kan kombinere de normaliserede resultater for at få en ny og forhåbentlig bedre rangeret resultatliste. 19

20 Det sidste punkt henviser til selve datafusionen, som beskrives i det næste afsnit. Det første punkt omhandler betydningen af at håndtere situationer, hvor resultaterne er på forskellige skalaer og i forskellige intervaller [26]. Formålet med normalisering er at opnå ensartede distributioner. Det ene sæt af resultater kan eksempelvis være sandsynligheder mellem 0 og 1, hvorimod et andet sæt af resultater er sandsynligheder, som er udtrykt ved hjælp af logaritmen til et tal, som ligger mellem 0 og uendelig. Traditionel normalisering er opnået ved en lineær transformation, hvilket er ensbetydende med at sætte relevansscoren i intervallet mellem [0-1] [26]. Normalisering anvendes normalt før fusioneringen af de enkelte ranglister, og i denne opgave normaliseres det bedste resultat fra hver af de tre dokumenttyper. En vigtig skelnen mellem de enkelte normaliseringsmetoder afhænger af, hvad fusionsmetoden kan klassificeres ud fra: (i) afhængighed af rangering, (ii) afhængighed af scoren og (iii) om der kræves træningsdata eller ej [27]. Tidligere eksperimentelle resultater indikerer, at scorebaserede metoder udkonkurrerer metoder, som bygger på rangering [27]. For at teste denne indikation sammenlignes følgende typer af normalisering ved datafusion i testsamlingen isearch: 1) Score normalization 2) Z-score normalization 3) Rank normalization Den normaliserede vægt, w (i), til et objekt i er defineret som følgende [27]: Score normalisering: for et objekt i s ( i) min s ( j) j w ( i) max s ( j) min s ( j) (6) j j Z-score normalisering: for et objekt i w ( i) s ( i) s µ s (7) hvor µ er gennemsnittet af scoren i og s s er standardafvigelsen. Rank normalisering: for et objekt i ( i) w ( i) 1 1 (8) For de to normaliseringsmetoder, der er baseret på scorer (6) (7), er antagelsen, at der er mindst to resultater med forskellig score i søgeresultatet. Yderligere baserer de to metoder (6) (7) sig på, at det øverst 20

21 rangerede resultat har en normaliseret vægt på 1, og det lavest rangerede resultat har en normaliseret vægt på 0. For at sammensætte resultater i score normaliseringen (6) skal hvert dokument i den respektive resultatliste normaliseres. En ofte anvendt normaliseringsmetode anvender den maksimale og den minimale værdi af en rangeret liste [28]: IkkeNormaliseretScore MinScore NormaliseretScore MaxScore MinScore (9) Z-scoren (7) er en statistisk måleenhed, som omdanner dataværdier til samme standard ved at anvende måleenhederne gennemsnit og standardafvigelse [29]. Ved anvendelse af z-scoren ændres de originale data til z-scorer. Z-score normalisering bruges til at sammenligne resultater fra forskellige normalfordelinger 16. Fordelen ved denne metode (7) er, at det er en relativ score, og derfor er sammenligning af to forskellige resultatlister direkte mulig. En positiv z-score betyder, at resultaterne ligger over gennemsnittet, og en negativ z-score betyder, at resultaterne ligger under gennemsnittet. Rank normalisering (8) er præcis det samme som score normalisering (6). Forskellen ligger i, at der ved rank normalisering benyttes rangeringer i stedet for scorer. For normaliseringen, der er baseret på rank, er det øverst rangerede resultat normaliseret med en vægt på 1, hvorimod det lavest rangerede resultat har en vægt på 1/. Alle tre normaliseringsmetoder (6) (7) (8) er en del af de eksperimentelle test i opgaven og viser resultatet sig at være divergerende mellem de tre normaliseringsmetoder, anvendes den normaliseringsmetode, der præsterer bedst - til det videre forløb CombSUM datafusion Efter normaliseringen sker selve datafusionen. Fox & Shaw har designet nogle af de mest simple, populære og effektive metasøgnings algoritmer til dato [30]. Fox & Shaw har udviklet ranking fusionsmetoder, som er baseret på det ikke-vægtede minimum og maximum og summen af hver dokuments normaliseret score. En af de interessante metoder er CombSUM. Denne metode sætter score på hvert enkelt dokument i kombinationen med summen af de point, der opnås ved de enkelte dokumenttyper (CombSUM - summation of all scores of a document). Denne metode anvendes under de eksperimentelle forsøg efter normaliseringen. 16 Ved en normalfordeling er der et konstant forhold mellem sandsynlig og standardafvigelse. 21

22 Precision 3.7 Evalueringsmetoder I søgesystemer er det vigtigt at bruge nogle metoder til at evaluere, hvor godt systemet præsterer, så det let kan sammenlignes med andre systemer. Normalt evalueres et systems ydeevne i forhold til en forespørgsel. For at evaluere søgeresultater fra testsamlingen isearch anvendes recall-precision grafer, mean average precision (MAP) og normalized discounted cumulative gain (ndcg) Recall og precision Recall og presicion er to effektivitetsmetoder, som blev introduceret i Cranfield-studierne til at sammenligne søgeresultater [31]. Recall måler hvor effektiv søgemaskinen er til at finde alle relevante dokumenter i en forespørgsel, og precision er den andel af de fundne dokumenter, der er relevante for brugerens informationsbehov. Mere specifikt er genfindingskvotienten (recall) forholdet mellem antallet af fremfundne relevante dokumenter og det antal relevante dokumenter, som findes i informationssystemet. (10) Præcisionskvotienten (precision) er forholdet mellem antallet af relevante fremfundne dokumenter og det samlede antal fremfundne dokumenter. (11) Måling af begge kvotienter forudsætter en bestemmelse af hvilke dokumenter, der er relevante. Ofte anvendes recall og precision til evaluering af flere forespørgsler. I de tilfælde genereres en recall-precision graf (R-P graf). Figur 4: Eksempelvisning af en R-P graf 0,5 0,4 0,3 0,2 0,1 0 R-P graf 0 0,5 1 Recall 22

23 3.7.2 MAP MAP står for mean average precision og er det tilnærmede gennemsnitlige areal under en precision-recall kurve for et sæt af forespørgsler. Den beregner den gennemsnitlige præcision af hver enkelt forespørgsel og derefter den gennemsnitlige værdi af alle forespørgsler. Herved giver MAP et overblik over kvaliteten af en rangeret liste med fokus både på precision og recall. I nedenstående eksempel, ved beregning af MAP, er de relevante dokumenter markeret med sort. Rangering 1: Rangering 2: Gennemsnitlig præcision 1 = (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62 Gennemsnitlig præcision 2 = (0,5 + 0,4 + 0,43) / 3 = 0,44 MAP = (0,62 + 0,44) / 2 = 0,53 I den gennemsnitlige præcision 1 er det første resultat relevant og beregnes 1/1. Det næste resultat er ikke relevant. Det tredje resultat er relevant og er det andet relevante dokument ud af tre og beregnes 2/3. Ligeledes følger resten. Til sidst tages gennemsnittet ved at dividere med mængden af relevante dokumenter fra bunken. Udgangspunktet er at genfinde så mange relevante dokumenter for hver forespørgsel som muligt. Gennemsnitlig præcision har den fordel, at det er et enkelt tal, som er baseret på rangeringen af alle relevante dokumenter, men selve værdien afhænger af de højtrangerede relevante dokumenter. Det vil med andre ord sige, at gennemsnitlig præcision er en passende måleenhed til at evaluere forespørgslen, der består i at genfinde så mange relevante dokumenter som muligt samtidig med, at der bliver taget hensyn til, at de dokumenter der er rangeret højest, er de vigtigste [9]. 23

Vis mere