Lene Gry Huybens Hald. Abstract

Størrelse: px
Starte visningen fra side:

Download "Lene Gry Huybens Hald. Abstract"

Transkript

1 Abstract In this thesis: "Bing vs. Google - a measurement of the effectiveness and overlap of two search engines", the internet search engines Bing and Google are measured for their effectiveness and ability to place the most relevant results in the beginning of the search results. This is measured with the metrics: precision, cumulated gain and discounted cumulated gain. The overlap between the search engines is measured, to see if the search engines are able to present unique results, and to see if the search engines complement each other, or if it is advisable to just use one of them. The results indicate that the effectiveness of Google is better than that of Bing. The search engines are relatively good at placing the most relevant results in the beginning of the search results, but none of the search engines succeed in placing the generally most relevant results at rank 1. The overlap is fairly small, but larger on page 1 of the search result than other measurements of overlap have shown. Since most of the searches in Google and Bing have unique, relevant results in the top five search results, it is seen as advisable to complement the search engines with each other, even though the effectiveness of Google is better in general Det Informationsvidenskabelige Akademi 1

2 Indholdsfortegnelse ABSTRACT... 1 FIGUR- OG TABELOVERSIGT... 3 INDLEDNING... 4 PROBLEMFORMULERING... 6 SPECIALETS OPBYGNING... 6 TEORI... 8 IR (INFORMATION RETRIEVAL)... 8 RELEVANS... 9 IR-EVALUERING SØGEMASKINER HVAD VISER ANDRE UNDERSØGELSER METODE UNDERSØGELSESFORLØB OVERSIGT OVER BILAG VÆSENTLIGE PROBLEMATIKKER RESULTATER OG ANALYSE SØGEMASKINERNES EFFEKTIVITET DUBLETTER OG OVERLAP DISKUSSION KONKLUSION LITTERATURLISTE BILAG A - RESPONDENTERNE OG DERES SØGEFORESPØRGSLER: BILAG B - SØGESTRENGE + DATO FOR SØGNING Det Informationsvidenskabelige Akademi 2

3 BILAG C BILAG D BILAG E BILAG F Figur- og tabeloversigt Figur 1 Screenshot fra Retskrivningsordbogen på Dansk Sprognævns hjemmeside: dsn.dk 4 Figur 2 Recall and precision values for two rankings. 18 Figur 3 Antal af 3'ere på hver rank 44 Figur 4 Antal af 2'ere og 3'ere på hver rank 45 Figur 5 Precision 47 Figur 6 CG og ICG for de vurderet søgeresultater 49 Figur 7 Graf over CG og ICG 51 Figur 8 DCG og IDCG for de vurderet søgeresultater 52 Figur 9 Graf over DCG og IDCG 53 Figur 10 Tabeller over NCG og NDCG 54 Figur 11 Graf over NCG 55 Figur 12 Graf over NDCG 56 Figur 13 Dubletter markeret i søgeforespørgsel 1 61 Figur 14 Dubletter i Google i søgeforespørgsel Figur 15 Overlap mellem søgemaskinerne på rank 1 67 Tabel 1 Gennemsnitlige point ved en given rank over alle søgeresultater 43 Tabel 2 Sandsynlighed for overlap mellem Google og Bing Det Informationsvidenskabelige Akademi 3

4 Indledning Google er den mest benyttede internetsøgemaskine i den vestlige verden, og det "at google" er i manges bevidsthed blevet lig med adgang til information 1. Siden midten af 00'erne har Google siddet på tronen over mest benyttede søgemaskiner, og i 2008 blev det annonceret at verbet "at google" ville blive indført i den næste udgave af den danske retskrivningsordbog, hvilket det blev i Jørgen Schack fra Dansk Sprognævn blev interviewet i forbindelse med annonceringen: "Han peger på, at det er bekvemt at bruge ordet google i stedet for at sige "slå op på internettet". Det er sproglig økonomi, det er så bekvemt, som det kan være. Og så falder at google ind i sprogsystemet. - Det er det eneste varemærkeudsagnsord, vi har i retskrivningsordbogen. Alle de andre varemærker er navneord. Ordet at google er faktisk temmelig exceptionelt, siger Jørgen Schack." 2 Figur 1 Screenshot fra Retskrivningsordbogen på Dansk Sprognævns hjemmeside: dsn.dk Google er simpelthen blevet en del af de fleste menneskers hverdag, og dette kan virke helt umuligt for andre internetsøgemaskiner at skulle konkurrere imod. Men i 2009 lancerede Microsoft deres søgemaskine i et helt nyt design og med det nye navn: Bing. Denne lancering skete under stor mediebevågenhed, for Microsoft erklærede åbent at de med denne relancering ønskede at komme ind på en større del af det søgemarked, som Google sad på en stor del af 3. Nærmere specificeret sad Google på 81,50% af det amerikanske søgemarked i 2009, i forhold til Yahoo på 9,39% og 1 Den Store Danske, "Google": 2 Danmarks Radios hjemmeside - Nyheder - Kultur - 5. september 2008: 3 Chandrashekar Reddy, postet april 2011: "History of Bing Search Engine": Det Informationsvidenskabelige Akademi 4

5 Microsofts MSN og Live Search på 5,43% 4. Omend Google stadig sidder på den største del af søgemarkedet, må det siges at være lykkedes Microsoft at komme ind på en større del af markedet, da tallene i juli 2013 så således ud: Google sidder på 67% af det amerikanske søgemarked, Yahoo på 11,3% og Bing på 17,9% 5. Men når nu Google er så benyttet; er det så også den bedste søgemaskine til at finde relevante resultater? Eller kunne man ligeså godt bruge Bing? Når nu det er Bings mål at kunne give Google konkurrence, er det interessant at undersøge om det ser ud til at lykkes. Derudover er det interessant at undersøge hvor gode de to søgemaskiner er til at placere de mest relevante hits tidligt i søgeresultatet. Flere undersøgelser peger på at brugere generelt kun kigger på første side af søgeresultatet, endda kun på de første par resultater 6. Men i en undersøgelse af Hariri (2011) hvor Google undersøges for precision på de fire første sider af søgeresultatet, viser det sig at der er flere meget relevante resultater på side fire i søgeresultatet. Endda flere end på side 3. Hariri konkluderer dermed at det godt kan betale sig at kigge efter relevante resultater længere nede i søgeresultatet 7. Dette leder til en undren; hvor langt nede i søgeresultatet kan det betale sig at kigge? Kan det fx betale sig at se på resultaterne helt nede på side 10? Ifølge Spink et al (2006) er det desuden en udbredt opfattelse at søgemaskinerne finder de samme resultater. De fleste undersøgelser indenfor området peger dog på det modsatte; at overlappet søgemaskinerne i mellem ofte er meget lille 8. Hvordan er overlappet mellem Google og Bing? Kan det anbefales at benytte begge søgemaskiner når man søger efter information, eller kan man ligeså godt nøjes med den ene? 4 Kim Stensdal, postet juni 2009: "Test: Skal du skrotte Google og satste på Bing?": 5 Jessica Lee, postet august 2013: "Google's Search Market Share Shoots Back to 67%": 6 MIR, s Hariri (2011) 8 Spink et al (2006 A) s Det Informationsvidenskabelige Akademi 5

6 Problemformulering Hvordan klarer de to søgemaskiner Bing og Google sig i forhold til hinanden ved måling af effektivitet? - Hvor gode er de to søgemaskiner til at placere de mest relevante resultater tidligt i søgeresultatet? Hvor stort er overlappet af resultater mellem Google og Bing? - Finder de mange unikke resultater i forhold til hinanden? - Kan det anbefales at supplere de to søgemaskiner med hinanden, eller kan man nøjes med at søge i den ene? Specialets opbygning Først og fremmest præsenteres de emneområder og teorier der vil blive belyst i teoriafsnittet i "teoretisk metode". Herefter selve teoriafsnittet og derefter metodeafsnit og undersøgelsesdesign. Metodeafsnittet kommer efter teoriafsnittet, da målemetoderne og fremgangsmåden bygger på de teorier der vil blive belyst. Efter metodeafsnit og undersøgelsesdesign vil resultater og analyse bliver præsenteret, efterfulgt af et diskussionsafsnit og til sidst konklusionen. Teoretisk metode For at kunne designe og udføre en undersøgelse af to søgemaskiners effektivitet, er det nødvendigt at undersøge de teorier der ligger til grund for andre lignende undersøgelser, og de vigtigste begreber indenfor området. Her er de emner og dertilhørende teorier der bliver belyst i teoriafsnittet: Relevans. Et kerneområde indenfor informationsvidenskab, og et vigtigt begreb at få belyst i forbindelse med specialet. Her er primært benyttet Pia Borlund (2003), der giver et detaljeret overblik over tidligere relevansforskning, og forklarer begreberne indenfor området. En anden nøgleperson er Eero Sormunen, med hans teorier om "graded relevance" (relevansskalaer med flere grader af relevans). Information Retrieval (IR), herunder IR-evaluering og målemetoder. Nødvendigt at få belyst, for at få en grundlæggende forståelse af IR, og hvilke målemetoder man kan tage i brug ved undersøgelser af effektivitet. Her er primært benyttet bøgerne: "The Turn", af Peter Ingwersen og Kalervo Järvelin, "Modern Information Retrieval" af Ricardo Baeza-Yates og Berthier Ribeiro-Neto Det Informationsvidenskabelige Akademi 6

7 og "Search Engines - Information Retrieval in Practice" af Bruce Croft, Donald Metzler og Trevor Strohman. Derudover også diverse artikler, bl.a. af Kekäläinen og Järvelin. Søgemaskiner. For at få en bedre forståelse af hvad en søgemaskine er. Primære kilder er her Elizabeth Liddy med artiklen "How a Search Engine Works", samt bogen "Search Engines - Information Retrieval in Practice" som nævnt ovenfor af Croft et al. Lignende undersøgelser. Det er vigtigt at se på hvad andre lignende undersøgelser viser, og hvilke metoder de har benyttet. Her bliver set på undersøgelser omkring søgemaskiners effektivitet og overlap af diverse forskere. Bl.a. kan nævnes Nadjla Hariri, Judit Bar-Ilan og Amanda Spink. I de følgende afsnit vil de nævnte teorier blive belyst Det Informationsvidenskabelige Akademi 7

8 Teori I de følgende afsnit vil teorierne bag undersøgelsen blive behandlet i denne rækkefølge: IR (Information Retrieval) Relevans IR-evaluering Søgemaskiner Hvad viser andre undersøgelser IR (Information Retrieval) IR (Information Retrieval) er et meget benyttet begreb indenfor biblioteks- og informationsvidenskab, og er indenfor dette felt en forkortelse af Information Retrieval, på dansk: Informationsgenfinding. IR er defineret på denne måde af professor indenfor computervidenskab, Gerard Salton, i hans bog "Automatic Information Organization and Retrieval" fra 1968: "Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information". 9 Informationsordbogen.dk definerer IR på denne måde: Informationsgenfinding [information retrieval] Betegnelse for såvel en proces som for et forskningsområde, der har til formål at optimere denne proces. Som forskningsområde især knyttet til udvikling af søgesystemer og søgemaskiner (algoritmer for søgning i databaser), modsat termen informationssøgning, der udover litteratursøgning og onlinesøgning, også anvendes om fx uformel kommunikation og papirbaseret søgning. 10 IR som proces handler altså om at genfinde information, og som forskningsområde handler det om hvordan informationen er organiseret, hvordan søgesystemer fungerer og er opbygget, og hvordan dette kan optimeres. I følge van Rijsebergen er det primære formål med IR: 9 Croft et al (2010), s Opslag på IR på Informationsordbogen: Det Informationsvidenskabelige Akademi 8

9 To retrieve all the relevant documents [and] at the same time retrieving as few of the non-relevant as possible. 11 Her kommer vi ind på begrebet relevans, som er et centralt begreb. Man kan sige at det er essensen af IR, da målet med informationsgenfinding overordnet set handler om at finde relevante resultater. Indenfor IR som forskningsområde er der tre primære kerneområder: relevans, evaluering og brugerbehov 12. Vi vil se nærmere på relevans og evaluering, men kun beskæftige os med brugerbehov, som en del af disse to områder. Først og fremmest vil vi se nærmere på begrebet relevans. Relevans Relevans er et vidt begreb, defineret på mange forskellige måder, og i forskellige sammenhænge vil det betyde forskellige ting. Vi skal se på relevans i forbindelse med IR. Til dette formål vil vi bl.a. se på Pia Borlunds (fremover Borlund) artikel fra 2003, hvor hun forsøger at give et overblik over de forskellige definitioner og opfattelser af relevans indenfor IR: The Concept of Relevance in IR 13. At genfinde relevante resultater, og at genfinde så få irrelevante resultater som muligt, er som nævnt essensen af IR, og dermed er relevansbegrebet anerkendt som værende et fundamentalt begreb indenfor IR og især i forbindelse med evaluering af IR-systemer. Diskussionen omkring relevansbegrebet blev især en central del af det informationsvidenskabelige område efter ASTIA og Cranfield-eksperimenterne i 1950 erne og 1960 erne (disse eksperimenter kommer vi nærmere ind på senere). I 1990 erne blev diskussionen intensiveret, især efter Eisenberg og Schamber reintroducerer begrebet situational relevance (situationsbetinget relevans). Relevans Kriterier Generelt er der konsensus om at man overordnet kan inddele relevans i to hovedkategorier 14 : Objektiv relevans er den systembaserede relevans, hvor fx en algoritme er blevet konstrueret til, ud fra nogle helt klare krav, at afgøre om et dokument er relevant eller ej. Det er dette søgemaskinernes algoritmer gør, når de går ind og finder dokumenter og definerer i hvilken rækkefølge 11 Borlund (2003)s Croft et al (2010), s Borlund (2003) 14 Borlund (2003) s Det Informationsvidenskabelige Akademi 9

10 dokumenterne skal vises. På den måde er relevansvurderingen objektiv, da det ikke kræver nogen kognitiv forståelse at vurdere graden af relevans. Subjektiv relevans er den brugerbaserede relevans, hvor det bliver mere kompliceret, da det går ind og berører den kognitive forståelse og kræver en vis intellektuel involvering. Brugeren vurderer ud fra sin egen kognitive forståelse af hvad der er relevant, og ikke ud fra nogle helt præcise klare retningslinjer. Selv hvis der var retningslinjer ville forskellige personer stadigvæk relevansvurdere på forskellige måder, da retningslinjerne også vil kunne tolkes forskelligt. Det er den subjektive, brugerbaserede relevans der hører under begrebet situationsbetinget relevans, som Wilson var den første til at fremlægge som koncept i Han definerer det som relationen mellem et fremfundet dokument og brugerens individuelle og personlige måde at se verden på og dennes egen situation 15. Dog varierer det moderne syn på situationsbetinget relevans sig fra Wilsons, ud fra Robertson og Hancock-Beaulieus pointe om at relevans bør dømmes ud fra informationsbehovet og ikke ud fra søgeforespørgslen 16. Eisenberg og Schamber reintroducerer som nævnt konceptet omkring Her drager Schamber et al. tre konklusioner omkring relevansbegrebets natur 17 : "Relevance is a multidimensional cognitive concept whose meaning is largely dependent on users' perceptions of information and their own information need situations; Relevance is a dynamic concept that depends on users' judgements of quality of the relationship between information and information need at a certain point in time; Relevance is a complex but systematic and measurable concept if approached conceptually and operationally from the user's perspective." Her nævnes tre karakteristika ved konceptet relevans: det er multidimensionelt, dynamisk og komplekst, dog målbart. Subjektiv relevans kan betegnes som multidimensionelt på den måde at to forskellige personer kan have forskellige opfattelser af om et dokument er relevant eller ej, og hvor relevant det er, og dynamisk på den måde at den samme person, på forskellige tidspunkter kan have forskellige opfattelser af et dokuments relevans Borlund (2003) s Borlund (2003) s Borlund (2003) s Borlund (2003) s Det Informationsvidenskabelige Akademi 10

11 Situationsbetinget relevans er af mange forskere betragtet som den mest realistiske type brugerbaserede relevans og er derfor anbefalet at bruge ved interaktiv information retrieval (IIR) evaluering 19. Ud fra de to overordnede klasser; objektiv og subjektiv relevans, er der identificeret forskellige typer af relevans, som henviser til de forskellige former for relationer mellem det fremfundne dokument (informationsobjekt) og søgeforespørgslen, informationsbehovet eller de underlæggende omstændigheder der har fået informationsbehovet til at opstå. Saracevic skelner mellem 5 typer af relevans: system or algorithmic relevance, topical-like type, pertinence or cognitive relevance, situational relevance og motivational and affective. System or algorithmic relevance omhandler objektiv relevans, som er den systembaserede type. De andre fire hører under den subjektive form for relevans, der alle handler om et fremfundet dokuments aboutness og appropriatness 20, og refererer til de forskellige grader af intellektuel fortolkning, udført af menneskelige observatører. Topical-like type. I forbindelse med topical-like type forstås topic ikke som indhold, men som aboutness, hvor en bruger vurderer hvordan et fremfundet dokument hænger sammen med det ønskede emne og den beskrevne søgeforespørgsel. Pertinence or cognitive relevance repræsenterer den intellektuelle sammenhæng mellem det underliggende informationsbehov og det fremfundne dokument, sådan som brugeren opfatter det kognitivt i lige dét øjeblik. Situational relevance omhandler brugbarheden af de vurderede, fremfundne dokumenter, ud fra forholdet mellem de fremfundne dokumenter og den arbejdsopgave der ligger til bund for informationsbehovet. I praksis er det svært at skelne mellem situational relevance og pertinence or cognitive relevance. Motivational and affective. Denne type vurderer Borlund ikke til at være en selvstændig form for relevans, men en karakteristik af de tre andre nævnte former for subjektiv relevans. Det beskriver forholdet mellem brugerens motivation, intentioner og mål og informationsobjektet. Borlund mener at dette aspekt bare beskriver den drivkraft der ligger til grund for søgeforespørgslen/informationsbehovet, og ikke er en relevanstype i sig selv. 19 Borlund (2003) s Borlund (2003) s Det Informationsvidenskabelige Akademi 11

12 Der findes flere beskrevne typer af subjektiv relevans, men Borlund mener at de alle kan passe ind under de 3 nævnte typer. Bl.a. nævnes psykologisk relevans, som handler om at når vi fremfinder et dokument kan det påvirke vores tankemåde, fremkalde nye kognitive forbindelser, etc. Altså en ændring af vores vidensstrukturer. Men dette kan godt høre ind under dynamisk relevans, da det netop beskriver at vi på forskellige tidspunkter vil opfatte og opleve informationsobjekter på forskellige måder 21. Relevanskonceptet er som nævnt det primære omdrejningspunkt i evaluering af IR systemer. Den relevansvurdering der foregår, er baseret på relevanskriterier, og i forbindelse med relevanskategorien, objektiv relevans, går relevanskriterierne bl.a. ud på sammenfaldet (match) mellem søgeforespørgslen og termerne i indholdet af det fremfundne dokument. I forbindelse med relevanskategorien, subjektiv relevans, er det meget mere komplekst hvilke kriterier brugerne bedømmer relevans ud fra. Det er igennem tiden blevet forsøgt at definere alle de forskellige kriterier der kan ligge bag når en bruger relevansvurderer. I 1994 publicerede Schamber en liste med 80 relevanskriterier, og mente selv at denne liste ikke var komplet, men at den var et rimeligt bud. Barry og Schamber udførte en undersøgelse, hvor de sammenlignede kriterier de havde fra to forskellige grupper af testpersoner, og undersøgelsen viste at der var et stort overlap mellem relevanskriterierne som de forskellige grupper benyttede. Dermed beviste undersøgelsen at to meget forskellige grupper af brugere i forskellige arbejdsmiljøer, deler en del relevanskriterier, og dermed kan man måske komme tættere på at udlede hvilke relevanskriterier der gør sig gældende for brugere generelt. Men indtil videre er der ikke blevet defineret noget mere konkret 22. Graded Relevance Udover at se på hvorvidt et dokument er relevant eller ikke relevant, kan man også vurdere graden af relevans. Ét relevant dokument kan jo godt være meget mere relevant end et andet relevant dokument - og det kan også tænkes at kun en lille del af et dokument er relevant. Binær relevans er hvor et informationsobjekt bliver vurderet til at være enten relevant eller ikke relevant. Dette kan fungere fint i forhold til objektiv relevans, hvor en algoritme vurderer et dokument, men ikke ligeså godt når det er brugere der skal vurdere et dokument. Tang & Solomon (1998) oplevede fx at en bruger, der kun fik mulighederne: relevant eller ikke relevant, valgte at skrive muligvis relevant 21 Borlund (2003) s Borlund (2003) s Det Informationsvidenskabelige Akademi 12

13 imellem de to valgmuligheder ved nogle af dokumenterne 23. Dette var et tegn på at brugere har brug for flere grader af relevans til at vurdere et informationsobjekt ud fra. Derfor er der igennem årene blevet forslået og afprøvet flere forskellige skalaer, med forskellige antal valgmuligheder. Nogle skalaer havde helt op til 11 punkter, andre kun 3. Der er ikke nået til nogen endelig enighed på dette punkt 24. Eero Sormunen (Sormunen) anbefaler en skala med fire point. Fordelen ved en relevansskala med 4 point i forhold til en skala med 3 point, er at det her er muligt at vægte relevante men ubrugelige dokumenter (1'ere) lavere end dokumenter der er relevante og brugbare (2'ere). Ved en 3-points skala ville de to blive vægtet ens 25. Sormunens relevansskala er formuleret på følgende måde 26 : 0 = Non-relevant, totally off target 1 = Marginally relevant, refers to the topic but does not convey more information than the topic description 2 = Relevant, contains some new facts about the topic 3 = Highly relevant, contains valuable information, the article's main focus in on the topic En brugers måde at relevansvurdere på kan også variere under en evalueringssession. I starten kan brugeren fx tænke relevans ud fra topicality, mens pertinence kan tage over senere dvs. at i starten tænker brugeren kun på relevans i forhold til selve søgeforespørgslen eller emnet, men senere kan brugeren tænke relevans ud fra et underliggende informationsbehov, som måske ikke er udtrykt i søgeforespørgslen. Derfor har det måske en betydning hvilke resultater brugeren ser på først og hvilke resultater brugeren ser på senere, hvilket også refererer til det dynamiske aspekt af relevans 27. Helt tilbage i 1967 var man opmærksom på at relevans har et dynamisk aspekt. Cuadra og Katter berettede om at det var svært at kontrollere alle de variabler der påvirker brugerens relevansvurdering, fordi de kan ændre sig over tid. Og i 1977 beskrev Swanson IR som en trial and error -proces, idet den søgeforespørgsel brugeren formulerer, kun repræsenterer et umiddelbart gæt på hvad det ønskede dokument skal indeholde. Ud fra responsen på det første forsøg, modificerer og forbedrer brugeren sin søgeforespørgsel til at prøve igen. Dette hænger sammen med det kognitive aspekt, og den psykologiske relevans. Relevansvurdering er altså en proces af 23 Borlund (2003) s Borlund (2003) s Sormunen (2002) s Sormunen (2001) s Borlund (2003) s Det Informationsvidenskabelige Akademi 13

14 meningskonstruktion, læring og forståelse 28. Det stemmer også overens med hvad Baeza-Yates og Ribeiro-Neto skriver om relevans i bogen "Modern Information Retrieval"; at uden at vide præcis hvad en dokumentkollektion indeholder, er det svært for en bruger at vide præcis hvordan søgeforespørgslen skal formuleres. Brugere af søgemaskiner har ofte brug for at omformulere deres søgestrenge for at opnå de resultater der interesserer dem. Derfor skal man muligvis se på den første søgestreng som et første forsøg på at finde relevant information, som herefter bliver modificeret alt efter hvad de første resultater viser 29. Opsummering af Relevans Opsummerende kan vi definere relevans i IR-sammenhæng, som et begreb der både omhandler objektivitet (i forbindelse med algoritmisk relevans) og subjektivitet (i forbindelse med brugervurderet relevans). I forbindelse med den subjektive relevans bliver det komplekst at definere mekanismerne bag relevansvurderingen, men begrebet bærer her præg af at være multidimensionelt på den måde at forskellige brugere vil have forskellige opfattelser af om et dokument er relevant, og dynamisk på den måde at den samme bruger på forskellige tidspunkter, kan have forskellige opfattelser af om det samme dokument er relevant eller ej. Derudover kan man tale om forskellige typer af relevans; topical-like, hvor man forholder sig til selve emnet/søgeforespørgslen, og de mere kognitivt komplekse typer, hvor det kommer an på brugerens underlæggende informationsbehov, der ikke nødvendigvis kommer til udtryk i søgeforespørgslen, den kontekst brugeren befinder sig i, og relevansen i forhold til den arbejdsopgave brugeren sidder med. I forhold til brugerevaluering af relevans i forbindelse med evaluering af søgesystemer, er det vigtigt at give brugerne mulighed for at kunne vurdere ud fra flere grader af relevans, da et dokument kan være mere eller mindre relevant, og det kan være svært at skulle definere udelukkende om det er enten/eller; relevant eller irrelevant. Netop i forbindelse med evaluering af IR-systemer, er det meget benyttet at få brugere eller testpersoner til at vurdere relevansen af de fremfundne dokumenter, for at teste hvor godt systemet er, fx i forhold til forskellige søgealgoritmer, eller i forhold til andre søgesystemer. Vi vil nu se nærmere på dette emne, på hvordan IR-evaluering startede, og hvilke målemetoder man kan benytte. 28 Borlund (2003) s MIR s Det Informationsvidenskabelige Akademi 14

15 IR-evaluering Evaluering af IR-systemer er vigtigt, da det er nøglen til at udvikle bedre søgemaskiner, og derved bedre at kunne møde brugernes behov. Evaluering er essentielt for at forstå om en søgemaskine fungerer effektivt. Overordnet set skelner man mellem to forskellige typer af evaluering: effektivitet og ydeevne ( effectiveness og efficiency ). Kort sagt måler effektivitet søgemaskinens evne til at finde relevant information, og ydeevne hvor hurtigt det bliver gjort 30. Ud over dette er der selvfølgelig også andre faktorer der gør sig gældende i en søgesituation, fx søgemaskines arkitektur, layout og brugergrænseflade, søgemuligheder, etc., for ikke at tale om den kontekst brugeren befinder sig i 31. Fokus indenfor IR-evaluering ligger primært på effektivitet, grundet søgemaskinernes (ligesom selve begrebet IR s) grundlæggende mål: at finde relevant information. En søgemaskine hvis ydeevne fungerer optimalt, og som dermed er hurtig til at finde og fremvise resultater, er ikke brugbar, hvis resultaterne den finder er irrelevante 32. At evaluere et IR-system er at måle hvor godt systemet møder brugernes informationsbehov, fx ved hjælp af brugerevaluering, hvor man får en række testpersoner til at vurdere relevansen af en søgemaskines resultater. Dette kan være problematisk, da brugerne ikke nødvendigvis vil tolke resultaterne på samme måde 33. Men selvom relevansvurdering kan ses som meget subjektivt, viser en analyse af TREC-eksperimenter at konklusionerne om IR-systemernes relative præstationer er stabile. Forskellighed i relevansvurdering har altså vist sig ikke at have en signifikant betydning i forhold til fejlraten for sammenligninger af søgesystemer 34. Med forskellige målemetoder er det altså muligt i gennemsnit at give et billede af en gruppe brugeres præferencer. Disse målemetoder kan bruges til at lave en ordentlig og systematisk evaluering af IR systemer, som kan bruges både til at vedligeholde og udvikle et IR system, ved fx at sammenligne forskellige typer algoritmer, og til at sammenligne systemet med andre IR systemer 35. På den måde bliver IR-evaluering en proces hvor en kvantitativ målemetode systematisk tilknyttes resultaterne produceret af et IR system, som svar på nogle brugeres søgeforespørgsler. Denne målemetode skal være direkte tilknyttet brugernes relevansvurdering af resultaterne. En ofte benyttet måde til at udregne en sådan målemetode, er at sammenligne de resultater systemet har genfundet, med resultater foreslået af mennesker for den 30 Croft et al (2010), s MIR s Croft et al (2010), s MIR s Croft et al (2010), s MIR s Det Informationsvidenskabelige Akademi 15

16 samme søgeforespørgsel - dette kan dog kun lade sig gøre i definerede databaser; "test reference collections", og ikke i internetbaserede systemer, da det vil være umuligt for et menneske at gennemse alle de tilgængelige dokumenter en internetsøgemaskine har til rådighed 36. IR-evalueringens begyndelse Man taler typisk om at den systematiske IR-evaluering startede i 1950'erne med Cranfieldeksperimenterne. Disse eksperimenter lagde fundamentet for de evalueringsmetoder der bruges i dag. Den britiske bibliotekar Cyril Cleverdon blev inspireret af et nyt indekseringssystem kaldet Uniterm, opfundet af den amerikanske bibliotekar Mortimer Taube. Et indekseringssystem der gik ud på at tage specifikke ord fra dokumentets tekst og benytte som indekseringstermer. Taube havde fundet ud af at der kun var distinkte ord ud af overskrifter. Da koordineret indeksering blev kritiseret af fortalere for de allerede eksisterende indekseringssystemer, manglede man en måde systematisk at kunne sammenligne de forskellige systemer på. Dette inspirerede Cleverdon til at udtænke og udføre Cranfield-eksperimenterne, hvor han sammenlignede fire forskellige indekseringssystemer. Dette blev gjort ved at der i hver indekseringssystem manuelt blev indekseret dokumenter, og derefter blev resultaterne af søgeforespørgsler evalueret. Hver søgeforespørgsel var baseret på et specifikt dokument der var blevet indekseret, og det blev vurderet som succes, hvis indekseringssystemet fandt frem til det specifikke dokument. Det viste sig at de fire systemer klarede sig ca. lige godt i forhold til precision. Derudover viste eksperimenterne at der var et omvendt proportionalt forhold mellem precision og recall (Definition beskrives i Evalueringsog Målemetoder), og at man dermed ikke kunne forbedre både recall og precision på én gang 37. I det næste Cranfield-eksperiment var formålet at kunne evaluere det enkelte system alene. For hver søgeforespørgsel blev alle dokumenter i kollektionen vurderet ud fra deres relevans i forhold til søgeforespørgslen. Det udmøntede i en testkollektion kaldet Cranfield-2-kollektionen. En vigtig ting man fandt frem til ved dette eksperiment var at størstedelen af testpersonerne ikke behøvede et højt recall. Langt de fleste ville foretrække nogle få relevante dokumenter. Dette har man også observeret i forhold til internetsøgning i dag. Disse Cranfield-eksperimenter lægger til grund for det meste evalueringsforskning i dag indenfor IR. Det var her at målemetoderne precision og recall blev udtænkt, og disse målemetoder benyttes stadig i høj grad i dag MIR s MIR s MIR s Det Informationsvidenskabelige Akademi 16

Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier.

Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier. Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier. Bacheloropgave Studerende: Karina Øgendahl Hold: Hold 2, årgang 07 Vejleder: Mette

Læs mere

[Søgemaskineoptimering]

[Søgemaskineoptimering] [] [IVA Bacheloropgave 2012] Ordtælling: 16866 Indholdsfortegnelse INDHOLDSFORTEGNELSE... 2 1. ABSTRACT... 4 2. INDLEDNING... 4 2.1 PROBLEMFORMULERING... 5 3. METODE (METTE)... 5 3.1 INTERVIEW... 6 3,2

Læs mere

Højt at flyve, dybt at falde - en forebyggende kampagne om ludomani

Højt at flyve, dybt at falde - en forebyggende kampagne om ludomani Højt at flyve, dybt at falde - en forebyggende kampagne om ludomani Vitus Boe Jarvad 50422 Thomas Andreassen Sort 49881 Karoline Gry Dall 50545 Vejleder Elisabeth Hoff- Clausen Kommunikation, 4. semester

Læs mere

SØGEORDSANALYSE EBOGEN. Søgeordsanalyse ebogen Nikolaj Mogensen

SØGEORDSANALYSE EBOGEN. Søgeordsanalyse ebogen Nikolaj Mogensen SØGEORDSANALYSE EBOGEN Side 1 af 43 EBOGEN OM SØGEORDSANALYSE Det er efterhånden mange år siden, at jeg første gang hørte om begrebet søgeordsanalyse. Disciplinen søgeordsanalyse hænger tæt sammen med

Læs mere

Simulering af Poker Gruppe 8

Simulering af Poker Gruppe 8 Simulering af Poker Gruppe 8 Kasper Emil Dueholm Freiman Roy Bergholdt Christian Arentsen Morten Egedal Allan Laursen Johan Følsgaard Rasmus Kristoffer Pedersen Under vejledning af: Maja Tønnesen Roskilde

Læs mere

Opgave i menneske-maskine interaktion: Evaluering af Skype med fokus på virksomhedsteorien

Opgave i menneske-maskine interaktion: Evaluering af Skype med fokus på virksomhedsteorien Opgave i menneske-maskine interaktion: Evaluering af Skype med fokus på virksomhedsteorien Peter Sejersen (20031122), Tue Toft Nørgård (20042377) og Asger Norskov Bak (20053831) Samlet opgave i Menneske-maskine

Læs mere

Lommen fuld af guld! - en mobil app til IVA-studerendes studierelaterede informationsbehov IVA/ DET INFORMATIONSVIDENSKABELIGE AKADEMI

Lommen fuld af guld! - en mobil app til IVA-studerendes studierelaterede informationsbehov IVA/ DET INFORMATIONSVIDENSKABELIGE AKADEMI IVA/ DET INFORMATIONSVIDENSKABELIGE AKADEMI Lommen fuld af guld! - en mobil app til IVA-studerendes studierelaterede informationsbehov Forfatter: Karina Øgendahl Årgang: 2007 Vejleder: Mette Skov Antal

Læs mere

PAYWALLS! !!!!!!!!!!! !!!! En receptionsanalyse af holdninger til paywalls! Roskilde Universitet Forår 2014! Gruppe 13! 56.451 anslag!

PAYWALLS! !!!!!!!!!!! !!!! En receptionsanalyse af holdninger til paywalls! Roskilde Universitet Forår 2014! Gruppe 13! 56.451 anslag! PAYWALLS En receptionsanalyse af holdninger til paywalls Roskilde Universitet Forår 2014 Gruppe 13 56.451 anslag Mathilde Reimer Larsen, Pauline Ida Schweitz, Senem Aydinoglu, Caroline Sophie Hvolbøl Sønnichsen

Læs mere

Copenhagen Games -Et produkt med muligheder?

Copenhagen Games -Et produkt med muligheder? Copenhagen Games -Et produkt med muligheder? RUC, Sambas Gruppe, 7: 2. semester, 2012 Bo Jul Jeppesen Hus: 20.1 Rasmus Stampe Skovgaard Vejleder: Niels Nolsoe Grünbaum Jakob Aaberg Lauridsen Emil Gede

Læs mere

Outsourcing - Kan det være bæredygtigt?

Outsourcing - Kan det være bæredygtigt? Outsourcing - Kan det være bæredygtigt? Af Iben Fugl Andersen Studienummer: 284473 Vejleder: Morten Munkgaard Møller BA Økonomi Erhvervsøkonomisk Institut Handelshøjskolen, Århus Universitet 2010 Indholdsfortegnelse

Læs mere

Agil IT-udvikling i et lille team,

Agil IT-udvikling i et lille team, Kandidatspeciale Datalogi & Informatik Roskilde Universitet Agil IT-udvikling i et lille team, Udvikling og test med Scrum og agile principper Udarbejdet af: Anders Olsen (andeols@ruc.dk - 45189) Rasmus

Læs mere

Redesign af by-expressen.dk

Redesign af by-expressen.dk Redesign af by-expressen.dk Informatik Roskilde Universitet 4. semester forår 2014 Vejleder: Kristin Due Holmegaard Jens Kristian Heesche Hansen, studienr. 50543 Kristian Eistorp, studienr. 50553 Magnus

Læs mere

Rejseplanen. Denne rapport er udarbejdet af: Asbjørn Hansen Morten Dalgaard Johansen Lauge Bro Lilleås Johan Schnack Mertz & Christian Poulsen

Rejseplanen. Denne rapport er udarbejdet af: Asbjørn Hansen Morten Dalgaard Johansen Lauge Bro Lilleås Johan Schnack Mertz & Christian Poulsen 2010 Rejseplanen Roskilde Universitet, RUC Hum-Tek, Hus 08.1, Gruppe 4 Vejleder: Niels Jørgensen Tegn u. mellemrum: 121.531 Dato: 21-12-2010 Denne rapport er udarbejdet af: Asbjørn Hansen Morten Dalgaard

Læs mere

Speciale CLM spansk. Forfatter: May-Britt Hestehauge Studienummer: 243541. Vejleder: Lektor Sven Tarp Fakultet for sprog og erhvervskommunikation

Speciale CLM spansk. Forfatter: May-Britt Hestehauge Studienummer: 243541. Vejleder: Lektor Sven Tarp Fakultet for sprog og erhvervskommunikation Speciale CLM spansk Forfatter: May-Britt Hestehauge Studienummer: 243541 Vejleder: Lektor Sven Tarp Fakultet for sprog og erhvervskommunikation En eksemplarisk metode for, hvordan man kan anvende internettet

Læs mere

Indholdsfortegnelse:

Indholdsfortegnelse: Indholdsfortegnelse: 1. Strategic frame and business focus Side 2 1.1 Indledning Side 3 1.2 Problemfelt Side 5 1.3 Problemformulering Side 6 1.4 Afgrænsning Side 7 1.5 Genstandsfelt Side 8 1.5.1 Interview

Læs mere

Ny design tilgang, Nye designprincipper

Ny design tilgang, Nye designprincipper Ny design tilgang, Nye designprincipper 10. SEMESTER - INTERAKTIVE DIGITALE MEDIER PHONG NGOC BUI VEJLEDER: TEM FRANK ANDERSEN TITELBLAD Projekttitel Ny design tilgang, nye designprincipper Studieretning:

Læs mere

Introduktion, herunder formulering af problemområde og undersøgelsesspørgsmål.

Introduktion, herunder formulering af problemområde og undersøgelsesspørgsmål. Inholdsfortegnelse Introduktion, herunder formulering af problemområde og undersøgelsesspørgsmål....1 Problemformulering...2 Kapitel 1. Læsevejledning...3 1.2 Videnskabsteoretisk tilgang til opgaven....4

Læs mere

Vores fordom vs. McDonald s fordom

Vores fordom vs. McDonald s fordom Vores fordom vs. McDonald s fordom Er McDonald s Danmarks bedste arbejdsplads? Gruppe nr. 5: Tam To Nguyen, studienr. 38323 Rasmus Brunø Kragh, studienr. 50820 Morten Normand Pedersen, studienr. 50438

Læs mere

SEO træet - En komplet guide til SEO

SEO træet - En komplet guide til SEO SEO træet - En komplet guide til SEO Linkværdi Ankertekst Billeder og alt tags Overskrifter Meta titler Tekst SMM URL adressen IP Diversitet Autoritet Indhold Indho Meta beskrivelser Typer af links Duplicate

Læs mere

Fortjenstfuldhedsheuristikken: Et led i konsistent holdningsdannelse

Fortjenstfuldhedsheuristikken: Et led i konsistent holdningsdannelse Fortjenstfuldhedsheuristikken: Et led i konsistent holdningsdannelse Bachelorprojekt Forår 2011 Institut for statskundskab Aarhus universitet Indholdsfortegnelse 0. Abstract... 2 1. Indledning... 3 2.

Læs mere

Overforbruget og dets motiver Hvorfor vi Overforbruger

Overforbruget og dets motiver Hvorfor vi Overforbruger Overforbruget og dets motiver Hvorfor vi Overforbruger Det Samfundsvidenskabelige Basisstudium 2. Semester Sociologi & Økonomi Gruppe 24 a: Damir Pasic - studienummer 47131 Mads Lieberkind - studienummer

Læs mere

FORPROJEKT OM ARKITEKTERS STRATEGI

FORPROJEKT OM ARKITEKTERS STRATEGI COPENHAGEN BUSINESS SCHOOL CENTER FOR LEDELSE I BYGGERIET FORPROJEKT OM ARKITEKTERS STRATEGI Et empirisk studium af praksis omkring projektkonkurrencer MAJ 2005 UDARBEJDET AF MARIANNE MUFF FØRRISDAHL I

Læs mere

1 INDLEDNING...4 2 BSCW...10 3 TEORI...14

1 INDLEDNING...4 2 BSCW...10 3 TEORI...14 Resume I denne rapport diskuteres forslag til redesign af BSCW således, at det bedre kan understøtte projektskrivning på RUC. Som begrebsapparat til denne diskussion anvendes begreber fra Computer Mediated

Læs mere

Informationspraksis omkring den akademiske opgave

Informationspraksis omkring den akademiske opgave 2011 Informationspraksis omkring den akademiske opgave Masterafhandling, Det Informationsvidenskabelige Akademi Vejleder: Trine Schreiber Maria Viftrup Schneider & Susanne Thrige Masterafhandling 3/23/2011

Læs mere

HÅNDBOG I SUND FORMIDLING Et indblik i forskningens verden

HÅNDBOG I SUND FORMIDLING Et indblik i forskningens verden HÅNDBOG I SUND FORMIDLING Et indblik i forskningens verden Siff Malue Nielsen & Ole Nørgaard Et indblik i forskningens verden 1. udgave, 2014 Udgivet af Vidensråd for Forebyggelse i samarbejde med Ugeskrift

Læs mere

1 2 Abstract This study examines which affect Google s algorithms has on its users, society and the world, and which kind of political character Google has. We find it interesting that Google has that

Læs mere

PROBLEMSTILLING 4 BEGRÆNSNINGER 7 OVERORDNET INDLEDNING 8 WORLD WIDE WEB STRATEGISKE OVERVEJELSER 9

PROBLEMSTILLING 4 BEGRÆNSNINGER 7 OVERORDNET INDLEDNING 8 WORLD WIDE WEB STRATEGISKE OVERVEJELSER 9 PROBLEMSTILLING 4 SKIVE EDB CENTERETS KRAV/ØNSKER 4 PROBLEMFORMULERING 4 PROBLEMDISKUSSION 5 BEGRÆNSNINGER 7 OVERORDNET INDLEDNING 8 WORLD WIDE WEB STRATEGISKE OVERVEJELSER 9 HVORDAN ER WORLD WIDE WEB

Læs mere

Motivation. i matematikundervisningen. Allan R. Meineche (LK10141488), marts 2014. Side 1 af 45

Motivation. i matematikundervisningen. Allan R. Meineche (LK10141488), marts 2014. Side 1 af 45 Motivation i matematikundervisningen Allan R. Meineche (LK10141488), marts 2014 Side 1 af 45 Indholdsfortegnelse 1 - Indledning 3 1.1 Læsevejledning 5 1.2 Afgrænsning 5 2 Metode 6 2.1 Empiri 6 2.1.1 Elevernes

Læs mere

Det Informationsvidenskabelige Akademi (IVA), Speciale - forår 2011

Det Informationsvidenskabelige Akademi (IVA), Speciale - forår 2011 Indholdsfortegnelse 1 Indledning...2 2 Videndeling som organisatorisk udfordring...4 2.1.Videndeling & 'social capital'...4 2.2.Videndeling af explicit og tacit knowledge...5 2.3.Facilitering af videndeling

Læs mere

Unges rådsøgende internet-adfærd omkring sundhed

Unges rådsøgende internet-adfærd omkring sundhed Unges rådsøgende internet-adfærd omkring sundhed 26.03.2014 Rapport udarbejdet af Center for Digital Pædagogik for Københavns Kommune Udarbejdet af Center for Digital Pædagogik ved Jonas Sindal Nielsen

Læs mere