RUC. INFORMATION RETRIEVAL En simpel søgemaskine - baseret på vektor modellen. Modul 2 projekt - Datalogi. af Sam Azmayesh.

Størrelse: px
Starte visningen fra side:

Download "RUC. INFORMATION RETRIEVAL En simpel søgemaskine - baseret på vektor modellen. Modul 2 projekt - Datalogi. af Sam Azmayesh."

Transkript

1 Modul 2 projekt - Datalogi RUC INFORMATION RETRIEVAL En simpel søgemaskine - baseret på vektor modellen af Sam Azmayesh & Jesper Goos Vejleder: Rasmus Knappe (knappe@ruc.dk) Roskilde, 20. december 2005

2 Indhold Abstract 6 1 Indledning Vores interesser Formålet med projektet Valg af udviklingsmiljø Målgruppe Om projektrapportens opbygning Information Retrieval Definition af IR Indholdsanalyse Informationsstruktur Evaluering Grundstrukturen i et søgesystem Hentning af informationer/dokumenter Indeksering af dokumenter Søgning i indekset To klassiske IR modeller Boolsk model Vektor model Vægtning Den normaliserede term frekvens Den inverse dokument frekvens Forskellige similaritetsmål Fordele og ulemper ved de to modeller Problemanalyse Crawler Preprocessering af teksten Leksikalsk analyse Frasortering af stopord Udvælgelse af indeksord Lemmatisering og trunkering Homografer og ordklassebestemmelse Synonymer Stavemåder

3 INDHOLD Indeksering Opbygning af indekset Søgning og vægtning Hurtigt skiftende indhold Ords placering i forhold til hinanden Ords placering i dokumentet Symmetri i similariteten Program Programbeskrivelse Programmeringsovervejelser Brugervejledning Opbygning af det inverterede indeks Brug af søgningen Afprøvning Konklusion 47 Litteratur 48 Bilag 50 A Oprettelsen af tabellerne i databasen 50 B Kørsler og datastørrelser på tabeller 52 C Kildekode 53

4 Tabeller 3.1 Definitioner i den boolske model og vektor modellen Ønskede forhold ved vægtning af ord Eksempel på frekvensnormalisering af indeksord N/ni vs. log(n/ni) Similaritetsmål Afprøvningseksempel på vektor model B.1 Datastørrelse på tabeller og kørselstider for indekseringen

5 Figurer 3.1 q = ka AND (kb OR NOT kc) Cosinus af vinklen er ligheden sim(dj,q) Ved Cosinus-metoden er vinklen afgørende Problemet ved cosinus-koefficienten Ved skalar-metoden er længden er vektorerne afgørende ER-diagram af det inverterede indeks Programmets filstruktur Indtastningsfelt til søgningen Resultatvisning af søgningen Resultatvisning af søgningen med testdata

6 Listings A.1 Oprettelse af tabellen vocabulary A.2 Oprettelse af tabellen occurences A.3 Oprettelse af tabellen documents A.4 Oprettelse af tabellen documentvector C.1 /classes/build inv.php C.2 /classes/crawl.php C.3 /classes/db.php C.4 /classes/vsm.php C.5 /include/url.php C.6 /include/util.php C.7 /run/1 run crawler.php C.8 /run/2 build idf.php C.9 /run/3 build wij.php C.10 /run/4 build docvectorl.php C.11 /run/runall.php C.12 /testdata/d1.htm C.13 /testdata/d2.htm C.14 /testdata/d3.htm C.15 /index.php

7 Abstract Information Retrieval En simpel søgemaskine - baseret på vektor modellen Dette projekt beskæftiger sig med udviklingen og beskrivelsen af et simpelt søgesystem baseret på Gerard Saltons vektor model. Foruden en kort gennemgang af hoveddelene i et søgesystem, beskrives teorien bag vektor modellen og forskellige problemstillinger ved preprocesseringen og indekseringen af dokumenter. På baggrund af den opnåede viden kan vi konkludere, at det ikke er mængden af tilgængelig information, der giver de største problemer, men først og fremmest behandlingen af informationen i form af preprocesseringen og indekseringen, der er afgørende for, om søgesystemet kan levere et nøjagtigt søgeresultat. Desuden spiller similaritetsmålet en afgørende rolle for om dokumenterne bliver rangeret korrekt, dvs om det mest relevante dokument for en søgning, bliver vist som det første i søgeresultatet. Generelt om IR kan der siges at der ikke findes én perfekt måde at lave en søgemaskine på. Alt efter hvad behovene er, bliver man nødt til at tage stilling til hvilke egenskaber søgemaskinen skal have. Information Retrieval A simple search engine - based on the vector model This project deals with the specification and the development of a simple search system based on Gerard Salton s vector model. In addition to a brief examination of a search system s main parts, the theory of the vector model and different problems of document preprocessing and indexing are discussed. Based on acquired knowledge, we can conclude that the biggest problems are not due to the amount of accessible information, but rather due to the processing of information through preprocessing and indexing, which are the most significant factors contributing to a search system s supply of a precise search result. Yet another important factor is the similarity measure, which is significant as regards the correct ranking of documents, i.e. whether the most relevant document of a search will be shown as the first search result. As regards Information Retrieval, it can generally be claimed that there is no perfect way to create a search engine. Depending on needs and purposes, it is essential to consider which characteristics and properties the search engine should have.

8 Kapitel 1 Indledning Denne rapport beskæftiger sig med udvikling og beskrivelse af et såkaldt information retrieval system. Et sådan system skal være i stand til at søge efter bestemte termer i en bestemt mængde information, og herefter præsentere det for brugeren, gerne rangeret efter relevans. Der findes en hel del definitioner, af bl.a. Salton [Sal89] og Kowalski [Kow97] om hvad et information retrieval system skal kunne. De ting der går igen i disse definitioner er, at man skal kunne gemme information, søge i denne information, vise den for en bruger og sidst men ikke mindst kunne opdatere informationen i systemet. Der findes systemer til søgning i en masse former for information, som fx billeder, lyd, video og andre multimedieobjekter og filer. Den information vi kommer til at beskæftige os med er tekst og især tekst fra hjemmesider. Dvs vi udvikler og beskriver en simpel internetsøgemaskine. En typisk internetsøgemaskine består af tre dele: En crawler, der henter hjemmesidernes kildekode fra internettet og føjer dem til systemets samling af hjemmesider. En indexer der bygger et inverteret indeks, der repræsenterer de crawlede hjemmesiders indhold, og selve søgesystemet, der besvarer brugerens forespørgsler ved hjælp af indekset [Hen02]. For at afgrænse opgaven koncentrerer vi os kun om de to sidste dele. Vi har godt nok programmeret en lille crawler, men den er meget simpel og henter information fra et meget lille sæt af tekster. Vi bruger den til at hente informationer, så vi kan opbygge et inverteret indeks til søgningen. Teksterne stammer fra Det Kongelige Biblioteks ELEKTRA: e-ressourcer og er H. C. Andersens samlede eventyr, der kan findes på adressen kb.dk/elib/lit/dan/andersen/eventyr.dsl/. 1.1 Vores interesser Vores datalogiske interesser ligger bl.a. indenfor internetprogrammering og databaser, og det har derfor været nærliggende for os at se på hvordan en internetsøgemaskine virker. En speciel ting ved internetsøgemaskiner, som fx Google, der gør dem meget interessante, er at de er blevet en fast del af de fleste internetbrugeres hverdag. Informationsmængden vokser stødt og gør det ikke til en simpel opgave at finde de ønskede informationer på internettet. Vi er både interesseret i at se på de generelle problemer og overvejelser der

9 1.2 Formålet med projektet 9 optræder når man skal søge i tekst, men også de mere specifikke problematikker ved søgning i tekst fra internettet. 1.2 Formålet med projektet Formålet er at opnå en bedre forståelse for hvordan en internetsøgemaskine virker. Fokus vil som tidligere nævnt være på indekseringen og søgningen i dette indeks. Måden hvorpå vi vil opnå det, er gennem litteraturstudier at få indsigt i hvilke dele der er i en søgemaskine og hvordan disse virker. Ud over det programmerer vi en simpel søgemaskine og forholder os til en del af de praktiske problemstillinger, der ligger i dens brug og implementering. 1.3 Valg af udviklingsmiljø I og med at begge forfattere af denne rapport er bedst kendt med PHP [PHP] & MySQL [MyS] udvikles systemet indenfor dette miljø. Hvis formålet med projektet havde været at programmere og optimere et IR system, ville et bedre valg have været Java, C,C++ eller fx Perl. Projektet handler omsider ikke om performance indenfor søgemaskiner, så vi har valgt at bruge det sprog vi har det nemmest ved og i stedet koncentrere os om selve teorien bag IR og de generelle problemer der ligger i det. Dette efterlader os med det problem, at vores program ikke umiddelbart er skalerbart til at håndtere store mængder af tekster. I vores tilfælde anser vi det dog ikke for så vigtigt, da det som tidligere nævnt er principperne vi vil gøre os bekendt med, i modsætning til at programmere en kommercialiserbar søgemaskine. Problemet med vores implementering er, at vi bruger en arraystruktur til at opsamle siderne der crawles. Dette går godt så længe arrayet kan være i computerens hukommelse. Hvis vi skalerer mængden af hentet data op, og denne ikke længere kan være i hukommelsen, vil der opstå performance problemer. Problemet kunne afhjælpes ved at gemme alle hentede data i en database. 1.4 Målgruppe Den primære målgruppe er eksaminator og censor til denne projektrapport. Den sekundære målgruppe er alle personer der har interesse i at gøre sig bekendt med internetsøgemaskiner. Af forudsætninger anbefaler vi kendskab til grundlæggende programmering og en basal forståelse for databaser. Desuden er en matematisk forståelse på gymnasieniveau af fordel. 1.5 Om projektrapportens opbygning Rapporten består ud over kapitel 1 af følgende hoveddele: Kapitel 2 Her defineres hvad Information Retrieval er og hoveddelene i et IR system skitseres uden at beskrive den tekniske del.

10 10 KAPITEL 1. INDLEDNING Kapitel 3 Her beskrives to af de klassiske IR modeller, den boolske og vektor modellen. Læseren vil blive ført igennem selve udregningerne og sidst i kapitlet vil vi komme ind på nogle forskellige problemstillinger indenfor netop disse to modeller. Kapitel 4 Her analyserer vi de praktiske problemer der generelt er i IR systemer samt de problemer vi er stødt på i vores implementering. Kapitel 5 I dette kapitel beskriver vi det program vi har lavet og de overvejelser vi har haft før, under og efter programmeringen. Afslutningsvist bliver afprøvningen og brugervejledningen beskrevet. Kapitel 6 Opgaven afsluttes med en konklusion.

11 Kapitel 2 Information Retrieval Viden er magt, skrev den engelske filosof Francis Bacon i Og det har bestemt ikke ændret sig med tiden. Mængden og kompleksiteten af informationen, der i dag er tilgængelig, er kraftigt stigende og det er her en af de største udfordringer indenfor IR ligger. Nemlig at kunne overskue denne mængde og finde frem til den bedste dvs. mest relevante information der er tilgængelig. Enhver der har siddet foran en computer og brugt en af de mange søgemaskiner på internettet, vil kunne forestille sig, at det ikke altid er den mest relevante information man får som resultat på sin søgning. Der må være megen information, der bliver ignoreret, enten fordi den slet ikke bliver fundet eller fordi mindre relevante dokumenter bliver vist i stedet. Der kan være mange forskellige grunde til at en søgemaskine fejler eller ikke returnerer de optimale resultater. I kapitel 4 ser vi på nogle af de forhold der kan reducere kvaliteten af svarene. I de følgende afsnit vil vi definere den overordnede betegnelse IR og beskrive strukturen i et typisk søgesystem. Dette vil ske på et højt abstraktionsniveau for at give læseren et overblik. Senere i kapitel 3 og kapitel 4 kommer vi nærmere ind på de forskellige dele ved en mere teknisk fremgangsmåde. 2.1 Definition af IR Information Retrieval eller på dansk informationshentning beskæftiger sig med præsentation, lagring, organisation af og adgang til informationselementer [SM83]. Disse informationselementer kunne være fx breve, dokumenter af enhver slags, avisartikler, bøger, videnskabelige artikler osv. I nyere tid og specielt med internettet som hovedleverandør af information, er billed- og lydmateriale eller såkaldt multimediemateriale også blandt mulige informationselementer. Som sagt er dette først kommet i nyere tid, og IR har da også længe været ensbetydende med document-retrieval eller dokumenthentning, da det for det meste er en eller anden form for tekstdokument indeholdende den ønskede information, som søgesystemet leverer placeringen af til brugeren, typisk i form af en URL. Det er vigtigt at forstå at et IR system ikke giver en bruger information om et emne, eller sagt på en anden måde, ikke ændrer en brugers viden omkring et emne, men informerer brugeren om eksistensen af informationselementer der kunne være relevante og hvor de kan findes henne. Det er her IR adskiller sig

12 12 KAPITEL 2. INFORMATION RETRIEVAL fra DR (data retrieval). Et DR system prøver at levere alle elementer som tilfredsstiller nogle klart definerede betingelser, som dem i regulære udtryk eller i relationel algebra [BYRN99]. Så hvis man forestiller sig at et DR system præsenterer en bruger for flere tusinde resultater på en søgning, og bare én af disse ikke stemmer overens med det ønkede, så er hele søgningen fejlagtig [BYRN99]. I et IR system derimod, kan de fundne elementer godt være fejlagtige i forhold til den information brugeren ønsker. Grunden til det er, at et IR system hovedsageligt arbejder med dokumenter baseret på almindelig skriftsprog. Det gør at indholdet af et dokument ikke nødvendigvis har netop den betydning, som brugeren egentlig ønskede. Tænk bare på betydningen af grøn kost. Det er ikke til at vide om fejekosten er grøn eller om der er tale om sund mad. DR systemer, som fx en relationel database, arbejder derimod hovedsageligt med data som er velstruktureret og har en veldefineret semantik [BYRN99]. Så for en bruger af et databasesystem er det det helt rigtige, men for en bruger der ønsker information om et bestemt emne, er det ikke. For at kunne levere brugeren den ønskede information, skal IR systemer på en eller anden måde kunne fortolke indholdet af informationselementerne og rangere dem i forhold til hvilke der er mest relevante. Denne fortolkning indebærer at uddrage syntaktiske og semantiske informationer fra dokumenter og bruge disse for at imødekomme brugerens informationsønske. Det er bl.a. her udfordringen ved et godt IR system ligger. Det er ikke blot problematikken bag det at uddrage særlig information fra dokumenterne, men også det at bruge denne information til at afgøre relevansen af de forskellige dokumenter i forhold til brugerens informationsønske. Det er netop relevans der er kernen i IR [vr79]. The primary goal of an IR system is to retrieve all the documents which are relevant to a user query while retrieving as few non-relevant documents as possible [BYRN99]. Før vi går videre med at beskrive en mulig struktur i et typisk søgesystem, vil vi kort beskrive hvad den overordnede betegnelse IR dækker over. Ifølge [vr79] kan IR opdeles i tre hovedområder. Disse er: indholdsanalyse, informationsstruktur og evaluering Indholdsanalyse Indholdsanalyse dækker over beskrivelse af dokumentindhold på en sådan måde, så computere kan bruges til det. Allerede tidligt (1957) brugte Luhn følgende metode til at repræsentere et dokument på. Ved at tælle antallet af ord der går igen i et dokument, kan man afgøre hvilke ord, der bedst beskriver indholdet af dokumentet. Så resultatet blev en liste af såkaldte nøgleord eller indeks termer for hvert dokument. Samtidig med at disse ord anses for at være bedst til at beskrive dokumentindholdet, så kan de også bruges til at måle på et dokuments relevans i forhold til andre dokumenter. Dermed havde Luhn opfundet en af de første vægtningsmetoder Informationsstruktur Informationsstruktur dækker over udnyttelsen af mulige sammenhænge mellem dokumenter for at effektivisere søgningen og hentningen af dokumenterne. Det er faktisk først meget sent, dette område for alvor er kommet i søgelyset. Grunden

13 2.2 Grundstrukturen i et søgesystem 13 til det er, at man i lang tid ikke har vidst eller været opmærksom på, at computere ikke ville kunne give acceptable søgetider ved større dokumentmængder, med mindre en eller anden form for logisk struktur bliver pålagt dokumentsættet Evaluering Evaluering dækker over at måle på hvor effektiv hentning af relevante dokumenter er. Selv om der er blevet forsket en hel del indenfor dette område er der ikke en bestemt evalueringsteori, der har slået igennem [vr79]. Det man som regel er ude efter, er at resultaterne ikke indeholder forkerte dokumenter og at de resulater man får, er de mest relevante. Dette virker ganske logisk, men er bestemt ikke nogen triviel opgave. 2.2 Grundstrukturen i et søgesystem Formålet med dette afsnit er ikke kun at give læseren et overblik over de dele et simpelt IR system består af, men også at vise hvordan delene hænger sammen i forhold til en brugers søgning. Et typisk eksempel på en informationssøgning indebærer flere dele. Der er oftest en bruger med et informationsønske. Så vil der være en dokumentsamling som helst skal kunne opfylde brugerens ønske og til sidst et søgesystem. I meget grove træk kunne et søgningsforløb se sådan her ud. En vilkårlig bruger med et bestemt informationsønske, oversætter dette informationsønske til en række sigende ord og indtaster disse i et søgefelt, som vi kender det fra fx Google. Dette kalder man også for en brugers forespørgsel. Selve søgningen vil foregå i den dokumentsamling som IR systemet har til rådighed. Søgesystemet prøver at finde de mest relevante dokumenter, ved at sammenligne brugerens forespørgsel med de dokumenter der er i samlingen, og så præsentere de fundne dokumenter for brugeren på en overskuelig måde Hentning af informationer/dokumenter For overhovedet at kunne foretage en søgning, skal man have noget at søge i. Det er typisk det der kaldes for en dokumentsamling eller dokumentsæt. Der er tre ting man skal være opmærksom på. For det første skal dokumenttypen, som søgesystemet skal kunne håndtere, dvs. søge i, defineres. Tager vi fx vores eget lille søgesystem, er det designet til at kunne søge i tekstdokumenter som eksempelvis hjemmesider. Søgesystemet kan altså i vores tilfælde ikke håndtere PDF-dokumenter eller lyd- og billedfiler. Der er derfor ingen grund til at dokumentsamlingen skal indeholde nogen af disse typer dokumenter og derfor ingen grund til at sådanne dokumenter hentes og gemmes i databasen. Når selve dokumenttyperne er defineret og de tilsvarende ønskede dokumenter er hentet, foregår der oftest en del behandling af dokumenterne før søgemaskinen sætter dem i system, også kaldet for preprocessering. Med vores egen dokumentsamling som eksempel igen, bliver der foretaget en gennemgang af de hentede tekstdokumenter med henblik på at få fjernet uønskede tegn. Disse dokumenter bliver hentet som HTML-sider og indeholder derfor en hel del tegn, som ikke er særlig brugbare i vores søgemaskine. Det kunne være tegnet

14 14 KAPITEL 2. INFORMATION RETRIEVAL for linjeskift eller om noget er en overskrift eller blot brødtekst. Disse formateringer kunne i andre systemer anvendes til at vægte dele af teksten forskelligt. I vores system bliver dokumenterne strippet for disse tegn, så kun den rå tekst er tilbage. Der findes en hel del af disse processer, der bruges til at klargøre dokumenterne til indeksering. Hvilke af disse processer man anvender afhænger af hvilken form for søgning brugeren skal kunne foretage sig. Fx kunne man fjerne såkaldte stopord som der, en, og eller at, da disse ord ikke beskriver dokumentets indhold. Grunden til man oftest lader være med at fjerne dem, er at man gerne vil kunne foretage fuldtekstsøgninger. Med andre ord skal det være muligt at kunne søge på hele sætninger eller delsætninger, såsom: Der var engang en lille prins Indeksering af dokumenter Når preprocesseringen af dokumenterne er afsluttet, skal dokumenterne indekseres. Indekseringen tildeler hvert dokument en beskrivelse i form af indeks termer. Ideen er at bruge de ord, der bedst beskriver et dokument, så søgemaskinen senere kan slå op i det oprettede indeks og finde frem til det rigtige dokument. Der er to forskellige former for indeksering. Den automatiske indeksering, der udføres af en computer og bruger dokumentets egne ord til beskrivelsen og den manuelle indeksering, der udføres af mennesker. Idet indeksering er at beskrive et dokument, er det også sandsynligt, at den manuelle indeksering vil være bedre end den automatiske. Personen der indekserer vil kunne bruge netop de ord, der allerbedst beskriver dokumentet, selvom ordene ikke er indeholdt i selve dokumentet. I praksis er det den automatiske indeksering der foretages, idet datamængden på internettet er så enorm. Vi vil i kapitel 4 komme mere ind på selve indekseringsprocessen og hvilke muligheder og problemer det medfører Søgning i indekset Efter hentningen og indekseringen af dokumenterne er dokumentsættet klart til selve søgeprocessen. Alt det foregående har været en nødvendig forberedelse for at kunne foretage den egentlige søgning og derefter at kunne præsentere brugeren med et søgeresultat. Søgningen er således det eneste, der foregår online. Selve hentningen og preprocesseringen kan og burde foretages offline, så hele det indekserede dokumentsæt ligger klart til at blive søgt i af en bruger. I korte træk ser en søgning sådan her ud. En bruger indtaster en forespørgsel, dvs en eller flere søgeord i et søgefelt, som søgesystemet modtager og behandler. Det systemet gør, er at sammenligne de enkelte søgeord i forespørgslen med det før opbyggede indeks. Derved findes der frem til de dokumenter, der indeholder søgeordene. Nu kan der selvfølgelig være mange dokumenter, der indeholder nogle af de samme søgeord. Det er nu systemets opgave at finde de dokumenter, der er mest sandsynlige for at være dem brugeren gerne vil se på. Det er ikke nogen triviel opgave, og der er da også blevet udviklet en hel række forskellige modeller til at løse problemet. I næste kapitel kommer vi ind på nogle af modellerne. Søgesystemet finder altså frem til de mest relevante dokumenter i samlingen. Den sidste opgave for IR systemet er nu at præsentere brugeren for resultatet. Her nytter det ikke noget, at brugeren får smidt flere tusinde dokumenter i

15 2.2 Grundstrukturen i et søgesystem 15 hovedet, når der ikke er nogen struktur bag. Med struktur, menes her, at dokumenterne burde rangeres efter relevans.

16 Kapitel 3 To klassiske IR modeller En af de centrale problemstillinger indenfor informationsøgning er at finde ud af hvilke af de fundne dokumenter der er relevante for brugeren. Søgemaskiner benytter fortrinsvis rangeringsalgoritmer til at afgøre dette. Man kan rolig sige at rangering af dokumenter og derved rangeringsalgoritmerne er en af kernefunktionerne i et informationsøgningsværktøj, da det gælder om at tilfredsstille brugerens ønske/søgning bedst muligt. Der findes flere forskellige IR modeller, der anvender forskellige metoder til at repræsentere dokumenter og deres rangering på. Vi vil i dette afsnit koncentrere os om at beskrive den såkaldte vektor model, som er den IR model vi implementerer i vores søgemaskine. Vektor modellen er en af de tre klassiske IR modeller, som foruden vektor modellen omfatter den boolske model og den probabilistiske model. Vi har valgt kun kort at komme ind på den mest simple model, som er den boolske, og beskrive den i korte træk. Den probabilistiske model vil vi ikke komme ind på i denne opgave. Af de tre klassiske modeller bliver den boolske model ofte anset for at være den svageste. Det skyldes bl.a. at den ikke har evnen til at genkende delvis rigtige søgeresultater. De to andre klassiske modeller, den probabilistiske og vektor modellen har ikke denne svaghed. Vi kan ikke med sikkerhed sige, hvilken af de to der giver de mest nøjagtige søgninger. Forskellige forsøg er blevet foretaget, men et entydigt svar, har vi ikke kunnet finde. Vektor modellen siges at være den mest populære model [BYRN99] af de to indenfor webbrug, bl.a. fordi den er overskuelig at implementere, men stadigvæk leverer et pænt søgeresultat. Generelt om IR Ved de tre klassiske IR modeller bruges indeks termer til at beskrive indholdet af et dokument. Indeks termer er ord, hvis betydning kan hjælpe med at indeksere og opsummere et dokuments hovedemner. Dvs indeks termerne kan ses som en delmængde af alle ord i alle dokumenter, derfor kalder man det også for et kontrolleret indeksvokabular. Mange internetsøgemaskiner bruger ikke indeks termer på denne måde, da det ellers ikke er muligt at foretage fuldtekstsøgninger. Her ses alle ordene i alle dokumenter som indeks termer. Der er her tale om et ukontrolleret indeksvokabular. Der er en del definitioner i de tre modeller som fx indeks termer, vægtning, forespørgsler og dokumenter. For at få et overblik kommer her en tabel indeholdende en kort forklaring af de forskellige definitioner, vi kommer til at bruge i resten af kapitlet.

17 3.1 Boolsk model 17 ka kb (1,0,0) (1,1,0) (1,1,1) kc Figur 3.1: q = ka AND (kb OR NOT kc) Tabel 3.1: Definitioner i den boolske model og vektor modellen Definition N k i n i freq i,j w i,j w i,q q = (w 1,q, w 2,q,..., w t,q ) d j = (w 1,j, w 2,j,..., w t,j ) f i,j d j Kort beskrivelse Antal dokumenter i hele det indekserede dokumentsæt Et søgeord (indeks term) Antal dokumenter k i optræder i Antal gange et søgeord k i optræder i et bestemt dokument d j Vægten for k i i dokument j Vægten for k i i forespørgselsvektoren q Forespørgselsvektoren indeholder en vægtning for hvert enkelt søgeord i forespørgslen. En dokumentvektor. Der er lige så mange dokumentvektorer som der er dokumenter (N) i dokumentsættet. Hver dokumentvektor indeholder en vægtning for hvert enkelt ord i hele dokumentetsættet Den normaliserede frekvens for søgeordet k i i dokumentet d j Det j te dokument i dokumentsættet

18 18 KAPITEL 3. TO KLASSISKE IR MODELLER 3.1 Boolsk model Den boolske model er en simpel søgemodel baseret på mængdelære og boolsk algebra. Det gør at modellen er nem at gå til og har derfor også været populær i de tidlige kommercielle bibliografiske søgesystemer [BYRN99]. Men modellen er ikke uden problemer. I og med at modellen er baseret på boolsk algebra omformuleres forespørgsler til logiske udtryk. Et dokument kan enten opfylde den logiske forespørgsel eller ikke. Med andre ord findes der ingen graduerede svar. Dette gør den boolske model mere til en DR model jvf afsnit 2.1 end til en IR model. For det andet gør brugen af boolske udtryk, at brugere ofte har svært ved at formulere deres forespørgsel. Det ender tit med nogle meget simple søgestrenge, som kan medføre at selve søgeresultatet ikke bliver særlig nøjagtigt [BYRN99]. Som allerede nævnt bliver søgeord delt op som enten at være til stede eller ej i et dokument. Normalt vil man ikke betegne et enten - eller forhold som vægtet. En vægtning betegner normalt tilhørsgraden i en mængde, hvor den boolske model kun indeholder information om et element tilhører en mængde eller ikke. I det følgende vil vi dog jvf [BYRN99] bruge betegnelsen binær vægtning udtrykt ved w i,j {0, 1}. En forespørgsel q er en række søgeord forbundet ved de tre konnektiver NOT, AND, OR. En forespørgsel kan ses som et boolsk udtryk, der kan vises ved en række vektorer adskilt ved eller-operatoren (disjunktiv). Lad os se på et eksempel: En forespørgsel q = k a (k b k c ), hvor k a, k b, k c er søgeordene i forespørgslen, skrives som q dnf = (k a k b ) (k a k c ) på disjunktiv normal form. En anden måde at skrive q dnf på, er ved at omskrive hvert led til binært vægtede vektorer knyttet til tuplen (k a, k b, k c ): q dnf = (1, 1, 1) (1, 1, 0) (1, 0, 0). Figur 3.1 illustrerer de tre vektorer for forespørgslen q og giver et visuelt indblik i hvad der menes. Lad os sætte ord på eksemplet. Forespørgslen q siger at vi ønsker søgeordet k a sammen med k b som giver (1,1,0) eller k a sammen med ikke k c dvs at k a kommer til at stå alene som giver (1,0,0). Idet der i parentesen er et eller-tegn, har det ingen betydning for hvad k c er når k b er 1. Derfor er området for (1,1,1) skraveret i figuren da det også er en løsning for forespørgslen q. Ved den boolske model er søgeordenes vægt altid binære, altså w i,j {0, 1}. Forespørgslen q er et almindeligt boolsk udtryk. Lad q cc repræsentere de konjunktive led i q dnf. Lad funktionen g i returnere vægten for søgeordet k i som er knyttet til en vilkårlig dokumentvektor, altså g i ( d j ) = w i,j. Ligheden mellem et dokument d j og en forespørgsel q er således defineret ved { 1 sim(d j, q) = 0 hvis ellers q cc ( q cc q dnf ) ( ki, g i ( d j ) = g i ( q cc )) Er sim(d j, q) = 1 så siger den boolske model, at dokumentet d j er relevant for forespørgslen q. Er resultatet ikke 1, så siger modellen at dokumentet ikke er relevant. Med andre ord siger definitionen at ligheden sim(d j, q) er 1 hvis der gælder at et hvilket som helst led for forespørgslen q på dnf form, altså (1,1,0) eller (1,1,1) eller (1,0,0) er en del af hele forespørgslen q og at vægten for alle søgeord k i i dokument j, er lig med vægten af søgeordet i et hvert af ledene i forespørgslen. Forekommer dette ikke, sættes ligheden til 0 [BYRN99]. Ser man på figur 3.1 er det nemt at se den boolske models problem. Lad fx. d j være et dokument for hvilken der gælder d j = (0, 1, 0). Dokumentet indeholder

19 3.2 Vektor model 19 t2 d j Q t1 Figur 3.2: Cosinus af vinklen er ligheden sim(dj,q) som det ses søgeordet k b, men anses til trods for det at være helt urelevant idet dokumentet ikke indeholder k a. Den boolske model medtager altså ikke gradvist relevante søgeresultater. Vi vil senere i afsnit 3.5 opsummere de fordele og ulemper der er ved den boolske model og den senere beskrevne vektor model. 3.2 Vektor model Vektor modellen tager hensyn til i hvilken grad et dokument er relevant for brugerens søgninger. De fundne dokumenter bliver rangeret i henhold til hvor mange af søgeordene der matcher dokumentet. Er der fx kun 1 ud af de tre søgeord, som findes i et dokument, vil dokumentet ikke blive forkastet som ubrugbart, men vil derimod blive rangeret som et mindre vigtigt dokument længere nede i søgeresultatet. Dette kaldes for gradvis relevans og er den store forskel mellem den tidligere nævnte boolske model og vektor modellen. I vektor modellen repræsenteres hvert dokument og hver forespørgsel som vektorer. Det gør det muligt at sammenligne forespørgslen med hvert dokument ved at sammenligne vektorerne med hinanden. Jo tættere vektorerne er på hinanden, jo større er similariteten mellem forespørgslen og dokumentet der sammenlignes med. Similariteten kan beregnes på flere forskellige måder. En af de mest brugte er cosinus-koefficient metoden, der ser på vinklen mellem vektorerne som vi lige har omtalt. Det er også denne metode vi vil beskrive nærmere, mens vi i afsnit 3.4 kort vil komme ind på de andre mest typiske måder at beregne similariteten på. Der er tre beregninger, som skal gennemføres ved brug af vektor modellen. Vi vil senere i afsnittet komme nærmere ind på, hvorfor og hvordan disse be-

20 20 KAPITEL 3. TO KLASSISKE IR MODELLER regninger virker, men her er i første omgang en kort oversigt over hvad der skal beregnes. Vægten for hvert ord i forhold til hele dokumentsættet skal beregnes. Det fortæller os noget om, hvor vigtigt ordet er i hele dokumentsættet. Vægten for hvert ord i forhold til hvert enkelt dokument skal beregnes. Det fortæller os noget om, hvor vigtigt ordet er i forhold til det enkelte dokument. For hver forespørgsel bliver forespørgselsvektoren sammenlignet med hver enkelt dokumentvektor. Det fortæller os noget om, hvilke dokumenter der ligger tættest på forespørgslen og rangerer samtidig resten af dokumenterne i henhold til deres similaritet med forespørgslen. Baeza-Yates og Ribeiro-Neto [BYRN99] beskriver similariteten mellem to vektorer ved følgende ligning: d [1] sim(d j, q) = t j q d i=0 = w i,j w i,q t j q i=1 w2 i,j t j=1 w2 i,q I første omgang ser ligningen måske noget forvirrende ud, så vi vil vise, hvordan man er kommet frem til ligningen. Som før nævnt vil vi i denne gennemgang se på cosinus-koefficient metoden, som bruger vinklen mellem vektorerne for at afgøre similariteten. Der er derfor brug for at udregne prikproduktet mellem vektorerne for at finde frem til vinklen imellem dem. Lad os se på to vektorer A = (a 1, a 2, a 3 ) og B = (b 1, b 2, b 3 ). Ganges to vektorer som ligger på linie fås som bekendt A B = (a 1 b 1 + a 2 b 2 + a 3 b 3 ) eller skrevet på en anden måde A B = n a k b k Ligger de ikke på linie bruges A B = A B cos θ, hvor theta er vinklen mellem vektorerne A og B, og A er længden af vektoren. Ved at dividere med A B på begge sider af lighedstegnet får vi en ligning som kan måle similariteten mellem to vektorer. k=1 A B A B = cos θ For nemhedens skyld kaldes målet for similariteten mellem de to vektorer for sim(a,b), dvs vi står tilbage med følgende ligning til at måle similariteten mellem to vektorer på A [2] sim(a, B) = B A B

21 3.2 Vektor model 21 Vi har altså brug for at beregne længden af vektorerne. Længden af en vektor findes ved: A = A A. Dette kan igen omskrives til A = n Lad os med denne baggrundsviden gå tilbage og se på similariteten mellem to vektorer (ligning [1] og [2]). Ved at erstatte A og B med dokumentvektoren d j og forespørgselsvektoren q får vi første del af ligning [1]. Problemet med ligningen er, at den ikke direkte omfatter vægtningerne af ordene i både dokument- og forespørgselsvektorerne. Der er derfor grund til omskrive ligningen, så vi får et udtryk der beskriver similariteten ved hjælp af vægtningerne for søgeordene og dokumentindholdet. Som tidligere nævnt i oversigten, så er i=1 d j = (w 1,j, w 2,j,..., w t,j ) og q = (w 1,q, w 2,q,..., w t,q ) Så d j q = (w 1,j w 1,q ) + (w 2,j w 2,q ), +...+, (w n,j w n,q ), hvor højresiden kan omskrives til t i=1 w i,j w i,q ifølge ovenstående beskrivelser. Vi har altså nu omskrevet tælleren for ligningen til a 2 i sim( d d j, q) = j q d j q t i=1 sim(d j, q) = w i,j w i,q d j q Næste skridt er at se på nævneren. Vi ved at A = A A, så dj kan skrives som d j = dj d j = (w 1,j w 1,j ) + (w 2,j w 2,j ), +...+, (w n,j w n,j ) = w 2 1,j + w2 2,j +,..., +w2 n,j Rækken af kvadrater der adderes kan omskrives som beskrevet foroven til t i=1 w i,j 2 så vi får d j = t i=1 w2 i,j På tilsvarende måde kan længden af forespørgselsvektoren q opskrives. q = t i=1 w2 i,q

22 22 KAPITEL 3. TO KLASSISKE IR MODELLER Så endeligt ved at erstatte d j q kommer vi frem til den ligning, vi startede ud med d sim(d j, q) = j q d = j q t t i=0 w i,j w i,q i=1 w2 i,j t j=1 w2 i,q Similariteten mellem dokumentvektoren og forespørgselsvektoren og derved graden af relevans et dokument har i forhold til et søgeord, kan altså beregnes ved hjælp af vægtningerne de forskellige søgeord og dokumenternes indhold har [Ack03]. Selve vægtningerne w i,j og w i,q ser vi på i næste afsnit. 3.3 Vægtning Der er flere forskellige metoder til at beregne vægtningen af søgeordene og ordene i dokumenterne på. Vi vil koncentrere os om den metode Baeza-Yates og Ribeiro-Neto beskriver, som prøver at belyse hovedideen bag en af de mest brugte vægtningsteknikker [BYRN99]. Som nævnt i afsnit 3.2 skal der beregnes to sæt vægtninger. Et af de sæt vægtninger vi skal bruge, er dem der bliver brugt i forespørgselsvektoren q. Selve vektoren indeholder vægtningerne (w i,q ) for alle ordene i forespørgslen. Vægtningerne afspejler ordenes betydning set over alle dokumenter. Desuden skal vi bruge det sæt vægtninger, som dokumentvektorerne opbygges af. Det kan hurtigt gå hen og blive rigtig mange. For hvert dokument udregnes en dokumentvektor ( d j ), som indeholder vægtningen (w i,j ) for hvert enkelt ord i hele dokumentsamlingen. Har man altså bare et lille antal på 100 dokumenter, der tilsammen indeholder forskellige ord, så skal der beregnes 1 million vægtninger! Det er vigtigt at se på ordet på to forskellige måder. En gang lokalt i hvert dokument og en gang globalt i forhold til hele dokumentsættet. Et ord der fx optræder i alle dokumenter vil ikke være god til at beskrive et enkelt dokument. Dvs for at beregne vægten for et ord, bliver man nødt til at bruge en metode til at kombinere vigtigheden af ordet i dokumentet i forhold til det samlede dokumentsæt på. Lad os vise i tabel 3.2, hvad der menes med det. Tabel 3.2: Ønskede forhold ved vægtning af ord Vigtighed i dokument Vigtighed i dokumentsæt Vægt høj høj meget høj lav høj mellem høj lav mellem lav lav meget lav Der er mange måder hvorpå vigtigheden af et ord kan bestemmes. Vi vil ikke gå ind på de forskellige metoder, men koncentrerer os om den måde Baeza-Yates og Ribeiro-Neto [BYRN99] beskriver. Ideen går ud på at beregne hyppigheden af hvor mange gange et ord optræder

23 3.3 Vægtning 23 i et dokument. Resultatet tf (term frequency) er således et mål for hvor godt det givne ord beskriver dokumentet. Desuden bliver den inverse hyppighed af ordet i forhold til alle dokumenter - også kaldet inverse dokument frequency [Jon72] eller bare idf - også beregnet. Det gøres med henblik på, at et ord der optræder i mange dokumenter, ikke er særlig nyttig til at skelne mellem et relevant og et mindre relevant dokument. For at opnå det bedste søgeresultat er det vigtigt at finde den rette balance mellem tf og idf Den normaliserede term frekvens Lad os se nærmere på de forskellige frekvenser. Den første vi vil se på er f i,j (normalized term frequency). tf er hyppigheden af hvor ofte et ord optræder i et dokument. Normaliseringen bruges fordi betydningen af antallet af et ord i et dokument afhænger af dokumentets størrelse. Hvis fx et ord optræder 50 gange i et stort dokument, mens der i et meget lille dokument ingen ord er, der optræder 50 gange, så bliver man nødt til at foretage en normalisering af tf. Derved kan man måle hyppigheden af et ord i forhold til dokumentet uden at tage hensyn til dokumentets størrelse. Den normaliserede frekvens for et givent ord er lig med antal gange ordet optræder i dokumentet freq i,j divideret med antal gange det mest brugte ord optræder i dokumentet max l (freq l,j ). f i,j = freq i,j max l (freq l,j ) Denne måde at udregne den normaliserede term frekvens på, bruges til at beregne vægtningerne for ordene i hvert dokument. Ved udregning af vægtningerne for ordene i forespørgslen w i,q, normaliseres der over hele dokumentsamlingen. Dette sikrer os som tidligere nævnt at ordets vægtning afspejler vigtigheden set over alle dokumenter. Tabel 3.3: Eksempel på frekvensnormalisering af indeksord Ord freq i,j max l (freq i,j ) f i,j og at ,37 sang ,13 kammerpigerne ,006 Generelt er det sådan, at almindelige ord vil få en højere værdi end mere sjældne ord, som man kan se i tabel 3.3. Uden at vi vil komme ind på dette område og hvordan man er kommet frem til det, så findes der bl.a. Zipf s lov, som siger, at der vil være få ord i et dokument, der nærmer sig 1, mange ord der ligger tæt på 0 og en god portion i midten [BYRN99]. For lige at opsummere. Den normaliserede frekvens er et mål mellem 0 og 1, for hvor mange gange et ord optræder i et dokument divideret med det antal gange det mest optrædende ord er i dokumentet. Ord der optræder oftere end andre får tildelt en højere værdi.

24 24 KAPITEL 3. TO KLASSISKE IR MODELLER Den inverse dokument frekvens Som næste ser vi på en måde at udtrykke frekvensen for et ord i forhold til hele dokumentsættet. Baeza-Yates og Ribeiro-Neto [BYRN99] kalder den for inverse document frequency som beregnes ved ( ) N idf = log I modsætning til den normaliserede frekvens der tager udgangspunkt i et enkelt dokument, så skal resultatet af idf blive større, når frekvensen af et ord set over hele dokumentsættet går ned og omvendt. Grunden til det er, at når et ord optræder i samtlige dokumenter, så vil det ikke være til nogen nytte i henhold til at kunne udpege de mest relevante dokumenter i forhold til en given søgning. Derfor skal idf gerne være 0 for et ord der optræder i samtlige dokumenter. I første omgang skulle man tro, man bare kunne bruge antallet af dokumenter N divideret med antallet af dokumenter et bestemt ord optræder i n i. Problemet er her, som det også nemt kan ses i tabel 3.4, at de forskellige vægtninger hurtigt kan dominere resultatet, når vi bevæger os ud mod ekstremerne. Fx vil et ord der kun optræder 1 gang i et dokumentsæt på 1000 dokumenter, få en idf på 1000/1= Men endnu værre er at et ord der optræder i samtlige 1000 dokumenter ville få en idf på 1000/1000=1 og ikke 0 som den burde, da ordet som tidligere skrevet ingen betydning har for søgningen. Det er grunden til indførelsen af logaritmen i ligningen for idf. Ved at tage logaritmen af ( N) divideret med n i, undgår man disse grænsetilfælde. N Specielt i tilfælde af n i = 1 vil idf blive 0 (idet log(1) = 0), som netop er det ønskede resultat (se tabel 3.4). n i Tabel 3.4: N/ni vs. log(n/ni) N n i N/n i log(n/n i ) Diskussion N/ni= for dominerende , N/ni=1, det går ikke. Vægten skal være 0 Med den normaliserede tf, der afspejler den lokale vigtighed og idf, der afspejler den globale vigtighed, kan vi nu beregne vægtningen. Det gøres ganske simpelt ved at gange de to fundne værdier med hinanden. w i,j = f i,j log N n i Ligningen betyder at vægten for ordet k i i dokumentet d j er lig med ordets normaliserede frekvens gange med dens inverse dokument frekvens idf. For at udregne vægtningen i forespørgslen w i,q skal den normaliserede frekvens som tidligere nævnt udregnes for hele dokumentsættet og ikke bare for et enkelt dokument. Ellers er metoden den samme: w i,q = f i,q log N n i

25 3.4 Forskellige similaritetsmål 25 t2 t1 Figur 3.3: Ved Cosinus-metoden er vinklen afgørende [JF87] 3.4 Forskellige similaritetsmål Dette afsnit skal give læseren en kort oversigt over nogle af de forskellige metoder, der findes til beregning af similariteten mellem en forespørgsel og et dokument. Som man har kunnet læse tidligere i dette kapitel, så har vi valgt at beskrive og implementere cosinus-koefficientmetoden. Der findes flere forskellige metoder, hvor de mest gængse er skalarproduktet og Dice-, Jaccard- og Overlap-koefficientmetoden [vr79]. De fire metoder vil ikke blive beskrevet lige så udførligt som cosinus-koefficientmetoden. Tabel 3.5: Similaritetsmål Dice 2 A B A + B Jaccard Skalar A B Cosinus Overlap A B min( A, B ) A B A B A B A B Cosinus-koefficient Lad os starte med et kort tilbageblik. Som det kan ses i figur 3.3 er det vinklen mellem vektorerne der afgører similariteten. Figuren illustrerer tydeligt, at jo

26 26 KAPITEL 3. TO KLASSISKE IR MODELLER t2 d1 d2 d3 t1 Figur 3.4: Problemet ved cosinus-koefficienten mindre vinklen er mellem forespørgselsvektoren og en given dokumentvektor, her vist som stiplede linier, jo tættere kommer lighedsværdien på 1 dvs jo større er ligheden mellem forespørgsel og dokument. Similaritetsmålet for denne model ligger mellem 0 og 1. Lad os se på et taleksempel. Mængderne A og B indeholder følgende: A = {1, 2, 3, 4} og B = {2, 4, 7, 8} Kardinaliteten for fællesmængden, som står i tælleren, er så 2. Nævneren udregnes til 4 4 = 4, så resultatet af sim(a,b) bliver en halv. Det passer meget fint, idet halvdelen af mængden A er indeholdt i B. Det ses at tælleren vokser jo større fællesmængden er. Er der slet ingen elementer til fælles for de to mængder, så bliver tælleren 0 og derved bliver similariteten mellem A og B også 0. Er de to mængder derimod ens bliver resultatet 1, som vist nedenfor. sim(a, A) = A A = A = A A A A 2 A = 1 Det vi ønsker er at udregne en similaritet mellem to vektorer, fx forespørgselsvektoren og en dokumentvektor, for at se hvor ens de er. Dokumentvektoren består af vægtningerne for hvert enkelt ord i hele dokumentsamlingen. De ord der eksisterer i selve dokumentet får hver tildelt en vægtning større end 0, mens alle de ord, der ikke optræder i dokumentet får tildelt værdien 0. Forespørgselsvektoren er opbygget på samme måde. Den består af vægtninger for alle ord i hele dokumentsamlingen, hvor det dog kun er ordene i selve forespørgslen (søgeordene), der får tildelt en vægtning større end 0, hvis de ellers eksisterer i dokumentsamlingen. Størstedelen af en forespørgselsvektor vil således typisk bestå af nuller. Der er en meget simpel forklaring på at medtage alle nullerne i de to vektorer. Det er for at give vektorerne samme antal dimensioner, så man har mulighed for at sammenligne vektorerne med hinanden. Ligesom kardinaliteten for fællesmængden viser hvor mange elementer der går igen i to givne mængder, så kan vektor skalarproduktet bruges til det samme. Skalarproduktet udregnes på følgende måde: (a, b, c, d) (e, f, g, h) =

27 3.4 Forskellige similaritetsmål 27 (ae + bf + cg + dh). Da forespørgselsvektorens og dokumentvektorens koordinater er vægtninger, afspejler skalarproduktets størrelse hvor stor sammenfald der er mellem de to vektorer. Jo flere ord i forespørgslen, der også findes i dokumentet, jo færre gange skal der ganges med nul og jo større bliver skalarproduktet. Der er altså en analogi mellem fællesmængden i mængdelæren og skalarproduktet mellem vektorer. At cosinus-koefficienten udelukkende ser på vinklen mellem to vektorer, er ikke uden problemer. Se fx på figur 3.4. Vektoren d2 i forhold til vektoren d1 giver 1 som similaritetsmål idet vinklen mellem de to vektorer er 0. Dvs at de to vektorer efter cosinus-koefficientmetoden er ens. Det er netop fordi metoden ikke tager hensyn til længden af vektorerne men kun ser på vinklen. Som det også nemt ses på figuren, så er vektoren d3 faktisk mere lig med d1 fordi term 1 (t1) og term 2 (t2) begge er opfyldt til en højere grad, selvom der her er en vinkel forskellig fra 0. Skalarprodukt Ved cosinus-koefficienten har vektorernes længde ikke nogen betydning for similariteten. Sådan er det ikke ved den mere simple skalar-metode. Her vil vektorernes længde og derved dokumenternes og forespørgslens størrelse komme til at spille en stor rolle. Da skalarproduktet er lineært vil en multiplikation af en af vektorerne med en given faktor, samtidig betyde en multiplikation af similariteten. Kopierer vi fx den samme tekst efter hinanden i et dokument eller en forespørgsel, vil vektorens længde blive dobbelt så stor. Ser man på figur 3.5 er det nemmere at se hvad der menes. Jo længere vektoren er, jo større bliver similariteten. Similaritetsmålet bevæger sig altså fra 0 til det uendelige. Dice-koefficienten Her er similariteten defineret som 2 gange fællesmængden divideret med begge mængderne lagt sammen, se tabel 3.5. Similaritetsmålet kan i forhold til cosinusog jaccard-koefficienten godt blive større end 1. Jaccard-koefficienten Jaccard s metode går ud på at synliggøre i hvilken omfang to mængder ligner hinanden ved at se på hvor stor sammenfaldet mellem mængderne er i forhold til den samlede mængde. Er mængderne ens, så er fællesmængden og foreningsmængden også ens og similariteten giver 1. Er de to mængder forskellige, bliver tælleren 0 og similariteten bliver derved også 0. Similaritetsmålet strækker sig ligesom ved cosinus-koefficienten fra 0 til 1. Selv om Dice- og Jaccard-koefficienten ligner hinanden meget, så er der alligevel en forskel. Udtrykket i tabel 3.5 viser, at jo mindre fællesmængden er, jo større må kardinaliteten for foreningsmængden blive og jo mindre bliver forholdet. Ved små forespørgsler i store dokumentsamlinger, vil similariteten altid blive meget lille. Man kunne forestille sig, at Jaccard-koefficienten bedre egner sig til at undersøge ligheden mellem dokumenter og ikke mellem forespørgsler og dokumenter.

28 28 KAPITEL 3. TO KLASSISKE IR MODELLER t2 t1 Figur 3.5: Ved skalar-metoden er længden er vektorerne afgørende [JF87] Overlap-koefficienten Ideen med Overlap koefficienten er at finde ud af i hvilket omfang to mængder overlapper hinanden, altså er ens. Udtrykket i tabel 3.5 siger, at fællesmængden skal divideres med kardinaliteten af den mindste af de to mængder. I praksis vil det typisk være forespørgslen. Similaritetsmålet kan godt blive større end 1. Bemærkning Vi har nu set på nogle forskellige metoder til at beregne similariteten mellem to mængder eller vektorer. Det er svært at sige noget om hvilken metode der er bedre end den anden. Hvor skalarmetoden er noget uheldig, da der her kun ses på længden af vektorerne og cosinus-koefficienten udelukkende ser på vinklen mellem to vektorer, som også kan føre til problemer med at finde den bedste match, så er de tre andre koefficienter i bund og grund ret ens. Der er i alle tilfælde tale om et forhold, og forestiller man sig den samme søgning udført med de tre metoder i samme dokumentsamling, så burde den samme resultatliste vise sig. Forskellen vil blot være, at similaritetsgraden af de fundne dokumenter vil variere alt efter hvilken af de tre koefficientmetoder der er blevet brugt.

Informationssøgning metoder og scenarier

Informationssøgning metoder og scenarier Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Flere ligninger med flere ukendte

Flere ligninger med flere ukendte Flere ligninger med flere ukendte Frank Villa 14. februar 2012 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2 Affine rum I denne note behandles kun rum over R. Alt kan imidlertid gennemføres på samme måde over C eller ethvert andet legeme. Et underrum U R n er karakteriseret ved at det er en delmængde som er lukket

Læs mere

Egenskaber ved Krydsproduktet

Egenskaber ved Krydsproduktet Egenskaber ved Krydsproduktet Frank Nasser 23. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Løsning af simple Ligninger

Løsning af simple Ligninger Løsning af simple Ligninger Frank Nasser 19. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Effektiv søgning på web-steder

Effektiv søgning på web-steder Effektiv søgning på web-steder 7. maj 1998 Udarbejdet af DialogDesign ved Rolf Molich, Skovkrogen 3, 3660 Stenløse Indhold 1. Indledning 3 1.1. Model for søgning 3 2. Forskellige former for søgning 4 2.1.

Læs mere

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag? En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger

Læs mere

Andengradsligninger. Frank Nasser. 11. juli 2011

Andengradsligninger. Frank Nasser. 11. juli 2011 Andengradsligninger Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Om problemløsning i matematik

Om problemløsning i matematik Om problemløsning i matematik Frank Villa 15. juni 2012 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Andengradsligninger. Frank Nasser. 12. april 2011

Andengradsligninger. Frank Nasser. 12. april 2011 Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning Chapter 3 Modulpakke 3: Egenværdier 3.1 Indledning En vektor v har som bekendt både størrelse og retning. Hvis man ganger vektoren fra højre på en kvadratisk matrix A bliver resultatet en ny vektor. Hvis

Læs mere

Søgeeksempel i PubMed:

Søgeeksempel i PubMed: Søgeeksempel i PubMed: Tværfagligt samarbejde omkring genoptræning efter udskrivning fra hospital Første skridt: Opløs problemformuleringen i de søgeord som dækker problemstillingen og endelig ikke flere

Læs mere

π er irrationel Frank Nasser 10. december 2011

π er irrationel Frank Nasser 10. december 2011 π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Matricer og lineære ligningssystemer

Matricer og lineære ligningssystemer Matricer og lineære ligningssystemer Grete Ridder Ebbesen Virum Gymnasium Indhold 1 Matricer 11 Grundlæggende begreber 1 Regning med matricer 3 13 Kvadratiske matricer og determinant 9 14 Invers matrix

Læs mere

Søgevejledning til Cinahl Plus with Full Text (Ebsco) Bibliotekerne i Professionshøjskolen Metropol. Søgevejledning til CINAHL Plus with Full Text

Søgevejledning til Cinahl Plus with Full Text (Ebsco) Bibliotekerne i Professionshøjskolen Metropol. Søgevejledning til CINAHL Plus with Full Text Søgevejledning til CINAHL Plus with Full Text Revideret af: Vibeke Witt, Professionshøjskolen Metropol, August 2013 1 Indholdsfortegnelse Databasens indhold... 3 Adgang til Cinahl... 3 Søgning i Cinahl

Læs mere

Kom godt i gang med PubMed

Kom godt i gang med PubMed Kom godt i gang med PubMed Søgeeksempel i PubMed: Tværfagligt samarbejde omkring genoptræning efter udskrivning fra hospital Første skridt: Opløs problemformuleringen i de søgeord som dækker problemstillingen

Læs mere

Studieretningsprojekt i 3.g Regler og gode råd 2016/2017 SRP

Studieretningsprojekt i 3.g Regler og gode råd 2016/2017 SRP Studieretningsprojekt i 3.g Regler og gode råd 2016/2017 SRP Indholdsfortegnelse 1. FORMÅL OG FAG... 2 2. PRAKTISK INFORMATION... 3 2.1 OPGAVENS OPBYGNING... 3 2.2 BEDØMMELSEN... 3 2.3 LITTERATURSØGNING...

Læs mere

Ugeseddel 12(10.12 14.12)

Ugeseddel 12(10.12 14.12) Ugeseddel (..) Matematisk Programmering Niels Lauritzen..7 FORELÆSNINGER I ugen. 7. gennemgik vi algoritmer til løsning af heltalsprogrammer ved hjælp af simplex algoritmen. Dette er heltalsprogrammeringsugesedlen

Læs mere

Søgeeksempel i PubMed:

Søgeeksempel i PubMed: 1 Søgeeksempel i PubMed: Tværfagligt samarbejde omkring genoptræning efter udskrivning fra hospital Første skridt: Opløs problemformuleringen i de søgeord som dækker problemstillingen og endelig ikke flere

Læs mere

Egenskaber ved Krydsproduktet

Egenskaber ved Krydsproduktet Egenskaber ved Krydsproduktet Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Elementær Matematik. Mængder og udsagn

Elementær Matematik. Mængder og udsagn Elementær Matematik Mængder og udsagn Ole Witt-Hansen 2011 Indhold 1. Mængder...1 1.1 Intervaller...4 2. Matematisk Logik. Udsagnslogik...5 3. Åbne udsagn...9 Mængder og Udsagn 1 1. Mængder En mængde er

Læs mere

Modul 2 projekt Marie Højlt & Anne Rosenstand Hansen D.19.12.06

Modul 2 projekt Marie Højlt & Anne Rosenstand Hansen D.19.12.06 Indholdsfortegnelse 1 Indledning og problemfelt... 4 1.1 Problemfelt... 4 1.1.1 Problemformulering... 7 2 Metode... 8 2.1 Motivation... 8 2.2 Begrebsafklaring... 8 2.3 Valg af teori...10 2.4 Empiri...11

Læs mere

Omskrivningsregler. Frank Nasser. 10. december 2011

Omskrivningsregler. Frank Nasser. 10. december 2011 Omskrivningsregler Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Google Scholar. Søgning. Udgiver Google

Google Scholar. Søgning. Udgiver Google Find vejen frem VIA University College Dato: 1. august 2019 Ulla Buch Nilson, VIA Biblioteker Google Scholar Søgning Udgiver Google Indhold Google Scholar er et søgeværktøj til at finde videnskabelig litteratur.

Læs mere

10 Vigtigste SEO Ranking Faktorer

10 Vigtigste SEO Ranking Faktorer 10 Vigtigste SEO Ranking Faktorer Indledning 10 Vigtigste Ranking Faktorer Agilitor Der findes en lang række faktorer, der har indflydelse på din websites position i Google på forskellige søgeord. Faktisk

Læs mere

Daglig brug af JitBesked 2.0

Daglig brug af JitBesked 2.0 Daglig brug af JitBesked 2.0 Indholdsfortegnelse Oprettelse af personer (modtagere)...3 Afsendelse af besked...4 Valg af flere modtagere...5 Valg af flere personer der ligger i rækkefølge...5 Valg af flere

Læs mere

PubMed - tips til søgning

PubMed - tips til søgning EN VEJLEDNING FRA UCL BIBLIOTEKET PubMed - tips til søgning December 2017 Indholdsfortegnelse 1 Basens indhold... 1 2 Adgang til basen... 1 3 Søgemetoder... 2 3.1 Fritekstsøgning... 2 3.1.1 Muligheder

Læs mere

Velkommen til REX onlinehjælp

Velkommen til REX onlinehjælp Velkommen til REX onlinehjælp I REX onlinehjælp kan du finde information om følgende emner: Indhold Enkel søgning...3 Hvordan kan du bruge søgefeltet?...3 Søg efter sætninger...3 Søg efter specifikke ord

Læs mere

De rigtige reelle tal

De rigtige reelle tal De rigtige reelle tal Frank Villa 17. januar 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Problemløsning i retvinklede trekanter

Problemløsning i retvinklede trekanter Problemløsning i retvinklede trekanter Frank Villa 14. februar 2012 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug

Læs mere

Komplekse tal. Mikkel Stouby Petersen 27. februar 2013

Komplekse tal. Mikkel Stouby Petersen 27. februar 2013 Komplekse tal Mikkel Stouby Petersen 27. februar 2013 1 Motivationen Historien om de komplekse tal er i virkeligheden historien om at fjerne forhindringerne og gøre det umulige muligt. For at se det, vil

Læs mere

TREKANTER. Indledning. Typer af trekanter. Side 1 af 7. (Der har været tre kursister om at skrive denne projektrapport)

TREKANTER. Indledning. Typer af trekanter. Side 1 af 7. (Der har været tre kursister om at skrive denne projektrapport) Side 1 af 7 (Der har været tre kursister om at skrive denne projektrapport) TREKANTER Indledning Vi har valgt at bruge denne projektrapport til at udarbejde en oversigt over det mest grundlæggende materiale

Læs mere

Søgevejledning til SocINDEX with Full Text - 1

Søgevejledning til SocINDEX with Full Text - 1 Søgevejledning til SocINDEX with Full Text Søgevejledning til SocINDEX with Full Text Indholdsfortegnelse Søgning i SocINDEX Advanced Search Felter der afgrænser søgningen Søgehistorie Kombinatorisk søgning

Læs mere

Hvorfor skal vi bruge objekt orienteret databaser?

Hvorfor skal vi bruge objekt orienteret databaser? OODBMS Vs. RDBMS 1 Indholdsfortegnelse Hvorfor skal vi bruge objekt orienteret databaser?... 3 OODBMS i erhvervslivet... 4 Bagsiden af medaljen... 5 OODBMS i praksis... 6 Konklusion... 8 2 Hvorfor skal

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Studieretningsprojekt i 3.g Regler og gode råd 2015/2016 SRP

Studieretningsprojekt i 3.g Regler og gode råd 2015/2016 SRP Studieretningsprojekt i 3.g Regler og gode råd 2015/2016 SRP Indholdsfortegnelse 1. Formål og fag... 2 2. Praktisk information... 3 2.1 Opgavens opbygning... 3 2.2 Bedømmelsen... 3 2.3 Litteratursøgning...

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Repræsentation af tal

Repræsentation af tal Repræsentation af tal DM534 Rolf Fagerberg 1 / 18 Mål Målet for disse slides er at beskrive, hvordan tal repræsenteres som bitmønstre i computere. Dette emne er et uddrag af kurset DM548 Computerarkitektur

Læs mere

Bogstavregning. En indledning for stx og hf. 2008 Karsten Juul

Bogstavregning. En indledning for stx og hf. 2008 Karsten Juul Bogstavregning En indledning for stx og hf 2008 Karsten Juul Dette hæfte træner elever i den mest grundlæggende bogstavregning (som omtrent springes over i lærebøger for stx og hf). Når elever har lært

Læs mere

LinAlgDat 2014/2015 Google s page rank

LinAlgDat 2014/2015 Google s page rank LinAlgDat 4/5 Google s page rank Resumé Vi viser hvordan lineære ligninger naturligt optræder i forbindelse med en simpel udgave af Google s algoritme for at vise de mest interessante links først i en

Læs mere

PsycINFO Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet.

PsycINFO Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet. PsycINFO Vejledning PsycINFO er en bibliografisk database, som indeholder referencer til næsten 2500 psykologiske tidsskrifter. Databasen dækker perioden fra 1806 frem til nu. Databasen indeholder også

Læs mere

t a l e n t c a m p d k Matematiske Metoder Anders Friis Anne Ryelund 25. oktober 2014 Slide 1/42

t a l e n t c a m p d k Matematiske Metoder Anders Friis Anne Ryelund 25. oktober 2014 Slide 1/42 Slide 1/42 Hvad er matematik? 1) Den matematiske metode 2) Hvad vil det sige at bevise noget? 3) Hvor begynder det hele? 4) Hvordan vælger man et sæt aksiomer? Slide 2/42 Indhold 1 2 3 4 Slide 3/42 Mængder

Læs mere

Kvadratiske matricer. enote Kvadratiske matricer

Kvadratiske matricer. enote Kvadratiske matricer enote enote Kvadratiske matricer I denne enote undersøges grundlæggende egenskaber ved mængden af kvadratiske matricer herunder indførelse af en invers matrix for visse kvadratiske matricer. Det forudsættes,

Læs mere

Vektorregning. Vektorer som lister

Vektorregning. Vektorer som lister 10 Vektorregning Vektorer som lister En vektor laves nemmest som en liste på TI-89 Titanium / Voyage 200. I nedenstående skærmbillede ser du, hvordan man definerer vektorer og laver en simpel udregning

Læs mere

Google Pagerank Hvordan man finder en nål i en høstak

Google Pagerank Hvordan man finder en nål i en høstak Google Pagerank Hvordan man finder en nål i en høstak Georg Mohr, 4. marts 2008 Kim Knudsen kim@math.aau.dk Institut for Matematiske Fag Aalborg Universitet http://www.math.aau.dk/ kim/georgmohr2008.pdf

Læs mere

Informationssøgning. Målret din søgning skriv bedre opgaver få en bedre karakter. Henning Lorentzen Pædagogisk IT-koordinator

Informationssøgning. Målret din søgning skriv bedre opgaver få en bedre karakter. Henning Lorentzen Pædagogisk IT-koordinator Informationssøgning Målret din søgning skriv bedre opgaver få en bedre karakter Henning Lorentzen Pædagogisk IT-koordinator Hvordan kommer jeg i gang Sæt tid af, 5 minutter er ikke nok Begynd med det du

Læs mere

Data Warehouse Knowledge is Power - Sir Francis Bacon -

Data Warehouse Knowledge is Power - Sir Francis Bacon - Data Warehouse 4. sem. datamatiker uddannelse Tietgen Skolen Odense Skrevet af Troels Markvard Andersen (DM08228) Knowledge is Power - Sir Francis Bacon - Troels Markvard Andersen Side 1 af 8 Forord /

Læs mere

Fraktaler Mandelbrots Mængde

Fraktaler Mandelbrots Mængde Fraktaler Mandelbrots Mængde Foredragsnoter Af Jonas Lindstrøm Jensen Institut For Matematiske Fag Århus Universitet Indhold Indhold 1 1 Indledning 3 2 Komplekse tal 5 2.1 Definition.......................................

Læs mere

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125 Tietgenskolen - Nørrehus Data warehouse Database for udviklere Thor Harloff Lynggaard DM08125 Juni 2010 Indhold Beskrivelse... 3 Data warehouse... 3 Generelt... 3 Sammenligning... 3 Gode sider ved DW...

Læs mere

Kort introduktion til Google.

Kort introduktion til Google. Google Side 1 af 10 Kort introduktion til Google.... 2 Tilpas din søgning... 2 Generelle Tips... 2 Udelukkelse af ord... 2 Brug af *... 3 Sætningssøgninger... 3 Jeg Føler Mig Heldig... 3 Avanceret søgning...

Læs mere

Matematik for økonomer 3. semester

Matematik for økonomer 3. semester Matematik for økonomer 3. semester cand.oecon. studiet, 3. semester Planchesæt 2 - Forelæsning 3 Esben Høg Aalborg Universitet 10. september 2009 Institut for Matematiske Fag Aalborg Universitet Esben

Læs mere

Identifikation af planer der ikke findes i PlansystemDK vha. datasættet... 9

Identifikation af planer der ikke findes i PlansystemDK vha. datasættet... 9 Vejledning i brug af Tingbogsudtrækket Version 1.0 af 1. juli 2009 Indhold Indledning... 1 Planer i Tingbogen... 2 Planer i PlansystemDK... 3 Sammenhæng mellem Tingbogen og PlansystemDK... 3 Datastruktur...

Læs mere

isearch Testsamling til evaluering af integreret søgning

isearch Testsamling til evaluering af integreret søgning isearch Testsamling til evaluering af integreret søgning Marianne Lykke, Peter Ingwersen, Birger Larsen, Haakon Lund og Toine Bogers DEFF projekt 2008-2009 Dagens emner Projektets formål og problemstilling

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Vejledning til Excel-ark til Kappaberegning

Vejledning til Excel-ark til Kappaberegning Vejledning til Excel-ark til Kappaberegning Jan Ivanouw 16. december 2008 Om interraterreliabilitet og Kappaberegning Formålet med Kappaberegning er at vurdere hvor god overensstemmelse der er mellem to

Læs mere

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje. Maple Dette kapitel giver en kort introduktion til hvordan Maple 12 kan benyttes til at løse mange af de opgaver, som man bliver mødt med i matematiktimerne på HHX. Skærmbilledet Vi starter med at se lidt

Læs mere

Vælg Cinahl Headings (fra øverste blå linie). Hvis vi f.eks. søger på hypothermia:

Vælg Cinahl Headings (fra øverste blå linie). Hvis vi f.eks. søger på hypothermia: Cinahl Quick Guide (Cumulative Index to Nursing and Allied Health Literature) er en amerikansk bibliografisk database. Basen dækker især syge- og sundhedspleje samt beslægtede discipliner som fysioterapi,

Læs mere

EDB - Internet. Søgning på Internettet. Hjælp til at søge. Søg med Google

EDB - Internet. Søgning på Internettet. Hjælp til at søge. Søg med Google Søgning på Internettet Der findes mange muligheder for at søge informationer på internettet. En af de hurtige muligheder er via www.google.dk, hvis startside du ser herover. Hjælp til at søge Vælg Alt

Læs mere

Emneopgave: Lineær- og kvadratisk programmering:

Emneopgave: Lineær- og kvadratisk programmering: Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering

Læs mere

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare.

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare. Web of Science Udgiver: Thomson Reuters Type: Bibliografisk database / henvisning til artikler Indhold og omfang Tværvidenskabelig database med repræsentation af over 12.000 peer-reviewed videnskabelige

Læs mere

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater PubMed Vejledning Vælg PubMed fra Fagbibliotekets hjemmeside. Så får du samtidig adgang til mange artikler i fuldtekst. Udenfor hospitalets netværk skal du gå ind via fjernadgang til DEFF. (www.tidsskrifter.deff.dk

Læs mere

Kursusgang 3 Matrixalgebra fortsat

Kursusgang 3 Matrixalgebra fortsat Kursusgang 3 fortsat - froberg@math.aau.dk http://people.math.aau.dk/ froberg/oecon3 Institut for Matematiske Fag Aalborg Universitet 12. september 2008 1/31 Nødvendige betingelser En nødvendig betingelse

Læs mere

Internetsøgemaskiner. Gerth Stølting Brodal Datalogisk Institut Aarhus Universitet

Internetsøgemaskiner. Gerth Stølting Brodal Datalogisk Institut Aarhus Universitet Internetsøgemaskiner Gerth Stølting Brodal Datalogisk Institut Aarhus Universitet 1 Internettet Meget stor mængde ustruktureret information Hvordan finder man relevant info? Søgemaskiner! 94: Lycos,...

Læs mere

Retningslinjer for bedømmelsen. Georg Mohr-Konkurrencen 2010 2. runde

Retningslinjer for bedømmelsen. Georg Mohr-Konkurrencen 2010 2. runde Retningslinjer for bedømmelsen. Georg Mohr-Konkurrencen 2010 2. runde Det som skal vurderes i bedømmelsen af en besvarelse, er om deltageren har formået at analysere problemstillingen, kombinere de givne

Læs mere

Hvor er mine runde hjørner?

Hvor er mine runde hjørner? Hvor er mine runde hjørner? Ofte møder vi fortvivlelse blandt kunder, når de ser deres nye flotte site i deres browser og indser, at det ser anderledes ud, i forhold til det design, de godkendte i starten

Læs mere

π can never be expressed in numbers. William Jones og John Machins algoritme til beregning af π

π can never be expressed in numbers. William Jones og John Machins algoritme til beregning af π can never be expressed in numbers. William Jones og John Machins algoritme til beregning af. Oprindelsen til symbolet Første gang vi møder symbolet som betegnelse for forholdet mellem en cirkels omkreds

Læs mere

CINAHL er en forkortelse for Cumulative Index to Nursing and Allied Health Literature.

CINAHL er en forkortelse for Cumulative Index to Nursing and Allied Health Literature. 0 Indhold 1) Basens indhold... 1 2) Adgang til basen... 1 3) Sign In / My EBSCOhost... 2 4) Søgemetoder... 3 4.a Fritekstsøgning... 3 4. b Begrænsning / afgrænsning... 4 4.c Er der adgang til artiklens

Læs mere

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater PubMed Vejledning Vælg PubMed fra fagbibliotekets hjemmeside. Så får du samtidig adgang til mange artikler i fuldtekst. Udenfor hospitalets netværk skal du gå ind via fjernadgang til DEFF: Ansatte på Hospitalsenhed

Læs mere

Funktionsterminologi

Funktionsterminologi Funktionsterminologi Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

xgalleri Mulige filtyper Installation web-version

xgalleri Mulige filtyper Installation web-version xgalleri xgalleri opstod ud fra ønsket om at lægge en større samling billeder på nettet. Der findes mange programmer, som kan bruges til at lægge datafiler på nettet; men de fungerer typisk på den måde,

Læs mere

Besvarelser til Calculus og Lineær Algebra Globale Forretningssystemer Eksamen - 3. Juni 2014

Besvarelser til Calculus og Lineær Algebra Globale Forretningssystemer Eksamen - 3. Juni 2014 Besvarelser til Calculus og Lineær Algebra Globale Forretningssystemer Eksamen - 3. Juni 204 Mikkel Findinge Bemærk, at der kan være sneget sig fejl ind. Kontakt mig endelig, hvis du skulle falde over

Læs mere

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,

Læs mere

Velkommen til REX onlinehjælp

Velkommen til REX onlinehjælp Velkommen til REX onlinehjælp I REX onlinehjælp kan du finde information om følgende emner: Indhold Velkommen til REX onlinehjælp... 1 Søgning... 3 Hvordan kan du bruge søgefeltet i enkel søgning?... 3

Læs mere

Vejledning for metadatabasen

Vejledning for metadatabasen Vejledning for metadatabasen Version 1.0, d. 20. juni 2011 Indholdsfortegnelse INDLEDNING... 3 LOG IND... 4 ABONNERE PÅ RETTELSER OG ÆNDRINGER I DATASÆT VIA GEORSS... 4 SØGNING EFTER METADATA I METADATABASEN...

Læs mere

Algebra - Teori og problemløsning

Algebra - Teori og problemløsning Algebra - Teori og problemløsning, januar 05, Kirsten Rosenkilde. Algebra - Teori og problemløsning Kapitel -3 giver en grundlæggende introduktion til at omskrive udtryk, faktorisere og løse ligningssystemer.

Læs mere

Projekt DATA step view

Projekt DATA step view Projekt DATA step view Af Louise Beuchert Formål Formålet med dette projekt, er at sammenligne tid/ressourcekonsekvenser ved at køre SASjobs på data hentet som henholdsvis en fysisk kopi af data filen

Læs mere

Web of Science Core Collection

Web of Science Core Collection Dato: 29. juni 2016 Ref.: Randi Juul Nørskov Web of Science Core Collection Udgiver: Thomson Reuters Type: Bibliografisk database / henvisning til artikler Indhold og omfang Tværvidenskabelig database

Læs mere

Boolsk algebra For IT studerende

Boolsk algebra For IT studerende Boolsk algebra For IT studerende Henrik Kressner Indholdsfortegnelse 1 Indledning...2 2 Logiske kredsløb...3 Eksempel:...3 Operatorer...4 NOT operatoren...4 AND operatoren...5 OR operatoren...6 XOR operatoren...7

Læs mere

SEO. en digital værktøjskasse for begyndere og øvede

SEO. en digital værktøjskasse for begyndere og øvede SEO en digital værktøjskasse for begyndere og øvede 1 Indholdsfortegnelse Hvad er SEO? 3 Stryg til tops i søgning og salg 4 Trends og stats om SEO 5 Best practices for SEO 6 4 gode råd til indhold 10 Linkbuilding

Læs mere

Vejledning til CINAHL Plus with Full Text

Vejledning til CINAHL Plus with Full Text Vejledning til CINAHL Plus with Full Text Vibeke Witt, Professionshøjskolen Metropol, 2013 Revideret af: Ester Hørmann, Professionshøjskolen Metropol, september 2015 Indholdsfortegnelse Databasens indhold...

Læs mere

Indhold. Side 1 af 6. Internet Explorer 7 Internet Explorer 7

Indhold. Side 1 af 6. Internet Explorer 7 Internet Explorer 7 Internet Explorer 7 Side 1 af 6 Indhold Internet Explorer 7...1 Indhold...1 Nye ting i Internet Explorer 7...2 Nyt udseende...2 Faneblade...2 Nemmere søgning...3 Nemme nyheder...3 Bedre sikkerhed...5 Understøttelse

Læs mere

13.1 Matrixpotenser og den spektrale radius

13.1 Matrixpotenser og den spektrale radius SEKTION 3 MATRIXPOTENSER OG DEN SPEKTRALE RADIUS 3 Matrixpotenser og den spektrale radius Cayley-Hamilton-sætningen kan anvendes til at beregne matrixpotenser: Proposition 3 (Lasalles algoritme) Lad A

Læs mere

Du kan først gemme artiklen, når du har udfyldt de obligatoriske felter, som er markeret med *.

Du kan først gemme artiklen, når du har udfyldt de obligatoriske felter, som er markeret med *. Opret en Artikel Multisite + kk.dk: Artikel Version: 1 Artiklen er en primær indholdstype, som bruges til indhold med lang holdbarhed. Altså indhold som ikke skal skiftes ud særligt ofte. Artiklen bruges

Læs mere

Kom i gang med Scopus

Kom i gang med Scopus Scopus er en allround base, der giver henvisninger til områder indenfor naturvidenskab, medicin, teknik, samfundsvidenskab, kunst og humaniora. Der henvises til mere end 22.000 peer-reviewed tidsskrifter

Læs mere

Almen studieforberedelse. - Synopsiseksamen 2015

Almen studieforberedelse. - Synopsiseksamen 2015 Almen studieforberedelse - Synopsiseksamen 2015 - En vejledning Thisted Gymnasium - stx og hf Ringvej 32, 7700 Thisted www.thisted-gymnasium.dk post@thisted-gymnasium.dk tlf. 97923488 - fax 97911352 REGLERNE

Læs mere

Københavns Kommune. SEO-Guide

Københavns Kommune. SEO-Guide Københavns Kommune SEO-Guide Indhold Kort intro til SEO... 4 SEO handler om undersider... 4 Det betyder noget: Søgeord, sidens relevans og links... 4 Relevant indhold... 4 Linkbuilding... 5 Google suggestions

Læs mere

Guide til din computer

Guide til din computer Guide til din computer Computerens anatomi forklaret på et nemt niveau Produkt fremstillet af Nicolas Corydon Petersen, & fra Roskilde Tekniske Gymnasium, kommunikation & IT, år 2014 klasse 1.2 12-03-2014.

Læs mere

Velkommen til 3. omgang af IT for let øvede

Velkommen til 3. omgang af IT for let øvede Velkommen til 3. omgang af IT for let øvede I dag Hjemmeopgave 2 NemId, E-boks, borger.dk Internet Hjemmeopgave 2 I har vel læst Komputer for Alles modul 27 om filer og mapper? Internet Kablede forbindelser

Læs mere

Fraktaler. Mandelbrots Mængde. Foredragsnoter. Af Jonas Lindstrøm Jensen. Institut For Matematiske Fag Århus Universitet

Fraktaler. Mandelbrots Mængde. Foredragsnoter. Af Jonas Lindstrøm Jensen. Institut For Matematiske Fag Århus Universitet Fraktaler Mandelbrots Mængde Foredragsnoter Af Jonas Lindstrøm Jensen Institut For Matematiske Fag Århus Universitet Indhold Indhold 1 1 Komplekse tal 3 1.1 Definition.......................................

Læs mere

Indhold Basen dækker sygepleje(videnskab), samt til en vis grad ergoterapi, fysioterapi, diætetik, radiografi, audiologi, rehabilitering

Indhold Basen dækker sygepleje(videnskab), samt til en vis grad ergoterapi, fysioterapi, diætetik, radiografi, audiologi, rehabilitering CINAHL Plus Udgiver Cinahl Information Systems, California Indhold Basen dækker sygepleje(videnskab), samt til en vis grad ergoterapi, fysioterapi, diætetik, radiografi, audiologi, rehabilitering Omfang

Læs mere

Tip til 1. runde af Georg Mohr-Konkurrencen Algebra

Tip til 1. runde af Georg Mohr-Konkurrencen Algebra Tip til. runde af - Algebra, Kirsten Rosenkilde. Tip til. runde af Algebra Her præsenteres idéer til hvordan man løser algebraopgaver. Det er ikke en særlig teoretisk indføring, men der er i stedet fokus

Læs mere

Selvstudium 1, Diskret matematik

Selvstudium 1, Diskret matematik Selvstudium 1, Diskret matematik Matematik på første studieår for de tekniske og naturvidenskabelige uddannelser Aalborg Universitet I dette selfstudium interesserer vi os alene for tidskompleksitet. Kompleksitet

Læs mere

Opgaver hørende til undervisningsmateriale om Herons formel

Opgaver hørende til undervisningsmateriale om Herons formel Opgaver hørende til undervisningsmateriale om Herons formel 20. juni 2016 I Herons formel (Danielsen og Sørensen, 2016) er stillet en række opgaver, som her gengives. Referencer Danielsen, Kristian og

Læs mere

Hvordan søger du i LARM.fm?

Hvordan søger du i LARM.fm? Hvordan søger du i LARM.fm? Før vi beskriver, hvordan du søger og arbejder i LARM.fm, vil vi først introducere, hvordan LARM.fm brugerinterfacet ser ud. I øverste venstre hjørne findes søgefeltet og nedenunder

Læs mere

Embase Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet.

Embase Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet. Embase Vejledning Embase dækker biomedicin, farmakologi, toksikologi og farmaci. Har en fin dækning af europæiske tidsskrifter samt en omfattende indeksering af lægemidler. I Embase indekseres publicerede

Læs mere