OPTIMERING AF INTEGRERET SØGNING -

Størrelse: px
Starte visningen fra side:

Download "OPTIMERING AF INTEGRERET SØGNING -"

Transkript

1 IVA, FORÅRET 2011, BACHELOR- PROJEKT OPTIMERING AF INTEGRERET SØGNING - EKSPERIMENTER MED DOKUMENTTYPEVÆGTNING OG FUSION Vejleder: lektor Birger Larsen Antal ord: ca Skrevet af Diana Ransgaard Sørensen

2 Abstract in English Integrated search in test collections result in different challenges. Identical for all these is to get the system to deliver the most relevant search results compared to a query. This lab experiments explores the impact of weighting on three different types of documents in order to optimize the search engine's starting point. The test collection isearch is used for the purpose and the research questions are: (i) Are full-text articles more easily retrieved in an integrated search? (ii) Can the use of weighted document types optimize the baseline? (ii) Can data fusion further improve search engine performance? Mean average precision (MAP) and normalized discounted cumulative gain (ndcg) is used as evaluation methods. Result shows that different weighting of the individual document types improves search engine performance. Abstrakt på dansk Integreret søgning i testsamlinger medfører forskellige udfordringer. Ens for disse er at få systemet til at levere det mest relevante søgeresultat i forhold til en forespørgsel. Denne opgave undersøger eksperimenter med vægtning af tre forskellige dokumenttyper med henblik på at optimere søgemaskinens udgangspunkt. Testsamlingen isearch bruges til formålet, og forskningsspørgsmålene er: (i) Bliver fuldtekstartikler lettere genfundet i en integreret søgning? (ii) Kan anvendelsen af vægtede dokumenttyper optimere baseline? (ii) Kan datafusion anvendes til en yderligere forbedring af søgemaskinens ydeevne? Mean average precision (MAP) og normalized discounted cumulative gain (ndcg) bruges som evalueringsmetoder. Resultatet viser, at forskellig vægtning af de enkelte dokumenttyper forbedrer søgemaskine ydeevne. 2

3 Indholdsfortegnelse Figurer... 6 Tabeller Introduktion Forskningsdesign Den system-drevne tilgang Testsamlingen Forskningsspørgsmål Metode Indeksering Retrieval-model Valg af keyword-based quering Smoothing Vægtede dokumenttyper Datafusion Normalisering CombSUM datafusion Evalueringsmetoder Recall og precision MAP ndcg Analyse af eksperimentelle resultater Out of the box Testrun 1. Testrun (default) med de tre smoothing-teknikker: dir, jm og two (MAP/nDCG) Baseline Testrun 2. Baseline run med tuning af de tre smoothing-teknikker: dir, jm og two (MAP/nDCG) Testrun 3. Baseline run med individuelle qrels (MAP) Testrun 4. Baseline run med individuelle qrels (ndcg) Vægtede dokumenttyper Fibonacci-talrækken Testrun 5. Anvendelse af vægtede dokumenttyper med qrelsall (MAP) Testrun 6. Anvendelse af vægtede dokumenttyper med qrelsall (ndcg) Testrun 7. Anvendelse af vægtede dokumenttyper med qrelsbk (MAP/nDCG) Testrun 8. Anvendelse af vægtede dokumenttyper med qrelspf (MAP)

4 4.3.5 Testrun 9. Anvendelse af vægtede dokumenttyper med qrelspf (ndcg) Testrun 10. Anvendelse af vægtede dokumenttyper med qrelspn (MAP) Testrun 11. Anvendelse af vægtede dokumenttyper med qrelspn (ndcg) Vægtede dokumenttyper Fibonacci-talrækken proportionel Testrun 12. Anvendelse af proportionelt vægtede dokumenttyper med qrelsall (MAP/nDCG) Individuelle configure og individuelle qrels Testrun 13. Testrun med tuning af dir, jm og two med configbk og qrelsbk (MAP) Testrun 14. Testrun med tuning af dir, jm og two med configpf og qrelspf (MAP) Testrun 15. Testrun med tuning af dir, jm og two med configpn og qrelspn (MAP) Fusion score normalization - fusion method: Weighted CombSum Fibonacci-talrækken Testrun 16. Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall- (MAP) Testrun 17. Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall- (ndcg) Opsummering Diskussion Konklusion Acknowledgment Referencer Bilag Baseline Baseline run med de tre smoothing-teknikker: dir, jm og two (MAP) - confiqall og qrelsall Baseline run med de tre smoothing-teknikker: dir, jm og two (ndcg) - confiqall og qrelsall Testrun af baseline med individuelle qrels (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelsbk (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspf (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspn (MAP) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelsbk (ndcg) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspf (ndcg) Testrun af baseline two-stage med =0,5 og µ =500 med configall og qrelspn (ndcg) Vægtede dokumenttyper Fibonacci-talrækken Testrun med vægtede dokumenttyper med configall og qrelsall (MAP/nDCG) Testrun med vægtede dokumenttyper med configall og qrelsbk (MAP/nDCG) Testrun med vægtede dokumenttyper med configall og qrelspf (MAP/nDCG)

5 9.3.4 Testrun med vægtede dokumenttyper med configall og qrelspn (MAP/nDCG) Vægtede dokumenttyper Fibonacci-talrækken proportionel Testrun med proportionelt vægtede dokumenttyper med configall og qrelsall (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelsbk (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelspf (MAP/nDCG) Testrun med proportionelt vægtede dokumenttyper med configall og qrelspn (MAP/nDCG) Individuelle configure og individuelle qrels Testrun med tuning af dir, jm og two med configbk og qrelsbk (MAP) Testrun med tuning af dir, jm og two med configpf og qrelspf (MAP) Testrun med tuning af dir, jm og two med configpn og qrelspn (MAP) Fused normalization - fusion method: CombSUM best results Testrun med fusion af de tre bedste individuelle resultater fra BK, PF og PN - (MAP) Testrun med fusion af de tre bedste individuelle resultater fra BK, PF og PN (ndcg) Fused weighted score normalization fusion method: Weighted CombSUM Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsall - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelsbk - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelspf - (MAP/nDCG) Testrun med fusion vægtning efter Fibonacci-talrækken - qrelspn - (MAP/nDCG)

6 Figurer Figur 1: En eksempelvisning fra isearch (terminalvinduet) af de 65 informationsbehov udtrykt ved hjælp af kategorien keywords (E) Figur 2: Systematisk tilgang af logikken i Fibonacci-talrækken (ikke fuldendt). De forskellige dokumenttyper er: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Ex betyder, at BK vægtes 21 gange mere end PF og PN. Der testes alle kombinationer af Fibonacci-talrækken op til Figur 3 Datafusion af de tre bedste resultater fra de forskellige dokumenttyper (BK, PF, PN)...19 Figur 4: Eksempelvisning af en R-P graf...22 Figur 5: Graf over de bedste resultater fra de IR-modellerne...38 Figur 6: Baseline: two-stage med lambda=0,5 og mu= Figur 7: Sammenligning af de forskellige hovedtyper...38 Figur 8: Forskellige Fibonacci-runs...38 Figur 9: De bedste Fibonacci-resultater...38 Figur 10: De bedste fusion-resultater...38 Tabeller Tabel 1: et testrun (det bedste run) uden tuning af de enkelte dokumenttyper. Default-værdierne er Dirichlet smoothing med mu=2500, Jelinek-Mercer smoothing med lambda=0,4 og Two-stage smoothing med lambda=0,4 og mu=2500. Der bliver evalueret med qrelsall. Testrun 1 anvendes til at se, hvorledes systemet præsterer uden indblanding samt har til formål at være det resultat, som de resterende testruns har til hensigt at forbedre Tabel 2: et baseline run (the best single run) med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configall og qrelsall. Formålet er, at se om systemets egen ydeevne, testrun 1, kan forbedres vha. af tuning Tabel 3: en testkørsel af baseline run med individuelle qrels (qrelsbk, qrelspf og qrelspn) for at se, hvorledes de enkelte dokumenttyper klarer sig i forhold til baselinen i tabel 2. Resultatet er evalueret med MAP. Kun Two-stage smoothing er valgt, eftersom den præsterer bedst ved tuning af baseline Tabel 4: en testkørsel af baseline run med individuelle qrels (qrelsbk, qrelspf og qrelspn) for at se, hvorledes de enkelte dokumenttyper klarer sig i forhold til baselinen i tabel 2. Resultatet er evalueret med ndcg. Kun Two-stage smoothing er valgt, eftersom den præsterer bedst ved tuning af baseline Tabel 5: et testrun, der anvender vægtede dokumenttyper, hvilket betyder at hver enkelt dokumenttype tillægges en vægt (en prioritet). Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP Tabel 6: et testrun, der anvender vægtede dokumenttyper, hvilket betyder at hver enkelt dokumenttype tillægges en vægt (en prioritet). Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med ndcg Tabel 7: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsbk for at se specifikt effekten af vægtning af BK i forhold til PF og PN. Resultatet er evalueret med MAP og ndcg

7 Tabel 8: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspf for at se specifikt effekten af vægtning af PF i forhold til BK og PN. Resultatet er evalueret med MAP Tabel 9: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspf for at se specifikt effekten af vægtning af PF i forhold til BK og PN. Resultatet er evalueret med ndcg Tabel 10: et testruns, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspn for at se specifikt effekten af vægtning af PN i forhold til BK og PF. Resultatet er evalueret med MAP Tabel 11: et testrun, der anvender vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelspn for at se specifikt effekten af vægtning af PN i forhold til BK og PF. Resultatet er evalueret med ndcg Tabel 12: et testrun, der er vægtet proportionelt til hver enkelt dokumenttypes størrelse. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP og ndcg Tabel 13: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configbk og qrelsbk. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 14: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configpf og qrelspf. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 15: et testrun med Dirichlet smoothing med µ =[0-5000], Jelinek-Mercer smoothing med =[0,1-0,9] og Two-stage smoothing med =[0,1-0,9] og µ =[0-5000]. Der bliver anvendt configpn og qrelspn. Formålet er at finde det bedste resultat, som skal anvendes til videre datafusion. Resultatet er evalueret med MAP Tabel 16: et testrun baseret på fusion af de tre bedste individuelle resultater fra de individuelle config samt individuelle qrels af baseline. Der benyttes score normalization samt datafusionsteknikken CombSUM. Efter fusioneringen bruges der vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonaccitalrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med MAP Tabel 17: et testrun baseret på fusion af de tre bedste individuelle resultater fra de individuelle config. Samt individuelle qrels af baseline. Der benyttes score normalization samt datafusionsteknikken CombSUM. Efter fusioneringen bruges der vægtede dokumenttyper. Vægtningen er foretaget systematisk efter Fibonacci-talrækken. Der er anvendt confiqall og qrelsall for at se den samlede effekt. Resultatet er evalueret med ndcg Tabel 18: Samlet oversigt over de generelt bedste evalueringsresultater evalueret med MAP og ndcg

8 1. Introduktion Ifølge Ingwersen & Järvelin er definitionen af information retrieval (IR): The processes involved in representation, storage, searching, finding, filtering and presentation of potential information perceived relevant to a requirement of information desired by a human user in context [6, s.21]. En uddybende kommentar til denne definition er, at IR er en kunst og en videnskab, der omhandler søgning af information i dokumenter, søgning efter metadata, der beskriver dokumenter eller søgning i databaser efter tekst, lyd eller billeder. Kort beskrevet er IR, studiet der omhandler systemer (til indeksering), søgning og genfinding af data. Mængden af information stiger og stiger, og digitale biblioteker giver adgang til stadig større og mere forskelligartede informationskilder. Dette resulterer i et behov for at evaluere integreret søgning (integrated search), der dækker forskellige dokumenttyper og forskellige niveauer af metadata [1]. Integreret søgning er kort beskrevet søgning på tværs af mange forskellige datakilder. Formålet er at præsentere brugeren for et enkelt rangeret søgeresultat uanset dokumenttypen. Et andet begreb som bliver anvendt i denne sammenhæng er federated search. Federated searching indebærer søgning af forskellige ressourcer, og for hver ressource dannes en liste af resultater. Integreret søgning præsenterer derimod de fundne dokumenter (eller/og bibliografiske poster) fra forskellige ressourcer i en rangeret liste sorteret efter relevans. Integrering af dokumenter, hvad enten i form af fuldtekst eller poster, vanskeliggøres af forskelle i metadata, formater, domæner og kvalitet af data imellem de involverede samlinger. For at evaluere integreret søgnings mange udfordringer anvendes en testsamling med forskellige dokumenttyper og graduerede relevansvurderinger. Evaluering af dette område er ikke så ligetil, eftersom der findes få testsamlinger med tilstrækkelige dokumenttyper og relevansvurderinger 1. Til dette formål har Lykke, Larsen, Lund & Ingwersen udviklet en integreret testsamling (isearch) til evaluering af integreret søgning [2]. Nogle af de væsentlige udfordringer i evaluering af IR-systemer er, at alle dokumenter er potentielt lige relevante og ved at behandle de forskellige dokumenttyper ens under indekseringen, kan dette resultere i, at nogle dokumenttyper er mere fremtrædende end andre. Testsamlingen isearch består af forskellige dokumenttyper og en nyere artikel viser, at genfinding af bøger beskrevet udelukkende ved hjælp af metadata er svære at genfinde [3]. Dette skyldes, at bøgerne ikke kan fremfindes i fuldtekst, eftersom de er beskyttet af copyrightregler, samt nogle bøger er ikke tilgængelige elektronisk. Lioma, Larsen, Frommholz & Schuetze har undersøgt en tilgang til at forbedre genfinding af videnskabelige bogposter ved hjælp af vægtning af teknisk terminologi [3]. Evalueringen af de eksperimentelle resultater viste, at vægtning (tildele større betydning) af teknisk terminologi har en positiv effekt i forbindelse med genfinding, både ved søgning udelukkende i bogposter, men også ved søgning i heterogene samlinger bestående af bogposter, fuldtekstartikler, og metadataposter som beskriver artikler/dokumenter. I denne opgave undersøges problematikken med integreret søgning generelt. Det gælder om at finde den rigtige balance for at præsentere brugeren for et bearbejdet søgeresultat. Udgangspunktet er optimering af søgemaskinens ydeevne. Søgemaskinen kan selv levere et resultat uden nogen form for behandling, men kan ydeevnen forbedres? Er der mulighed for forbedring i form af flere højrelevante dokumenter præsenteret nærmere toppen af et søgeresultat? Med inspiration fra effekten af vægtning af termisk terminologi [3] vil der i denne opgavesammenhæng undersøges om vægtning af de enkelte dokumenttyper kan være med til at frembringe et bedre rangeret søgeresultat, der herefter kan vises til brugeren. Hypotesen er, at vægtes bogposterne betydeligt mere end fuldtekstartiklerne og metadataposterne, vil dette resultere i en generel forbedring af søgeresultatet. Endvidere undersøges effekten af datafusion, som 1 Indtil nu har en række evalueringer af IR-systemer, kaldet TREC, stået for udvikling af testsamlinger ( Testsamlingen iseach er forskellig fra TREC, fordi isearch omhandler videnskabelige artikler i modsætning til TREC. 8

9 kombinerer resultaterne fra flere dokumentrepræsentationer. Formålet med datafusion i IR er at vurdere mere præcist relevansen af alle fundne dokumenter for en given forespørgsel ved at fusionere fundne dokumenter fra forskellige dokumenttyper sammen til en enkelt liste. Teorien er, at ved at tage de bedste resultater fra hver dokumenttype, kan en datafusion af disse yderligere være med til at optimere udgangspunktet, dvs. maskinens egen ydeevne. Testsamlingen isearch er forholdsvis ny, og der er ganske få artikler omhandlende integreret søgning i denne [1] [2] [3] [4]. Forskningsspørgsmålene i denne opgave skal være med til at anskueliggøre undersøgelsen af dokumenttypevægtning og fusion i integreret søgning vha. testsamlingen isearch. Opgaven indeholder en kort beskrivelse af den system-drevne tilgang, der er den tradition, som testsamlingen isearch er bygget op omkring. En beskrivelse af de forskellige dele af testsamlingen følger derefter, her i blandt hvilke dokumenttyper som anvendes. Forskningsspørgsmålene, som hele opgaven er bygget op omkring, kommer inden selve metodeafsnittet, hvor de enkelte dele af processen er beskrevet med hver deres afsnit fra retrieval model til evalueringsmetoder. Formålet er at se om vægtning og fusion kan optimere systemets ydeevne. Begrebet vægtning referere til, at hver enkelt dokumenttype i testsamlingen kan tillægges en prioritet. Hensigten er, at se om forskellig vægtning af de enkelte dokumenttyper kan være med til at få systemet generelt til at præstere bedre. Dette måles ved de to evalueringsmetoder: mean average precision (MAP) og normalized discounted cumulative gain (ndcg). Jo højere MAP, jo bedre er systemet til at finde relevante dokumenter. Jo højere ndcg, jo bedre er systemet til at få højrelevante dokumenter i toppen af søgeresultatet. Disse to evalueringsmetoder beskrives afslutningsvis i metodeafsnittet. Rent formelt er alle test udført i et terminalvindue i Ubunto, som er et Linux-baseret operativsystem, uden nogen form for grafisk overflade 2. Hele processen er lavet uden foregående viden. Der anvendes engelske termer i opgaven. Den danske litteratur omkring IR-systemer og integreret søgning er næsten ikke eksisterende, og derfor giver det mening at anvende de engelske termer, som i forvejen anvendes, når IR og integreret søgning bliver diskuteret på dansk grund. 2 Forsidebilledet er et screenshot fra terminalvinduet, hvor alle test blev udført. 9

10 2. Forskningsdesign 2.1 Den system-drevne tilgang Indenfor IR findes der tre fremgangsmåder omhandlende systemevaluering: the system-driven approach, the user-oriented approach og the cognitive IR approach [5]. Denne opgave har alene fokus på den systemdrevne tilgang, hvilket både har fordele og ulemper. Ikke overraskende er det centrale i denne fremgangsmåde systemet. Fordelen ved den system-drevne tilgang er den eksperimentelle kontrol: Variabler er kontrollerbare og det endelige resultatet leder frem til konklusioner omkring ydeevnen og effektiviteten af et system. Informationsbehovet er, set fra denne synsvinkel, statisk. Det vil kort sige, at enten matcher dokumentet det foreskrevne statiske informationsbehov i forhold til nogle relevansvurderinger, eller også matcher dokumentet ikke. Begrænsningen er, at individers informationsbehov er divergerende. Selvom to forskellige brugere anvender de samme søgetermer, er dette ikke ensbetydende med, at de leder efter det samme dokument. En anden vinkel er, at informationsbehovet muligvis ændrer sig under en søgning. De ovenstående faktorer, og andre real-life forhold, er en del af den bruger-orienterede tilgang. Der er ingen eksperimentel kontrol, men i stedet er ord som subjektivitet og realistiske forhold mere beskrivende. Bruger-orientering kan være kompleks, eftersom informationsbehov kan redefineres, men samtidig er dette også styrken. Ved den system-drevne tilgang er det ikke muligt at ændre i søgetermerne, hvis brugeren finder mere passende beskrivelser, men dette er muligt ved den bruger-orienterede tilgang. Her ses system og bruger som afhængige variabler. Kombinationen af den system-drevne tilgang og den bruger-orienterede tilgang er kort sagt den kognitive tilgang. Denne tilgang er bestemt af fortolkningen af en given situation eller et problem, der skal løses, under indflydelse af en brugers nuværende kognitive og følelsesmæssige tilstand, som igen er påvirket af den kulturelle og sociale kontekst, som brugeren befinder sig i [5]. Formålet i denne opgave er at observere, hvorledes et systems ydeevne præsterer under eksperimentel kontrol med foruddefinerede informationsbehov. Dette leder hen på den system-orienterede IR forskning, hvor formålet er at udvikle metoder til at identificere og rangere et antal af (emneinddelte) relevante dokumenter til præsentation givet en (emneorienteret) forespørgsel [6]. Valget er faldet på den systemdrevne tilgang, primært på baggrund af at integreret søgning er noget forholdsvis nyt, og derfor kræver en vis form for evaluering, inden det bliver præsenteret direkte for brugeren. I stedet for at se den systemdrevne tilgang og den bruger-orienterede som to uforenelige områder, skal de i stedet ses som en del af en helhed. Den bruger-orienterede tilgang er vigtig, når der skal valideres om søgeresultatet matcher brugerens forespørgsel/forventning, men inden man kan komme dertil, er det fornuftigt at evaluere selve søgealgoritmen. Dette foregår under den system-drevne tilgang, og i denne opgaves sammenhæng udføres der yderligere test for at se om algoritmen kan forbedres. Derefter er anbefalingen at præsentere søgeresultatet for brugerne under real-life forhold, hvor søgeprocessen kan ses som et samlet hele, hvor søgesituationen spiller en væsentlig rolle 3. En anden praktisk fordel ved at anvende den system-drevne tilgang er, at test i princippet kun kræver en testsamling og et terminalvindue, hvorimod ved den brugerorienterede tilgang behøves testpersoner, hvilket kræver frivillige deltagere eller økonomiske midler. Emnet i denne opgave er integreret søgning og i nedenstående afsnit beskrives testsamlingen isearch, der anvendes til det videre testforløb. 3 Det er dog rigtige brugere, der evaluerer testsamlingen isearch ved at inddele relevante dokumenter vha. graduerede relevansbedømmelser, men det er ikke muligt for brugeren at foretage ændringer i forhold til eksempelvis ændret søgeadfærd, eller andet der kunne ændre forespørgslen. 10

11 2.2 Testsamlingen Testsamlinger anvendes til evaluering af IR-systemer. Formålet ved en testsamling er at udføre både realistiske og kontrollerede testsøgninger. En testsamling, hvor der skal udføres eksperimenter med integreret søgning, skal som et minimum indeholde følgende elementer [1]: - En samling af forskellige dokumenttyper med forskellige dokumentrepræsentationer - Et sæt passende søgeopgaver fra brugere med rigtige informationsbehov (dette styrker realismen) - Relevansvurderinger med en tilfredsstillende mængde af relevante dokumenter for hver dokumenttype 4 Disse elementer (krav) overholder testsamlingen isearch, som er en testsamling til evaluering af integreret søgning. isearch er baseret på virkelige arbejdssituationer, rigtige informationsbehov, og ikke-binære relevansvurderinger [2]. Dokumenterne omhandler emnet fysik, og dette valg er truffet på baggrund af, at det videnskabelige domæne fysik er et realistisk tilfælde med langvarige traditioner for selvstændig arkivering af publikationer i frit tilgængelige arkiver og informationsdeling mellem videnskabelige og faglige miljøer [7]. En af de største webportaler som indeholder frit tilgængelige fysikdokumenter er portalen arxiv.org 5. isearch består af fuldtekstartikler og metadataposter indsamlet fra arxiv.org, samt engelske bogposter fra danske digitale biblioteker. isearch indeholder følgende dokumenttyper 6 : 18,441 bogposter, med emnet fysik. Gennemsnit (antal ord): 189 uden abstracts fuldtekstartikler (i PDF-format), inkluderende separate metadata. Gennemsnit (antal ord): metadataposter, inkluderende abstrakts for de fleste dokumenter. Gennemsnit (antal ord): 272. Der er blevet indsamlet 65 reelle søgeopgaver, som stammer fra 23 fysikere fra tre forskellige universiteter, 12 fra Københavns Universitet (KU), 32 fra DTU, og 21 fra Aalborg Universitet. Fire opgaver kommer fra to seniorforskere, 25 opgaver fra 8 ph.d.-studerende, og 36 opgaver fra 13 erfarne specialestuderende [1]. Søgeopgaverne indeholder fem kategorier, som besvares: A) Hvad leder du efter? B) Hvorfor leder du efter det? C) Hvad er din baggrundsviden indenfor det område, du søger på? D) Hvad skal det ideelle svar indeholde for at løse problemet eller opgaven? E) Hvilke centrale søgetermer vil du anvende for at udtrykke din situation og dit informationsbehov? Følgende er relevansvurderinger foretaget efter at have hentet topresultater for hvert emne på tværs af en række forskellige søgemaskiner. Der er fjernet dubletter, og vurdering af et dokuments relevans estimeres af den person, som originalt skabte emnet i forhold til isearch. Den mest udbredte relevansvurdering er i binær form, men relevansvurderinger kan også ske ved hjælp af en gradueret relevansskala, hvilket vinder større og større udbredelse, eftersom graden af vurderingerne kan udtrykkes vha. flere værdier [8]. I testsamlingen isearch blev det enkelte søgeresultat beskrevet med graduerede relevansvurderinger med en relevansskala bestående af fire niveauer af relevant: highly (højrelevant), fairly (temmelig relevant), marginally (marginal relevant) og non-relevant (ikke relevant). Som nævnt blev der hentet relevansvurderinger for hver dokumenttype, og disse fremtræder i testsamlingen 4 Graduerede relevansvurderinger er en fordel, dog ikke et krav Disse tal varierer en smule fra de originale tal i artiklen: Developing a Test Collection for the Evaluation of Integrated Search af Marianne Lykke, Birger Larsen, Haakon Lund og Peter Ingwersen [9]. Denne inkonsistens skyldes, at en del fuldtekstartikler ikke kunne konverteres til det rigtige format. I stedet er der kun metadata fra de fuldtekstartikler, som ikke kunne konverteres. Dvs. det antal fuldtekstartikler der mangler, i forhold til de originale tal, hvilket er ca dokumenter, er i stedet lagt til antallet af metadataposter, som derved antalsmæssigt er steget. 11

12 enten individuelt (for hver dokumenttype) eller samlet (alle tre dokumenttyper). De kaldes qrels og betyder oversat til dansk relevansvurderingsfiler. Relevansvurderingerne blev hentet så proportional til samlingens distribution som muligt. På den måde skulle længere fuldtekstartikler ikke blive overrepræsenteret, hvilket var en mulighed, eftersom der er mere at tekst at søge i en fuldtekstartikel frem for en metadatapost. Dette lykkedes dog ikke helt efter hensigten, da der i mange situationer ikke var nok bog- og metadataposter tilgængelige, hvilket resulterede i en større mængde af fuldtekstartikler [2]. Eftersom alle dokumenter potentielt er lige relevante, er det ikke ideelt, at fuldtekstartiklerne er nemmere at genfinde og højere rangeret, end dokumenter kun beskrevet med metadata. Dette leder frem til denne opgaves forskningsspørgsmål. 2.3 Forskningsspørgsmål Udgangspunktet er integreret søgning i isearch, og derfor besvares følgende spørgsmål på baggrund af eksperimenter udført i denne testsamling: 1. Bliver fuldtekstartikler lettere genfundet i en integreret søgning? 2. Kan anvendelsen af vægtede dokumenttyper optimere søgeresultatet i forhold til baseline? Hvis ja, hvad er de optimale indstillinger? 3. Kan datafusion, af de bedste resultater fra hver dokumenttype, anvendes til en yderligere forbedring af søgemaskinens ydeevne? Forskningsspørgsmålene bliver besvaret i forhold til kategori E 7, hvilket begrundes i metodeafsnittet nedenfor. 7 For yderligere information se afsnit

13 3. Metode I dette afsnit gennemgås de forskellige dele, der er med til at gøre integreret søgning mulig. Først præsenteres indekseringsprocessen, der har til formål at etablere søgeindgange til de forskellige typer af dokumenter. Herefter beskrives retrieval-modellen, som beregner sandsynligheden for, at et dokument er relevant. Dernæst en præsentation de forskellige parametre, i form af smoothing, vægtning af dokumenttyper samt datafusion. Afsnittet omkring smoothing er primært inspireret af Croft, Metzler & Strohman [9]. Smoothing er anvendeligt, når der gøres brug af flere dokumentrepræsentationer. Ved vægtning af de forskellige dokumenttyper er Fibonacci-talrækken anvendt for at have en systematisk fremgangsmåde. Datafusion anvendes til at forbedre effektiviteten (højere retrieval) ved at anvende flere dokumentrepræsentationer og kombinere resultaterne i forhold til at anvende en enkelt repræsentation. Til alle test er der anvendt søgetermer, som er keywords fra kategori E, hvilket er forårsaget af, at keywords fra denne kategori er kortest, og derved afspejler en rigtig søgesituation, hvor forespørgslerne generelt set er korte [10]. Til sidst beskrives de forskellige evalueringsmetoder, som gør det muligt at sammenligne forskellige resultater. 3.1 Indeksering Indeksering er processen, hvor der sammenholdes en eller flere søgetermer med hvert enkelt dokument i en samling. Et indeks er uundværligt for effektiv adgang til alle former for information [11]. Et indeks kan variere fra få termer bagerst i en bog til en komplet liste over alle ord i en samling. Det sidste er tilfældet med isearch, og indekseringsstrategien er i denne sammenhæng automatisk indeksering, hvor formålet er at etablere søgeindgange til de forskellige typer af dokumenter. Til indekseringsprocessen anvendes Indri 8, som er en søgemaskine fra Lemur-projektet 9, hvilket er et samarbejde mellem University of Massachusetts og Carnegie Mellon University om at bygge IR-værktøjer. Valget er faldet på Indri, eftersom det er open source og kan håndtere store testsamlinger, der kan bestå af forskellige dataformater. Endvidere er der mulighed for at vægte termer 10, hvilket kan være med til at fremhæve de enkelte dokumenttyper. I indekseringsprocessen fjernes der ikke stopord og ingen tilføjelse af stemming. Begrundelsen for dette valg er, at en domænespecifik stopordsliste eller stemmer ikke er tilgængelig samtidig med, at ydeevnen for baseline 11 er større, når man beholder stopord og ikke stemmer, fremfor ingen stopord og med stemming [1]. 3.2 Retrieval-model Den retrieval-model, som er implementeret i Indri, er en udvidet udgave af modellen beskrevet i Metzler & Croft [12], som kombinerer Ponte & Croft s language model (LM) [13] med Turtle & Croft s inferens netværkstilgang til IR [14]. Den resulterende model tillader strukturerede forespørgsler at blive evalueret ved brug af language modelling inden for netværket [15]. Begrebet LM bliver brugt indenfor området talegenkendelse, og begrebet henviser til en sandsynlighedsdistribution, der finder sandsynligheden for forekomsten af en streng (en række søgetermer) fra et givent vokabular. Den simpleste form for LM, kendt som unigram LM, er en sandsynlighedsfordeling over ord fra sproget [9]: P uni ( t1t 2t3t 4 ) P( t1) P( t 2 ) P( t3 ) P( t 4 ) 8 Version For yderligere information se afsnit Et baseline run er et run, som køres uden behandling af forespørgslerne, eksempelvis ved vægtning. 13

14 I en unigram LM er termer, der søges på, uafhængige. De har derfor ingen indvirkning på hinanden, og sandsynligheden for sekvensen af ord bliver produktet af sandsynlighederne for de enkelte termer. Dette betyder, at LM en knytter en sandsynlighed til forekomsten af hvert enkelt ord i indekset, dvs. i samlingen. Et dokument er en god match til en forespørgsel, hvis LM en generer forespørgslen, hvilket vil ske, hvis dokumentet indeholder søgetermen [16]. Alternativet er n-gram LM er. En n-gram LM forudsiger et ord på baggrund af de forrige n - 1 ord. De to mest kendte n-gram modeller er biagram (forudsigelsen er baseret på det forrige ord) og triagram (forudsigelsen er baseret på de to forrige ord) [9]. Sådanne modeller er afgørende for opgaver som talegenkendelse, stavekontrol og maskinoversættelse, hvor sandsynligheden for en term er betinget af den omgivende kontekst. Imidlertid er det meste LM-arbejde i IR baseret på unigram LM er *16]. IR er ikke det sted, hvor man umiddelbart har brug for komplekse modeller, da IR ikke direkte afhænger af strukturen af sætninger i det omfang, som eksempelvis talegenkendelse gør. Unigrammodeller er ofte nok til at bedømme emnet for en tekst [16]. Eftersom isearch udelukkende består af tekstbaserede dokumenttyper er valget faldet på anvendelse af unigram LM en. 3.3 Valg af keyword-based quering En forespørgsel kan være meget simpel i form af en enkelt term, men det kan også være en mere kompleks kombination af flere termer. Søgning på termer, også kaldet keywords, er en af de primære typer af søgemuligheder. Keywords karakteriserer et dokuments emne eller indhold. De er væsentlige, fordi de skal udfylde hullet mellem brugerens beskrivelse af informationsbehovet (deres forespørgsel) og beskrivelsen af et dokuments emnemæssige fokus, hvor informationsbehovet holdes op imod [17]. Keyword-based quering er populært fordi det er intuitivt, nemt at udtrykke og tillader hurtig rangering [18]. Resultatet af keywordbased quering er et sæt af dokumenter, som indeholder mindst et keyword ud fra forespørgslen. Desuden er de dokumenter som matcher forespørgslen rangeret i forhold til en grad af ligheden til forespørgslen. I forhold til forskningsspørgsmålene anvendes søgning på keywords, der optræder i kategori E 12 : Hvilke centrale søgetermer vil du anvende for at udtrykke din situation og dit informationsbehov? Et keyword er følgelig et ord, der er vigtigt i forhold til at specificere et forespørgsels emne. Nedenstående er et uddrag fra de 65 informationsbehov udtrykt ved hjælp af keywords. Figur 1: En eksempelvisning fra isearch (terminalvinduet) af de 65 informationsbehov udtrykt ved hjælp af kategorien keywords (E). <query> <number>001</number> <text> #combine( manipulation nano spheres peptides immobilisation ) </text> </query> <query> <number>009</number> <text> #combine( dielectric properties microfluidic cell dielectricphoresis ) </text> </query> Alternativt kunne der søges på de andre kategorier (A, B, C, D), men valget er faldet på søgning af kategori E. Dette er forårsaget af, at det er det mest realistiske valg ud fra den betragtning, at de fleste 12 For yderligere information se afsnit

15 søgemaskiner er designet på baggrund af keywords, og derfor er keywords det, som brugeren er bedst bekendt med til at anvende som søgetermer. En undersøgelse fra 1997 viser desuden, at søgning i forespørgsler (queries) på Internettet i gennemsnit kun er 2,8 ord lange [15]. Kategori E i isearch er det felt med den korteste længde af forespørgsel, hvilket er længere end gennemsnittet beskrevet ovenfor, og for ikke at komme længere væk fra en realistisk søgesituation, anvendes søgning efter forespørgsel udtrykt ved kategori E. Generelt er søgning i fysikdokumenter karakteriseret ved et højt kompleks fagligt behov, hvilket gør forespørgslerne lange. Den primære grund for valget er kategori E, er på baggrund af ovenstående, grundet i, at det er den kategori med den korteste forespørgsel. 3.4 Smoothing I LM-tilgangen til IR er dokumenter og forespørgsler repræsenteret som sandsynlighedsmodeller [13]. Typiske dokumenter er rangeret efter deres sandsynlighed for at genere forespørgslen. Dette er tilfældet for eksempelvis query likelihood retrieval modellen [16]. I query likelihood retrieval modellen rangeres dokumenter ud fra den ide, at en query (en forespørgsel) generes ved hjælp af dokument LM en *9]. Forklaret lidt mere specifikt udregnes sandsynligheden for, hvor stor chancen er for at trække det enkelte forespørgselsord ud af bunken af ord, der repræsenterer dokumentet. Modellen bygger på, at sandsynligheden for at genere forespørgslen er måleenheden for, at dokumentet emnemæssigt omhandler det samme emne som forespørgslen. Query likelihood modellen rangerer dokumenter ved hjælp af P(D Q). Ved at anvende Bayes regel kan dette udregnes ved p(d Q) rank P(Q D)P(D), hvor symbolet betyder, at højresiden af ligningen er lig med rangeringen på venstresiden af ligningen, P(D) er den primære sandsynlighed, og P(Q D) er sandsynligheden for forespørgslen i forhold til dokumentet (query likelihood). I de fleste tilfælde er P(D) den samme for alle dokumenter og vil derved ikke påvirke rangeringen. Begrænsningen ved denne måleenhed er, at hvis bare ét enkelt ord i forespørgselen mangler, vil P(D Q) være lig med nul. Denne begrænsning er ikke passende for længere forespørgsler. Mangler der eksempelvis et ud af seks ord i forespørgslen, skal der ideelt set ikke produceres en score på 0. Hvis dette er tilfældet, er der ikke mulighed for at skelne mellem dokumenter, som mangler et forskelligt antal af forespørgselsord. På baggrund af denne overvejelse og med baggrund i, at dokumenter søges frem vha. emnet, skal ord der associeres med emnet have en sandsynlighed for at optræde, selvom det ene individuelle ord ikke er nævnt i dokumentet [9]. Eksempel fra Croft, Metzler & Strohman [9]: En LM som repræsenterer et dokument omhandlende computerspil, bør have en sandsynlighed, der ikke ender med P(D Q) =0 for ordet RPG (role playing games), selvom ordet ikke direkte nævnes i dokumentet. Ved at give ordet RPG en lille sandsynlighed åbnes muligheden for at genfinde et dokument fra forespørgslen RPG computerspil. Dog skal det understreges, at sandsynligheden for at finde dette dokument stadig er lavere, end hvis begge termer optrådte i forespørgslen. Smoothing er en teknik til at undgå denne problemstilling og omhandler ligeledes problematikken gældende data sparsity, hvilket henviser til, at der typisk ikke foreligger store mængder af tekst (data) til beregning af den statistiske sandsynlighed. Dokumentsamlinger af en vis størrelse er ofte sparsomme, og selvom funktionelle ord som den og en forekommer i næsten alle dokumenter, vises de mange ord (de relevante) kun i en meget lille brøkdel af dokumenter [19]. Det er ofte tilfældet, at disse meget sjældne ord, såsom navne, er interessante at søge efter [20]. Smoothing kan beskrives som en tilgang, hvor man sænker (discount) sandsynlighedsestimaterne for ord, der findes i et dokument og tildeler resten af portionen af sandsynlighed til de ord, som ikke kan findes i dokumentet [9+. Fordelingen til usete ord er normalt baseret på frekvensen af forekomster af ord i hele dokumentsamlingen. Hvis P(q i C) er sandsynligheden for fordelinger af forespørgsler, i, i samlingens LM for dokumentsamlingen C, så er estimatet, som anvendes for usete ord i et dokument, D P( q i C), hvor D er koefficienten, som kontrollerer rank 15

16 sandsynligheden, der bliver tildelt til de usete ord. Generelt kan D afhænge af dokumentet. Eftersom sandsynlighedssummen er 1, udtrykkes sandsynlighedsestimatet for ord set i dokumentet: ( 1 ) P( q D) P( q C). Der kan opnås forskellige resultater ved at angive forskellige værdier af D i D i D. Det simpleste valg er at sætte D til en konstant, for eksempel D (lambda). Det sandsynlighedsestimat, der anvendes til ord, q i, med baggrund i samlingens LM, er c qi / C, hvor c qi er antallet af gange et ord fra en forespørgsel optræder i dokumentsamlingen, og C er det samlede antal af forekomster i hele testsamlingen. Denne form for smoothing kaldes Jelinek-Mercer og resulterer i følgende estimat for ( q D) : P i P( q i f q, D C D) (1 ) i q i (1) D C Efter indsættelse i query-likelihood modellen 13 : n f q, D C P( Q D) ((1 ) i q i ) i 1 D C (2) Små værdier af producerer mindre smoothing og konsekvensen af dette er, at forespørgslen virker mere som den boolske operator OG, eftersom fraværet af ethvert ord fra forespørgslen væsentligt straffer scoren. Som modvægt er den relative vægtning af ord, målt vha. maximum likelihood, vigtig i forhold til at afgøre scoren. Når nærmer sig 1 vil den relative vægtning betyde mindre og mindre, og forespørgslen optræder i stedet som den boolske operator ELLER 14. I TREC-evalueringer er det blevet vist, at værdier af omkring 0,1 fungerer godt for korte forespørgsler, hvorimod værdier omkring 0,7 er bedre for længere forespørgsler. En anden form for estimering er Dirichlet smoothing, som er baseret på en værdi af D, der afhænger af dokumentlængden: D µ D µ (3) μ (mu) er et parameter, hvis værdier sættes empirisk. Ved at sætte denne formel (3) for D ind i sandsynlighedsestimatet for ord set i dokumentet: ( 1 ) P( q D) P( q C) kommer man frem til en formel for sandsynligheden: cq f µ i q i D C P( q D) (4) i D µ D i D i 13 Yderligere kan logaritmefunktionen anvendes, hvis scoren skal laves om til en scorebaseret på rangering. 14 Sent i processen er følgende fejl fundet ved Jelinek-Mercer smoothing: 0,0 og 1,0 kan ikke anvendes, fordi ganges ind i formlen. Ganger man med 0, bliver hele formlen 0. Endvidere bruges, som 1-, hvilket giver i tilfældet med en på 1,0 giver følgende: 1-1,0=0. Igen kan 0 ikke ganges ind i formlen, da resultatet ville blive 0. skal ligge et sted mellem 0 og 1, og i denne opgave er der anvendt et interval på 0,1. Fejlen er rettet i bilagene, men ved grafisk fremstilling i figur 5-10 er fejlen ikke rettet. 16

17 Ligheden mellem Jelinek-Mercer smoothing og Dirichlet smoothing er at lave værdier af parameteret ( eller µ ) øger vigtigheden af den relative vægtning af ord, og høje værdier favoriserer antallet af matchende termer. I TREC-eksperimenter er den typiske værdi af µ et sted mellem 1000 og 2000, og generelt set er Dirichlet smoothing mere effektiv, når det kommer til korte forespørgsler [9]. Men som anført i Zhai & Laferty vil ovenstående model ikke være i stand til at forklare samspillet mellem smoothing og typen af forespørgsler [21]. For at fange de mest anvendte ord i en forespørgsel er antagelsen, at en forespørgsel genereres ved hjælp af en kombination af Jelinek-Mercer og Dirichlet smoothing: P( q i c q (1 )( f µ i q D ) i C Cqi D) (5) D µ C I denne formel (5) foregår smoothing i to steps. Først er der anvendt Dirichlet smoothing dernæst Jelineksmoothing. Denne model kaldes two-stage modellen [22]. Denne model er empirisk bygget på den observation, der anskuer, at smoothing har to forskellige roller vedrørende query likelihood retrieval modellen. Den første rolle er at forbedre sandsynligheden for ord, der ikke er nævnt i dokumentet. Den anden rolle omhandler behandlingen af forudsigelsen af dokumentets emne. Den sidste rolle har til opgave at frasortere ofte anvendte ord i dokumentet, så modellen nemmere kan finde det egentlige specifikke emne [22]. Det bør tydeliggøres, at når = 0 er resultatet Dirichelt smoothing, og når μ = 0 forekommer Jelinek-Mercer smoothing. En interessant observation er, at effekten af smoothing er afhængig af typen af forespørgsler [21]. Dirichlet præsterer generelt godt, og har en tendens til at være en rigtig god metode i forhold til keyword-based quering. Det samme gælder two-stage, men i teorien er Dirchlet bedst, og anvendes også som default i Indri, hvis ikke andet er specificeret. Jelinek-Mercer præsterer også godt, men er bedre til længere beskrivelser (ordrige) af forespørgsler end forespørgsler kun baseret på keywords [21]. Alle tre smoothingmetoder er mulig i isearch. Den der klarer sig bedst i baseline run vil anvendes til det videre forløb. 17

18 3.5 Vægtede dokumenttyper Nøjagtigheden af resultatet kan forbedres ved at overveje, hvilke dokumenttyper, som bør placeres højere i resultatlisten. Dette gøres ved at tildele forskellige vægte til hver dokumenttype. Vægtningen kan styre, hvor meget indflydelse hver dokumenttype skal have. Formålet med at vægte de enkelte dokumenttyper er at forbedre udgangspunktet, det vil sige systemets ydeevne. Udfordringen er at finde den passende vægt for hver dokumenttype. For at anvende en systematisk tilgang, som er overskuelig at analysere, anvendes Fibonacci-talrækken 15. Nedenstående viser logikken (ikke fuldendt) og i bilag kan ses en samlet oversigt. Der testes alle mulige kombinationer for Fibonacci-talrækken op til tallet 21. Dokumenttyperne har følgende forkortelser: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Figur 2: Systematisk tilgang af logikken i Fibonacci-talrækken (ikke fuldendt). De forskellige dokumenttyper er: bogposter (BK), fuldtekstartikler (PF) og metadataposter (PN). Ex betyder, at BK vægtes 21 gange mere end PF og PN. Der testes alle kombinationer af Fibonacci-talrækken op til 21. BK PF PN Som eksempel betyder , at dokumenttypen BK vægtes 21 gange mere end dokumenttyperne PF og PN. Effekten skulle gerne være, at dokumenttypen BK kommer længere op i resultatlisten. Der testes indtil forbedringen er ikke eksisterende eller har en negativ indflydelse i forhold til optimering af baseline. 15 Fibonacci-talrækken er numrene i den følgende heltalssekvens: 0,1, 1, 2, 3, 5, 8, 13, 21 Ved definition, er de to første Fibonacci tal 0 og 1, og hvert efterfølgende nummer er summen af de to forhenværende. I matematiske termer, er sekvensen F n af Fibonacci numre defineret ved den gentagne relation: F n Fn Fn 2 med følgende værdier: F 0 0 og F

19 3.6 Datafusion Datafusion i IR kombinerer resultaterne fra flere retrieval-modeller eller dokumentrepræsentationer. Formålet er at vurdere mere præcist relevansen af alle fundne dokumenter for en given forespørgsel ved at samle fundne dokumenter fra forskellige dokumenttyper sammen til en enkelt liste [23]. Det der kan opnås ved hjælp af datafusionsteknikker afhænger i høj grad af kvaliteten af inputtene. Ifølge Alzghool & Inkpen forbedrer datafusionsteknikker ikke resultatet, hvis kvaliteten af resultaterne varierer fra lav til høj kvalitet [24]. Forklaringen er, at tilstedeværelsen af ringe inputs (dvs. resultater der indeholder meget få relevante dokumenter i toppen af et søgeresultat) medfører et betydeligt fald i fusionens ydeevne. Ovenstående afprøves i testsamlingen isearch ved at tage det bedste resultat for hver enkelt dokumenttype (BK, PF og PN) og fusionere sammen: Figur 3 Datafusion af de tre bedste resultater fra de forskellige dokumenttyper (BK, PF, PN) Evalueringen af datafusionen holdes op imod de tidligere beskrevne metoder for at se, om der kan findes en signifikant forskel. Før datafusionen kan finde sted, skal hvert resultat fra de enkelte dokumenttyper, beskrevet ovenfor, normaliseres (se næste afsnit). Datafusion kan også laves med vægtede dokumenttyper, hvilket er den sidste del af de eksperimentelle resultater. Her tildeles vægtningen under datafusionen efter normaliseringen Normalisering Når man anvender datafusion, er der to væsentlige faktorer [25]: Hvordan normaliserer man resultaterne fra forskellige kørsler, således at scorerne er sammenlignelige Hvordan man kan kombinere de normaliserede resultater for at få en ny og forhåbentlig bedre rangeret resultatliste. 19

20 Det sidste punkt henviser til selve datafusionen, som beskrives i det næste afsnit. Det første punkt omhandler betydningen af at håndtere situationer, hvor resultaterne er på forskellige skalaer og i forskellige intervaller [26]. Formålet med normalisering er at opnå ensartede distributioner. Det ene sæt af resultater kan eksempelvis være sandsynligheder mellem 0 og 1, hvorimod et andet sæt af resultater er sandsynligheder, som er udtrykt ved hjælp af logaritmen til et tal, som ligger mellem 0 og uendelig. Traditionel normalisering er opnået ved en lineær transformation, hvilket er ensbetydende med at sætte relevansscoren i intervallet mellem [0-1] [26]. Normalisering anvendes normalt før fusioneringen af de enkelte ranglister, og i denne opgave normaliseres det bedste resultat fra hver af de tre dokumenttyper. En vigtig skelnen mellem de enkelte normaliseringsmetoder afhænger af, hvad fusionsmetoden kan klassificeres ud fra: (i) afhængighed af rangering, (ii) afhængighed af scoren og (iii) om der kræves træningsdata eller ej [27]. Tidligere eksperimentelle resultater indikerer, at scorebaserede metoder udkonkurrerer metoder, som bygger på rangering [27]. For at teste denne indikation sammenlignes følgende typer af normalisering ved datafusion i testsamlingen isearch: 1) Score normalization 2) Z-score normalization 3) Rank normalization Den normaliserede vægt, w (i), til et objekt i er defineret som følgende [27]: Score normalisering: for et objekt i s ( i) min s ( j) j w ( i) max s ( j) min s ( j) (6) j j Z-score normalisering: for et objekt i w ( i) s ( i) s µ s (7) hvor µ er gennemsnittet af scoren i og s s er standardafvigelsen. Rank normalisering: for et objekt i ( i) w ( i) 1 1 (8) For de to normaliseringsmetoder, der er baseret på scorer (6) (7), er antagelsen, at der er mindst to resultater med forskellig score i søgeresultatet. Yderligere baserer de to metoder (6) (7) sig på, at det øverst 20

21 rangerede resultat har en normaliseret vægt på 1, og det lavest rangerede resultat har en normaliseret vægt på 0. For at sammensætte resultater i score normaliseringen (6) skal hvert dokument i den respektive resultatliste normaliseres. En ofte anvendt normaliseringsmetode anvender den maksimale og den minimale værdi af en rangeret liste [28]: IkkeNormaliseretScore MinScore NormaliseretScore MaxScore MinScore (9) Z-scoren (7) er en statistisk måleenhed, som omdanner dataværdier til samme standard ved at anvende måleenhederne gennemsnit og standardafvigelse [29]. Ved anvendelse af z-scoren ændres de originale data til z-scorer. Z-score normalisering bruges til at sammenligne resultater fra forskellige normalfordelinger 16. Fordelen ved denne metode (7) er, at det er en relativ score, og derfor er sammenligning af to forskellige resultatlister direkte mulig. En positiv z-score betyder, at resultaterne ligger over gennemsnittet, og en negativ z-score betyder, at resultaterne ligger under gennemsnittet. Rank normalisering (8) er præcis det samme som score normalisering (6). Forskellen ligger i, at der ved rank normalisering benyttes rangeringer i stedet for scorer. For normaliseringen, der er baseret på rank, er det øverst rangerede resultat normaliseret med en vægt på 1, hvorimod det lavest rangerede resultat har en vægt på 1/. Alle tre normaliseringsmetoder (6) (7) (8) er en del af de eksperimentelle test i opgaven og viser resultatet sig at være divergerende mellem de tre normaliseringsmetoder, anvendes den normaliseringsmetode, der præsterer bedst - til det videre forløb CombSUM datafusion Efter normaliseringen sker selve datafusionen. Fox & Shaw har designet nogle af de mest simple, populære og effektive metasøgnings algoritmer til dato [30]. Fox & Shaw har udviklet ranking fusionsmetoder, som er baseret på det ikke-vægtede minimum og maximum og summen af hver dokuments normaliseret score. En af de interessante metoder er CombSUM. Denne metode sætter score på hvert enkelt dokument i kombinationen med summen af de point, der opnås ved de enkelte dokumenttyper (CombSUM - summation of all scores of a document). Denne metode anvendes under de eksperimentelle forsøg efter normaliseringen. 16 Ved en normalfordeling er der et konstant forhold mellem sandsynlig og standardafvigelse. 21

22 Precision 3.7 Evalueringsmetoder I søgesystemer er det vigtigt at bruge nogle metoder til at evaluere, hvor godt systemet præsterer, så det let kan sammenlignes med andre systemer. Normalt evalueres et systems ydeevne i forhold til en forespørgsel. For at evaluere søgeresultater fra testsamlingen isearch anvendes recall-precision grafer, mean average precision (MAP) og normalized discounted cumulative gain (ndcg) Recall og precision Recall og presicion er to effektivitetsmetoder, som blev introduceret i Cranfield-studierne til at sammenligne søgeresultater [31]. Recall måler hvor effektiv søgemaskinen er til at finde alle relevante dokumenter i en forespørgsel, og precision er den andel af de fundne dokumenter, der er relevante for brugerens informationsbehov. Mere specifikt er genfindingskvotienten (recall) forholdet mellem antallet af fremfundne relevante dokumenter og det antal relevante dokumenter, som findes i informationssystemet. (10) Præcisionskvotienten (precision) er forholdet mellem antallet af relevante fremfundne dokumenter og det samlede antal fremfundne dokumenter. (11) Måling af begge kvotienter forudsætter en bestemmelse af hvilke dokumenter, der er relevante. Ofte anvendes recall og precision til evaluering af flere forespørgsler. I de tilfælde genereres en recall-precision graf (R-P graf). Figur 4: Eksempelvisning af en R-P graf 0,5 0,4 0,3 0,2 0,1 0 R-P graf 0 0,5 1 Recall 22

23 3.7.2 MAP MAP står for mean average precision og er det tilnærmede gennemsnitlige areal under en precision-recall kurve for et sæt af forespørgsler. Den beregner den gennemsnitlige præcision af hver enkelt forespørgsel og derefter den gennemsnitlige værdi af alle forespørgsler. Herved giver MAP et overblik over kvaliteten af en rangeret liste med fokus både på precision og recall. I nedenstående eksempel, ved beregning af MAP, er de relevante dokumenter markeret med sort. Rangering 1: Rangering 2: Gennemsnitlig præcision 1 = (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62 Gennemsnitlig præcision 2 = (0,5 + 0,4 + 0,43) / 3 = 0,44 MAP = (0,62 + 0,44) / 2 = 0,53 I den gennemsnitlige præcision 1 er det første resultat relevant og beregnes 1/1. Det næste resultat er ikke relevant. Det tredje resultat er relevant og er det andet relevante dokument ud af tre og beregnes 2/3. Ligeledes følger resten. Til sidst tages gennemsnittet ved at dividere med mængden af relevante dokumenter fra bunken. Udgangspunktet er at genfinde så mange relevante dokumenter for hver forespørgsel som muligt. Gennemsnitlig præcision har den fordel, at det er et enkelt tal, som er baseret på rangeringen af alle relevante dokumenter, men selve værdien afhænger af de højtrangerede relevante dokumenter. Det vil med andre ord sige, at gennemsnitlig præcision er en passende måleenhed til at evaluere forespørgslen, der består i at genfinde så mange relevante dokumenter som muligt samtidig med, at der bliver taget hensyn til, at de dokumenter der er rangeret højest, er de vigtigste [9]. 23

isearch Testsamling til evaluering af integreret søgning

isearch Testsamling til evaluering af integreret søgning isearch Testsamling til evaluering af integreret søgning Marianne Lykke, Peter Ingwersen, Birger Larsen, Haakon Lund og Toine Bogers DEFF projekt 2008-2009 Dagens emner Projektets formål og problemstilling

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Seminaropgave: Præsentation af idé

Seminaropgave: Præsentation af idé Seminaropgave: Præsentation af idé Erik Gahner Larsen Kausalanalyse i offentlig politik Dagsorden Opsamling på kausalmodeller Seminaropgaven: Praktisk info Præsentation Seminaropgaven: Ideer og råd Kausalmodeller

Læs mere

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning: Introduktion til EA3 Mit navn er Marc de Oliveira. Jeg er systemanalytiker og datalog fra Københavns Universitet og denne artikel hører til min artikelserie, Forsimpling (som også er et podcast), hvor

Læs mere

Google Scholar. Søgning. Udgiver Google

Google Scholar. Søgning. Udgiver Google Find vejen frem VIA University College Dato: 1. august 2019 Ulla Buch Nilson, VIA Biblioteker Google Scholar Søgning Udgiver Google Indhold Google Scholar er et søgeværktøj til at finde videnskabelig litteratur.

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Informationssøgning metoder og scenarier

Informationssøgning metoder og scenarier Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean

Læs mere

Web of Science Core Collection

Web of Science Core Collection Dato: 29. juni 2016 Ref.: Randi Juul Nørskov Web of Science Core Collection Udgiver: Thomson Reuters Type: Bibliografisk database / henvisning til artikler Indhold og omfang Tværvidenskabelig database

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE Udfordring INDHOLDSFORTEGNELSE 1. Forløbsbeskrivelse... 3 1.1 Overordnet beskrivelse tre sammenhængende forløb... 3 1.2 Resume... 5 1.3 Rammer

Læs mere

dpersp Uge 40 - Øvelser Internetalgoritmer

dpersp Uge 40 - Øvelser Internetalgoritmer Øvelse 1 dpersp Uge 40 - Øvelser Internetalgoritmer (Øvelserne 4 og 6 er afleveringsopgaver) a) Hver gruppe får en terning af instruktoren. Udfør 100 skridt af nedenstående RandomWalk på grafen, som også

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare.

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare. Web of Science Udgiver: Thomson Reuters Type: Bibliografisk database / henvisning til artikler Indhold og omfang Tværvidenskabelig database med repræsentation af over 12.000 peer-reviewed videnskabelige

Læs mere

Funktionalligninger. Anders Schack-Nielsen. 25. februar 2007

Funktionalligninger. Anders Schack-Nielsen. 25. februar 2007 Funktionalligninger Anders Schack-Nielsen 5. februar 007 Disse noter er en introduktion til funktionalligninger. En funktionalligning er en ligning (eller et ligningssystem) hvor den ubekendte er en funktion.

Læs mere

Matematikken i kunstig intelligens Opgaver om koordinerende robotter

Matematikken i kunstig intelligens Opgaver om koordinerende robotter Matematikken i kunstig intelligens Opgaver om koordinerende robotter Thomas Bolander 2. juni 2018 Vejledning til opgaver Opgave 1 kan eventuelt springes over, hvis man har mindre tid. De resterende opgaver

Læs mere

Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER

Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER Thomas Bolander 25. april 2018 Vejledning til opgaver Opgave 1 kan eventuelt springes over, hvis man har mindre tid. De resterende

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Emneopgave: Lineær- og kvadratisk programmering:

Emneopgave: Lineær- og kvadratisk programmering: Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering

Læs mere

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER ANALYSERAPPORT KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER Denne rapport samt bilag indeholder den endelige database af spørgeskemaet Anvendelsen af digitale ressourcer

Læs mere

Identifikation af planer der ikke findes i PlansystemDK vha. datasættet... 9

Identifikation af planer der ikke findes i PlansystemDK vha. datasættet... 9 Vejledning i brug af Tingbogsudtrækket Version 1.0 af 1. juli 2009 Indhold Indledning... 1 Planer i Tingbogen... 2 Planer i PlansystemDK... 3 Sammenhæng mellem Tingbogen og PlansystemDK... 3 Datastruktur...

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Metoder og struktur ved skriftligt arbejde i idræt.

Metoder og struktur ved skriftligt arbejde i idræt. Metoder og struktur ved skriftligt arbejde i idræt. Kort gennemgang omkring opgaver: Som udgangspunkt skal du når du skriver opgaver i idræt bygge den op med udgangspunkt i de taksonomiske niveauer. Dvs.

Læs mere

af integrationsrådenes høringsret og økonomiske midler

af integrationsrådenes høringsret og økonomiske midler UNDERSØGELSE af integrationsrådenes høringsret og økonomiske midler Rådet for Etniske Minoriteter Marts 2004 BAGGRUND FOR UNDERSØGELSEN Rådet for Etniske Minoriteter afholdt den 3. maj 2003 en konference

Læs mere

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt.

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer (2. semester). Mål

Læs mere

Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark

Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark [0] Dansk KundeIndex 2003 skadesforsikring Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark Hovedresultater Indledning og metode For tredje år i træk gennemføres en samlet kundetilfredshedsundersøgelse

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning Bilag 2: Undersøgelse af de nationale tests reliabilitet Sammenfatning I efteråret 2014 blev der i alt gennemført ca. 485.000 frivillige nationale tests. 296.000 deltog i de frivillige test, heraf deltog

Læs mere

DANSK FLYGTNINGEHJÆLP

DANSK FLYGTNINGEHJÆLP DANSK FLYGTNINGEHJÆLP KURSISTUNDERSØGELSE 2015 RESULTATER OG ANBEFALINGER KURSISTUNDERSØGELSE 2015 INDHOLD - Svarprocent - Hvem har svaret? - Resultater for udvalgte nøgleindikatorer; overordnet tilfredshed,

Læs mere

HANDICAPREVISIONEN (HR) FORKLARET

HANDICAPREVISIONEN (HR) FORKLARET HANDICAPREVISIONEN (HR) FORKLARET HR udføres årligt i januar måned for spillere i handicapgruppe 1-5, og bliver automatisk udregnet af det administrationssystem som golfklubben benytter. Resultatet af

Læs mere

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125 Tietgenskolen - Nørrehus Data warehouse Database for udviklere Thor Harloff Lynggaard DM08125 Juni 2010 Indhold Beskrivelse... 3 Data warehouse... 3 Generelt... 3 Sammenligning... 3 Gode sider ved DW...

Læs mere

Et oplæg til dokumentation og evaluering

Et oplæg til dokumentation og evaluering Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6

Læs mere

Listen over reserverede ord er meget lang, men de væsentligste vil jeg beskrive her i denne artikel:

Listen over reserverede ord er meget lang, men de væsentligste vil jeg beskrive her i denne artikel: Denne guide er oprindeligt udgivet på Eksperten.dk SQL og ASP En artikel omkring simpel SQL og hvordan disse opbygges, udformes og udføres, sådan at man kan få et brugbart resultat i ASP. Dette ligefra

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

SUPPLEMENT TIL EVALUERING AF DE NATIONALE TEST RAPPORT

SUPPLEMENT TIL EVALUERING AF DE NATIONALE TEST RAPPORT Til Undervisningsministeriet (Kvalitets- og Tilsynsstyrelsen) Dokumenttype Rapport Dato August 2014 SUPPLEMENT TIL EVALUERING AF DE NATIONALE TEST RAPPORT NATIONALE TEST RAPPORT INDHOLD 1. Indledning og

Læs mere

DIO. Faglige mål for Studieområdet DIO (Det internationale område)

DIO. Faglige mål for Studieområdet DIO (Det internationale område) DIO Det internationale område Faglige mål for Studieområdet DIO (Det internationale område) Eleven skal kunne: anvende teori og metode fra studieområdets fag analysere en problemstilling ved at kombinere

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Appendiks 6: Universet som en matematisk struktur

Appendiks 6: Universet som en matematisk struktur Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Testrapport. Resultater for test af appen How are you? i Psykiatriens hverdagstestere

Testrapport. Resultater for test af appen How are you? i Psykiatriens hverdagstestere Testrapport Resultater for test af appen How are you? i Psykiatriens hverdagstestere November 2017 Indhold 1. Baggrund og formål 2. Appen How are you? 3. Målgruppe 4. Metode 5. Testresultater og anbefalinger

Læs mere

Bestyrelsesmøde nr. 86 d. 6. december 2016 Punkt 15.a. Bilag 1. Københavns Universitets bestyrelse. Vedr.: Københavns Universitets (KU) ranking i 2016

Bestyrelsesmøde nr. 86 d. 6. december 2016 Punkt 15.a. Bilag 1. Københavns Universitets bestyrelse. Vedr.: Københavns Universitets (KU) ranking i 2016 K Ø B E N H A V N S U N I V E R S I T ET Bestyrelsesmøde nr. 86 d. 6. december 2016 Punkt 15.a. Bilag 1 Københavns Universitets bestyrelse S A G S N O T A T 21. NOVEMBER 2016 Vedr.: Københavns Universitets

Læs mere

Naturvidenskab. En fællesbetegnelse for videnskaberne om naturen, dvs. astronomi, fysik, kemi, biologi, naturgeografi, biofysik, meteorologi, osv

Naturvidenskab. En fællesbetegnelse for videnskaberne om naturen, dvs. astronomi, fysik, kemi, biologi, naturgeografi, biofysik, meteorologi, osv Naturvidenskab En fællesbetegnelse for videnskaberne om naturen, dvs. astronomi, fysik, kemi, biologi, naturgeografi, biofysik, meteorologi, osv Naturvidenskab defineres som menneskelige aktiviteter, hvor

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Mandag den 27. maj 2002, kl. 9.00 13.00 Opgave 1 (25%) Denne opgave handler om multiplikation af positive heltal.

Læs mere

DM13-1. Obligatorisk opgave E.05. Jacob Aae Mikkelsen

DM13-1. Obligatorisk opgave E.05. Jacob Aae Mikkelsen DM13-1. Obligatorisk opgave E.05 Jacob Aae Mikkelsen - 191076 26. september 2005 Indhold Analyse af problemstillingen........................ 2 Spørgsmål 1................................. 3 Spørgsmål

Læs mere

Pointen med Differentiation

Pointen med Differentiation Pointen med Differentiation Frank Nasser 20. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Bilagsnotat til: De nationale tests måleegenskaber

Bilagsnotat til: De nationale tests måleegenskaber Bilagsnotat til: De nationale tests måleegenskaber Baggrund Der er ti obligatoriske test á 45 minutters varighed i løbet af elevernes skoletid. Disse er fordelt på seks forskellige fag og seks forskellige

Læs mere

Rammer og kriterier for ekstern teoretisk prøve. Radiografuddannelsen modul 7, overgangsordning University College Lillebælt

Rammer og kriterier for ekstern teoretisk prøve. Radiografuddannelsen modul 7, overgangsordning University College Lillebælt Rammer og kriterier for ekstern teoretisk prøve Radiografuddannelsen modul 7, overgangsordning University College Lillebælt Gældende efteråret 2016 Formål Formål med prøven er at bedømme i hvilken grad

Læs mere

Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden

Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden 2005-2012 Notat fra DCE - Nationalt Center for Miljø og Energi Dato: 7. april 2014 30. april 2014 Søren

Læs mere

Rammer og kriterier for intern teoretisk prøve. Radiografuddannelsen modul 4, overgangsordning University College Lillebælt

Rammer og kriterier for intern teoretisk prøve. Radiografuddannelsen modul 4, overgangsordning University College Lillebælt Rammer og kriterier for intern teoretisk prøve Radiografuddannelsen modul 4, overgangsordning University College Lillebælt Gældende efteråret 2016 Formål Formål med prøven er at bedømme i hvilken grad

Læs mere

Bilag 5: Økonometriske analyser af energispareindsatsens. (Cointegration) Energistyrelsen. Marts 2015

Bilag 5: Økonometriske analyser af energispareindsatsens. (Cointegration) Energistyrelsen. Marts 2015 Marts 2015 Bilag 5: Økonometriske analyser af energispareindsatsens nettoeffekt (Cointegration) Indholdsfortegnelse 1. Cointegrationsanalyse 3 Introduktion til anvendte cointegrationsmodel og data 3 Enhedsrodstest

Læs mere

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF Den afsluttende prøve i AT består af tre dele, synopsen, det mundtlige elevoplæg og dialogen med eksaminator og censor. De

Læs mere

2 Risikoaversion og nytteteori

2 Risikoaversion og nytteteori 2 Risikoaversion og nytteteori 2.1 Typer af risikoholdninger: Normalt foretages alle investeringskalkuler under forudsætningen om fuld sikkerhed om de fremtidige betalingsstrømme. I virkelighedens verden

Læs mere

* Opgjort som antal publikationer, der tilhører top 10 % af de mest citerede publikationer (Impact, fractional counting, p(10 %)).

* Opgjort som antal publikationer, der tilhører top 10 % af de mest citerede publikationer (Impact, fractional counting, p(10 %)). KØBENHAVNS UNIVERSITET Bestyrelsesmøde nr. 92, d. 11. december 2017 Pkt. 14a. Bilag 1 Københavns Universitets bestyrelse SAGSNOTAT 31. OKTOBER 2017 Vedr. Københavns Universitets ranglisteplaceringer i

Læs mere

The Joanna Briggs Institute EBP Database Vejledning

The Joanna Briggs Institute EBP Database Vejledning The Joanna Briggs Institute EBP Database Vejledning Der er adgang til JBI EPB databasen fra databaselisten på Fagbibliotekets hjemmeside, eller hvis du er udenfor hospitalets netværk via fjernadgang til

Læs mere

Studenterportalen. Registrering og upload af bacheloropgaver og andre afgangsprojekter. Professionshøjskolen Metropol, marts 2011

Studenterportalen. Registrering og upload af bacheloropgaver og andre afgangsprojekter. Professionshøjskolen Metropol, marts 2011 Studenterportalen Registrering og upload af bacheloropgaver og andre afgangsprojekter Professionshøjskolen Metropol, marts 2011 Forord Dette materiale har til formål at beskrive hvordan du registrerer

Læs mere

The Joanna Briggs Institute EBP Database Vejledning

The Joanna Briggs Institute EBP Database Vejledning The Joanna Briggs Institute EBP Database Vejledning Der er adgang til JBI EPB databasen fra databaselisten på Fagbibliotekets hjemmeside, eller hvis du er udenfor hospitalets netværk via fjernadgang til

Læs mere

Uforudsete forsinkelser i vej- og banetrafikken - Værdisætning

Uforudsete forsinkelser i vej- og banetrafikken - Værdisætning Downloaded from orbit.dtu.dk on: Dec 17, 2015 - Værdisætning Hjorth, Katrine Publication date: 2012 Link to publication Citation (APA): Hjorth, K. (2012). - Værdisætning [Lyd og/eller billed produktion

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Lene Gry Huybens Hald. Abstract

Lene Gry Huybens Hald. Abstract Abstract In this thesis: "Bing vs. Google - a measurement of the effectiveness and overlap of two search engines", the internet search engines Bing and Google are measured for their effectiveness and ability

Læs mere

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard Mandags Chancen En optimal spilstrategi Erik Vestergaard Spilleregler denne note skal vi studere en optimal spilstrategi i det spil, som i fjernsynet går under navnet Mandags Chancen. Spillets regler er

Læs mere

CCS klassifikation og identifikation

CCS klassifikation og identifikation UDVEKSLINGSSPECIFIKATION klassifikation og identifikation Udgivet 01.09.2017 Revision 0 Molio 2017 s 1 af 19 Forord Denne udvekslingsspecifikation beskriver, hvilke egenskaber for klassifikation og identifikation,

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Kvantitative Metoder 1 - Efterår 2006. Dagens program

Kvantitative Metoder 1 - Efterår 2006. Dagens program Dagens program Afsnit 2.4-2.5 Bayes sætning Uafhængige stokastiske variable - Simultane fordelinger - Marginale fordelinger - Betingede fordelinger Uafhængige hændelser - Indikatorvariable Afledte stokastiske

Læs mere

Du kan søge på emner, forfattere eller titler og lave kædesøgninger på baggrund af artiklernes referencelister.

Du kan søge på emner, forfattere eller titler og lave kædesøgninger på baggrund af artiklernes referencelister. Scopus Scopus er en af de største og mest omfangsrige artikel- og citationsdatabase over peer reviewed litteratur, hvor du kan finde, analysere og få illustreret sammenhængen i engelsksproget videnskabeligt

Læs mere

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Fremstillingsformer Fremstillingsformer Vurdere Konkludere Fortolke/tolke Diskutere Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Udtrykke eller Vurder: bestemme På baggrund af biologisk

Læs mere

Fordeling af midler til specialundervisning

Fordeling af midler til specialundervisning NOTAT Fordeling af midler til specialundervisning Model for Norddjurs Kommune Søren Teglgaard Jakobsen December 2012 Købmagergade 22. 1150 København K. tlf. 444 555 00. kora@kora.dk. www.kora.dk Indholdsfortegnelse

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

LUP Fødende læsevejledning til afdelingsrapporter

LUP Fødende læsevejledning til afdelingsrapporter Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Uddybende forklaring af elementer i figurer og tabeller...

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Danske lærebøger på universiteterne

Danske lærebøger på universiteterne Danske lærebøger på universiteterne Dansk Universitetspædagogisk Netværk (DUN) og Forlæggerforeningen har gennemført en undersøgelse blandt studielederne på landets otte universiteter om danske lærebøger

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Matematik B - hf-enkeltfag, april 2011

Matematik B - hf-enkeltfag, april 2011 Matematik B - hf-enkeltfag, april 2011 1. Identitet og formål 1.1. Identitet Matematik bygger på abstraktion og logisk tænkning og omfatter en lang række metoder til modellering og problembehandling. Matematik

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2 Økonometri 1 Afslutningsforelæsning 19. maj 2003 Økonometri 1: Afslutningsforelæsning 1 Evalueringer Kun 23 har udfyldt evalueringsskemaerne ud af ca. 120 tilmeldte til eksamen Resultatet kan ses på hjemmesiden

Læs mere

PubMed - tips til søgning

PubMed - tips til søgning EN VEJLEDNING FRA UCL BIBLIOTEKET PubMed - tips til søgning December 2017 Indholdsfortegnelse 1 Basens indhold... 1 2 Adgang til basen... 1 3 Søgemetoder... 2 3.1 Fritekstsøgning... 2 3.1.1 Muligheder

Læs mere

Sommereksamen Bacheloruddannelsen i Medicin/Medicin med industriel specialisering

Sommereksamen Bacheloruddannelsen i Medicin/Medicin med industriel specialisering Sommereksamen 2016 Titel på kursus: Uddannelse: Semester: Statistik og evidensbaseret medicin Bacheloruddannelsen i Medicin/Medicin med industriel specialisering 2. semester Eksamensdato: 13-06-2016 Tid:

Læs mere

8:30-14:30 Sproglig udvikling Kort aktivitet Planlægning af undervisningsforløb Fremlæggelse af undervisningsforløb

8:30-14:30 Sproglig udvikling Kort aktivitet Planlægning af undervisningsforløb Fremlæggelse af undervisningsforløb 8:30-14:30 Sproglig udvikling Kort aktivitet Planlægning af undervisningsforløb Fremlæggelse af undervisningsforløb Kaffepause 10:00-10:15 Frokost 12:15-13:00 Kaffepause 13:45-14:00 SPROGLIG UDVIKLING

Læs mere

Grundlæggende køretidsanalyse af algoritmer

Grundlæggende køretidsanalyse af algoritmer Grundlæggende køretidsanalyse af algoritmer Algoritmers effektivitet Størrelse af inddata Forskellige mål for køretid Store -notationen Klassiske effektivitetsklasser Martin Zachariasen DIKU 1 Algoritmers

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt.

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer

Læs mere

Køreplan Matematik 1 - FORÅR 2005

Køreplan Matematik 1 - FORÅR 2005 Lineær algebra modulo n og kryptologi Køreplan 01005 Matematik 1 - FORÅR 2005 1 Introduktion Kryptologi er en ældgammel disciplin, som går flere tusinde år tilbage i tiden. Idag omfatter disciplinen mange

Læs mere