Apache Lucene og Solr



Relaterede dokumenter
Enterprise Search fra Microsoft

Indhold. Jennie Mathiasen. Google Drev

Brugervejledning til chauffører. webtour.mobi. Version Opdateret og seneste version kan altid hentes på

Tech College Aalborg. HomePort. Projekt Smart Zenior Home

Smartphone-funktioner til portfolio brug (med Nokia E71)

Vejledning om ansøgning til hoveduddannelsesforløb i speciallægeuddannelsen i Oto-rhino-laryngologi

Whitepaper af Christian Holm Nielsen

Hvad er Stormbasen? Undervisning. Side 2

MANUAL TIL HURTIG START

Datalogistudiet. Rolf Fagerberg. Institut for Matematik og Datalogi Syddansk Universitet. Studiestart, 1. september 2014

OFFENTLIGT KMD A/S EJ 0.0 NUMMERERET SLIDE 1 CCM USER GROUP KMD einvoicing. v/ Ole Sixhøi

Upload, Download og aflever opgaver

Informationssøgning metoder og scenarier

Vejledning om ansøgning til hoveduddannelsesforløb i speciallægeuddannelsen i Anæstesi

Brugervejledning til Corporate Netbank Cash Management Services

UPLOAD, DOWNLOAD OG AFLEVER OPGAVER

LÆR AT SØGE EFFEKTIVT!

RoboBraille-tjenesten Sammendrag

Netprøver.dk. Brugervejledning for elever

PHP Quick Teknisk Ordbog

Kom i gang med SAS STPbaserede

Curriculum Vitae Jack Petersen

TILBUD PÅ UDVIKLING OG HOSTING AF WEBSCANNER. OS2 Offentligt Digitaliseringsfællesskab

WordCamp Denmark Hurtigere websites med simple optimeringer. Tobias Borg Petersen Digicure A/S


FAST search for SharePoint

Selvbetjeningsløsningen boligstøtte. Undervisningspræsentation 28. april 2016

Konsulent resume. Referencer Svend Holm Henriksen IT-udviklingschef Region Syddanmark +45/

Udbud.dk Brugervejledning til formidlere

Cloud computing. Hvad er fordelene ved Microsoft løsninger - og hvad er begrænsningerne

Vejledning om ansøgning til introduktionsstilling i speciallægeuddannelsen i Almen Medicin

Hjælp under login på Mit DLR Oktober 2015

Boligsøgning / Search for accommodation!

Internetsøgemaskiner

EG Data Inform. Byggebasen. WCF og webservices. Jens Karsø

IT-UNIVERSITETET I KØBENHAVN. KANDIDAT I SOFTWAREUDVIKLING OG -TEKNOLOGI ITU.dk/uddannelser

Der er forsøgt skrevet en lille notits hver gang der er lavet noget, dog kan der være nogle ting som ikke er blevet kommenteret.

bedreweb.dk - Bolette Obbekær 2012 SÅDAN LÆGGER DU WORDPRESS PÅ DIT WEBHOTEL

Curriculum Vitae for Per Odderskov.

Kapitel 3 Filhåndtering i OpenOffice.org

Databaseadgang fra Java

Bibliotheca Danica: Systematisk Fortegnelse Over Den Danske Literatur Fra 1482 Til 1830, Efter Samlingerne I Det Store Kongelige Bibliothek I...

PageSpeed Insights. Fjern gengivelsesblokerende JavaScript og CSS fra indholdet over skillelinjen

Generel vejledning om ansøgning til hoveduddannelsesforløb i speciallægeuddannelsen i Dermatologi

Kompetenceplatformen

Vejledning om ansøgning til introduktionsstilling i speciallægeuddannelsen i Almen medicin

Zinio. Hvordan virker den?

Vejledning til Region Sjællands elektroniske ansøgningssystem

Educasoft 2010 Side 1. Søgemaskineoptimering

HoldingsItem (beholdningsdata) i Brønd 3.5

Multiple Choice Prøver

Udbud.dk Brugervejledning til formidlere

Administrativ konference. Koldinghus 2 maj Michael Andersen

SAS2WPS Workshop. Torben Christensen! Senior Partner, MSc.! tlf: Copyright UniQcus 2014

LaserNet v6.6 Release Nyhedsbrev

web concept tema 4 Hvordan kan man motivere børn til at spise mere frugt?

OpenTele datamonitoreringsplatform

Brugermanual til Assignment Hand In

Ansvarlig Oprettet Projekt: Maskindatabase over forsøgsudstyr Side 1 af 9

Get Skeleton. Boilerplate for Responsive, Mobile-Friendly Development

Hurtigt i gang med SAS University Edition Anders Milhøj

Vejledning til brug af IT for nye Studerende/ Elever og Kursister.

Vejledning til Autodesk Account Maintenance Subscription

Vejledning om ansøgning til introduktionsstilling i speciallægeuddannelsen i Almen Medicin

Transkript:

Apache Lucene og Solr Jana Kunert feymour@gmail.com The Camp 2015 July 21, 2015 1 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 2 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 3 / 25

Hvem er jeg Cand.scient. i Datalogi fra Aarhus Universitet Speciale i Algoritmer og Datastrukturer Konsulent hos Netcompany Gentoo Linux bruger i 9 år (tror jeg). 4 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 5 / 25

Lucene Apache Lucene (Core) er et information retrieval bibliotek skrevet i Java skalerbar, high-performance indeksering 6 / 25

Søgning Søgning Indeksering Querying 7 / 25

Indeksering Indeksering Parsing Tokenisation Analyses 8 / 25

Indeksering Indeksering Parsing PDF Tekst 9 / 25

Indeksering Indeksering Tokenisation Computer science is no more about computers then astronomy is about telescopes. Computer science is no more about computers... 10 / 25

Indeksering Indeksering Analysis Computer science is no more about computers then astronomy is about telescopes. lower-case: Computer computer 11 / 25

Indeksering Indeksering Analysis Computer science is no more about computers then astronomy is about telescopes. lower-case: Computer computer stop-words: is, no, more, about, then 11 / 25

Indeksering Indeksering Analysis Computer science is no more about computers then astronomy is about telescopes. lower-case: Computer computer stop-words: is, no, more, about, then stemming: telescopes telescope 11 / 25

Indeksering Indeksering Analysis Computer science is no more about computers then astronomy is about telescopes. lower-case: Computer computer stop-words: is, no, more, about, then stemming: telescopes telescope synonym: computer computer, pc 11 / 25

Indeksering Indeksering Analysis Computer science is no more about computers then astronomy is about telescopes. lower-case: Computer computer stop-words: is, no, more, about, then stemming: telescopes telescope synonym: computer computer, pc astronomy computer pc science telescope 11 / 25

Querying Querying Tokenisation Analyses Scoring Filtrering Facetter 12 / 25

Querying Querying Scoring Boolean Model for Information retrieving 13 / 25

Querying Querying Scoring Boolean Model for Information retrieving Vector Space Model for Information retrieving hvor i dokumentet har vi fundet et ord? hvor mange gange har vi fundet et ord? hvor vigtigt er dette dokument? hvor vigtigt er dette ord i vores query? 13 / 25

Querying Querying Facetter mange dokumenter et stort resultat 14 / 25

Querying Søgning Indeksering Parsing Tokenisation Analyses Querying Tokenisation Analyses Scoring Filtrering Facetter 15 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 16 / 25

Solr Apache Solr er en standalone enterprise search server som bruger Lucene er en del af Lucene-projektet kan parse nogle af de mest udbredte filtyper: xml, json, csv, pdf, doc, docx, ppt, pptx, xls, xlsx, odt, odp, ods, ott, otp, ots, rtf, htm, html, txt, log cloud-mode: load-balancing jetty-job: recovery 17 / 25

Hvorfor Solr? Hvorfor Solr? man behøver ikke at kunne programmere web-baseret brugerinterface al konfiguration fortages i xml-filer paging! 18 / 25

Hvorfor Solr? Hvorfor Solr? schema.xml indexed? stored? dynamicfield copyfield 19 / 25

Hvorfor Solr? Hvorfor Solr? schema.xml indexed? stored? dynamicfield copyfield... eller lad den selv finde ud af det 19 / 25

Hvorfor Solr? Hvorfor Solr? schema.xml indexed? stored? dynamicfield copyfield... eller lad den selv finde ud af det solrconfig.xml tilpas requesthandleren 19 / 25

Hvorfor Solr? Hvorfor Solr? Man kan tilføje, opdatere og slette dokumenter ved at sende xml-filer over http Queries sendes som GET eller POST request Svar modtages fx. på XML-format 20 / 25

Demo Demo 21 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 22 / 25

Hvad skal jeg bruge? Der eksisterer Lucene-implementationer i andre programmeringssprog Brug Solr, hvis du ikke vil slås med Java You can't drive an engine, but you can drive a car. 23 / 25

Table of Contents Hvem er jeg Lucene Søgning Indeksering Querying Solr Hvorfor Solr? Demo Hvad skal jeg bruge? Links 24 / 25

Links https://lucene.apache.org/core/ https://lucene.apache.org/solr/ 25 / 25