Den fremtidige brugers mulighed for genfinding af data. Troels Andresen og Henrik Bulskov Roskilde Universitet

Relaterede dokumenter
Matematik, maskiner og metadata

Søgning i PubMed. Onsdag d. 7. januar Undervisere: Birgit Nørgaard Christensen Maria Østerbye

Litteratursøgning i PubMed

Bringe taksonomier i spil

Ovl. Hans Mørch Jensen Prof. L. V. Kessing. Prof. Ø. Lidegaard Prof. P. K. Andersen PhD, MD, L. H. Pedersen Biostatistiker Randi Grøn

Dorthes Bog Centrum har ca forskellige bøger (bibliografiske enheder), som alle skal være søgbare fra prototypen.

Informationssøgning metoder og scenarier

Konvertering af STO-SIMPLE til LMF med udgangspunkt i filen: nysimpletotal.sgml

Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank

Litteratursøgning. Program

Henrik Bulskov Styltsvig

Henrik Bulskov Styltsvig

Vejledning i diagnose kodning

BEDRE BRUGER OPLEVELSE MED 1DATA SCIENCE VEJE TIL VIDEN

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

Farmakoepidemiologi Den grimme ælling

PsycINFO (Ebsco) VIA manual

Sproglige problemstillinger i informationssøgning. Marianne Lykke Nielsen Mln@db.dk Danmarks Biblioteksskole Institut for Informationsstudier

VIA University College VIA Bibliotekerne CINAHL Plus

Bilag 2 og 3 og værktøjer

Effektiv søgning på web-steder

Find det relevante dokument på rekordtid med A104 Dokumenthåndtering Gunnar Friborg, bips

Cochrane Library Vejledning

Søgeeksempel i CINAHL:

The Joanna Briggs Institute Database EBP

Søgeeksempel i CINAHL:

FORFRA Hindsgavl Digital Artikel Service

The Joanna Briggs Institute EBP Database Vejledning

Dina Lemming Pedersen Rosa Andersen

Notat om cuneco-projekter og sammenhæng til buildingsmart-standarder og -værktøjer

Kom godt i gang med Cinahl

Overblik over retningslinjer

Samspillet mellem databaser og kort styres af GeoCAD programmet GeoDB.

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

Metoder til at reducere kompleksiteten i SNOMED CT-implementering. Af Anne Randorff Højen, E-sundhedsobservatoriets årskonference, d. 2.

1 Klassifikation-version2.0

Embase Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet.

Indhold Basen dækker sygepleje(videnskab), samt til en vis grad ergoterapi, fysioterapi, diætetik, radiografi, audiologi, rehabilitering

Fra ord til indhold VID. v. Rune Stilling - Ankiro

PsycINFO Vejledning. Avanceret Søgning (Advanced Search)

På vej mod internationalt orienterede datastandarder

The Joanna Briggs Institute EBP Database Vejledning

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

Business Source Premier EBSCO

CCS klassifikation og identifikation

Søgevejledning til databasen AMED. Udgiver Health Care Information Service of the British Library

PubMed - tips til søgning

Henrik Bulskov Styltsvig

Vælg det emneord, du vil bruge og klik på Continue. Nu vises de subheadings som knytter sig til emneordet:

Du kan søge på emner, forfattere eller titler og lave kædesøgninger på baggrund af artiklernes referencelister.

Import af rekursivt (parent-child) hierarki i Palo

ESDH-VEJLEDNING TIL BRUGERE AF SCANJOUR CAPTIA 4.5 PÅ AARHUS UNIVERSITET

CINAHL Complete. Indhold. Find vejen frem VIA University College

Baggrund for oplægget

16. december. Resume sidste gang

BAGGRUNDSTEKST DIAGNOSER I FOKUS ADHD, DEPRESSION OG SAMLEBETEGNELSEN FUNKTIONELLE LIDELSER SIDE 1

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

Kom i gang med Scopus

Grundtvigs Sandkasse

FAGSPECIFIKKE KOMMENTARER TIL DET AT KLASSIFICERE

PsycINFO Vejledning. Tryk på det ønskede emneord for at se dens plads i emnehierarkiet, så du kan se over- og underemner samt synonymer til begrebet.

Væksten i det gode liv

Kontaktdag Workshop om Det Kgl. Biblioteks services til biblioteker. Henrik Haagensen Projektleder Overbygningsservices.

Registre og kliniske kvalitetsdatabaser - en introduktion. Lau Caspar Thygesen Lektor, ph.d.

Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

Søgeeksempel i PubMed:

Sproglige problemstillinger ved informationssøgning

Søgeeksempel i PubMed:

bips F104, Dokumenthåndtering

1. Release Notes for WorkZone Content Server 2014 og Captia Web Client Ny og ændret funktionalitet Rettet i denne version 7

Vidensbasens Søgeguide

For at anvende SAID, skal man registrere sig som bruger. Man oprettes under en eller flere af følgende kategorier:

Visma Rappor tering og Analyse Rapporter der dækker hele virksomhedens behov

ER-modellen. Databaser, efterår Troels Andreasen. Efterår 2002

12.2 Design skabeloner

Core User Library Repository Service (CULR) danzig Poul Henrik Jørgensen

Hvad ved vi om forebyggelse i Det Nære Sundhedsvæsen?

Tillæg til studieordningen for bacheloruddannelsen i Sundhedsteknologi

Søgevejledning til SocINDEX with Full Text - 1

N OT AT. Arbejdsgang i forbindelse med afsendelse af dokument til Dokumentboks. Overordnet vision til håndtering afsendelse af dokumenter

Indtagsbegrebet. Eks. på boring i kalk.

Connect2Care. Udvikling af åben infrastruktur for IKT-baserede produkter på social- og sundhedsområdet. UNIK projektmøde. 25.

PsycINFO Vejledning. Avanceret Søgning (Advanced Search)

Nye metodikker til generering og opdatering af 3D bymodeller

ICD-11 på 10 minutter. Kort introduktion til den nye version af ICD

Her kan du skrive noter til dit oplæg

Q-Variant i kasseterminalen

Høringsnotat - specifikation af serviceinterface for SAG version 1 2

GetOrganized for SharePoint

Oplæg for DDElibraBrugergruppen 19. november 2015, Århus

BEGREBSLISTE. til. Bekendtgørelse om anvendelse af informations- og kommunikationsteknologi (IKT) i alment byggeri og. offentligt byggeri

Z39.50 Migrering +? Oplæg danzig Leif Andresen

TEAMSHARE ESDH VIDENDELING PROJEKTRUM EN STANDARDLØSNING FRA LECTOR BASERET PÅ MICROSOFTTEKNOLOGIER

applies equally to HRT and tibolone this should be made clear by replacing HRT with HRT or tibolone in the tibolone SmPC.

Daglig brug af JitBesked 2.0

2016 Recordit.nu version Call Recorder Brugermanual for supervisor

3D matriklen i et fremtidsperspektiv

7DVWHYHMOHGQLQJ#²#,QWHUQHW#([SORUHU

Transkript:

Den fremtidige brugers mulighed for genfinding af data Troels Andresen og Henrik Bulskov Roskilde Universitet

Agenda IR simpel fritekst Meta-data indholdsbeskrivelse Ressourcer til indholdsbeskrivelse Indeksering Ontologi Semantisk indeksering Summarization, Meta-datas betydning

Vores baggrund Tidligere samarbejde bl.a. DBC Fleksibel søgning i DanBib (DanBib og bibliotek.dk) Fuzzy søgning baseret på DK5 indeksering Nationalencyklopædien OntoQuery: Ontology-based Querying Ontologibaseret søgning med fokus på Ernæringsartikler i encyklopædien ScanJour Videnbaseret søgning i ESDH Avanceret søgning baseret på ontologier knyttet til ESDH Novo Nordisk a/s SIABO: Semantic Information Access through Biomedical Ontologies Semantisk indeksering af tekster i videnskabelige artikler Baseret på centrale systematikker/taksonomier/ontologier Biomedicinske UMLS, MESH, SnoMed, Sproglige WordNet, VerbNet, NomLex, Semantisk søgning og visualisering baseret på dette

Ord-baseret IR / Fritekstsøgning Simpel model: Inverterede filer ord peger på dokumenter en indgang for hvert ord stopord Mere avanceret tilgang: vægtet indeksering Vector-space model Fuzzy model Bestemmelse af vægtning mål for afstand hvor karakteristisk er et ord (fx hvor mange gange forekommer det i dokumentet) hvor godt er et ord i indeks (meget almindeligt eller sjældent)

Meta-data Meta-data stamdata dokument-navn/titel, dato, sagsbehandler, indholdsbeskrivende data manuelt eller automatisk tilknyttet det er den sidste form der er den interessante

Ressourcer til indholdsbeskrivelse (som meta-data kan referere til) Ressourcer som reference for meta-data manuelt opbygget systematik automatisk genereret Ressourcer, manuelt opbyggede Kontrollerede Emneord Klassifikationsystemer Journalplan Ressourcer automatisk genererede mængden af forekommende ord vægtet udfra statistik termnet: associationer imellem termer på baggrund af koforekomster

Indeksering indeksering tildele indholdsbeskrivelse manuelt kontrollerede emneord klassifikation facet automatisk fundne forekomster af ord kan bruges til udlede nye ressourcer termnet clustering

Termnet Narkotika 0.83 Stofmisbrug 0.15 0.14 0.19 Ungdomskultur 0.63 0.23 Unge 0.14 0.13 0.54 Alkoholmisbrug 0.21 0.62 0.44 Ungdom Alkohol

Termnet kan være nyttige men kvaliteten afhænger af kvaliteten af indekseringen DERFOR: manuelt tilknyttede metadata har potentielt stor værdi Termnet kan dannes på baggrund af hele database eller et udsnit fx en tidsperiode

Aktuel DBC artikelsamling 1999

Ontologi Generelt specificerer og relaterer begreber Gruber (1993): An ontology is an explicit specification of a conceptualization. ingen eksakt definition spænder over simple afgrænsede term-lister is-a hierarkier formelle logiske systemer

Ontologi En ontologi er et begrebs-system (som en taksonomi) (Udsnit fra UMLS/MESH) Opslag på Tryptamines

Sammensatte begreber som udgangspunkt er begreber relaterede med en relation: isa: begrebsinklusion med en samling af supplerende relationer fx loc: location, position wrt: with respect to chr: characteristic (property ascription) cby: caused by agt: agent of act or process pnt: patient of act or process dannes sammensatte begreber, fx woman woman[chr : pregnant] treatment[pnt: woman[chr: diabetic, chr: pregnant]] begreber kan altså sammensættes og dermed danne nye begreber,

Ontologi Baggrunds-ontologi Udvidet med genkendte begreber

Ontologisk semantik at afbilde ord og fraser ind i begreber i ontologien i princippet uafhængigt af forskellige sproglige iklædninger, således at samme begreb, fx barn[chr: overvægtig] kan genkendes udfra: overvægtige børn børn med overvægt børn som er overvægtige

Ontologisk beskrivelse / Semantisk indeksering beskrivelsen (indekseringen) for en tekst er en struktur af (udvalgte) begreber der indgår i denne for teksten behandling af overvægtige børn med alternativ medicin er følgende mulige alternative beskrivelser {behandling, overvægtig, barn, alternativ, medicin} {behandling, {overvægtig, barn}, {alternativ, medicin}} {behandling, barn[chr: overvægtig], medicin[chr: alternativ] } {behandling[ptn: barn[chr: overvægtig]], medicin[chr: alternativ] } semantisk indeksering erstatter / udvider konventionel ord-baseret indeksering semantisk indeks = ontologisk beskrivelse = mængde af identificerede begreber ptn: patient of act or process chr: characteristic

Semantisk indeksering Eksempel begrebs-baseret indeks = ontologisk beskrivelse = mængde af identificerede begreber fx kan 10,594 pregnant women registered at 47 primary health care (PHC) centers in Al-Hassa beskrives med { care[chr: primary, wrt: health], center[wrt: Al-Hassa], woman[chr: pregnant] }

Ekstraktion af begreber til semantisk indeksering The newest drugs, selective serotonin reuptake inhibitors (SSRIs), relieve depression similar to the TCAs and MAOIs, but have a lower rate of unpleasant side effects. selective serotonin reuptake inhibitors selective/jj serotonin/nn reuptake/nn inhibitor/nns NP[selective/JJ serotonin/nn reuptake/nn inhibitors/nns] inhibitor[chr: selective, wrt: reuptake, wrt: serotonin]

Ekstraktion af begreber til semantisk indeksering The newest drugs, selective serotonin reuptake inhibitors (SSRIs), relieve depression similar to the TCAs and MAOIs, but have a lower rate of unpleasant side effects. The/DT new/jjs drug/nns,/, selective/jj serotonin/nn reuptake/ NN inhibitor/nns (/( SSRI/NNS )/),/, relieve/vb depression/nn similar/jj to/to the/dt TCA/NNS and/cc MAOI/NNS,/, but/cc have/vbp a/dt low/jjr rate/nn of/in unpleasant/jj side/nn effect/ NNS./. NP[The/DT new/jjs drug/nns],/, NP[selective/JJ serotonin/nn reuptake/nn inhibitor/nns] (/( NP[SSRI/NNS] )/),/, relieve/vb NP[depression/NN] similar/jj to/to NP[the/DT TCA/NNS] and/cc NP[MAOI/NNS],/, but/cc have/vbp NP[a/DT low/jjr rate/nn] PP[of/IN unpleasant/jj side/nn effect/nns]./.

Ekstraktion af begreber til semantisk indeksering The newest drugs, selective serotonin reuptake inhibitors (SSRIs), relieve depression similar to the TCAs and MAOIs, but have a lower rate of unpleasant side effects. NP[The new drug] NP[selective serotonin reuptake inhibitor] NP[SSRI] NP[depression] NP[TCA] NP[MAOI] NP[a low rate] PP[of][NP[unpleasant side effect]] drug[chr: new] inhibitor[chr: selective wrt: reuptake, wrt: serotonin] SSRI depression TCA MAOI rate[chr: low, wrt: effect[chr: unpleasant, wrt: side]]

Semantisk søgning en prototype Søgespecifikation Et tekstuelt udtryk (sætning, frase, opremsning, ) Søgeevaluering bedste match i en fuzzy evaluering ontologi inddrages ved similaritetsmål over begreber i ontologien samt ekspansion af forespørgsel med similare begreber Eksempel, søgning på: cardiovascular disease in users of birth control pills

andre mulige anvendelser Udover søgning kan en ontologi anvendes til bl.a. zoom og summarization (opsummering af svar) clustering (samling af dokumenter i grupper) automatisk klassifikation grafisk visualisering (præsentation af dokumenter, såsom svar, fx igennem graf over systematikken)

Summarization, eksempel

C = {church, fortification[chr: old], stockade, fortress[chr: big]} Summarization, eksempel

C = {church, fortification[chr: old], stockade, fortress[chr: big]} δ(c) = {church, fortification, fortress[chr: big]} Summarization, eksempel

C = {church, fortification[chr: old], stockade, fortress[chr: big]} δ(c) = {church, fortification, fortress[chr: big]} δ 2 (C) = {church, defensive structure} Summarization, eksempel

C = {church, fortification[chr: old], stockade, fortress[chr: big]} δ(c) = {church, fortification, fortress[chr: big]} δ 2 (C) = {church, defensive structure} δ 3 (C) = {structure} Summarization, eksempel

Brug af ressourcer metadata (indholdsbeskrivelse), som simple ordindeks kontrollerede emneord begrebs-indeks (ontologi/taksonomi-baseret) klassifikation facet-specifikationer suppleret med de ressourcer meta-data refererer til, som kontrollerede emneords-systematik ontologi/taksonomi klassifikationsystemer journalplan kan danne grundlag for bedre og mere nuanceret søgning samt for alternative forespørgselssvar zoom og summarization (opsummering af svar) clustering (samling af dokumenter i grupper) automatisk klassifikation grafisk visualisering (præsentation af dokumenter, såsom svar, fx igennem graf over systematikken)

Brug af ressourcer udover det simple ordindeks, der dannes for at understøtte fritekstsøgning kan man nå langt med automatiske metoder til at danne semantisk indeksering semantisk analyse af tekstindhold kunstig systematik såsom termnet, termhierarkier, afledte ontologier meta-data/indholdsbeskrivelse med reference til kunstige systematikker meta-data/indholdsbeskrivelse med reference til rigtige systematikker, som kontrollerede emneord, ontologier/ taksonomier, mm men

Meta-data? der er skabt manuelt og skabt udfra fra et kendskab til indhold i forbindelse med registrering/ oprettelse udgør typisk meget værdifuld viden har ofte en meget stor betydning for mulighederne for genfinding og kan normalt ikke erstattes/genskabes ved automatiske metoder og vil dette ændre sig? (efterhånden som automatiske metoder til indeksering, indholdsbeskrivelse og ressource-opbygning bliver mere raffinerede i fremtiden) næppe men derimod åbnes der nye spændende muligheder med den helt naturlige synergi imellem den pålidelige viden som manuelt tilføjede meta-data udgør og disse automatiske metoder