Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank



Relaterede dokumenter
DANTERMcentret Webbaserede termbaser og e-ordbøger

Begrebsarbejde som forudsætning for datamodellering

Vejledende minimumsbetingelser i 2016 for dispensation fra formelle adgangskrav

ADGANGSKRAV TIL BACHELORUDDANNELSER 2015

ADGANGSKRAV TIL BACHELORUDDANNELSER 2015

Fra ord til indhold VID. v. Rune Stilling - Ankiro

sundhedsvæsenet og i OIO-sammenhæng Klart sprog i Nordisk konference om klarsprog Bodil Nistrup Madsen DANTERMcentret 16.

Fakultetsoversigt. Analyse og kvalitetsudvikling 11OCT10. Bachelorgennemsnit. Samlet oversigt Gennemsnit. Nedre Kvartil.

Søgningen til Syddansk Universitet 15. marts 2011

Nye tiltag på De Ingeniør-, Natur og Sundhedsvidenskabelige Fakulteter. Aalborg Universitet v/prodekan Lars Døvling Andersen

Studievejledningen Tlf.: Åbningstider: mandag-fredag /6

Bemærk at position kan indeholde koderne 90-98, hvis betydning er forskellig afhængig af position 50.

KORT INDFØRING I BEGREBSARBEJDE

Begrebsarbejde i Kriminalforsorgen 1 Begrebsarbejde i Kriminalfor-

ADGANGSKRAV TIL BACHELORUDDANNELSER 2017

Semantik, tak! Semantik og modelbaseret standardisering i OIO. 2. april 2009, IT-arkitekturkonferencen 2009

ISSN: LYKEION 11 LYKEION

Givne karakterer og karaktergennemsnit for bachelorprojekter

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

Givne karakterer og karaktergennemsnit for kandidatspecialer

Opgørelse af Kvote 2: KOT-ansøgning til Syddansk Universitet 2015

1. Baggrund og problemstilling

Godkendte uddannelser til optagelse i IDA som medlem Københavns Universitet

Aalborg Universitet It-institut Uddannelse Adgangskrav 2012 Institut for Elektroniske

Kort intro til projektet og kompetencemål for de tre årgange. Praktisk information om brug af folkebiblioteker, lånerkort m.m.

BEGREB ELLER ORD? En diskussion af terminologiske og leksikografiske artikler

Medicin Københavns Universitet Jura Københavns Universitet

Årsplan 2013/2014 for biologi i 8. klasse

Udviklingsseminar. Fælles begreber og terminologi på det sociale område

Givne karakterer og karaktergennemsnit for kandidatspecialer

Nyuddannede, der søger bredt, har klaret sig bedst gennem krisen

Dansk A, Engelsk B og Matematik B. Bachelor: Bestået adgangsgivende eksamen (stx, eux, hf, hhx, htx, adgangskursus eller

Uddannelsesordning for uddannelsen til elektriker

SÅDAN KOMMER DU IND. Vores mål: Det bedste match KVOTE KVOTE 2 SDU.DK

IT-Universitetet i København Softwareudvikling, København S

ICF SOM REFERENCERAMME: METODEUDVIKLENDE REDSKAB I REHABILITERING OG PÆDAGOGISK PRAKSIS?

Beskæftigelsesundersøgelse 2013

VEJEN MOD ENSARTET DOKUMENTATION ET SAMARBEJDE MELLEM FORSKELLIGE AKTØRER. Camilla Wiberg Danielsen Terminolog National Sundheds-it

Teknisk-naturvidenskabelig basisuddannelse Matematik og fysik Supplering til A-niveau i matematik og B-niveau i kemi.

Behovsanalysens perspektiver for cuneco

2) foretage beregninger i sammenhæng med det naturfaglige arbejde, 4) arbejde sikkerhedsmæssigt korrekt med udstyr og kemikalier,

Forskelle på begrebsmodellering og datamodellering

PILGRIMs termdatabase

Beskæftigelsesundersøgelse 2016

Uddannelsesordning for uddannelsen til elektriker

KVOTE 2-ANSØGNINGER - FAGOPDELT

Arts. Givne karakterer og karaktergennemsnit for bachelorprojekter Side 1 af 7. 90% fraktil. Antal i alt

Terminologiarbejde hvad får vi ud af det? Om cost-benefit-analyse af terminologiarbejde

Arts. Givne karakterer og karaktergennemsnit for bachelorprojekter Side 1 af 5. 90% fraktil. Antal i alt

Evaluering på AAU HVAD EVALUERES? Semester Kursus. Underviser Vejleder- og projektforløb

Tabel 1: Ansøgninger til Aarhus Universitet Udvikling i Udvikling i

ADGANGSKRAV PÅ TILVALGSNIVEAU SUPPLERING INDEN STUDIESTART SAMT ANDRE NØDVENDIGE FORUDSÆTNINGER UDDANNELSE / STUDIUM NATURVIDENSKAB

Visionen #2: Integrerede metadata

Søgning i PubMed. Onsdag d. 7. januar Undervisere: Birgit Nørgaard Christensen Maria Østerbye

Sport & Event Management. Serviceøkonom med speciale i Sport og Event Management EASJ og Talent Lab, Slagelse

Nyindskrevne ph.d.-studerende

Arts. Givne karakterer og karaktergennemsnit for kandidatspecialer Side 1 af 7. Antal i alt

Gert Engel og Bertha Toft

Københavns åbne Gymnasium

Transkript:

Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank Bodil Nistrup Madsen Hanne Erdman Thomsen Tine Lassen Charlotte Pedersen Copenhagen Business School & DANTERMcenter 1

Oversigt DanTermBank-projektet Baggrund Oversigt over projektets delprojekter Automatisk samkøring og kvalitetssikring af data Problemer forbundet med samkøring af data fra forskellige kilder Eksempel fra eksisterende termbanker Potentielle metoder til begrebssammenkobling Opsummering Projektets øvrige delprojekter 2

Baggrund Udvikling af metoder og værktøjer til en national termbank, DanTermBank Fase I igangværende projekt Fase II kørende national termbank Deltagere: CBS-forskningsgruppe DANTERMcentret Projektet er støttet af VELUX-fonden 3

Baggrund Vi søger at udvikle avancerede metoder til: automatisk ekstraktion af viden om begreber fra tekster automatisk samkøring af data fra eksisterende kilder automatisk opbygning, validering og opdatering af ontologier brugergruppeorienteret vidensformidling 4

Baggrund : Oversigt over projektet og dets delprojekter 5

Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 6

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data To meget vanskelige typer af problemstillinger: 1 Data kan have: forskellig struktur forskellige lagringsformater forskellig kvalitet 7

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 2 indgange fra forskellige kilder kan udgøre: falske dubletter falske ækvivalenter I projektet vil vi udvikle metoder til identifikation og behandling af sådanne falske dubletter og ækvivalenter. 8

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Hvis en bruger præsenteres for mange mere eller mindre forskellige svar på en søgning, nedsættes tilliden til termbankens troværdighed og brugbarhed. Det er derfor vigtigt at sammenkoble termer, som repræsenterer samme semantiske indhold. 9

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data: Begrebssammenkobling Problemet med samkøring af data er ikke er løst tilfredsstillende i andre termbanker: I Rikstermbanken og IATE er falske dubletter ikke slået sammen. I EuroTermBank foretages en automatisk sammenkobling af indgange: resultatet er dog ikke altid optimalt, da der i samme indgang kan forekomme definitioner af vidt forskellige begreber (falske ækvivalenter). 10

Begrebssammenkobling Eksempel: absorption IATE 674 resultater EuroTermBank 42 exact matches Rikstermbanken 58 resultater 11

IATE 12

13

14

15

Emneoplysninger i en enkelt EuroTermBank -indgang EN DE LT LV RU emner absorption elastības pakāpe степень эластичности social affairs (EuroVoc: 2826); miscellaneous industries (EuroVoc: 6846) absorption gewalttätige Hinzufügung varmācīga pievienošana пoглoщeниe (в экoнoмикe) business and competition (EuroVoc: 40); economics (EuroVoc: 16); documentation (EuroVoc: 3221) absorption sugertis economic analysis (EuroVoc: 1631); financing and investment (EuroVoc: 2426); health (EuroVoc: 2841) absorption Resorption health (EuroVoc: 2841) 16

Rikstermbanken CLARA terminology course 2010 17

Betydninger i Rikstermbanken 1. uppsugning eller upptagning 2. ett ämne upptas i et annat 3. ett ämne upptas i et annat; energiupptagning hos ett ämne 4. energiupptagning hos ett ämne 5. omvandling av strålningsenergi till värme / stråling afgiver energi 6. ljus och annan strålning omvandlas till värme 7. upptagande av ljusenergi i ett material 8. process genom vilken ljudenergi minskas genom energiupptagning hos ett ämne 9. upptag av en aktiv substans i kroppen 18

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Sammenkobling falske dubletter 19

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Adskillelse af falske ækvivalenter : 20

Begrebssammenkobling Mulige kilder til begrebssammenkobling eller -adskillelse: Ordklasse Emneangivelse Genus/ontologisk type (fx fra definition) Nøgleord i definitioner Angivne synonymer Træk (fx fra definition) 21

Begrebssammenkobling: Emneklassifikation Emneklassifikation anvendes som et første grundlag for kobling af termer fra forskellige kilder. Problemet i at forskellige kilder anvender forskellige emneklassifikationer, ofte med forskellig detaljeringsgrad, skal håndteres. 22

Begrebssammenkobling: Emneklassifikation Hvad er formålet med klassifikationen? Hurtig/præcis fremfinding Gavnlig v. dataudveksling Håndterbare delmængder af termindgange Mulighed for klassifikation i flere niveauer Eksempel: DANTERMklassifikationen 23

A. Samfundsvidenskab B. Kunst og litteratur C. Fritid og sport D. Stat, offentlig forvaltning, interne relationer E. Jura F. Økonomi og handel G. Naturvidenskab og matematik H. Medicin I. Teknik, industri, håndværk,forskellige erhverv K. Bygningsteknik L. Råstofindustri M. Datalogi og datateknik N. Energiteknik O. Maskinteknik P. Kommunikationsteknik Q. Landbrug R. Økologi og miljø S. El-energi, elektroteknik, elektronik 24

E. Jura E3000 E3100 E3200 E3500 privatret personret familieret arveret E4000 E4100 E4500 obligationsret obligationsrettens alm. del obligationsrettens specielle del 25

Opsummering Hvis vi kan løse problemet med samkøring af data i én eller anden grad, kan vi: blive i stand til at foretage en sammenkobling af indgange, så ét begreb er samlet beskrevet i én indgang, dvs falske dubletter er slået sammen. blive i stand til at foretage en adskillelse af indgange, så der i en sammenkoblet indgang kun forekomme definitioner af ét begreb, dvs falske ækvivalenter er holdt adskilt. 26

Opsummering Sammenkobling falske dubletter 27

Opsummering Adskillelse af falske ækvivalenter : 28

Delprojekter 1. Vidensindsamling a. Automatisk vidensekstraktion fra tekster. b. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data. 29

Delprojekter a. Automatisk vidensekstraktion fra tekster Udvikling af metoder og værktøjer som på baggrund af en samling af tekster inden for et fagområde kan udtrække relevante begreber samt information om relationer mellem dem Opbygning af udkast til terminologiske ontologier (begrebssystemer). 30

a. Automatisk vidensekstraktion fra tekster: Oversigt over anvendte teknikker

Delprojekter 2. Vidensindsstrukturering Der vil blive arbejdet med metoder og værktøjer til optimering og validering af de terminologiske ontologier der kommer ud af den automatiske vidensekstraktion. Arbejdet tager udgangspunkt i en tidligere udviklet prototype beregnet til computerstøttet ontologibygning baseret på terminologiske principper (CAOS). 32

Delprojekter 2. Vidensindsstrukturering Eksisterende terminologiske data kan endvidere bidrage til en automatisk opbygning og validering af ontologier: Ideelt set består definitioner af nærmeste overbegreb og de karakteristiske træk, som adskiller begrebet fra de sideordnede. 33

Delprojekter 3. Vidensformidling Termbanken vil indeholde mange typer oplysninger om hvert enkelt begreb Forskellige brugergrupper har forskellige behov mht. udvalget af oplysninger samt præsentationen af disse. Dette delprojekt beskæftiger sig med tilpasning til forskellige brugergrupper på baggrund af undersøgelser (ph.d.-projekt). 34