Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank Bodil Nistrup Madsen Hanne Erdman Thomsen Tine Lassen Charlotte Pedersen Copenhagen Business School & DANTERMcenter 1
Oversigt DanTermBank-projektet Baggrund Oversigt over projektets delprojekter Automatisk samkøring og kvalitetssikring af data Problemer forbundet med samkøring af data fra forskellige kilder Eksempel fra eksisterende termbanker Potentielle metoder til begrebssammenkobling Opsummering Projektets øvrige delprojekter 2
Baggrund Udvikling af metoder og værktøjer til en national termbank, DanTermBank Fase I igangværende projekt Fase II kørende national termbank Deltagere: CBS-forskningsgruppe DANTERMcentret Projektet er støttet af VELUX-fonden 3
Baggrund Vi søger at udvikle avancerede metoder til: automatisk ekstraktion af viden om begreber fra tekster automatisk samkøring af data fra eksisterende kilder automatisk opbygning, validering og opdatering af ontologier brugergruppeorienteret vidensformidling 4
Baggrund : Oversigt over projektet og dets delprojekter 5
Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 6
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data To meget vanskelige typer af problemstillinger: 1 Data kan have: forskellig struktur forskellige lagringsformater forskellig kvalitet 7
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 2 indgange fra forskellige kilder kan udgøre: falske dubletter falske ækvivalenter I projektet vil vi udvikle metoder til identifikation og behandling af sådanne falske dubletter og ækvivalenter. 8
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Hvis en bruger præsenteres for mange mere eller mindre forskellige svar på en søgning, nedsættes tilliden til termbankens troværdighed og brugbarhed. Det er derfor vigtigt at sammenkoble termer, som repræsenterer samme semantiske indhold. 9
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data: Begrebssammenkobling Problemet med samkøring af data er ikke er løst tilfredsstillende i andre termbanker: I Rikstermbanken og IATE er falske dubletter ikke slået sammen. I EuroTermBank foretages en automatisk sammenkobling af indgange: resultatet er dog ikke altid optimalt, da der i samme indgang kan forekomme definitioner af vidt forskellige begreber (falske ækvivalenter). 10
Begrebssammenkobling Eksempel: absorption IATE 674 resultater EuroTermBank 42 exact matches Rikstermbanken 58 resultater 11
IATE 12
13
14
15
Emneoplysninger i en enkelt EuroTermBank -indgang EN DE LT LV RU emner absorption elastības pakāpe степень эластичности social affairs (EuroVoc: 2826); miscellaneous industries (EuroVoc: 6846) absorption gewalttätige Hinzufügung varmācīga pievienošana пoглoщeниe (в экoнoмикe) business and competition (EuroVoc: 40); economics (EuroVoc: 16); documentation (EuroVoc: 3221) absorption sugertis economic analysis (EuroVoc: 1631); financing and investment (EuroVoc: 2426); health (EuroVoc: 2841) absorption Resorption health (EuroVoc: 2841) 16
Rikstermbanken CLARA terminology course 2010 17
Betydninger i Rikstermbanken 1. uppsugning eller upptagning 2. ett ämne upptas i et annat 3. ett ämne upptas i et annat; energiupptagning hos ett ämne 4. energiupptagning hos ett ämne 5. omvandling av strålningsenergi till värme / stråling afgiver energi 6. ljus och annan strålning omvandlas till värme 7. upptagande av ljusenergi i ett material 8. process genom vilken ljudenergi minskas genom energiupptagning hos ett ämne 9. upptag av en aktiv substans i kroppen 18
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Sammenkobling falske dubletter 19
a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Adskillelse af falske ækvivalenter : 20
Begrebssammenkobling Mulige kilder til begrebssammenkobling eller -adskillelse: Ordklasse Emneangivelse Genus/ontologisk type (fx fra definition) Nøgleord i definitioner Angivne synonymer Træk (fx fra definition) 21
Begrebssammenkobling: Emneklassifikation Emneklassifikation anvendes som et første grundlag for kobling af termer fra forskellige kilder. Problemet i at forskellige kilder anvender forskellige emneklassifikationer, ofte med forskellig detaljeringsgrad, skal håndteres. 22
Begrebssammenkobling: Emneklassifikation Hvad er formålet med klassifikationen? Hurtig/præcis fremfinding Gavnlig v. dataudveksling Håndterbare delmængder af termindgange Mulighed for klassifikation i flere niveauer Eksempel: DANTERMklassifikationen 23
A. Samfundsvidenskab B. Kunst og litteratur C. Fritid og sport D. Stat, offentlig forvaltning, interne relationer E. Jura F. Økonomi og handel G. Naturvidenskab og matematik H. Medicin I. Teknik, industri, håndværk,forskellige erhverv K. Bygningsteknik L. Råstofindustri M. Datalogi og datateknik N. Energiteknik O. Maskinteknik P. Kommunikationsteknik Q. Landbrug R. Økologi og miljø S. El-energi, elektroteknik, elektronik 24
E. Jura E3000 E3100 E3200 E3500 privatret personret familieret arveret E4000 E4100 E4500 obligationsret obligationsrettens alm. del obligationsrettens specielle del 25
Opsummering Hvis vi kan løse problemet med samkøring af data i én eller anden grad, kan vi: blive i stand til at foretage en sammenkobling af indgange, så ét begreb er samlet beskrevet i én indgang, dvs falske dubletter er slået sammen. blive i stand til at foretage en adskillelse af indgange, så der i en sammenkoblet indgang kun forekomme definitioner af ét begreb, dvs falske ækvivalenter er holdt adskilt. 26
Opsummering Sammenkobling falske dubletter 27
Opsummering Adskillelse af falske ækvivalenter : 28
Delprojekter 1. Vidensindsamling a. Automatisk vidensekstraktion fra tekster. b. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data. 29
Delprojekter a. Automatisk vidensekstraktion fra tekster Udvikling af metoder og værktøjer som på baggrund af en samling af tekster inden for et fagområde kan udtrække relevante begreber samt information om relationer mellem dem Opbygning af udkast til terminologiske ontologier (begrebssystemer). 30
a. Automatisk vidensekstraktion fra tekster: Oversigt over anvendte teknikker
Delprojekter 2. Vidensindsstrukturering Der vil blive arbejdet med metoder og værktøjer til optimering og validering af de terminologiske ontologier der kommer ud af den automatiske vidensekstraktion. Arbejdet tager udgangspunkt i en tidligere udviklet prototype beregnet til computerstøttet ontologibygning baseret på terminologiske principper (CAOS). 32
Delprojekter 2. Vidensindsstrukturering Eksisterende terminologiske data kan endvidere bidrage til en automatisk opbygning og validering af ontologier: Ideelt set består definitioner af nærmeste overbegreb og de karakteristiske træk, som adskiller begrebet fra de sideordnede. 33
Delprojekter 3. Vidensformidling Termbanken vil indeholde mange typer oplysninger om hvert enkelt begreb Forskellige brugergrupper har forskellige behov mht. udvalget af oplysninger samt præsentationen af disse. Dette delprojekt beskæftiger sig med tilpasning til forskellige brugergrupper på baggrund af undersøgelser (ph.d.-projekt). 34