Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank



Relaterede dokumenter
DANTERMcentret Webbaserede termbaser og e-ordbøger

Begrebsarbejde som forudsætning for datamodellering

Begrebsmodellering i Justitsministeriet Modeller for samarbejde om begrebsarbejde NORDTERM 8. og 9. juni 2011

Terminologi til tiden

Vejledende minimumsbetingelser i 2016 for dispensation fra formelle adgangskrav

ADGANGSKRAV TIL BACHELORUDDANNELSER 2015

ADGANGSKRAV TIL BACHELORUDDANNELSER 2015

Fra ord til indhold VID. v. Rune Stilling - Ankiro

Vejledende dispensatkrav:

Klart sprog i sundhedsvæsenet og i fællesoffentlig digital forvaltning

Terminologiarbejde på tværs af kulturer og sprog Bodil Nistrup Madsen & Hanne Erdman Thomsen

sundhedsvæsenet og i OIO-sammenhæng Klart sprog i Nordisk konference om klarsprog Bodil Nistrup Madsen DANTERMcentret 16.

Vejledende dispensatkrav:

Notat om et dansk nationalt terminologicenter

Fakultetsoversigt. Analyse og kvalitetsudvikling 11OCT10. Bachelorgennemsnit. Samlet oversigt Gennemsnit. Nedre Kvartil.

Søgningen til Syddansk Universitet 15. marts 2011

Nye tiltag på De Ingeniør-, Natur og Sundhedsvidenskabelige Fakulteter. Aalborg Universitet v/prodekan Lars Døvling Andersen

Studievejledningen Tlf.: Åbningstider: mandag-fredag /6

Bemærk at position kan indeholde koderne 90-98, hvis betydning er forskellig afhængig af position 50.

Vejledende minimumsbetingelser i 2017 for dispensation fra formelle adgangskrav

KORT INDFØRING I BEGREBSARBEJDE

Begrebsarbejde i Kriminalforsorgen 1 Begrebsarbejde i Kriminalfor-

Rettelser pr. 17. oktober 2017 er markeret med *

ADGANGSKRAV TIL BACHELORUDDANNELSER 2017

Semantik, tak! Semantik og modelbaseret standardisering i OIO. 2. april 2009, IT-arkitekturkonferencen 2009

ISSN: LYKEION 11 LYKEION

Givne karakterer og karaktergennemsnit for bachelorprojekter

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

Dina Lemming Pedersen Rosa Andersen

Givne karakterer og karaktergennemsnit for kandidatspecialer

Vejledende dispensatkrav:

Opgørelse af Kvote 2: KOT-ansøgning til Syddansk Universitet 2015

CEBR-analyse - et førende videncenter for dansk økonomi

Årsplan 2012/2013 for biologi i 7. klasse

1. Baggrund og problemstilling

Godkendte uddannelser til optagelse i IDA som medlem Københavns Universitet

Valgdata Bestyrelsen 2016

Introduktion. Jan Brown Maj, 2010

Aalborg Universitet It-institut Uddannelse Adgangskrav 2012 Institut for Elektroniske

Ordinært valg 2018 / Ordinary Election 2018

Kort intro til projektet og kompetencemål for de tre årgange. Praktisk information om brug af folkebiblioteker, lånerkort m.m.

BEGREB ELLER ORD? En diskussion af terminologiske og leksikografiske artikler

Medicin Københavns Universitet Jura Københavns Universitet

Valgdata Bestyrelsen 2015

Årsplan 2013/2014 for biologi i 8. klasse

Signaturer & klassifikation Den Slesvigske Samling

Udviklingsseminar. Fælles begreber og terminologi på det sociale område

Tabel 1: Ansøgninger til Aarhus Universitet Udvikling i Udvikling i

Givne karakterer og karaktergennemsnit for kandidatspecialer

KOT TILBUD OM OPTAGELSE

Tabelsamling. Grønlandsrelateret forskning og udvikling Forskningsstatistik

Terminologi. som del af en digitaliseringsstrategi

Nyuddannede, der søger bredt, har klaret sig bedst gennem krisen

Dansk A, Engelsk B og Matematik B. Bachelor: Bestået adgangsgivende eksamen (stx, eux, hf, hhx, htx, adgangskursus eller

Uddannelsesordning for uddannelsen til elektriker

SÅDAN KOMMER DU IND. Vores mål: Det bedste match KVOTE KVOTE 2 SDU.DK

IT-Universitetet i København Softwareudvikling, København S

Hans-Peder Kromann. Base b11: FAGSPROGSBIBLIOGRAFIEN. Sprogbiblioteket, HERMES on-line katalog, Handelshøjskolen

Kommissorium for Dataetisk Råd 30. januar 2019

Beskæftigelsesundersøgelse 2012

ICF SOM REFERENCERAMME: METODEUDVIKLENDE REDSKAB I REHABILITERING OG PÆDAGOGISK PRAKSIS?

Beskæftigelsesundersøgelse 2013

VEJEN MOD ENSARTET DOKUMENTATION ET SAMARBEJDE MELLEM FORSKELLIGE AKTØRER. Camilla Wiberg Danielsen Terminolog National Sundheds-it

Teknisk-naturvidenskabelig basisuddannelse Matematik og fysik Supplering til A-niveau i matematik og B-niveau i kemi.

Ledige højtuddannede i Aalborg Kommune Analyse

Behovsanalysens perspektiver for cuneco

SEMESTEREVALUERING MODUL 1 OG 2 EFTERÅRET Køn

2) foretage beregninger i sammenhæng med det naturfaglige arbejde, 4) arbejde sikkerhedsmæssigt korrekt med udstyr og kemikalier,

Forskelle på begrebsmodellering og datamodellering

PILGRIMs termdatabase

Ansøgninger og tilbud om optagelse

KOT-ansøgninger og tilbud om optagelse

Beskæftigelsesundersøgelse 2016

KOT-ansøgninger og tilbud om optagelse

Godkendte uddannelser til optagelse i IDA som medlem

Uddannelsesordning for uddannelsen til elektriker

3. DATA OG METODE. arbejdsmarkedet er forløbet afhængig af den enkeltes uddannelsesbaggrund.

UDSNIT 8. februar 2008

KVOTE 2-ANSØGNINGER - FAGOPDELT

Arts. Givne karakterer og karaktergennemsnit for bachelorprojekter Side 1 af 7. 90% fraktil. Antal i alt

Terminologiarbejde hvad får vi ud af det? Om cost-benefit-analyse af terminologiarbejde

Arts. Givne karakterer og karaktergennemsnit for bachelorprojekter Side 1 af 5. 90% fraktil. Antal i alt

Beskæftigelsesundersøgelse 2014

Beskæftigelsesundersøgelse 2011

Evaluering på AAU HVAD EVALUERES? Semester Kursus. Underviser Vejleder- og projektforløb

Terminologi på tværs af Danmark og EU

Høring af den reviderede fælleskommunale dokumentationsmetode

Designforslag. Det Telemedicinske Landkort i nye klæder. Præsentation for kortlægningsgruppen d. 14. Sep. 2015

Tabel 1: Ansøgninger til Aarhus Universitet Udvikling i Udvikling i

Kompetencegivende uddannelser 2009 Side 3

Ansøgninger, pladser, tilbud om optagelse, ledige pladser og grænsekvotienter ved Aarhus Universitet Opgjort d. 29. juli 2009

ADGANGSKRAV PÅ TILVALGSNIVEAU SUPPLERING INDEN STUDIESTART SAMT ANDRE NØDVENDIGE FORUDSÆTNINGER UDDANNELSE / STUDIUM NATURVIDENSKAB

Visionen #2: Integrerede metadata

Ph.d. Ph.d.-uddannelsen i tal udviklingen frem til og med 2013

Søgning i PubMed. Onsdag d. 7. januar Undervisere: Birgit Nørgaard Christensen Maria Østerbye

Sport & Event Management. Serviceøkonom med speciale i Sport og Event Management EASJ og Talent Lab, Slagelse

Nyindskrevne ph.d.-studerende

Arts. Givne karakterer og karaktergennemsnit for kandidatspecialer Side 1 af 7. Antal i alt

Gert Engel og Bertha Toft

Københavns åbne Gymnasium

Transkript:

Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank Bodil Nistrup Madsen Hanne Erdman Thomsen Tine Lassen Charlotte Pedersen Copenhagen Business School & DANTERMcenter 1

Oversigt DanTermBank-projektet Baggrund Oversigt over projektets delprojekter Automatisk samkøring og kvalitetssikring af data Problemer forbundet med samkøring af data fra forskellige kilder Eksempel fra eksisterende termbanker Potentielle metoder til begrebssammenkobling Opsummering Projektets øvrige delprojekter 2

Baggrund Udvikling af metoder og værktøjer til en national termbank, DanTermBank Fase I igangværende projekt Fase II kørende national termbank Deltagere: CBS-forskningsgruppe DANTERMcentret Projektet er støttet af VELUX-fonden 3

Baggrund Vi søger at udvikle avancerede metoder til: automatisk ekstraktion af viden om begreber fra tekster automatisk samkøring af data fra eksisterende kilder automatisk opbygning, validering og opdatering af ontologier brugergruppeorienteret vidensformidling 4

Baggrund : Oversigt over projektet og dets delprojekter 5

Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 6

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data To meget vanskelige typer af problemstillinger: 1 Data kan have: forskellig struktur forskellige lagringsformater forskellig kvalitet 7

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data 2 indgange fra forskellige kilder kan udgøre: falske dubletter falske ækvivalenter I projektet vil vi udvikle metoder til identifikation og behandling af sådanne falske dubletter og ækvivalenter. 8

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Hvis en bruger præsenteres for mange mere eller mindre forskellige svar på en søgning, nedsættes tilliden til termbankens troværdighed og brugbarhed. Det er derfor vigtigt at sammenkoble termer, som repræsenterer samme semantiske indhold. 9

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data: Begrebssammenkobling Problemet med samkøring af data er ikke er løst tilfredsstillende i andre termbanker: I Rikstermbanken og IATE er falske dubletter ikke slået sammen. I EuroTermBank foretages en automatisk sammenkobling af indgange: resultatet er dog ikke altid optimalt, da der i samme indgang kan forekomme definitioner af vidt forskellige begreber (falske ækvivalenter). 10

Begrebssammenkobling Eksempel: absorption IATE 674 resultater EuroTermBank 42 exact matches Rikstermbanken 58 resultater 11

IATE 12

13

14

15

Emneoplysninger i en enkelt EuroTermBank -indgang EN DE LT LV RU emner absorption elastības pakāpe степень эластичности social affairs (EuroVoc: 2826); miscellaneous industries (EuroVoc: 6846) absorption gewalttätige Hinzufügung varmācīga pievienošana пoглoщeниe (в экoнoмикe) business and competition (EuroVoc: 40); economics (EuroVoc: 16); documentation (EuroVoc: 3221) absorption sugertis economic analysis (EuroVoc: 1631); financing and investment (EuroVoc: 2426); health (EuroVoc: 2841) absorption Resorption health (EuroVoc: 2841) 16

Rikstermbanken CLARA terminology course 2010 17

Betydninger i Rikstermbanken 1. uppsugning eller upptagning 2. ett ämne upptas i et annat 3. ett ämne upptas i et annat; energiupptagning hos ett ämne 4. energiupptagning hos ett ämne 5. omvandling av strålningsenergi till värme / stråling afgiver energi 6. ljus och annan strålning omvandlas till värme 7. upptagande av ljusenergi i ett material 8. process genom vilken ljudenergi minskas genom energiupptagning hos ett ämne 9. upptag av en aktiv substans i kroppen 18

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Sammenkobling falske dubletter 19

a. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data Adskillelse af falske ækvivalenter : 20

Begrebssammenkobling Mulige kilder til begrebssammenkobling eller -adskillelse: Ordklasse Emneangivelse Genus/ontologisk type (fx fra definition) Nøgleord i definitioner Angivne synonymer Træk (fx fra definition) 21

Begrebssammenkobling: Emneklassifikation Emneklassifikation anvendes som et første grundlag for kobling af termer fra forskellige kilder. Problemet i at forskellige kilder anvender forskellige emneklassifikationer, ofte med forskellig detaljeringsgrad, skal håndteres. 22

Begrebssammenkobling: Emneklassifikation Hvad er formålet med klassifikationen? Hurtig/præcis fremfinding Gavnlig v. dataudveksling Håndterbare delmængder af termindgange Mulighed for klassifikation i flere niveauer Eksempel: DANTERMklassifikationen 23

A. Samfundsvidenskab B. Kunst og litteratur C. Fritid og sport D. Stat, offentlig forvaltning, interne relationer E. Jura F. Økonomi og handel G. Naturvidenskab og matematik H. Medicin I. Teknik, industri, håndværk,forskellige erhverv K. Bygningsteknik L. Råstofindustri M. Datalogi og datateknik N. Energiteknik O. Maskinteknik P. Kommunikationsteknik Q. Landbrug R. Økologi og miljø S. El-energi, elektroteknik, elektronik 24

E. Jura E3000 E3100 E3200 E3500 privatret personret familieret arveret E4000 E4100 E4500 obligationsret obligationsrettens alm. del obligationsrettens specielle del 25

Opsummering Hvis vi kan løse problemet med samkøring af data i én eller anden grad, kan vi: blive i stand til at foretage en sammenkobling af indgange, så ét begreb er samlet beskrevet i én indgang, dvs falske dubletter er slået sammen. blive i stand til at foretage en adskillelse af indgange, så der i en sammenkoblet indgang kun forekomme definitioner af ét begreb, dvs falske ækvivalenter er holdt adskilt. 26

Opsummering Sammenkobling falske dubletter 27

Opsummering Adskillelse af falske ækvivalenter : 28

Delprojekter 1. Vidensindsamling a. Automatisk vidensekstraktion fra tekster. b. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data. 29

Delprojekter a. Automatisk vidensekstraktion fra tekster Udvikling af metoder og værktøjer som på baggrund af en samling af tekster inden for et fagområde kan udtrække relevante begreber samt information om relationer mellem dem Opbygning af udkast til terminologiske ontologier (begrebssystemer). 30

a. Automatisk vidensekstraktion fra tekster: Oversigt over anvendte teknikker

Delprojekter 2. Vidensindsstrukturering Der vil blive arbejdet med metoder og værktøjer til optimering og validering af de terminologiske ontologier der kommer ud af den automatiske vidensekstraktion. Arbejdet tager udgangspunkt i en tidligere udviklet prototype beregnet til computerstøttet ontologibygning baseret på terminologiske principper (CAOS). 32

Delprojekter 2. Vidensindsstrukturering Eksisterende terminologiske data kan endvidere bidrage til en automatisk opbygning og validering af ontologier: Ideelt set består definitioner af nærmeste overbegreb og de karakteristiske træk, som adskiller begrebet fra de sideordnede. 33

Delprojekter 3. Vidensformidling Termbanken vil indeholde mange typer oplysninger om hvert enkelt begreb Forskellige brugergrupper har forskellige behov mht. udvalget af oplysninger samt præsentationen af disse. Dette delprojekt beskæftiger sig med tilpasning til forskellige brugergrupper på baggrund af undersøgelser (ph.d.-projekt). 34