ISSN: 1602-9259 LYKEION 11 LYKEION



Relaterede dokumenter
Begrebsarbejde som forudsætning for datamodellering

KORT INDFØRING I BEGREBSARBEJDE

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank

DANTERMcentret Webbaserede termbaser og e-ordbøger

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 3: E-R modellering. 17. februar Forelæser: Rasmus Pagh

Begrebsarbejde i Kriminalforsorgen 1 Begrebsarbejde i Kriminalfor-

Hvad er formel logik?

Databasesystemer, forår 2006 IT Universitetet i København. Forelæsning 3: E-R modellering. 16. februar Forelæser: Rasmus Pagh

ER-modellen. Databaser, efterår Troels Andreasen. Efterår 2002

Forskelle på begrebsmodellering og datamodellering

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

CCS Formål Produktblad December 2015

Den sproglige vending i filosofien

Den sene Wittgenstein

Opgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015

Forløbskoordinator under konstruktion

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

SUP-specifikation, version 2.0. Bilag 14. SUP-Styregruppen. Ordliste (informativ) Udkast af 12. juni Udarbejdet for

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 4: Mere om E-R modellering. 24. februar Forelæser: Rasmus Pagh

Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

Eksempel på den aksiomatisk deduktive metode

CCS klassifikation og identifikation

Opgaver hørende til undervisningsmateriale om Herons formel

Opgaveteknisk vejledning Word 2011 til Mac. Tornbjerg Gymnasium 10. december 2015

Beskæring af et billede med Vegas Pro

Lis Højgaard KØN OG LØN - En analyse af virksomhedskultur og lønforskelle mellem kvinder og mænd i fire private virksomheder Samfundslitteratur

ALTING PÅ SIN PLADS OG PLADS TIL ALTING. OM AT ORDNE OG UDNYTTE VIDEN OM VERDEN. Bodil Nistrup Madsen Handelshøjskolen i København

Opgaveteknisk vejledning Word Tornbjerg Gymnasium 10. december 2015

Progression frem mod skriftlig eksamen

Scope Management ITU #ituscpmgt

PILGRIMs termdatabase

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

Pointen med Differentiation

Balanced scorecard på dansk

DATABASE - MIN MUSIKSAMLING

Casper Fabricius ActiveRecord. O/RM i Ruby on Rails

Virksomhedens informationssystem. Det elektroniske kontor. Elektronisk dokumenthåndtering Samfundet. Systembeskrivelse II IT og økonomi

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund.

DM517:Supplerende noter om uafgørlighedsbeviser:

Anvendt videnskabsteori

Udviklingsseminar. Fælles begreber og terminologi på det sociale område

1.0 FORMELLE KRAV HVORDAN OPGAVENS OPBYGNING... 2

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

Noter til Perspektiver i Matematikken

Vejledning - Udarbejdelse af gevinstdiagram

Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling

ViKoSys. Virksomheds Kontakt System

Fremstillingsformer i historie

Forslag til ny struktur - overblik

VisiRegn: En e-bro mellem regning og algebra

Villa Venire Biblioteket. Af Marie Martinussen, Forsker ved Aalborg Universitet for Læring og Filosofi. Vidensamarbejde

Lynkursus i analyse. Vejledning - vi tilbyder individuel vejledning i skriftlig akademisk fremstilling.

Mapping-tabeller. Indholdsfortegnelse. 1. Forord. 1. Forord. 2. Tabellernes opbygning og indhold. 3. Formålet med tabellerne

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

nikolaj stegeager Organisationer i bevægelse Læring UdvikLing intervention

Appendiks 6: Universet som en matematisk struktur

UML til kravspecificering

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

Nina Ekman og Stine Reintoft. Mindfulness. for dig som mor med det lille barn

Danske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog.

Demokrati og deltagelse i arbejdslivet

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal.

Regneark hvorfor nu det?

Flere ligninger med flere ukendte

Akademisk tænkning en introduktion

Repræsentationer af handlinger og sproghandlinger

Vejledning til referencehåndteringssystemet. Forsvarets Bibliotekscenter Anita Elleby

Trekanter. Frank Villa. 8. november 2012

KØN I HISTORIEN. Agnes S. Arnórsdóttir og Jens A. Krasilnikoff. Redigeret af. Aar h u s Uni v e r sit e t s forl a g

Matematikkens filosofi filosofisk matematik

Vidensmedier på nettet

DØMMEKRAFT. i byggeriet

E-markedspladser et springbræt for dansk eksport

DE BEAR TECHNOLOGY. o Processer, metoder & værktøjer. info@dbtechnology.dk

Maintenance Documentation for maintenance

DS-HÅNDBOG 111.1: Jern og stål. og dokumentation

Eksamensprojektet - hf-enkeltfag Vejledning August 2010

Statiske beregninger. - metode og dokumentation. af Bjarne Chr. Jensen

Markedsføringsplanlægning og -ledelse

Hvad er et tal? Dan Saattrup Nielsen

Metodehåndbog. Begrebsmodeller, Informationsmodeller og Begrebsdefinitioner. Udarbejdet i fællesskab mellem Udbetaling Danmark/KL/KOMBIT

Trusselsidentifikation ved risikovurderingen af offentlige it-systemer Kom godt i gang

Prosodi i ledsætninger

Transkript:

ISSN: 1602-9259 LYKEION nyt 11 LYKEION DANTERMcentret, Bernhard Bangs Allé 17 A, DK-2000 Frederiksberg T: 38153371, Fax: 38153820 Juli 2003, redaktion: Mogens Ehrich Dette nummer indeholder bl.a. materiale fra workshop d. 30. april 2003 om datamodellering OBS: Torsdag d. 18 september er der ny workshop ved Carl Chr. Lassen: Rationaliseringens sprog - ca kl. 14, præcis tid og sted meddeles Abstract: Min observation er, at vi har oplevet en masse 'tre bogstavs navne' på metoder, principper, filosofier etc. igennem de seneste 25 år, der er dukket op, prædiket om, og forsvundet i glemslen igen. Hver gang man har set det nye lys, og har kigget det i kortene, så er det 'gammel vin' på nye flasker i nye indpakninger. I grund og bund drejer det sig om at sammensætte og strukturerer de fire grundlæggende elementer på en hensigtsmæssig måde: Lav noget, Kontroller det, Flyt det og Opbevar det. (Nyd både bogstavrim og rim: Make, Test, Move, Rest). Det er branche - u - specifikt! Det er 'prædikant' - u - specifikt! INDHOLD: Lise Borup: Modellering i logistikdomænet Side 2 Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Resumé til brug ved workshop: Datamodellering og begrebsmodellering i terminologidomænet 5 Uddrag fra bog Viden om Viden, del 2 Forskning udgivet af DANTERMcentret 2002, side 99-138: Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Computerstøttet opbygning af begrebssystemer Datamodellering og begrebsmodellering i terminologidomænet 8

Frederiksberg d. 31.3.2003 NOTAT OM MODELLERING I LOGISTIKDOMÆNET v/lise Borup Inspirationen til at udarbejde et notat om logistik kommer fra højst forskellige kanter. Først og fremmest fra påvirkning af de problemer der er med modellering i byggeriet og fra det nyere initiativ 'Lean Construction' om byggeriets logistik. Men også fra påvirkningen af helt aktuelle begivenheder som krigen i Irak, der nu influeres af logistiske vanskeligheder eller forsyningsvanskeligheder. Der er to forskellige ordforklaringer på logistik i Gyldendals Fremmedordbog. Den første handler om ordets filosofiske betydning, og den anden om ordets mere praktiske betydning. Notatet handler om logistik i praktisk betydning, hvor ordbogen forklarer: 'højere forsyningstjeneste; beregningskunst vedr. flytning og forsyning af tropper'. Men det anbefales i høj grad at sætte sig ind i ordets filosofiske betydning, hvor Politikens filosofileksikon gør grundigt rede for logistikbegrebet, dets rødder og historie - herunder om logos og logik. Logistik set logisk og ontologisk ifølge Aristoteles Om logistik Logistik handler - ifølge ovenstående ordforklaring nr. 2 - om aktioner med flytning af ting/forsyninger i tid og rum. Dette involverer en stor mængde forskellige begreber hvoraf nogle er overordnede, og andre er mere underordnede. Uden en fungerende referenceramme for helheden af alle disse begreber og deres logiske og ontologiske sammenhænge, kan det være svært at organisere og holde styr på alle aktiviteterne og de ting som indgår i dem. Om den formale logik Efterfølgende om logikkens udvikling er baseret på kortfattede uddrag fra Jørgen Jørgensen 'Indledning til logikken og metodelæren' fra 1963. Uddragene blev brugt første gang i 'Notat vedr. tværfagligt seminar om begrebslæren bag moderne systemanalyse og systemkonstruktion' af 14.11.1996, som blev fremlagt på første Lykeion møde i Dansk Standard d. 27. januar 1997. Udviklingen af logikken begyndte med den formale (eller formelle) logik i form af begrebs- eller navnelogikken hos grækeren Aristoteles (384-322 f.kr.). Aristoteles erstattede Platons metafysiske eller overnaturlige idé-realisme med en begrebs-realisme baseret på begrebets iboende natur (eller tingenes væsen). Aristoteles forklarede eller definerede begreber som substans, klasser af slægter og arter, definitioner og egenskaber i sit arbejde med at udrede tingenes væsen. Egenskaber opdelte han i 9 hovedarter, der tilsammen med substansen udgør de 10 aristoteleske 'kategorier', som på en gang er de højeste begreber og de almeneste former for 'væren' eller 'eksistens'. Aristoteles 10 kategorier omfatter således en helhed af 'det værende' - en ontologi. SUBSTANS 1) Substans (Substans; Entitet; Eksistens; Sag; Objekt; Fænomen) EGENSKABER/PRÆDIKATER 2) Kvalitet (Kvalitet - ønskelig, verificerbar, målelig; Egenskabsværdier) 3) Kvantitet (Kvantitet, Måleenhed; Tal; Sum; Mængder) 4) Relation (Relation; Forbindelse; Reference; Association; Klasse/Klassifikation; Orden/Rækkefølge/Hierarki; Model; System etc) 5) Sted (Sted; Position/Lokalisering; Rum) 6) Tid (Tid; Tidspunkt; Periode; Varighed; Alder; Ældning) 7) Tilstand (Tilstand eller Konstitution - udfra iboende egenskaber som fx Materiale; Sanselige overfladekarakteristika; Vægt; Form; Struktur; Komposition mv) 8) Haven (Haven; Ejerskab; Ejendom; Penge; Kapital; Financiering mv) 9) Handlen (Handlen; Bevægelse; Aktion; Aktivitet; Proces; Produktion - inkl. Aktør/Agent ('Agency') som driver og indvirker på aktionen/processen mv) 10) Liden (Påvirkninger fra aktionen/processen på dens omgivelser/miljø inkl. 2

mennesker; Følelser) Efterfølgende gør Jørgen Jørgensen rede for de næste fire trin af logikkens udviklingshistorie, hvor 5 trin - ifølge Jørgen Jørgensen - udvikledes i begyndelse af 1900tallet i form af den symbolske eller matematiske logik (den gang kaldt for logistikken). Om begreberne i logistikdomænet Begreberne i logistikdomænet handler om aktioner/processer -> 9. Handlen med ting -> 1. Substans i tid -> 6. Tid og rum -> 5. Sted. Alle naturlige og menneskeskabte processer indebærer at tingene/substanser forandrer sig. I produktionsprocesser sker i reglen store forandringer i forvandlingen fra input til output. I flytteprocesser er der ofte ingen synlige tegn på forandringer, idet 'tingen' som flyttes er den samme set som input eller output - blot er den blevet ældre målt med flytningens varighed -> 6. Tid. For fordærvelige ting kan dette selvfølgelig have alvorlige konsekvenser, så jo kortere flyttetid jo mindre forældelse. Men en flytteaktion med fx mennesker (dyr og planter) kan være ufrivillig, hvor man bliver revet op med rode og har svært ved at komme over flytningen -> 10. Liden. Flytninger kan også betyde store forandringer af de steder -> 5. Sted, der flyttes fra og af de steder der flyttes til. Modellering af begreberne i logistikdomænet Efterfølgende eksempler på begreber i logistikdomænet og på begrebernes logiske og ontologiske relationer bør ikke betragtes som fuldt dækkende, men blot eksemplificeret for at give en idé om tankegangen. Der er ikke skelnet imellem logiske og ontologiske (berøring i tid og rum) relationstyper. 1. Substans Tingene/forsyningerne kan betragtes som -> 1. Substans. Tingene består af bestemte typer/arter/slags. Typerne kan være af en speciel slags eller en gruppe/samling af forskellige slags. Tingene - som substans - forvandles som input til output i aktionen/processen -> 9. Handlen. 2. Kvalitet Alle typerne af tingene -> 1. Substans har kvaliteter eller egenskaber -> 2. Kvalitet, hvoraf nogle har kvanticiferbare egenskabsværdier -> 4. Relation til -> 3. Kvantitet. Disse kvaliteter - som omfatter iboende egenskaber -> 7. Tilstand og deraf følgende relationsegenskaber som funktions- og reaktionsegenskaber/brugsegenskaber/ydeevner/kapaciteter (adfærd/performance) - forvandles i aktionen/processen -> 9. Handlen. 3. Kvantitet Alle typerne af ting/forsyninger -> 1. Substans er i x-antal eksemplarer -> 3. Kvantitet 4. Relation Nærværende eksemplificeres relationer mellem 2. Kvalitet og 3. Kvantitet - mellem 7. Tilstand og 2. Kvalitet - mellem 8. Haven og 3. Kvantitet - og mellem 9. Handlen og 10. Liden. Der er mange flere eksempler på relationer, idet fx 1. Substans har relationer til alle 9 egenskabskategorier. 9. Handlen har relationer til både 1. Substans, 2. Kvalitet, 3. Kvantitet, 5. Sted, 6. Tid, 7. Tilstand, 8. Haven og 10. Liden osv osv. 5. Sted Flytningen 9. Handlen foregår i rum eller steder, dvs at tingene flyttes fra et sted til et andet sted -> 5. Sted. Disse rum eller steder kan også - i visse situationer - betragtes som -> 1. Substans med specifikke egenskaber mht fast monterede redskaber og faciliteter for tingenes flytning, opbevaring eller placering -> 7. Tilstand 6. Tid Flytningen foregår i tid og drejer sig om bestemte tidspunkter og tidsperioder, dvs fra x tidspunkt til y tidspunkt -> 6. Tid. Flytningens varighed handler om -> 3. Kvantitet af -> 6. Tid 7. Tilstand Alle typerne af tingene har forskellige iboende egenskaber -> 7. Tilstand som fx kompositioner af forskellige

materialer og med -> 4. Relation til størrelser/rumfang og vægt/vægtfylde som kvantificerede egenskabsværdier -> 2. Kvalitet 8. Haven Flytninger kan være i forbindelse med køb og salg og deraf følgende nye ejerskaber af tingene - og i så fald om hvem der skal betale for flytningen -> 8. Haven. Ineffektive eller urationelle flytninger har en negativ effekt af værdien af den gavn mennesker kan have af flytningen i form af stigende priser på de flyttede ting -> 4. Relation til kvantificerbare priser -> 3. Kvantitet 9. Handlen Flytningen kan betragtes som en aktion, proces eller begivenhed -> 9. Handlen. Denne aktion er underkastet eller inkluderet vilkår af/fra agenter/aktører mv som driver og indvirker på aktionen. Disse agenter/indvirkere kan være hvad som helst (mennesker med deres intellekt, energi, maskiner/værktøjer mv) som samlet skaber aktionens vilkår. Flytningen foregår fx ved hjælp af 'flytteværktøjer' - redskaber/maskiner og mennesker (evt. dyr) hver for sig og i kombination dvs af agents som 'flytteværktøjer' og 'flytteaktører'. Alle typerne af ting/forsyninger - både som enkelttyper og som grupper af typer - må beskyttes af en beskyttelseskappe/emballage under flytningen. Emballagen har yderligere den funktion at skulle gøre flytningen lettere mht løft og transport, dvs at der udover agents som 'flytteværktøjer' og 'flytteaktører' er en 'agent' som emballage 10. Liden Flytteaktionerne -> 9. Handlen påvirker omgivelserne -> 10. Liden, idet der kan være mange forskellige belastninger af miljøet inkl. mennesker - idet fx påvirkninger af mennesker både handler om fysisk påvirkning og følelsesmæssig påvirkning. Flytteaktionernes overordnede formål og vilkår For de fleste ting gælder, at de flyttes flere eller mange gange i deres samlede livscyklus, dvs at der optræder flere eller mange aktioner med flytninger i tid og rum. Flytteaktionerne har - som regel - som formål at flytte tingene hen, hvor de skal bruges til et eller andet. Da tingene - set med menneskets øjne (inkl. visse religioner) - er skabt for at komme mennesker til gavn, er det klart at ineffektive flytteaktioner kan have en mere eller mindre direkte negativ effekt på værdien af den gavn, mennesker kan have af flytningen - fx stiger købsprisen på tingen, hvis købsprisen skal inkludere høje flytte- eller transportudgifter. Prisen for det færdige produkt vil også stige ved ineffektiv intern transport eller flytninger i forbindelse med de ting, som skal viderebearbejdes i fremstillingsprocesser eller produktion. Begrebet 'ineffektive flytninger' kan måske også siges at omfatte flytninger med store miljøpåvirkninger eller -belastninger -> 10. Liden. Derfor er kvaliteten af flytteaktioner af ting i tid og rum et vigtigt anliggende, og der er derfor udviklet logistiske værktøjer eller metoder for at gøre det nemmere at organisere og holde styr på flytteaktionerne (som inkluderer håndtering af materialer i mere eller mindre automatiseret industriel produktion). Nogle meget kendte metoder er oprindeligt udviklet i regi af det amerikanske forsvar (CALS-Computer Assisted Logistics System) og på de japanske bilfabrikker (Toyota Production System -> USA-Lean Construction). Der er også omfattende udviklinger af automatiserede transportsystemer som baseres på styring og kontrol ved hjælp af IT. 4

Datamodellering og begrebsmodellering i terminologidomænet Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Institut for Datalingvistik, Handelshøjskolen i København bnm.id@cbs.dk, het.id@cbs.dk, cv.id@cbs.dk I vores oplæg vil vi dels præsentere projektet CAOS (Computer Aided Ontology Structuring), som sigter mod at udarbejde et interaktivt værktøj til brug i forbindelse med opbygningen af ontologier 1 (begrebssystemer), dels redegøre for sondringen mellem datamodellering og begrebsmodellering. Computerstøttet opbygning af ontologier Et værktøj som CAOS vil være et uundværligt hjælpemiddel i forbindelse med den terminologiske analyse, som anvendes ved systematisk beskrivelse af begreber. En sådan beskrivelse og den deraf følgende afklaring af begrebsapparater og mulighed for entydig fastlæggelse af begreber er ikke kun vigtig i forbindelse med klassisk oversættelsesorienteret terminologiarbejde. Den er også en uomgængelig forudsætning for at kunne konstruere velfungerende IT-systemer til udførelse af informationssøgning, informationslagring og informationsudveksling. CAOS udfører begrebsmodellering på basis af en formalisering af karakteristiske træk og begrebsrelationer, som muliggør automatisering af nedarvningen af karakteristiske træk og forskellige inferenser vedrørende disse træk. Disse inferenser bruges til at udvikle metoder, som kan anvendes til støtte for terminologer ved opbygningen af begrebssystemer. Konceptet i CAOS går ud på, at når terminologen arbejder med opbygningen af et begrebssystem på grundlag af tekster om det pågældende faglige domæne, skal det være muligt for ham/hende at indtaste oplysninger om de forskellige begreber, efterhånden som de fremgår af teksten. Oplysningerne kan vedrøre begrebsbetegnelser, karakteristiske træk, relationer til andre begreber mm. For hver ny oplysning skal CAOS forsøge at indpasse oplysningen i den del af ontologien, der allerede er udarbejdet, idet brugeren gøres opmærksom på inkonsistenser og formelle fejl. CAOS-systemet skal arbejde sammen med den eksisterende terminologiske databaseapplikation DANTERM CBS, som tidligere er udviklet ved Institut for Datalingvistik på Handelshøjskolen i København. DANTERM CBS er derfor blevet udvidet med formaliseret information om begrebsrelationer og karakteristiske træk. Dette arbejde er baseret på en integrering af principper for formelle ontologier og traditionelle begrebssystemer. I CAOS-projektet har vi således udarbejdet en detaljeret struktur for en ontologisk database, og denne er blevet implementeret i ORACLE og forsynet med eksperimentelle data. Desuden har vi udarbejdet en række algoritmer til behandling af trækstrukturer og nedarvning i en relationel database, og en del af disse faciliteter er blevet implementeret i CAOS-systemet. I forbindelse med vores oplæg vil vi demonstrere nogle af faciliteterne i systemet. 1 Domænespecifikke ontologier og begrebssystemer har meget til fælles, eftersom begge beskriver begreber og deres relationer, men de er ofte forskellige med hensyn til formaliseringsgrad.

Datamodellering og begrebsmodellering Et særligt problem - der ikke er specifikt for CAOS-systemet, men som dog er blevet aktualiseret under vores arbejde med projektet - er sondringen mellem datamodellering og begrebsmodellering. Datamodellering 2 kan fx udføres ved hjælp af E/R-diagrammer, begrebsmodellering er derimod etableringen af begrebssystemer (eller ontologier). I mange arbejder behandles de to aktiviteter som en og samme ting. At dette ikke er tilfældet, og at det tværtimod er vigtigt at skelne, vil vi argumentere for i vores oplæg. Det er velkendt at det er umuligt at udarbejde en hensigtsmæssig databasestruktur, hvis man ikke er fortrolig med de centrale begreber i det domæne, som databasen skal dække. Viden om begreberne i et domæne udtrykkes ved hjælp af karakteristiske træk og oplysninger om relevante begrebsrelationer, som tilsammen danner basis for udarbejdelse af definitioner. Denne form for viden kaldes også semantisk viden. Begrebsrelationer repræsentere 3 s i begrebssystemer, og et eller flere begrebssystemer inden for et givet domæne udgør en begrebsmodel for domænet. Det er imidlertid meget vigtigt at understrege, at der ikke er nogen en-til-en korrelation mellem et begrebssystem (eller en ontologi) for begreberne i et databasedomæne på den ene side og databasestrukturen på den anden side. Dette gælder for en terminologisk database, som er baseret på viden om begreberne inden for terminologidomænet, men det gælder også for databaseapplikationer i andre domæner. Begrebssystemer og datamodeller har noget til fælles, men de er også forskellige fra hinanden. Disse forskelle er meget indlysende, når man sammenligner begrebssystemer med databasestrukturer i relationelle databaser (repræsenteret ved hjælp af entitets/relationsdiagrammer). Forskellene er måske lidt mindre indlysende - men stadig reelle - når man sammenligner begrebssystemer med objektorienterede datastrukturer, som fx strukturer beskrevet ved hjælp af EER (Enhanced Entity-Relationship modelling) eller UML (Unified Modelling Language). Entitets/relations-modellering bliver sommetider omtalt som semantisk modellering. Denne omstændighed bidrager måske også til den misforståelse, at begrebsmodellering skulle være ækvivalent med datamodellering. Imidlertid indeholder entitets/relations-diagrammer ikke semantisk information, dvs. karakteristiske træk og begrebsrelationer vedrørende de begreber, der ligger til grund for databasestrukturen. Ved beskrivelsen af Enhanced Entity-Relationship modellering bruges begreber som specialisering/generalisering, nedarvning af attributter, aggregering og komposition, hvilket måske også kan minde om de tilsvarende lingvistiske begreber: under-/overordning, nedarvning af karakteristiske træk og del-helheds-relationer. De begreber, der bruges ved datamodellering, adskiller sig imidlertid fra de begreber, der bruges ved begrebsmodellering. Diskussionen i vores indlæg er også motiveret af, at nogle omtaler en databases struktur som ontologien for den pågældende database. I et begrebssystem repræsenteres et begrebs karakteristiske træk ved hjælp af trækspecifikationer i form af attribut-værdi-par, jf. eksemplet i figur 1. Disse trækspecifikationer giver information om begrebets betydningsindhold. 2 3 I databaselitteraturen findes forskellige definitioner af datamodellering, men vi vil her bruge databasestrukturering og datamodellering som synonymer. 6

1 pant 1.1 PLACERING 1.2 GENSTAND 1.1.1 håndpant [PLACERING: panthaver] 1.1.2 underpant [PLACERING: pantsætter] 1.2.1 pant i fast ejendom [GENSTAND: jord og bygninger] 1.2.2 pant i løsøre [GENSTAND: let transportabel] 1.2.3 pant i rettigheder [GENSTAND: økonomiske goder] 1.1.1.1+ 1.2.2.1 håndpant i løsøre 1.1.2.1+ 1.2.1.1 underpant i fast ejendom Figur 1: Uddrag af begrebssystem for panteretstyper En indlysende forskel mellem datamodellering og begrebsmodellering består i, at de attributter, der er knyttet til entitetstyperne i et entitets/relations-diagram, ikke giver oplysninger om entitetstypens betydning. De specificerer kun, hvilken slags information der vil blive registreret om de entiteter, der repræsenteres af den pågældende entitetstype. Specifikationen af domænet for en attribut giver information om attributtens mulige værdier, men dette giver stadig ingen information om entitetstypens betydning; det svarer derimod til en slags ekstensional definition af attributten. Attributværdierne beskriver de enkelte entiteter, ikke det begreb, som ligger til grund for entitetstypen. En anden forskel mellem datamodeller og begrebsmodeller er, at der ikke er nogen en-til-en korrespondens mellem begreberne i en begrebsmodel for et domæne på den ene side og entitetstyperne i et entitets/relations-diagram for en database i det samme domæne på den anden side. I vores oplæg vil vi redegøre nærmere for disse forskelle og give eksempler bl.a. fra terminologidomænet.

Viden om viden Del 2 - Forskning Slutrapport for projektet Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibaser DANTERMcentret

Viden om viden Del 2 - Forskning Slutrapport for projektet Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibaser 2002 DANTERMcentret, København 1. udgave, 1. oplag 2002 Layout og omslag: DANTERMcentret Sat med: Bembo Tryk og indbinding: Prinfo Kolding ISBN 87-988536-1-9 DANTERMcentret Bernhard Bangs Allé 17A DK-2000 Frederiksberg Tlf. 38 15 33 71 Fax. 38 15 38 20 E-mail danterm@cbs.dk Internet www.danterm.dk Enhver gengivelse fra denne bog, på tryk eller elektronisk, må kun ske med DANTERMcentrets skriftlige tilladelse. Kopiering fra bogen må foretages i henhold til lov om ophavsret af 14. juni 1995 med senere ændringer. Citat i anmeldelser er tilladt med angivelse af kilde.

3 Indholdsfortegnelse Del 2 - Forskning Forord...5 Målsætning, projektplan og organisation...9 Resultater og perspektiver...25 Indlæg og rapporter Korpuslingvistik Kirchmeier-Andersen, Sabine: ParaT Parallelle Tekster. Identifikation af termkandidater i parallelle korpora...31 Weilgaard, Lotte: På datafangst hvad repræsenterer verber som kalde, karakterisere og andre?...47 Terminologi og vidensrepræsentation Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Rapport over CAOS-projektet 1998-2002...87 Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Computerstøttet opbygning af begrebssystemer...99 Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Datamodellering og begrebsmodellering i terminologidomænet...119 Picht, Heribert: Repræsentationsformer for begreber og genstande...139 Toft, Bertha: Kan terminologen og objekt-analytikeren bruge hinanden til noget?...149 Teksthukommelses-systemer Christensen, Tina Paulsen: Translation Memory-systemer som værktøj til oversættelse af juridiske tekster... 161

4 Andre sprogteknologiske værktøjer Feil, Ruth: Hybride systemer...181 Nielsen, Tina: Optimizing Computer Assisted Learning Applications for Teaching Language Technology A view on the pedagogical aspect...203 Appendikser Appendiks A: Liste over deltagere i forskningsaktiviteterne...225 Appendiks B: Oversigt over DANTERM-seminarer og workshops...227 Appendiks C: Oversigt over indlæg og publikationer vedrørende de enkelte forskningstemaer...231 Appendiks D: Alfabetisk liste over forfattere og publikationer i relation til emnerne i DANTERM-centerkontrakten...243

99 Computerstøttet opbygning af begrebssystemer af Bodil Nistrup Madsen Hanne Erdman Thomsen Carl Vikner

100 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Indholdsfortegnelse Abstract... 101 1 Indledning... 101 2 Artiklens formål... 102 3 Beslægtede projekter... 102 4 Den oprindelige terminologiske database... 103 5 Formalisering af terminologiske begrebssystemer... 104 6 Integrering af trækspecifikationer i den relationelle databaseapplikation... 106 6.1 Nedarvning... 106 6.2 Indsættelse af nye begreber... 108 6.3 Flytning af begreber... 108 6.4 Etablering af polyhierarki... 109 7 Inddelingskriterier... 112 8 Afsluttende bemærkninger... 116 9 Referencer... 116

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 101 Abstract Denne artikel beskriver den udvidelse af terminologidatabasen DANTERM CBS, som er lavet inden for rammerne af CAOSprojektet. Formålet med udvidelsen er at formalisere oplysningerne om begrebssystemer, således at det bliver muligt at foretage halvautomatisk opbygning af begrebssystemer, eller ontologier. Ved formaliseringen benyttes trækstrukturer, som muliggør automatisering af nedarvningen af karakteristiske træk og af forskellige inferenser vedrørende disse træk. Disse inferenser bruges til at udvikle metoder, som kan anvendes i et computersystem til støtte for terminologer ved opbygningen af begrebssystemer. 1 Indledning I terminologiarbejde er begrebssystemer et uundværligt hjælpemiddel til at bringe orden i det kaos af termer, som oversættere og andre ofte udsættes for, når de begynder at arbejde med tekster inden for et givet fagområde. Det er imidlertid et meget vanskeligt og tidrøvende arbejde at opbygge sit eget begrebssystem for et bestemt område, og der bruges utrolig megen tid på at rette i udkast, så snart et begrebssystem er blevet bare en lille smule kompliceret. Dette er baggrunden for at Institut for Datalingvistik og DANTERMcentret arbejder på et projekt, hvis formål er at udvikle et computersystem, der kan lette dette arbejde: CAOS - Computer Aided Ontology Structuring (Madsen et al., 1999). En nødvendig forudsætning for at kunne konstruere et sådant computersystem er en formalisering af selve terminologiarbejdet, som traditionelt udføres ret uformelt. I CAOSprojektet erstattes de uformelle begrebssystemer derfor med formelle ontologier.

102 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 2 Artiklens formål I denne artikel vil vi vise, hvordan integrationen af formelle trækstrukturer i et eksisterende terminologisk databasesystem kan bruges til at hjælpe terminologer ved opbygningen af begrebssystemer. I det følgende omtales først nogle beslægtede projekter (afsnit 3). I afsnit 4 gives en kort præsentation af den relationelle databaseapplikation DANTERM CBS. I afsnit 5 beskrives formaliseringen af begrebssystemer ved hjælp af formelle trækstrukturer, der modellerer nedarvning af karakteristiske træk. I afsnit 6 viser vi, hvorledes denne formalisering integreres i den oprindelige databaseapplikation, og på hvilke måder brugere kan få hjælp ved indsættelsen af begreber i et begrebssystem. Til sidst beskrives i afsnit 7, hvordan inddelingskriterier fra traditionelt terminologiarbejde kan håndteres formelt i CAOS. 3 Beslægtede projekter Et andet projekt, der arbejder med anvendelsen af vidensbaserede metoder i terminologiarbejde, er COGNITERM projektet 1. I dette projekt bruges en formalisering, der er beslægtet med trækstrukturer, til at repræsentere begrebers karakteristiske træk, og de udviklede systemer har automatisk nedarvning, men de konsistenstjek, som bruges i CAOS, er mere omfattende end den simple påvisning af værdikollision, som beskrives i Meyer et al. (1997: 116). Cimino (2001) beskriver metoder til anvendelse af viden om karakteristiske træk ved automatisk eller interaktiv placering af begreber i en ontologi med polyhierarkisk nedarvning. Fremgangsmåden er baseret på viden om nedarvning af træk, og ligner således det der er planlagt i CAOS, men systemet 1 http://aixl.uottawa.ca/~imeyer/research.htm

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 103 (MED) er designet specielt med henblik på sundhedsområdet og opererer med en afgrænset mængde af attributter (relationer + attributter i Ciminos teminologi), hvor vi foreslår en ubegrænset mængde. Dette skyldes at vi har konstateret, at der inden for specifikke fagområder kan optræde meget specialiserede adskillende træk, således at de ikke kan udvælges og afgrænses, før terminologiarbejdet påbegyndes. 4 Den oprindelige terminologiske database I den oprindelige DANTERM CBS -database kan der lagres oplysninger af mange forskellige slags om terminologi på et ubegrænset antal sprog. Dataorganiseringen er begrebsorienteret, hvilket betyder at alle synonymer registreres som termudtryk hørende til det samme begreb, dvs med én enkelt definition, i modsætning til en ordorienteret datastrukturering, hvor ét udtryk kan være registreret med mange betydninger, og følgelig mange definitioner (se også Madsen 1998a). Figur 1: Begrebsrelaterede oplysninger i DANTERM CBS

104 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Som det kan se i figur 1 vises kun termer på to sprog samtidigt for brugeren. I hovedvinduet præsenteres de vigtigste informationstyper, nemlig nogle begrebsrelaterede oplysninger som fx klassifikation (fælles for de to sprog) og definition med kildeangivelse, og nogle termrelaterede oplysninger som fx termer med tilhørende grammatiske oplysninger. For begge sprog kan der vises flere oplysninger, både begrebs- og termrelaterede. I figur 1 ses et pop-up vindue, der indeholder yderligere begrebsrelaterede oplysninger i forbindelse med det engelske begreb mortgage. De interessanteste oplysningstyper i denne forbindelse er dem, der vedrører begrebssystemet og de relaterede begreber, repræsenteret ved en term. For det første vises navnet på begrebssystemet og positionen for det aktuelle begreb i form af en numerisk notation i overensstemmelse med DIN 2331. Dernæst vises en liste med de relaterede begreber. Relationen angives ved hjælp af en notation, der ligner den, der bruges i tesaurusser til indeksering, efterfulgt af et af termudtrykkene for det relaterede begreb. 5 Formalisering af terminologiske begrebssystemer Som det fremgår af figur 1, er de oplysninger der for øjeblikket registreres i DANTERM CBS ikke formaliseret, og de udarbejdes af terminologen inden de indtastes i databasen, som regel uden brug af formelle værktøjer. Et tegn på den manglende formalisering af dataene er, at relaterede begreber repræsenteres ved et af deres termudtryk i stedet for ved en begrebsrelateret oplysning, som fx ID-nummeret. Selv om man i stedet vælger at registrere begrebets ID-nummer, kan man stadig vælge at præsentere et af termudtrykkene for brugeren.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 105 Vi har tidligere foreslået, at terminologer skulle bruge formelle trækspecifikationer 2 til at modellere begrebers karakteristiske træk (se Thomsen 1998, 1999 og Madsen 1998b). Dette ligner den fremgangsmåde, der beskrives i Meyer et al. (1997). top mortgage mortgage chattel of immovables mortgage OBJECT: immovables OBJECT: movables equitable mortgage CREATION : general words legal mortgage CREATION : legal charge Figur 2: Begrebssystem med trækspecifikationer Brugen af trækspecifikationer kan illustreres med begrebet equitable mortgage, der har det karakteristiske træk 'created by general words (herein differing from a legal mortgage)', som findes formuleret i en skriftlig kilde. Dette kan fx repræsenteres formelt ved at tildele begrebet trækspecifikationen [CREATION: general words] som vist i figur 2. Alle underbegreber til equitable mortgage har også dette karakteristiske træk. Dette afspejles i formaliseringen og i CAOS-systemet ved, at trækspecifikationen nedarves til alle begreber, der er underordnet equitable mortgage. Formaliseringen gør det muligt at udvikle computersystemer, som kan udføre konsistenstjek som beskrevet i de følgende afsnit. En anden fordel ved formaliseringen er, at dataene kan anvendes til andre formål, hvor der bruges formelle ontologier, som fx ontologibaseret informationssøgning, jf. projektet OntoQuery (se Andreasen et al. 2002a og Andreasen et al. 2002b). 2 Om formelle trækspecifikationer, se Carpenter (1992).

106 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Figur 3: CAOS visning af begrebssystem 6 Integrering af trækspecifikationer i den relationelle databaseapplikation 6.1 Nedarvning I CAOS kan en trækspecifikation knyttes til et begreb på to måder. Den kan tildeles begrebet direkte, og i så tilfælde kalder vi den en primær (forekomst af en) trækspecifikation, eller den kan arves fra et overordnet begreb. En trækspecifikation er primær, hvis det er den øverste forekomst i ontologien af den pågældende trækspecifikation. Alle andre forekomster af denne trækspecifikationer er da nedarvede. Det betyder, at en trækspecifikation kun kan forekomme som primær én gang i en given ontologi. Primære trækspecifikationer registreres i en tabel i den udvidede database. Nedarvede trækspecifikationer derimod registreres ikke eksplicit i databasen, men beregnes på grundlag af begrebsstrukturen, når der er brug for dem.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 107 Figur 4: Valgliste til attributter Primære trækspecifikationer kan kun indsættes i en ontologi ved et direkte indgreb fra brugerens side. Attributter og værdier kan vælges fra lister (se figur 4), der omfatter alle attributter, der er brugt i det aktuelle begrebssystem. Listen kan udvides til at omfatte andre begrebssystemer eller endog hele basen. Når brugeren tilføjer en primær trækspecifikation, udfører CAOS en række tjek. For eksempel, undersøges det, om der er andre forekomster af den samme trækspecifikation i ontologien. Hvis der findes en anden forekomst, advarer CAOS brugeren om dette, se figur 5. Det er på længere sigt meningen at CAOS skal foreslå forskellige muligheder for at løse problemet. Hvis den anden forekomst af trækspecifikationen findes på et underbegreb til det aktuelle begreb, kan CAOS fx forslå brugeren at "løfte" den primære trækspecifikation op på det aktuelle begreb. Hvis den anden forekomst af trækspecifikationen derimod findes på et begreb, som ikke er direkte relateret til det aktuelle begreb, kunne CAOS tjekke, om det er muligt at etablere en polyhierarkisk relation, jf. også afsnit 6.4 nedenfor. Figur 5: Advarsel

108 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 6.2 Indsættelse af nye begreber Brugeren kan give besked om, at et begreb skal indsættes i en bestemt position i ontologien. Positionen skal identificeres ved hjælp af landingsmoderen, dvs det begreb i ontologien, som skal være det nærmeste overordnede begreb til det nye begreb. Hvis det nye begreb skal indsættes i en intermediær position, skal brugeren også angive, hvilke begreber blandt de oprindelige døtre af landingsmoderen der skal være underbegreber til det nye begreb. Alle landingsmoderens trækspecifikationer arves af det nye begreb som vist i figur 7. Herefter får brugeren mulighed for at oplyse, hvilke primære trækspecifikationer der skal knyttes til det nye begreb. Hver af de trækspecifikationer, som brugeren angiver, behandles som tilføjelse af en ny trækspecifikation som beskrevet oven for i afsnit 6.1, og der udføres tilsvarende tjek. Figur 6: Flytning af begreb 6.3 Flytning af begreber Ønsker brugeren at flytte et begreb, skal hun vælge et nyt overbegreb i det vindue der vises i figur 6, hvorefter begrebet flyttes til den nye position.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 109 Figur 7: Nyt begreb med nedarvet træk 6.4 Etablering af polyhierarki Lad os antage at brugeren ønsker at indsætte begrebet equitable chattel mortgage i den ontologi, der er vist i figur 2 og 3. Hvis brugeren fra sine kilder ved, at equitable chattel mortgage er en type chattel mortgage, og desuden at det oprettes ved general words 3, vil hun formentlig have begrebet indsat som underbegreb til begrebet chattel mortgage. Når dette udføres, vil systemet fortælle brugeren, at equitable chattel mortgage arver trækspecifikationen [OBJECT: movables] fra landingsmoderen, som illustreret i figur 7. 3 General words vil i denne sammenhæng sige, at formkravene til et pantebrev ikke er opfyldt.

110 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Figur 8: Tilføjelse af et overbegreb I CAOS Brugeren accepterer dette, og når hun bliver bedt om at angive primære trækspecifikationer for equitable chattel mortgage, vil hun anføre [CREATION: general words]. Derpå vil CAOS under udførelsen af de tjek, der er omtalt ovenfor, opdage at denne trækspecifikation allerede findes i begrebssystemet, nemlig på begrebet equitable mortgage. Her vil det være nyttigt at få systemet til at foreslå, at begrebet equitable chattel mortgage arver trækspecifikationen fra dette begreb, således at der etableres et polyhierarki, hvor equitable chattel mortgage har både chattel mortgage og equitable mortgage som overordnede begreber.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 111 Figur 9: Multipel nedarvning i CAOS I den aktuelle version af CAOS oprettes polyhierarkiet ved at brugeren tilføjer endnu et overbegreb til equitable chattel mortgage som vist i figur 8, 9 og 10. Bemærk at den kombinerede notation 1.2.1/1.3.1 i figur 9 og 10 beregnes automatisk af systemet.

112 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Figur 10: Polyhierarki i CAOS 7 Inddelingskriterier I terminologiarbejde anvendes inddelingskriterier til at samle sideordnede begreber i grupper efter de træk, der karakteriserer dem, og i terminografi bør et sådant kriterium bruges i definitionens differentia specifica. I CAOS håndteres inddelingskriterier ved hjælp af såkaldte dimensioner og dimensionsspecifikationer. En dimension for et begreb er en attribut, hvis mulige værdier tillader en skelnen mellem (nogle af) begrebets underbegreber. Tag fx begrebet mortgage i figur 2. Her forholder det sig sådan, at værdierne general words og legal charge for attributten CREATION gør det muligt at skelne mellem to af underbegreberne, nemlig equitable mortgage og legal mortgage. En dimensionsspecifikation består af en dimension plus dens mulige værdier. Således er (CREATION: [general words, legal charge]) en dimensionsspecifikation på begrebet mortgage.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 113 Figur 11: Begreb med dimensionsspecifikationer Der er en klar indbyrdes afhængighed mellem på den ene side dimensionsspecifikationer på et begreb og på den anden side primære trækspecifikationer på dette begrebs nærmeste underbegreber. Hvis fx begrebet mortgage har dimensionsspecifikationen (CREATION: [general words, legal charge]), så må to af dets nærmeste underbegreber have de primære trækspecifikationer [CREATION: general words] og [CREATION: legal charge]. Desuden kan det ses af repræsentationen i figur 2, at mortgage har to dimensioner, nemlig OBJECT og CREATION, som tjener til at adskille hver sin gruppe af underbegreber. I figur 11 ses disse dimensionsspecifikationer i CAOSskærmbilledet for begrebet mortgage.

114 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER top mortgage (OBJECT: [immovables, movables]; CREATION: [general words, legal charge]) OBJECT CREATION mortgage of immovables OBJECT: immovables chattel mortgage OBJECT: movables equitable mortgage CREATION : general words legal mortgage CREATION : legal charge Figur 12: Inddelingskriterier og dimensionsspecifikationer I figur 12 vises en grafisk fremstilling af de to dimensionsspecifikationer på begrebet mortgage og de tilsvarende inddelingskriterier OBJECT og CREATION anbragt i kasser, der dækker de grene, der går ned til de berørte underbegreber. Som man kan se, er inddelingskriterierne en stor hjælp for brugeren, da de giver et bedre overblik over begrebssystemet. Derfor mener vi, at det er meget vigtigt at inkorporere inddelingskriterier i et system til terminologihåndtering, og så vidt vi ved, er der ikke andre (semi)automatiske systemer, der gør dette. Alle begrebers dimensionsspecifikationer registreres i den udvidede database. Når en primær trækspecifikation indsættes på et begreb, bliver de tilsvarende informationer registreret i en dimensionsspecifikation på det nærmeste overordnede begreb. Brugeren kan også angive oplysninger om dimensionsspecifikationer direkte på det overordnede begreb, fx når en kilde oplyser at "der findes forskellige typer af mortgage, som klassificeres efter den genstand der bliver pantsat". I sådanne tilfælde skal CAOS sørge for, at de tilsvarende primære trækspecifikationer (interaktivt) indsættes på de relevante underbegreber, eventuelt ved at oprette helt nye underbegreber. Det kan forekomme redundant at registrere denne information både som en dimensionsspecifikation på overbegrebet og som trækspecifikationer på underbegreberne. Grunden til at vi alligevel gør det, er, at vi også registrerer kilden til oplysningerne. På et senere trin i analysearbejdet kan det være relevant

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 115 for terminologen at vide, om en dimension er blevet indført, fordi den blev nævnt direkte i en kilde, eller fordi den fandtes som attribut på et eller flere underbegreber. I det første tilfælde vil en flytning af underbegreberne til en anden position i begrebssystemet medføre, at de mister den pågældende attribut, idet der er belæg for, at begreber med denne attribut er underbegreber til begrebet med dimensionsspecifikationen. Der sker således en forøgelse af antallet af begreber i begrebssystemet - dels er der nogle begreber, der er dannet på baggrund af den dokumenterede dimensionsspecifikation, dels er der de begreber, der er ved at blive flyttet. Man kan sige, at det viser sig, at underbegreberne ikke er identiske med dem, brugeren ønsker at flytte. I det andet tilfælde, hvor det er attributterne på underbegreberne, der er dokumenterede, vil en flytning bevirke, at dimensionsspecifikationen også må flyttes. Her er det dimensionsspecifikationen, der er dannet ud fra begrebernes træk. Hvis der er kildeangivelse både på dimensionen og på trækspecifikationerne, må det betyde, at underbegreberne skal forblive under det pågældende overbegreb - eller at en af kilderne ikke er troværdig. I nogle tilfælde kan sideordnede begreber adskilles ved mere end én dimension, og for at kunne skrive korrekte definitioner må brugeren foretage et valg mellem dem. Vi bruger udtrykket "inddelingskriterium" til at betegne den dimension, der skal bruges i definitionerne af de underbegreber, hvor inddelingskriteriet indgår i trækstrukturen. Ophøjelsen af dimensioner til inddelingskriterier udføres af brugeren, dels undervejs i arbejdet, dels som afslutning på konstruktionen af begrebssystemet, inden der skal udarbejdes definitioner. I alle de tilfælde, hvor en gruppe af sideordnede begreber kun adskilles ved hjælp af én dimension, ophøjes denne dimension automatisk til inddelingskriterium. I eksemplet med mortgage er der to grupper af sideordnede begreber, som hver kun har én dimension. Derfor er det planen at CAOS skal kunne foreslå, at dimensionerne OBJECT og CREATION begge erklæres for inddelingskriterier, hvorved der opstår to inddelingsgrupper af underbegreber.

116 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 8 Afsluttende bemærkninger Vi har præsenteret vores arbejde med udvidelsen af en terminologidatabase til at omfatte formaliserede informationer om begrebssystemer, og vi har vist, hvordan denne formaliserede viden gennem en automatisk behandling af nedarvning af karakteristiske træk og inferenser vedrørende karakteristiske træk og dimensioner kan anvendes til at hjælpe terminologer med at opbygge begrebssystemer. I vores fremtidige arbejde ønsker vi at videreudvikle CA- OS-systemet så det kan give mere kvalificeret feed-back til brugeren i form af forslag til en bedre placering af begreber. 9 Referencer Andreasen, Troels; Per Anker Jensen; Jørgen Fischer Nilsson; Patrizia Paggio; Bolette Sandford Pedersen & Hanne Erdman Thomsen, 2002a. 'OntoQuery: Ontology-based Querying of Texts'. In: Karlgren, Jussi; Pentti Kanerva, & Björn Gambäck (eds.): Acquiring (and using) Linguistic (and World) Knowledge for Information Access. Working Notes, AAAI- 2002 Spring Symposium Series, Stanford University, Stanford, California. Pp. 28-31. Andreasen, Troels; Per Anker Jensen; Jørgen Fischer Nilsson; Patrizia Paggio; Bolette Sandford Pedersen & Hanne Erdman Thomsen, 2002b. 'Ontological Extraction for Text Querying'. In: Andersson, Birger; Maria Bergholtz & Paul Johanneson (eds.): NLDB 2002, 7th International Workshop on Applications of Natural Language to Information Systems, June 27-28, Stockholm. Working version of the proceedings, Stockholm 2002. Pp. 1-14. Carpenter, Bob, 1992. The Logic of Typed Feature Structures. Cambridge, Mass.: Cambridge University Press Cimino, James. J. 2001. Knowledge-based Terminology Managament in Medicine In: D. Bourigault, C. Jacquemin and M.-C. L Homme (eds.). 2001. Recent Advances in Computational Terminology. Amsterdam/Philadelphia: John Benjamins: 111-126. DIN 2331: Begriffssysteme und ihre Darstellung. Apr.1980, Deutsches Institut für Normung. Berlin: Beuth Verlag GmbH.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 117 Hull, Anthony; Bodil Nistrup Madsen & Hanne Erdman Thomsen, 1998. "DANTERMCBS for Everyone". In: TAMA '98 Terminology in Advanced Microcomputer Applications. Proceedings of the 4th TermNet Symposium: Tools for Multilingual Communication. Wien: TermNet: 67-85. Jacquemin, Christian, 2001. Spotting and Discovering Terms through Natural Language Processing. Cambridge, Mass./London: The MIT Press. Madsen, Bodil Nistrup, 1998a. "The DANTERM Concept". In: TAMA '98 Terminology in Advanced Microcomputer Applications. Proceedings of the 4th TermNet Symposium: Tools for Multilingual Communication. Wien: TermNet: 67-85. Madsen, Bodil Nistrup. 1998b. Typed Feature Structures for Terminology Work - Part I. In: LSP - Identity and Interface - Research, Knowledge and Society. Proceedings of the 11th European Symposium on Language for Special Purposes. Copenhagen, August 1997, Copenhagen Business School: 339-348. Madsen, Bodil Nistrup, Hanne Erdman Thomsen and Carl Vikner, 1999. The project "Computer-Aided Ontology Structuring"(CAOS). In: World Knowledge and Natural Language Analysis. Copenhagen Studies of Language vol.23, Copenhagen: Samfundslitteratur: 9-38. Meyer, Ingrid, Karen Eck and Douglas Skuce. 1997. Systematic Concept Analysis within a Knowledge-Based Approach to Terminology. In: S.E.Wright and G.Budin (eds.). 1997. Handbook of Terminology Management. Amsterdam/Philadelphia: John Benjamins. Thomsen, Hanne Erdman. 1998. Typed Feature Structures for Terminology Work - Part II. In: LSP - Identity and Interface - Research, Knowledge and Society. Proceedings of the 11th European Symposium on Language for Special Purposes. Copenhagen, August 1997, Copenhagen Business School, 349-359. Thomsen, Hanne Erdman, 1999. 'Typed Feature Specifications for establishing Terminological Equivalence Relations'. In: World Knowledge and Natural Language Analysis. Copenhagen Studies of Language, vol.23, Copenhagen: Samfundslitteratur: 39-55.

118

119 Datamodellering og begrebsmodellering i terminologidomænet af Bodil Nistrup Madsen Hanne Erdman Thomsen Carl Vikner

120 DATAMODELLERING OG BEGREBSMODELLERING Indholdsfortegnelse Abstract... 121 1 Indledning... 121 2 Formål... 123 3 Den terminologiske database DANTERM CBS... 123 4 Begrebsmodellering i forbindelse med en terminologisk database... 124 5 Datamodellering i forbindelse med en terminologisk database... 126 5.1 Oplysninger om begreber, begrebssystemer og begrebsrelationer... 126 5.2 Begreber og udtryk... 126 5.3 Begreber og begrebspositioner... 127 5.4 Relationer mellem begreber... 127 5.5 Eksempel: et begrebssystem for printertyper... 129 6 Datamodellering versus begrebsmodellering... 133 6.1 Attributter versus trækspecifikationer... 133 6.2 Afbildning mellem entitetstyper og begreber... 134 6.3 Forholdet mellem relationstyper og begrebsrelationer... 134 7 Konkluderende bemærkninger... 136 8 Referencer... 136

Abstract DATAMODELLERING OG BEGREBSMODELLERING 121 For at kunne oprette en velfungerende database må man kende begrebsmodellen for det domæne, der ligger bag datamodellen. Derfor skal udviklingen af databasen udføres som et teamwork mellem domæneeksperter og databaseeksperter eller af personer, der er fortrolige både med det relevante domæne og med datamodellering. Begrebsmodellering og datamodellering er tæt forbundne, men alligevel er der nogle væsentlige forskelle mellem dem. I dette indlæg vil vi præsentere en del af datamodellen for den terminologiske database DAN- TERM CBS og give eksempler fra den bagvedliggende begrebsmodel. Desuden vil vi give eksempler på nogle af de udvidelser af DANTERM CBS, der er nødvendige når CAOSsystemet skal integreres i DANTERM-databasen. 1 Indledning Det er velkendt at det er umuligt at udarbejde en hensigtsmæssig databasestruktur, hvis man ikke er fortrolig med de centrale begreber i det domæne, som databasen skal dække. Databasestrukturering kaldes også datamodellering 1. Viden om begreberne i et domæne udtrykkes ved hjælp af definitioner og oplysninger om relevante begrebsrelationer. Denne form for viden kaldes også semantisk viden. Begrebsrelationer repræsenteres i begrebssystemer, og et eller flere begrebssystemer inden for et givet domæne udgør en begrebsmodel for domænet. Vi vil her bruge udtrykket begrebsmodellering om etableringen af begrebssystemer (eller ontologier 2 ). Det er imidlertid meget vigtigt at understrege, at der ikke er nogen en-til-en korrelation mellem et begrebssystem (eller 1 I databaselitteraturen findes forskellige definitioner af datamodellering, men vi vil her bruge databasestrukturering og datamodellering som synonymer. 2 Domænespecifikke ontologier og begrebssystemer har meget til fælles, eftersom begge beskriver begreber og deres relationer, men de er ofte forskellige med hensyn til formaliseringsgrad.

122 DATAMODELLERING OG BEGREBSMODELLERING en ontologi) for begreberne i et databasedomæne på den ene side og databasestrukturen på den anden side. Dette gælder for en terminologisk database, men det gælder også for databaseapplikationer i andre domæner. Begrebssystemer og datamodeller har noget til fælles, men de er også forskellige fra hinanden. Disse forskelle er meget indlysende, når man sammenligner begrebssystemer med databasestrukturer i relationelle databaser (repræsenteret ved hjælp af entitets/relations-diagrammer). Forskellene er måske lidt mindre indlysende - men stadig reelle - når man sammenligner begrebssystemer med objektorienterede datastrukturer, som fx strukturer beskrevet ved hjælp af EER (Enhanced Entity-Relationship modelling) eller UML (Unified Modelling Language). Entitets/relations-modellering bliver sommetider omtalt som semantisk modellering, jf. Date (2000). Denne omstændighed bidrager måske også til den misforståelse, at begrebsmodellering skulle være ækvivalent med datamodellering. Imidlertid indeholder entitets/relations-diagrammer ikke semantisk information (dvs. definitioner og begrebsrelationer vedrørende de begreber, der ligger til grund for databasestrukturen). Ved beskrivelsen af Enhanced Entity-Relationship modellering, jf. fx Conolly & Begg (2002), bruges begreber som specialisering/generalisering, nedarvning af attributter, aggregering og komposition (eng. specialization/generalization, attribute inheritance, aggregation og composition), hvilket måske også kan minde om de tilsvarende lingvistiske begreber: over-/underordning, nedarvning af karakteristiske træk og del-helheds-relationer (eng. super- /subordination, inheritance of characteristics og part-whole relations). De begreber, der bruges ved datamodellering, adskiller sig imidlertid fra de begreber, der bruges ved begrebsmodellering. Diskussionen i dette indlæg er også motiveret af, at nogle omtaler en databases struktur som ontologien for den pågældende database, jf. fx Assadi (1998).

2 Formål DATAMODELLERING OG BEGREBSMODELLERING 123 I dette indlæg vil vi give nogle eksempler på strukturen i den terminologiske database, DANTERM CBS, samt eksempler på de udvidelser, der er nødvendige ved integreringen af en ontologisk og en terminologisk database. Samtidig vil vi diskutere begrebsmodellen for de grundlæggende begreber og på denne måde illustrere ovennævnte påstande om forskellene mellem begrebsmodellering og datamodellering. 3 Den terminologiske database DANTERM CBS Den terminologiske databaseapplikation DANTERM CBS blev designet og udviklet af personer, som havde en baggrund både i terminologi og i databaseprogrammering (jf. Hull et al. 1999). Termbasens struktur var baseret på viden om relationer mellem begreber inden for terminologidomænet - et metabegrebssystem. En del af dette meta-begrebssystem blev diskuteret i Madsen (1998). DANTERM CBS er blevet udvidet med formaliseret information om begrebsrelationer og karakteristiske træk med henblik på at muliggøre halvautomatisk opbygning af begrebssystemer og automatisk håndtering af nedarvning af træk. Dette arbejde, som har resulteret i en udvidelse af databasestrukturen, er baseret på en integrering af principper for formelle ontologier og traditionelle begrebssystemer. Det udføres inden for rammerne af CAOS-projektet (Computer Aided Ontology Structuring), jf. Madsen et al. (1999) og Madsen et al. (2002 i dette bind). I det følgende vil vi præsentere en del af en begrebsmodel for denne udvidede terminologi-database og den tilsvarende datamodel.

124 DATAMODELLERING OG BEGREBSMODELLERING 4 Begrebsmodellering i forbindelse med en terminologisk database De karakteristiske træk for begreberne i et domæne og relationerne mellem domænets begreber kan repræsenteres ved hjælp af et begrebssystem. Begrebernes karakteristiske træk bestemmer deres position i begrebssystemet. I figur 1 gengiver vi en lille del af et begrebssystem for de centrale begreber der ligger bag databasestrukturen i DANTERM CBS. sprogligt tegn relationstype: almensprogligt tegn BETYDNING: vag term BETYDNING: præcis begrebssystem ekstension underbegreb fagsprogligt udtryk overbegreb fagsprogligt begreb systematisk positionsnotation begrebsrelation karakteristisk træk underbegreb intension entitet egenskab del af har beskriver Figur 1: Udsnit af begrebssystem for centrale begreber I CAOS-projektet bruger vi formelle trækspecifikationer til at formalisere informationer om begrebers karakteristiske træk, jf. Thomsen (1999) og Madsen et al. (2002). En trækspecifikation er en kombination af et træk (en attribut) og en værdi. I begrebssystemet i figur 1 er vist trækspecifikationer for de to begreber: almensprogligt tegn og term (dvs. fagsprogligt tegn). Disse to begreber adskilles ved hjælp af trækket BE- TYDNING. Et almensprogligt tegn har en vag betydning, mens

DATAMODELLERING OG BEGREBSMODELLERING 125 en term har (eller i det mindste burde have) en præcis betydning. Sproglige tegn er karakteriserede ved at være kombinationer af et udtryk og et begreb, og en term er således en kombination af et fagsprogligt udtryk og et fagsprogligt begreb. Begreber er definerede ved hjælp af karakteristiske træk, som beskriver egenskaber ved entiteter eller klasser af entiteter. Intensionen er den mængde af karakteristiske træk der bruges til at bestemme et begrebs ekstension 3. De fagsproglige begreber inden for et specifikt domæne kan organiseres i ét eller flere begrebssystemer, som giver en systematisk specifikation af begreber og begrebsrelationer mellem disse begreber. Et begreb 4 har en systematisk position i et eller flere begrebssystemer. Når vi taler om relationer mellem begreber, mener vi altså relationer mellem begreber i bestemte positioner i et begrebssystem. Således kan begrebet printer stå i en generisk relation til fx impact printer i et begrebssystem for printertyper, og i en del-helheds-relation til fx hammer i et begrebssystem for printerkomponenter. 3 I Madsen (1991) blev der argumenteret for at begreb og intension (eng. concept og intension) har samme definition, og således i realiteten er ét begreb. I terminologiske standarder, fx ISO 1087 (1997), behandles concept og intension imidlertid som to forskellige begreber. 4 I resten af artiklen vil vi bruge begreb og udtryk i stedet for fagsprogligt begreb og fagsprogligt udtryk, når der ikke er mulighed for misforståelse.

126 DATAMODELLERING OG BEGREBSMODELLERING 5 Datamodellering i forbindelse med en terminologisk database 5.1 Oplysninger om begreber, begrebssystemer og begrebsrelationer Oplysninger om begrebssystemer og begrebsrelationer var allerede til stede i den oprindelige DANTERM CBS, men databasestrukturen er blevet forbedret i forbindelse med arbejdet i CAOS-projektet. Blandt andet er det nu muligt at registrere et begreb som tilhørende flere begrebssystemer, og et begreb kan have flere systematiske positionsnotationer i et og samme begrebssystem. Yderligere udvikling inden for CAOS er beskrevet i Madsen et al. (2002 i dette bind). I det følgende vil vi vise eksempler på databasestrukturen ved hjælp af entitets/relations-diagrammer og databasetabeller. 5.2 Begreber og udtryk Figur 2 viser nogle af de centrale entitetstyper. Ét begreb er associeret med et eller flere udtryk, og ét udtryk kan denotere et eller flere begreber. Kombinationen af et begreb og et udtryk, dvs. relationen mellem Concept og Expression, repræsenterer en term og kan også benævnes Term. Mange-til-mange relationen mellem Concept og Expression kan transformeres til to en-til-mange relationer og en entitetstype Term, jf. figur 3. Alle term-relaterede oplysningstyper, som fx ordklasse, kilde og kollokationer, vil blive relateret til entitetstypen Term, ikke til entitetstypen Expression.

DATAMODELLERING OG BEGREBSMODELLERING 127 EXPRESS #C_ID #E_ID Concept n m Expression 1 0,n C_ID #POS_ID #S_ID Syst_Pos 0,n 0,m Figur 2: Udsnit af entitets/relations-diagrammet 5.3 Begreber og begrebspositioner Figur 2 illustrerer også at ét begreb (attributten C_ID på Concept) er relateret til nul, en eller flere begrebspositioner (attributten POS_ID på Syst_Pos) i et givet begrebssystem (attributten S_ID på Syst_Pos). Det betyder at et givet begreb kan optræde i flere begrebssystemer og evt. have flere systematiske positionsnotationer i ét og samme begrebssystem. 5.4 Relationer mellem begreber Endelig illustrerer figur 2, at et begreb i en given position i et begrebssystem (attributten POS_ID på entitetstypen Syst_Pos) er relateret til nul, et eller flere andre begreber i deres respektive begrebspositioner i samme begrebssystem. Denne mange-til-mange relation, som undertiden kaldes rekursiv, etablerer en relation mellem to begreber i et begrebssystem, og den kan betegnes Syst_Rel. Denne relation kan også repræsenteres som to en-til-mange relationer, jf. figur 3, hvor relationen mellem to begreber i deres respektive positioner repræsenteres ved hjælp af en entitetstype Syst_Rel. Syst_Rel har attributterne POS_ID1 og POS_ID2, som begge

128 DATAMODELLERING OG BEGREBSMODELLERING refererer til POS_ID i Syst_Pos. Oplysning om relationstypen mellem de to begreber i de givne positioner, fx den oplysning at et begreb er et overordnet eller underordnet begreb i en generisk relation til et andet begreb, gives med værdien af attributten R_ID (dvs. ID-nummeret for relationstypen). #E_ID EXPRESS #C_ID #C_ID #E_ID Concept 1 1,n Term 1,n 1 Expression 1 #R_ID #POS_ID C_ID #S_ID2 0,n #POS_ID #S_ID #POS_ID #S_ID1 Syst_Pos 1 0,n Syst_Rel 1 0,n Figur 3: Entitetstyperne Term og Syst_Rel #R_ID POS SIBLING_NUM TOP_POS_ID #POS_ID2 LANG C_ID #S_ID2 RELNAME SYST_NAME #S_ID ConceptSystem 1 0,n #POS_ID #POS_ID1 RELTYPE #S_ID #S_ID1 #R_ID Syst_Pos 1 0,n Syst_Rel Relation 1 0,n 0,n 1 Figur 4: Entitetstyperne ConceptSystem og Relation

DATAMODELLERING OG BEGREBSMODELLERING 129 De to entitetstyper Syst_Pos og Syst_Rel suppleres af to andre entitetstyper, der repræsenterer information om begrebssystem (ConceptSystem) og relationstype (Relation), jf. figur 4. 5.5 Eksempel: et begrebssystem for printertyper Figur 5 viser en lille del af udkastet til et begrebssystem for printertyper, Printers. Dette eksempel blev brugt i Madsen et al. (1999) for at forklare CAOS-systemets tilsigtede funktionsmåde. Terminologen indtaster oplysninger om begreber, samtidig med at han læser en tekst, der beskriver begreberne. På basis af disse oplysninger foreslår CAOS positioner for de nye begreber i begrebssystemet, og i nogle tilfælde foreslår CAOS også nye begreber. Begrebssystemet i figur 5 er ikke færdigbehandlet: der er fx ingen udtryk svarende til begreberne 204 og 205, men disse begreber er blevet foreslået af CA- OS-systemet, fordi terminologen på basis af teksten har indført et inddelingskriterium STRIKING TECHNIQUE, som implicerer, at der må findes to forskellige undertyper af impact printere.

130 DATAMODELLERING OG BEGREBSMODELLERING top (200) 1 printer (201) CHARACTER TRANSFER 1.1 1.2 impact printer (202) nonimpact printer (203) CHARACTER TRANSFER: impact NOISE: noisy COPY: multiple CHARACTER TRANSFER: nonimpact NOISE: quiet COPY: single STRIKING TECHNIQUE 1.1.1 1.1.2 1.1.3 (204) (205) dot matrix printer (206) CHARACTER TRANSFER: impact CHARACTER TRANSFER: impact CHARACTER TRANSFER: impact NOISE: noisy NOISE: noisy NOISE: noisy COPY: multiple COPY: multiple COPY: multiple STRIKING TECHNIQUE: front STRIKING TECHNIQUE: hammer USED ON: microcomputer Figur 5: Udsnit af begrebssystem for printertyper Begrebernes karakteristiske træk formaliseres ved hjælp af trækspecifikationer, som fx [CHARACTER TRANSFER: impact], der består af et træk(navn) CHARACTER TRANS- FER og en værdi impact. Alle underbegreber til impact printer arver denne trækspecifikation. I CAOS håndteres denne nedarvning af karakteristiske træk automatisk. Begreberne impact printer og nonimpact printer har også trækspecifikationer, der indeholder trækkene NOISE og COPY. De tilsvarende egenskaber er imidlertid afhængige af CHARACTER TRANSFER-egenskaberne (en impact printer støjer og kan producere mange kopier - begge dele er konsekvenser af den måde karaktererne overføres til papiret på). Derfor indføres NOISE og COPY ikke som inddelingskriterier i begrebssystemet. En mere udførlig beskrivelse af de begreber, der er

DATAMODELLERING OG BEGREBSMODELLERING 131 relateret til karakteristiske træk, findes i Madsen, Thomsen og Vikner (2002). Figur 6 viser den tabelstruktur der svarer til entitets/relations-diagrammet i figur 4 sammen med nogle eksempler fra begrebssystemet Printers i figur 5. Tabellerne viser at printer har begrebsidentifikationsnummer C_ID 201 og at det tilsvarende udtryk har identifikationsnummer E_ID 917 (jf. tabellerne Concept, Term og Expression). I tabellen Syst_Pos kan man se, at printer (C_ID 201) har positionsidentifikationsnummeret (POS_ID) 2 i begrebssystemet Printers (S_ID 413), og tabellen Syst_Rel viser at dette positionsnummer svarer til den systematiske positionsnotation 1 (kolonnen POS). Concept Term Expression # C-ID LANG # C-ID # E-ID # E-ID EXPRESS 200 en 200 900 900 top 201 en 201 917 917 printer 202 en 202 918 918 impact printer 203 en 203 919 919 non-impact printer 204 en 206 920 920 dot matrix printer ConceptSystem Syst_Pos # S-ID SYST-NAME LANG TOP_POS_ID # S-ID # POS_ID C-ID 413 Printers en 1 413 1 200 414 Paper en 11 413 2 201 415 Printere da 20 413 3 202 413 4 203 413 5 204 Syst_Rel # S-ID1 #POS_ID1 # S-ID2 # POS_ID 2 # R-ID SIBLING_NUM POS 413 2 413 1 2 1 1 413 3 413 2 2 1 1.1 413 4 413 2 2 2 1.2 413 5 413 3 2 1 1.1.1 RelationType #R-ID RELTYPE RELNAME 1 NC-GEN narrower, generic 2 BC-GEN broader, generic 3 NC-PART narrower, part-of 4 BC-PART broader, part-of Figur 6: Den centrale del af databasetabelstrukturen Det brugeren får at se, når begrebssystemet vises, er den systematiske positionsnotation 1. Kolonnen POS er i virkeligheden overflødig og kan udelades i databasen, idet den syste-

132 DATAMODELLERING OG BEGREBSMODELLERING matiske positionsnotation kan genereres automatisk på basis af de generiske relationer, der er registreret i Syst_Rel. Eksemplerne i tabellerne i figur 6 viser at impact printer (C-ID 202, E-ID 918) har positionsidentifikationsnummer 3 (POS_ID i Syst_Pos). Syst_Rel viser, at impact printer (POS_ID1: 3) har et overordnet begreb printer (POS_ID2: 2), hvilket kan sluttes ud fra relationsidentifikationsnummeret (R-ID: 2), som svarer til relationstypen BC-GEN (broader, generic), jf. tabellen RelationType. Tabellen Syst_Rel indeholder også kolonnen SIBLING_NUM, der giver oplysning om rækkefølgen af sideordnede begreber (søskende, eng. siblings). Dette nummer anvendes også ved den grafiske præsentation af begrebssystemet med systematiske positionsnotationer. Som man kan se i figur 5, har begrebssystemet Printers (og alle andre begrebssystemer) et tomt begreb top som det øverste begreb. Grunden til at dette top-begreb er indført, er, at der er brug for at have et begreb, som 'moderløse' begreber kan tilknyttes midlertidigt. Det tomme top-begreb i begrebssystemet Printers har C-ID 200 i tabellen Concept og E-ID 900 i tabellen Expression, og det har også et positionsidentifikationsnummer, nemlig 1 (jf. POS_ID i Syst_Pos), men det har ikke nogen systematisk positionsnotation. Positionsidentifikationsnummeret for top-begrebet er også registreret som TOP_POS_ID i tabellen ConceptSystem, hvilket giver den oplysning, at det er toppen i begrebssystem 413, Printers. Topbegreberne i forskellige begrebssystemer har forskellige begrebsidentifikationsnumre. I den oprindelige version af DANTERM CBS blev relationen mellem to begreber repræsenteret i tabellen Syst_Rel ved at registrere positionen for det ene begreb (det er det der svarer til POS_ID1 i den nye struktur) og den term, der svarer til det andet begreb (svarende til POS_ID2 i den nye struktur). Da den nye struktur skal danne grundlag for halvautomatisk opbygning af begrebssystemer, er den tidligere praksis ikke længere tilstrækkelig.

DATAMODELLERING OG BEGREBSMODELLERING 133 6 Datamodellering versus begrebsmodellering 6.1 Attributter versus trækspecifikationer Som allerede nævnt er det nødvendigt at forstå de terminologiske begreber: begreb, term, begrebssystem osv. for at kunne etablere den databasestruktur der skal indeholde information om begreber, termer og begrebssystemer. I et begrebssystem repræsenteres et begrebs karakteristiske træk ved hjælp af trækspecifikationer, jf. eksemplerne i figur 1 og 5. Disse trækspecifikationer giver information om begrebets betydningsindhold. Et begrebs trækspecifikationer danner grundlag for en definition af det pågældende begreb. En indlysende forskel mellem datamodellering og begrebsmodellering består i, at de attributter, der er knyttet til entitetstyperne i et entitets/relations-diagram, ikke giver oplysninger om entitetstypens betydning. De specificerer kun, hvilken slags information der vil blive registreret om de entiteter, der repræsenteres af den pågældende entitetstype. Specifikationen af domænet for en attribut giver information om attributtens mulige værdier, men dette giver stadig ingen information om entitetstypens betydning; det svarer derimod til en slags ekstensional definition af attributten. For eksempel bliver entitetstypen Term i figur 3 ikke karakteriseret yderligere af attributterne, hvorimod begreberne i et begrebssystem, fx term i figur 1, karakteriseres ved hjælp af trækspecifikationer, som giver informationer om begrebernes betydningsindhold. Som tidligere nævnt bruges betegnelserne semantisk modellering, begrebsmodellering og ontologisk modellering ofte om datamodellering. Således præsenterer Assadi (1998) et entityrelationship view of an ontology model, der omfatter de centrale begreber, der er relevante, når man opretter en terminologibase inden for domænet electrical network plan-

134 DATAMODELLERING OG BEGREBSMODELLERING ning. Ifølge den beskrivelse af de forskellige modelleringstyper, som vi har foreslået i det foregående, er Assadis model ikke en ontologisk model, men en datamodel. 6.2 Afbildning mellem entitetstyper og begreber En anden forskel mellem datamodeller og begrebsmodeller er, at der ikke er nogen en-til-en korrespondens mellem begreberne i en begrebsmodel for et domæne på den ene side og entitetstyperne i et entitets/relations-diagram for en database i det samme domæne på den anden side. I virkeligheden svarer entitetstypen ConceptSystem i figur 4 ikke til begrebet concept system. I stedet svarer begrebet concept system til de fire entitetstyper ConceptSystem, Syst_Pos, Syst_Rel og Relation tilsammen. Et begrebssystem for begreber kan indeholde begreber som fx overordnet begreb og underordnet begreb, jf. figur 1. Der findes ingen tilsvarende entitetstyper eller attributter i entitets/relations-diagrammet; de vil i stedet blive repræsenteret ved hjælp af attributterne POS_ID1 og POS_ID2 i entitetstypen Syst_Rel, hvor to begreber sættes i relation til hinanden (via deres positioner) med en specifikation af, hvilken relationstype (attributten R-ID) der findes mellem dem. Heller ikke begreber som intension og ekstension, som er meget vigtige i et begrebssystem for forståelsen af centrale begreber som begreb og karakteristisk træk, vil blive repræsenteret i et entitets/relations-diagram for en terminologidatabase. 6.3 Forholdet mellem relationstyper og begrebsrelationer Den mest almindelige begrebsrelation i begrebssystemer er den generiske relation. Den udgør skelettet i de fleste begrebssystemer. Denne relation kan også findes i entitets/relations-diagrammer i form af en relation mellem en overordnet entitetstype og dens undertyper (generalisering/specialisering), men det er normalt ikke den mest almin-

DATAMODELLERING OG BEGREBSMODELLERING 135 delige relationsart 5. Et typisk eksempel er entitetstypen Staff, der har undertyperne Manager, SalesPersonal og Secretary. I vores entitets/relations-diagram for terminologidatabasen DAN- TERM CBS, der indeholder omkring 30 entitetstyper, har undertyper ikke været relevante. I forbindelse med generalisering/specialisering taler man om attributnedarvning: en undertype arver attributter fra sin overordnede type. Det betyder at fx undertyperne Manager, SalesPersonal og Secretary arver de attributter som Staff har (fx FirstName og FamilyName), men undertyperne har også nogle distinktive attributter. Denne nedarvning bidrager imidlertid ikke til beskrivelsen af entitetstypernes betydning. Mange relationstyper i entitets/relations-diagrammer kan sammenlignes med del-helheds-relationer i begrebssystemer 6, men også med andre typer af begrebsrelationer som fx rollerelationer, fx agent-patient relationer (et udtryk betegner fx et begreb). I begrebssystemer bliver relationstypen altid ekspliciteret (eller den burde blive det). I entitets/relationsdiagrammer behøver relationen mellem to entitetstyper ikke nødvendigvis at blive ekspliciteret. Meget ofte betegnes entitetstyperne med betegnelser, som simpelthen er en kombination af betegnelserne for de to entitetstyper, som indgår i relationen. Relationen mellem Concept og Expression i figur 2 kunne fx hedde: Concept_Expression i stedet for Term. I et entitets/relations-diagram kan en relationstype omdannes til en entitetstype afhængig af relationstypen, jf. entitetstypen Term, figur 2 og 3. I et begrebssystem omdannes begrebsrelationer ikke til begreber. 5 Conolly & Begg (2002) siger at Enhanced Entity-Relationship modellen (EER) er motiveret af behovet for yderligere begreber til 'semantisk' modellering som fx specialization/generalization, attribute inheritance, aggregation og composition. 6 Disse betegnes også som 'aggregation' i EER.

136 DATAMODELLERING OG BEGREBSMODELLERING 7 Konkluderende bemærkninger I dette indlæg har vi givet eksempler på de udvidelser af databasestrukturen for DANTERM CBS, som er nødvendige til håndteringen af informationer om begrebsrelationer og begrebssystemer i CAOS. Desuden har vi vist, at databasestrukturen er baseret på en begrebsmodel, men også at der er nogle vigtige forskelle mellem begrebsmodeller og datamodeller. 7 8 Referencer Assadi, Houssem (1998): Construction of a Regional Ontology from Text and its Use within a Documentary System. In: N. Guarino (ed.): Formal Ontology in information Systems, IOS Press, Netherlands, p. 236-249. Connolly, Thomas and Carolyn Begg (2002): Database Systems, A Practical Approach to Design, Implementation, and Management, Third Edition, Addison Wesley, USA. Date, C.J. (2000): An Introduction to Database Systems, 7 th Edition, Addison Wesley, Reading. Hull, Anthony, Bodil Nistrup Madsen and Hanne Erdman Thomsen (1999): DANTERM CBS for everyone. In: Terminology in Advanced Microcomputer Applications: Proceedings of the 4 th TermNet Symposium, TAMA 98, TermNet, Vienna, p. 67-84. 7 Projektet Computer Aided Ontology Structuring har modtaget støtte fra Forskningsrådene og fra Handelshøjskolen i København.

DATAMODELLERING OG BEGREBSMODELLERING 137 ISO/DIS 1087-1 (1997): Terminology work Vocabulary Part 1: Theory and application (Partial revision of ISO 1087:1990), International Organization for Standardization. Madsen, Bodil Nistrup (1991): In Terms of Concepts. In: Niels-Davidsen-Nielsen (ed.): Copenhagen Studies in Language 14, Handelshøjskolens Forlag, Erhvervsøkonomisk Forlag S/I, p. 67-91. Madsen, Bodil Nistrup (1998): Typed Feature Structures for Terminology Work Part I. In: Lundquist, L., Picht, H. and Quistgaard J. (eds.): LSP - Identity and Interface - Research, Knowledge and Society. Proceedings of the 11th European Symposium on Language for Special Purposes. Copenhagen, August 1997, Copenhagen Business School, p. 339-348. Madsen, Bodil Nistrup, Hanne Erdman Thomsen and Carl Vikner (1999): The project "Computer-Aided Ontology Structuring"(CAOS). In: World Knowledge and Natural Language Analysis. Copenhagen Studies of Language vol.23, Copenhagen: Samfundslitteratur, p. 9-38. Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner (2002): Computerstøttet opbygning af begrebssystemer (i dette bind). Thomsen, Hanne Erdman (1999): Typed Feature Specifications for establishing Terminological Equivalence Relations. In: World Knowledge and Natural Language Analysis. Copenhagen Studies of Language vol.23, Copenhagen: Samfundslitteratur, p. 39-55.