ISSN: 1602-9259 LYKEION 11 LYKEION

Relaterede dokumenter

Begrebsarbejde som forudsætning for datamodellering

KORT INDFØRING I BEGREBSARBEJDE

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

Automatisk samkøring og kvalitetssikring af data i en term- og vidensbank

DANTERMcentret Webbaserede termbaser og e-ordbøger

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 3: E-R modellering. 17. februar Forelæser: Rasmus Pagh

Begrebsarbejde i Kriminalforsorgen 1 Begrebsarbejde i Kriminalfor-

Hvad er formel logik?

Databasesystemer, forår 2006 IT Universitetet i København. Forelæsning 3: E-R modellering. 16. februar Forelæser: Rasmus Pagh

ER-modellen. Databaser, efterår Troels Andreasen. Efterår 2002

Terminologiarbejde på tværs af kulturer og sprog Bodil Nistrup Madsen & Hanne Erdman Thomsen

Forskelle på begrebsmodellering og datamodellering

HÅNDBOG I BEGREBSARBEJDE DEL 1: PRINCIPPER

ER-modellen. Databaser, efterår Troels Andreasen. Efterår 2002

CCS Formål Produktblad December 2015

Den sproglige vending i filosofien

Den sene Wittgenstein

Program for møde fredag d. 22/2-2002

Opgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015

Kommentar Foreslået ændring Kommentarer fra arbejdsgruppen

Forløbskoordinator under konstruktion

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

AARHUS UNIVERSITET AKADEMISK SKRIVECENTER - EMDRUP FORÅR 2013 LYNKURSUS I ANALYSE HELLE HVASS, CAND. MAG TORSTEN BØGH THOMSEN, MAG.ART.

DiaSketching og afterminologisering hvornår er en term en term? Nordterm juni 2005 Reykjavik, Island

SUP-specifikation, version 2.0. Bilag 14. SUP-Styregruppen. Ordliste (informativ) Udkast af 12. juni Udarbejdet for

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 4: Mere om E-R modellering. 24. februar Forelæser: Rasmus Pagh

Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

Eksempel på den aksiomatisk deduktive metode

CCS klassifikation og identifikation

Opgaver hørende til undervisningsmateriale om Herons formel

Opgaveteknisk vejledning Word 2011 til Mac. Tornbjerg Gymnasium 10. december 2015

Beskæring af et billede med Vegas Pro

Lis Højgaard KØN OG LØN - En analyse af virksomhedskultur og lønforskelle mellem kvinder og mænd i fire private virksomheder Samfundslitteratur

ALTING PÅ SIN PLADS OG PLADS TIL ALTING. OM AT ORDNE OG UDNYTTE VIDEN OM VERDEN. Bodil Nistrup Madsen Handelshøjskolen i København

Opgaveteknisk vejledning Word Tornbjerg Gymnasium 10. december 2015

Progression frem mod skriftlig eksamen

Scope Management ITU #ituscpmgt

PILGRIMs termdatabase

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

Pointen med Differentiation

Balanced scorecard på dansk

Tjek dine miljøvalg på nettet - når det gælder en tryksag.

Det. Bind. Journal of. Citations. Impact Factor. Articles. Books. Patents

Matematik, maskiner og metadata

DATABASE - MIN MUSIKSAMLING

Casper Fabricius ActiveRecord. O/RM i Ruby on Rails

Virksomhedens informationssystem. Det elektroniske kontor. Elektronisk dokumenthåndtering Samfundet. Systembeskrivelse II IT og økonomi

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund.

DM517:Supplerende noter om uafgørlighedsbeviser:

Anvendt videnskabsteori

Udviklingsseminar. Fælles begreber og terminologi på det sociale område

1.0 FORMELLE KRAV HVORDAN OPGAVENS OPBYGNING... 2

Rapport vedrørende udarbejdelse af begrebssystem og definitioner til generelle begreber til brug i sundhedsvæsenet. NBS 09 Generelle begreber

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

Noter til Perspektiver i Matematikken

Vejledning - Udarbejdelse af gevinstdiagram

Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling

ViKoSys. Virksomheds Kontakt System

Fremstillingsformer i historie

Det erhvervsrelaterede projekt 7. semester. Projekt plan

Forslag til ny struktur - overblik

VisiRegn: En e-bro mellem regning og algebra

Begrebsmodellering i Justitsministeriet Modeller for samarbejde om begrebsarbejde NORDTERM 8. og 9. juni 2011

Villa Venire Biblioteket. Af Marie Martinussen, Forsker ved Aalborg Universitet for Læring og Filosofi. Vidensamarbejde

Lynkursus i analyse. Vejledning - vi tilbyder individuel vejledning i skriftlig akademisk fremstilling.

Mapping-tabeller. Indholdsfortegnelse. 1. Forord. 1. Forord. 2. Tabellernes opbygning og indhold. 3. Formålet med tabellerne

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

nikolaj stegeager Organisationer i bevægelse Læring UdvikLing intervention

Jette Hyldegård Det gode navigationsapparat

Appendiks 6: Universet som en matematisk struktur

UML til kravspecificering

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

Nina Ekman og Stine Reintoft. Mindfulness. for dig som mor med det lille barn

Danske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog.

Demokrati og deltagelse i arbejdslivet

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal.

Regneark hvorfor nu det?

Flere ligninger med flere ukendte

Akademisk tænkning en introduktion

Repræsentationer af handlinger og sproghandlinger

Vejledning til referencehåndteringssystemet. Forsvarets Bibliotekscenter Anita Elleby

Trekanter. Frank Villa. 8. november 2012

KØN I HISTORIEN. Agnes S. Arnórsdóttir og Jens A. Krasilnikoff. Redigeret af. Aar h u s Uni v e r sit e t s forl a g

Matematikkens filosofi filosofisk matematik

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

De videnskabelige metoder, der er centrale for Sygeplejeinformatik. 1. Anvendelse af en diskurs om motiver for IT-systemer

Vidensmedier på nettet

DØMMEKRAFT. i byggeriet

E-markedspladser et springbræt for dansk eksport

Funktionsterminologi

DE BEAR TECHNOLOGY. o Processer, metoder & værktøjer. info@dbtechnology.dk

Maintenance Documentation for maintenance

DS-HÅNDBOG 111.1: Jern og stål. og dokumentation

Eksamensprojektet - hf-enkeltfag Vejledning August 2010

Statiske beregninger. - metode og dokumentation. af Bjarne Chr. Jensen

Markedsføringsplanlægning og -ledelse

Hvad er et tal? Dan Saattrup Nielsen

Metodehåndbog. Begrebsmodeller, Informationsmodeller og Begrebsdefinitioner. Udarbejdet i fællesskab mellem Udbetaling Danmark/KL/KOMBIT

Trusselsidentifikation ved risikovurderingen af offentlige it-systemer Kom godt i gang

Prosodi i ledsætninger

Transkript:

ISSN: 1602-9259 LYKEION nyt 11 LYKEION DANTERMcentret, Bernhard Bangs Allé 17 A, DK-2000 Frederiksberg T: 38153371, Fax: 38153820 Juli 2003, redaktion: Mogens Ehrich Dette nummer indeholder bl.a. materiale fra workshop d. 30. april 2003 om datamodellering OBS: Torsdag d. 18 september er der ny workshop ved Carl Chr. Lassen: Rationaliseringens sprog - ca kl. 14, præcis tid og sted meddeles Abstract: Min observation er, at vi har oplevet en masse 'tre bogstavs navne' på metoder, principper, filosofier etc. igennem de seneste 25 år, der er dukket op, prædiket om, og forsvundet i glemslen igen. Hver gang man har set det nye lys, og har kigget det i kortene, så er det 'gammel vin' på nye flasker i nye indpakninger. I grund og bund drejer det sig om at sammensætte og strukturerer de fire grundlæggende elementer på en hensigtsmæssig måde: Lav noget, Kontroller det, Flyt det og Opbevar det. (Nyd både bogstavrim og rim: Make, Test, Move, Rest). Det er branche - u - specifikt! Det er 'prædikant' - u - specifikt! INDHOLD: Lise Borup: Modellering i logistikdomænet Side 2 Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Resumé til brug ved workshop: Datamodellering og begrebsmodellering i terminologidomænet 5 Uddrag fra bog Viden om Viden, del 2 Forskning udgivet af DANTERMcentret 2002, side 99-138: Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Computerstøttet opbygning af begrebssystemer Datamodellering og begrebsmodellering i terminologidomænet 8

Frederiksberg d. 31.3.2003 NOTAT OM MODELLERING I LOGISTIKDOMÆNET v/lise Borup Inspirationen til at udarbejde et notat om logistik kommer fra højst forskellige kanter. Først og fremmest fra påvirkning af de problemer der er med modellering i byggeriet og fra det nyere initiativ 'Lean Construction' om byggeriets logistik. Men også fra påvirkningen af helt aktuelle begivenheder som krigen i Irak, der nu influeres af logistiske vanskeligheder eller forsyningsvanskeligheder. Der er to forskellige ordforklaringer på logistik i Gyldendals Fremmedordbog. Den første handler om ordets filosofiske betydning, og den anden om ordets mere praktiske betydning. Notatet handler om logistik i praktisk betydning, hvor ordbogen forklarer: 'højere forsyningstjeneste; beregningskunst vedr. flytning og forsyning af tropper'. Men det anbefales i høj grad at sætte sig ind i ordets filosofiske betydning, hvor Politikens filosofileksikon gør grundigt rede for logistikbegrebet, dets rødder og historie - herunder om logos og logik. Logistik set logisk og ontologisk ifølge Aristoteles Om logistik Logistik handler - ifølge ovenstående ordforklaring nr. 2 - om aktioner med flytning af ting/forsyninger i tid og rum. Dette involverer en stor mængde forskellige begreber hvoraf nogle er overordnede, og andre er mere underordnede. Uden en fungerende referenceramme for helheden af alle disse begreber og deres logiske og ontologiske sammenhænge, kan det være svært at organisere og holde styr på alle aktiviteterne og de ting som indgår i dem. Om den formale logik Efterfølgende om logikkens udvikling er baseret på kortfattede uddrag fra Jørgen Jørgensen 'Indledning til logikken og metodelæren' fra 1963. Uddragene blev brugt første gang i 'Notat vedr. tværfagligt seminar om begrebslæren bag moderne systemanalyse og systemkonstruktion' af 14.11.1996, som blev fremlagt på første Lykeion møde i Dansk Standard d. 27. januar 1997. Udviklingen af logikken begyndte med den formale (eller formelle) logik i form af begrebs- eller navnelogikken hos grækeren Aristoteles (384-322 f.kr.). Aristoteles erstattede Platons metafysiske eller overnaturlige idé-realisme med en begrebs-realisme baseret på begrebets iboende natur (eller tingenes væsen). Aristoteles forklarede eller definerede begreber som substans, klasser af slægter og arter, definitioner og egenskaber i sit arbejde med at udrede tingenes væsen. Egenskaber opdelte han i 9 hovedarter, der tilsammen med substansen udgør de 10 aristoteleske 'kategorier', som på en gang er de højeste begreber og de almeneste former for 'væren' eller 'eksistens'. Aristoteles 10 kategorier omfatter således en helhed af 'det værende' - en ontologi. SUBSTANS 1) Substans (Substans; Entitet; Eksistens; Sag; Objekt; Fænomen) EGENSKABER/PRÆDIKATER 2) Kvalitet (Kvalitet - ønskelig, verificerbar, målelig; Egenskabsværdier) 3) Kvantitet (Kvantitet, Måleenhed; Tal; Sum; Mængder) 4) Relation (Relation; Forbindelse; Reference; Association; Klasse/Klassifikation; Orden/Rækkefølge/Hierarki; Model; System etc) 5) Sted (Sted; Position/Lokalisering; Rum) 6) Tid (Tid; Tidspunkt; Periode; Varighed; Alder; Ældning) 7) Tilstand (Tilstand eller Konstitution - udfra iboende egenskaber som fx Materiale; Sanselige overfladekarakteristika; Vægt; Form; Struktur; Komposition mv) 8) Haven (Haven; Ejerskab; Ejendom; Penge; Kapital; Financiering mv) 9) Handlen (Handlen; Bevægelse; Aktion; Aktivitet; Proces; Produktion - inkl. Aktør/Agent ('Agency') som driver og indvirker på aktionen/processen mv) 10) Liden (Påvirkninger fra aktionen/processen på dens omgivelser/miljø inkl. 2

mennesker; Følelser) Efterfølgende gør Jørgen Jørgensen rede for de næste fire trin af logikkens udviklingshistorie, hvor 5 trin - ifølge Jørgen Jørgensen - udvikledes i begyndelse af 1900tallet i form af den symbolske eller matematiske logik (den gang kaldt for logistikken). Om begreberne i logistikdomænet Begreberne i logistikdomænet handler om aktioner/processer -> 9. Handlen med ting -> 1. Substans i tid -> 6. Tid og rum -> 5. Sted. Alle naturlige og menneskeskabte processer indebærer at tingene/substanser forandrer sig. I produktionsprocesser sker i reglen store forandringer i forvandlingen fra input til output. I flytteprocesser er der ofte ingen synlige tegn på forandringer, idet 'tingen' som flyttes er den samme set som input eller output - blot er den blevet ældre målt med flytningens varighed -> 6. Tid. For fordærvelige ting kan dette selvfølgelig have alvorlige konsekvenser, så jo kortere flyttetid jo mindre forældelse. Men en flytteaktion med fx mennesker (dyr og planter) kan være ufrivillig, hvor man bliver revet op med rode og har svært ved at komme over flytningen -> 10. Liden. Flytninger kan også betyde store forandringer af de steder -> 5. Sted, der flyttes fra og af de steder der flyttes til. Modellering af begreberne i logistikdomænet Efterfølgende eksempler på begreber i logistikdomænet og på begrebernes logiske og ontologiske relationer bør ikke betragtes som fuldt dækkende, men blot eksemplificeret for at give en idé om tankegangen. Der er ikke skelnet imellem logiske og ontologiske (berøring i tid og rum) relationstyper. 1. Substans Tingene/forsyningerne kan betragtes som -> 1. Substans. Tingene består af bestemte typer/arter/slags. Typerne kan være af en speciel slags eller en gruppe/samling af forskellige slags. Tingene - som substans - forvandles som input til output i aktionen/processen -> 9. Handlen. 2. Kvalitet Alle typerne af tingene -> 1. Substans har kvaliteter eller egenskaber -> 2. Kvalitet, hvoraf nogle har kvanticiferbare egenskabsværdier -> 4. Relation til -> 3. Kvantitet. Disse kvaliteter - som omfatter iboende egenskaber -> 7. Tilstand og deraf følgende relationsegenskaber som funktions- og reaktionsegenskaber/brugsegenskaber/ydeevner/kapaciteter (adfærd/performance) - forvandles i aktionen/processen -> 9. Handlen. 3. Kvantitet Alle typerne af ting/forsyninger -> 1. Substans er i x-antal eksemplarer -> 3. Kvantitet 4. Relation Nærværende eksemplificeres relationer mellem 2. Kvalitet og 3. Kvantitet - mellem 7. Tilstand og 2. Kvalitet - mellem 8. Haven og 3. Kvantitet - og mellem 9. Handlen og 10. Liden. Der er mange flere eksempler på relationer, idet fx 1. Substans har relationer til alle 9 egenskabskategorier. 9. Handlen har relationer til både 1. Substans, 2. Kvalitet, 3. Kvantitet, 5. Sted, 6. Tid, 7. Tilstand, 8. Haven og 10. Liden osv osv. 5. Sted Flytningen 9. Handlen foregår i rum eller steder, dvs at tingene flyttes fra et sted til et andet sted -> 5. Sted. Disse rum eller steder kan også - i visse situationer - betragtes som -> 1. Substans med specifikke egenskaber mht fast monterede redskaber og faciliteter for tingenes flytning, opbevaring eller placering -> 7. Tilstand 6. Tid Flytningen foregår i tid og drejer sig om bestemte tidspunkter og tidsperioder, dvs fra x tidspunkt til y tidspunkt -> 6. Tid. Flytningens varighed handler om -> 3. Kvantitet af -> 6. Tid 7. Tilstand Alle typerne af tingene har forskellige iboende egenskaber -> 7. Tilstand som fx kompositioner af forskellige

materialer og med -> 4. Relation til størrelser/rumfang og vægt/vægtfylde som kvantificerede egenskabsværdier -> 2. Kvalitet 8. Haven Flytninger kan være i forbindelse med køb og salg og deraf følgende nye ejerskaber af tingene - og i så fald om hvem der skal betale for flytningen -> 8. Haven. Ineffektive eller urationelle flytninger har en negativ effekt af værdien af den gavn mennesker kan have af flytningen i form af stigende priser på de flyttede ting -> 4. Relation til kvantificerbare priser -> 3. Kvantitet 9. Handlen Flytningen kan betragtes som en aktion, proces eller begivenhed -> 9. Handlen. Denne aktion er underkastet eller inkluderet vilkår af/fra agenter/aktører mv som driver og indvirker på aktionen. Disse agenter/indvirkere kan være hvad som helst (mennesker med deres intellekt, energi, maskiner/værktøjer mv) som samlet skaber aktionens vilkår. Flytningen foregår fx ved hjælp af 'flytteværktøjer' - redskaber/maskiner og mennesker (evt. dyr) hver for sig og i kombination dvs af agents som 'flytteværktøjer' og 'flytteaktører'. Alle typerne af ting/forsyninger - både som enkelttyper og som grupper af typer - må beskyttes af en beskyttelseskappe/emballage under flytningen. Emballagen har yderligere den funktion at skulle gøre flytningen lettere mht løft og transport, dvs at der udover agents som 'flytteværktøjer' og 'flytteaktører' er en 'agent' som emballage 10. Liden Flytteaktionerne -> 9. Handlen påvirker omgivelserne -> 10. Liden, idet der kan være mange forskellige belastninger af miljøet inkl. mennesker - idet fx påvirkninger af mennesker både handler om fysisk påvirkning og følelsesmæssig påvirkning. Flytteaktionernes overordnede formål og vilkår For de fleste ting gælder, at de flyttes flere eller mange gange i deres samlede livscyklus, dvs at der optræder flere eller mange aktioner med flytninger i tid og rum. Flytteaktionerne har - som regel - som formål at flytte tingene hen, hvor de skal bruges til et eller andet. Da tingene - set med menneskets øjne (inkl. visse religioner) - er skabt for at komme mennesker til gavn, er det klart at ineffektive flytteaktioner kan have en mere eller mindre direkte negativ effekt på værdien af den gavn, mennesker kan have af flytningen - fx stiger købsprisen på tingen, hvis købsprisen skal inkludere høje flytte- eller transportudgifter. Prisen for det færdige produkt vil også stige ved ineffektiv intern transport eller flytninger i forbindelse med de ting, som skal viderebearbejdes i fremstillingsprocesser eller produktion. Begrebet 'ineffektive flytninger' kan måske også siges at omfatte flytninger med store miljøpåvirkninger eller -belastninger -> 10. Liden. Derfor er kvaliteten af flytteaktioner af ting i tid og rum et vigtigt anliggende, og der er derfor udviklet logistiske værktøjer eller metoder for at gøre det nemmere at organisere og holde styr på flytteaktionerne (som inkluderer håndtering af materialer i mere eller mindre automatiseret industriel produktion). Nogle meget kendte metoder er oprindeligt udviklet i regi af det amerikanske forsvar (CALS-Computer Assisted Logistics System) og på de japanske bilfabrikker (Toyota Production System -> USA-Lean Construction). Der er også omfattende udviklinger af automatiserede transportsystemer som baseres på styring og kontrol ved hjælp af IT. 4

Datamodellering og begrebsmodellering i terminologidomænet Bodil Nistrup Madsen, Hanne Erdman Thomsen, Carl Vikner Institut for Datalingvistik, Handelshøjskolen i København bnm.id@cbs.dk, het.id@cbs.dk, cv.id@cbs.dk I vores oplæg vil vi dels præsentere projektet CAOS (Computer Aided Ontology Structuring), som sigter mod at udarbejde et interaktivt værktøj til brug i forbindelse med opbygningen af ontologier 1 (begrebssystemer), dels redegøre for sondringen mellem datamodellering og begrebsmodellering. Computerstøttet opbygning af ontologier Et værktøj som CAOS vil være et uundværligt hjælpemiddel i forbindelse med den terminologiske analyse, som anvendes ved systematisk beskrivelse af begreber. En sådan beskrivelse og den deraf følgende afklaring af begrebsapparater og mulighed for entydig fastlæggelse af begreber er ikke kun vigtig i forbindelse med klassisk oversættelsesorienteret terminologiarbejde. Den er også en uomgængelig forudsætning for at kunne konstruere velfungerende IT-systemer til udførelse af informationssøgning, informationslagring og informationsudveksling. CAOS udfører begrebsmodellering på basis af en formalisering af karakteristiske træk og begrebsrelationer, som muliggør automatisering af nedarvningen af karakteristiske træk og forskellige inferenser vedrørende disse træk. Disse inferenser bruges til at udvikle metoder, som kan anvendes til støtte for terminologer ved opbygningen af begrebssystemer. Konceptet i CAOS går ud på, at når terminologen arbejder med opbygningen af et begrebssystem på grundlag af tekster om det pågældende faglige domæne, skal det være muligt for ham/hende at indtaste oplysninger om de forskellige begreber, efterhånden som de fremgår af teksten. Oplysningerne kan vedrøre begrebsbetegnelser, karakteristiske træk, relationer til andre begreber mm. For hver ny oplysning skal CAOS forsøge at indpasse oplysningen i den del af ontologien, der allerede er udarbejdet, idet brugeren gøres opmærksom på inkonsistenser og formelle fejl. CAOS-systemet skal arbejde sammen med den eksisterende terminologiske databaseapplikation DANTERM CBS, som tidligere er udviklet ved Institut for Datalingvistik på Handelshøjskolen i København. DANTERM CBS er derfor blevet udvidet med formaliseret information om begrebsrelationer og karakteristiske træk. Dette arbejde er baseret på en integrering af principper for formelle ontologier og traditionelle begrebssystemer. I CAOS-projektet har vi således udarbejdet en detaljeret struktur for en ontologisk database, og denne er blevet implementeret i ORACLE og forsynet med eksperimentelle data. Desuden har vi udarbejdet en række algoritmer til behandling af trækstrukturer og nedarvning i en relationel database, og en del af disse faciliteter er blevet implementeret i CAOS-systemet. I forbindelse med vores oplæg vil vi demonstrere nogle af faciliteterne i systemet. 1 Domænespecifikke ontologier og begrebssystemer har meget til fælles, eftersom begge beskriver begreber og deres relationer, men de er ofte forskellige med hensyn til formaliseringsgrad.

Datamodellering og begrebsmodellering Et særligt problem - der ikke er specifikt for CAOS-systemet, men som dog er blevet aktualiseret under vores arbejde med projektet - er sondringen mellem datamodellering og begrebsmodellering. Datamodellering 2 kan fx udføres ved hjælp af E/R-diagrammer, begrebsmodellering er derimod etableringen af begrebssystemer (eller ontologier). I mange arbejder behandles de to aktiviteter som en og samme ting. At dette ikke er tilfældet, og at det tværtimod er vigtigt at skelne, vil vi argumentere for i vores oplæg. Det er velkendt at det er umuligt at udarbejde en hensigtsmæssig databasestruktur, hvis man ikke er fortrolig med de centrale begreber i det domæne, som databasen skal dække. Viden om begreberne i et domæne udtrykkes ved hjælp af karakteristiske træk og oplysninger om relevante begrebsrelationer, som tilsammen danner basis for udarbejdelse af definitioner. Denne form for viden kaldes også semantisk viden. Begrebsrelationer repræsentere 3 s i begrebssystemer, og et eller flere begrebssystemer inden for et givet domæne udgør en begrebsmodel for domænet. Det er imidlertid meget vigtigt at understrege, at der ikke er nogen en-til-en korrelation mellem et begrebssystem (eller en ontologi) for begreberne i et databasedomæne på den ene side og databasestrukturen på den anden side. Dette gælder for en terminologisk database, som er baseret på viden om begreberne inden for terminologidomænet, men det gælder også for databaseapplikationer i andre domæner. Begrebssystemer og datamodeller har noget til fælles, men de er også forskellige fra hinanden. Disse forskelle er meget indlysende, når man sammenligner begrebssystemer med databasestrukturer i relationelle databaser (repræsenteret ved hjælp af entitets/relationsdiagrammer). Forskellene er måske lidt mindre indlysende - men stadig reelle - når man sammenligner begrebssystemer med objektorienterede datastrukturer, som fx strukturer beskrevet ved hjælp af EER (Enhanced Entity-Relationship modelling) eller UML (Unified Modelling Language). Entitets/relations-modellering bliver sommetider omtalt som semantisk modellering. Denne omstændighed bidrager måske også til den misforståelse, at begrebsmodellering skulle være ækvivalent med datamodellering. Imidlertid indeholder entitets/relations-diagrammer ikke semantisk information, dvs. karakteristiske træk og begrebsrelationer vedrørende de begreber, der ligger til grund for databasestrukturen. Ved beskrivelsen af Enhanced Entity-Relationship modellering bruges begreber som specialisering/generalisering, nedarvning af attributter, aggregering og komposition, hvilket måske også kan minde om de tilsvarende lingvistiske begreber: under-/overordning, nedarvning af karakteristiske træk og del-helheds-relationer. De begreber, der bruges ved datamodellering, adskiller sig imidlertid fra de begreber, der bruges ved begrebsmodellering. Diskussionen i vores indlæg er også motiveret af, at nogle omtaler en databases struktur som ontologien for den pågældende database. I et begrebssystem repræsenteres et begrebs karakteristiske træk ved hjælp af trækspecifikationer i form af attribut-værdi-par, jf. eksemplet i figur 1. Disse trækspecifikationer giver information om begrebets betydningsindhold. 2 3 I databaselitteraturen findes forskellige definitioner af datamodellering, men vi vil her bruge databasestrukturering og datamodellering som synonymer. 6

1 pant 1.1 PLACERING 1.2 GENSTAND 1.1.1 håndpant [PLACERING: panthaver] 1.1.2 underpant [PLACERING: pantsætter] 1.2.1 pant i fast ejendom [GENSTAND: jord og bygninger] 1.2.2 pant i løsøre [GENSTAND: let transportabel] 1.2.3 pant i rettigheder [GENSTAND: økonomiske goder] 1.1.1.1+ 1.2.2.1 håndpant i løsøre 1.1.2.1+ 1.2.1.1 underpant i fast ejendom Figur 1: Uddrag af begrebssystem for panteretstyper En indlysende forskel mellem datamodellering og begrebsmodellering består i, at de attributter, der er knyttet til entitetstyperne i et entitets/relations-diagram, ikke giver oplysninger om entitetstypens betydning. De specificerer kun, hvilken slags information der vil blive registreret om de entiteter, der repræsenteres af den pågældende entitetstype. Specifikationen af domænet for en attribut giver information om attributtens mulige værdier, men dette giver stadig ingen information om entitetstypens betydning; det svarer derimod til en slags ekstensional definition af attributten. Attributværdierne beskriver de enkelte entiteter, ikke det begreb, som ligger til grund for entitetstypen. En anden forskel mellem datamodeller og begrebsmodeller er, at der ikke er nogen en-til-en korrespondens mellem begreberne i en begrebsmodel for et domæne på den ene side og entitetstyperne i et entitets/relations-diagram for en database i det samme domæne på den anden side. I vores oplæg vil vi redegøre nærmere for disse forskelle og give eksempler bl.a. fra terminologidomænet.

Viden om viden Del 2 - Forskning Slutrapport for projektet Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibaser DANTERMcentret

Viden om viden Del 2 - Forskning Slutrapport for projektet Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibaser 2002 DANTERMcentret, København 1. udgave, 1. oplag 2002 Layout og omslag: DANTERMcentret Sat med: Bembo Tryk og indbinding: Prinfo Kolding ISBN 87-988536-1-9 DANTERMcentret Bernhard Bangs Allé 17A DK-2000 Frederiksberg Tlf. 38 15 33 71 Fax. 38 15 38 20 E-mail danterm@cbs.dk Internet www.danterm.dk Enhver gengivelse fra denne bog, på tryk eller elektronisk, må kun ske med DANTERMcentrets skriftlige tilladelse. Kopiering fra bogen må foretages i henhold til lov om ophavsret af 14. juni 1995 med senere ændringer. Citat i anmeldelser er tilladt med angivelse af kilde.

3 Indholdsfortegnelse Del 2 - Forskning Forord...5 Målsætning, projektplan og organisation...9 Resultater og perspektiver...25 Indlæg og rapporter Korpuslingvistik Kirchmeier-Andersen, Sabine: ParaT Parallelle Tekster. Identifikation af termkandidater i parallelle korpora...31 Weilgaard, Lotte: På datafangst hvad repræsenterer verber som kalde, karakterisere og andre?...47 Terminologi og vidensrepræsentation Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Rapport over CAOS-projektet 1998-2002...87 Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Computerstøttet opbygning af begrebssystemer...99 Madsen, Bodil Nistrup, Hanne Erdman Thomsen & Carl Vikner: Datamodellering og begrebsmodellering i terminologidomænet...119 Picht, Heribert: Repræsentationsformer for begreber og genstande...139 Toft, Bertha: Kan terminologen og objekt-analytikeren bruge hinanden til noget?...149 Teksthukommelses-systemer Christensen, Tina Paulsen: Translation Memory-systemer som værktøj til oversættelse af juridiske tekster... 161

4 Andre sprogteknologiske værktøjer Feil, Ruth: Hybride systemer...181 Nielsen, Tina: Optimizing Computer Assisted Learning Applications for Teaching Language Technology A view on the pedagogical aspect...203 Appendikser Appendiks A: Liste over deltagere i forskningsaktiviteterne...225 Appendiks B: Oversigt over DANTERM-seminarer og workshops...227 Appendiks C: Oversigt over indlæg og publikationer vedrørende de enkelte forskningstemaer...231 Appendiks D: Alfabetisk liste over forfattere og publikationer i relation til emnerne i DANTERM-centerkontrakten...243

99 Computerstøttet opbygning af begrebssystemer af Bodil Nistrup Madsen Hanne Erdman Thomsen Carl Vikner

100 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Indholdsfortegnelse Abstract... 101 1 Indledning... 101 2 Artiklens formål... 102 3 Beslægtede projekter... 102 4 Den oprindelige terminologiske database... 103 5 Formalisering af terminologiske begrebssystemer... 104 6 Integrering af trækspecifikationer i den relationelle databaseapplikation... 106 6.1 Nedarvning... 106 6.2 Indsættelse af nye begreber... 108 6.3 Flytning af begreber... 108 6.4 Etablering af polyhierarki... 109 7 Inddelingskriterier... 112 8 Afsluttende bemærkninger... 116 9 Referencer... 116

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 101 Abstract Denne artikel beskriver den udvidelse af terminologidatabasen DANTERM CBS, som er lavet inden for rammerne af CAOSprojektet. Formålet med udvidelsen er at formalisere oplysningerne om begrebssystemer, således at det bliver muligt at foretage halvautomatisk opbygning af begrebssystemer, eller ontologier. Ved formaliseringen benyttes trækstrukturer, som muliggør automatisering af nedarvningen af karakteristiske træk og af forskellige inferenser vedrørende disse træk. Disse inferenser bruges til at udvikle metoder, som kan anvendes i et computersystem til støtte for terminologer ved opbygningen af begrebssystemer. 1 Indledning I terminologiarbejde er begrebssystemer et uundværligt hjælpemiddel til at bringe orden i det kaos af termer, som oversættere og andre ofte udsættes for, når de begynder at arbejde med tekster inden for et givet fagområde. Det er imidlertid et meget vanskeligt og tidrøvende arbejde at opbygge sit eget begrebssystem for et bestemt område, og der bruges utrolig megen tid på at rette i udkast, så snart et begrebssystem er blevet bare en lille smule kompliceret. Dette er baggrunden for at Institut for Datalingvistik og DANTERMcentret arbejder på et projekt, hvis formål er at udvikle et computersystem, der kan lette dette arbejde: CAOS - Computer Aided Ontology Structuring (Madsen et al., 1999). En nødvendig forudsætning for at kunne konstruere et sådant computersystem er en formalisering af selve terminologiarbejdet, som traditionelt udføres ret uformelt. I CAOSprojektet erstattes de uformelle begrebssystemer derfor med formelle ontologier.

102 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 2 Artiklens formål I denne artikel vil vi vise, hvordan integrationen af formelle trækstrukturer i et eksisterende terminologisk databasesystem kan bruges til at hjælpe terminologer ved opbygningen af begrebssystemer. I det følgende omtales først nogle beslægtede projekter (afsnit 3). I afsnit 4 gives en kort præsentation af den relationelle databaseapplikation DANTERM CBS. I afsnit 5 beskrives formaliseringen af begrebssystemer ved hjælp af formelle trækstrukturer, der modellerer nedarvning af karakteristiske træk. I afsnit 6 viser vi, hvorledes denne formalisering integreres i den oprindelige databaseapplikation, og på hvilke måder brugere kan få hjælp ved indsættelsen af begreber i et begrebssystem. Til sidst beskrives i afsnit 7, hvordan inddelingskriterier fra traditionelt terminologiarbejde kan håndteres formelt i CAOS. 3 Beslægtede projekter Et andet projekt, der arbejder med anvendelsen af vidensbaserede metoder i terminologiarbejde, er COGNITERM projektet 1. I dette projekt bruges en formalisering, der er beslægtet med trækstrukturer, til at repræsentere begrebers karakteristiske træk, og de udviklede systemer har automatisk nedarvning, men de konsistenstjek, som bruges i CAOS, er mere omfattende end den simple påvisning af værdikollision, som beskrives i Meyer et al. (1997: 116). Cimino (2001) beskriver metoder til anvendelse af viden om karakteristiske træk ved automatisk eller interaktiv placering af begreber i en ontologi med polyhierarkisk nedarvning. Fremgangsmåden er baseret på viden om nedarvning af træk, og ligner således det der er planlagt i CAOS, men systemet 1 http://aixl.uottawa.ca/~imeyer/research.htm

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 103 (MED) er designet specielt med henblik på sundhedsområdet og opererer med en afgrænset mængde af attributter (relationer + attributter i Ciminos teminologi), hvor vi foreslår en ubegrænset mængde. Dette skyldes at vi har konstateret, at der inden for specifikke fagområder kan optræde meget specialiserede adskillende træk, således at de ikke kan udvælges og afgrænses, før terminologiarbejdet påbegyndes. 4 Den oprindelige terminologiske database I den oprindelige DANTERM CBS -database kan der lagres oplysninger af mange forskellige slags om terminologi på et ubegrænset antal sprog. Dataorganiseringen er begrebsorienteret, hvilket betyder at alle synonymer registreres som termudtryk hørende til det samme begreb, dvs med én enkelt definition, i modsætning til en ordorienteret datastrukturering, hvor ét udtryk kan være registreret med mange betydninger, og følgelig mange definitioner (se også Madsen 1998a). Figur 1: Begrebsrelaterede oplysninger i DANTERM CBS

104 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Som det kan se i figur 1 vises kun termer på to sprog samtidigt for brugeren. I hovedvinduet præsenteres de vigtigste informationstyper, nemlig nogle begrebsrelaterede oplysninger som fx klassifikation (fælles for de to sprog) og definition med kildeangivelse, og nogle termrelaterede oplysninger som fx termer med tilhørende grammatiske oplysninger. For begge sprog kan der vises flere oplysninger, både begrebs- og termrelaterede. I figur 1 ses et pop-up vindue, der indeholder yderligere begrebsrelaterede oplysninger i forbindelse med det engelske begreb mortgage. De interessanteste oplysningstyper i denne forbindelse er dem, der vedrører begrebssystemet og de relaterede begreber, repræsenteret ved en term. For det første vises navnet på begrebssystemet og positionen for det aktuelle begreb i form af en numerisk notation i overensstemmelse med DIN 2331. Dernæst vises en liste med de relaterede begreber. Relationen angives ved hjælp af en notation, der ligner den, der bruges i tesaurusser til indeksering, efterfulgt af et af termudtrykkene for det relaterede begreb. 5 Formalisering af terminologiske begrebssystemer Som det fremgår af figur 1, er de oplysninger der for øjeblikket registreres i DANTERM CBS ikke formaliseret, og de udarbejdes af terminologen inden de indtastes i databasen, som regel uden brug af formelle værktøjer. Et tegn på den manglende formalisering af dataene er, at relaterede begreber repræsenteres ved et af deres termudtryk i stedet for ved en begrebsrelateret oplysning, som fx ID-nummeret. Selv om man i stedet vælger at registrere begrebets ID-nummer, kan man stadig vælge at præsentere et af termudtrykkene for brugeren.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 105 Vi har tidligere foreslået, at terminologer skulle bruge formelle trækspecifikationer 2 til at modellere begrebers karakteristiske træk (se Thomsen 1998, 1999 og Madsen 1998b). Dette ligner den fremgangsmåde, der beskrives i Meyer et al. (1997). top mortgage mortgage chattel of immovables mortgage OBJECT: immovables OBJECT: movables equitable mortgage CREATION : general words legal mortgage CREATION : legal charge Figur 2: Begrebssystem med trækspecifikationer Brugen af trækspecifikationer kan illustreres med begrebet equitable mortgage, der har det karakteristiske træk 'created by general words (herein differing from a legal mortgage)', som findes formuleret i en skriftlig kilde. Dette kan fx repræsenteres formelt ved at tildele begrebet trækspecifikationen [CREATION: general words] som vist i figur 2. Alle underbegreber til equitable mortgage har også dette karakteristiske træk. Dette afspejles i formaliseringen og i CAOS-systemet ved, at trækspecifikationen nedarves til alle begreber, der er underordnet equitable mortgage. Formaliseringen gør det muligt at udvikle computersystemer, som kan udføre konsistenstjek som beskrevet i de følgende afsnit. En anden fordel ved formaliseringen er, at dataene kan anvendes til andre formål, hvor der bruges formelle ontologier, som fx ontologibaseret informationssøgning, jf. projektet OntoQuery (se Andreasen et al. 2002a og Andreasen et al. 2002b). 2 Om formelle trækspecifikationer, se Carpenter (1992).

106 COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER Figur 3: CAOS visning af begrebssystem 6 Integrering af trækspecifikationer i den relationelle databaseapplikation 6.1 Nedarvning I CAOS kan en trækspecifikation knyttes til et begreb på to måder. Den kan tildeles begrebet direkte, og i så tilfælde kalder vi den en primær (forekomst af en) trækspecifikation, eller den kan arves fra et overordnet begreb. En trækspecifikation er primær, hvis det er den øverste forekomst i ontologien af den pågældende trækspecifikation. Alle andre forekomster af denne trækspecifikationer er da nedarvede. Det betyder, at en trækspecifikation kun kan forekomme som primær én gang i en given ontologi. Primære trækspecifikationer registreres i en tabel i den udvidede database. Nedarvede trækspecifikationer derimod registreres ikke eksplicit i databasen, men beregnes på grundlag af begrebsstrukturen, når der er brug for dem.

COMPUTERSTØTTET OPBYGNING AF BEGREBSSYSTEMER 107 Figur 4: Valgliste til attributter Primære trækspecifikationer kan kun indsættes i en ontologi ved et direkte indgreb fra brugerens side. Attributter og værdier kan vælges fra lister (se figur 4), der omfatter alle attributter, der er brugt i det aktuelle begrebssystem. Listen kan udvides til at omfatte andre begrebssystemer eller endog hele basen. Når brugeren tilføjer en primær trækspecifikation, udfører CAOS en række tjek. For eksempel, undersøges det, om der er andre forekomster af den samme trækspecifikation i ontologien. Hvis der findes en anden forekomst, advarer CAOS brugeren om dette, se figur 5. Det er på længere sigt meningen at CAOS skal foreslå forskellige muligheder for at løse problemet. Hvis den anden forekomst af trækspecifikationen findes på et underbegreb til det aktuelle begreb, kan CAOS fx forslå brugeren at "løfte" den primære trækspecifikation op på det aktuelle begreb. Hvis den anden forekomst af trækspecifikationen derimod findes på et begreb, som ikke er direkte relateret til det aktuelle begreb, kunne CAOS tjekke, om det er muligt at etablere en polyhierarkisk relation, jf. også afsnit 6.4 nedenfor. Figur 5: Advarsel