R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.



Relaterede dokumenter
Sitecore - basisvejledning Version 2. September 2010

INDHOLDSFORTEGNELSE... 1 FORORD ORDBOGSVÆRKTØJET I VÆRKTØJSLINJEN ORDBOGEN... 3

Dansk Datalogi Dyst 2015 DDD Runde 2

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

A A L B O R G U N I V E R S I T E T 2

DISCIPLINÆRNÆVNET FOR EJENDOMSMÆGLERE

Talrækker. Aktivitet Emne Klassetrin Side

DESIGN OG TILGÆNGELIGHED FORESTIL DIG! FORESTIL DIG ET BYGGET MILJØ, SOM IKKE UDELUKKER NOGEN.

ALMEN GRAMMATIK 1. INDLEDNING. At terpe eller at forstå?

Eksempler på elevbesvarelser af gådedelen:

Nyhedsmodul brugermanual

Cecilie Maria Nielsen, Mathias Fornitz Eriksen og Martin Arnetoft klasse

Rettelser til 2007 (rev. 2008) studieordningen for BA-Negot. i arabisk, engelsk, fransk, spansk eller tysk

Samlet Funktion Køn Anciennitet Alder

Evaluering af Udeskole Rønnebæk skole. Udeskole

Data Discount Erhverv A/S

Casebaseret eksamen Informationsteknologi Niveau E

Indledning... 2 Opbygning... 2 Servicesegmenternes sammenhæng... 3 UNA... 4 UNB... 6 UNH UNT UNZ... 14

Brugermanual til Assignment Hand In

Brugermanual til NaboLink enhederne: BaseLink V02 KeyLink V02 AlarmLink V02 Revision Indholdsfortegnelse:

Åbent brev til sundhedsminister Jakob Axel Nielsen

Spørgeskema om. IPA-DK: Impact on Participation and Autonomy questionnaire - Dansk version

Skudt ned over Danmark

Hundeweb Brugermanual Opret DJU prøver m.m.

Forældres muligheder for at passe syge børn

Vejledning for anvendelse af PensionsIndberetningssystem PI

Velkommen til ABC Analyzer! Grundkursusmanual 2 vil introducere dig til ABC Analyzers mere avancerede funktioner, bl.a.:

2009 Priser & vilkår 31/10/2008

Brugervejledning NIV. Indberetning af fremadrettede ventetider. Version 1.3

Respondenter Procent Under 1 år 0 0,0% 1-3 år 1 5,3% 4-8 år 3 15,8% 9-13 år 5 26,3% år 7 36,8% 20 år eller mere 3 15,8% I alt ,0%

Prøve i Dansk 1. Skriftlig del. Læseforståelse 1. November-december Tekst- og opgavehæfte. Delprøve 1: Opgave 1 Opgave 2 Opgave 3

Typografi & Ombrydning. Grafisk Design. Portfolio. Hovedforløb 1. Grafisk Design. Grafik & Billeder. Stine Keller.

Undervisningsmateriale - Rapport

Brugermanual til Wordpress 3.2.x Content Management System

Rydning af skov i bondestenalderen

Italien Rossella Masi, lærer Rapport om undervisningsbesøg Wien, Østrig

Brugervejledning til udfyldelse og udstedelse af Europass Mobilitetsbevis i Europass Mobilitetsdatabasen

ISO 27001/27002:2013 i SecureAware Policy TNG

Lundeborg Lystbådehavn på position:

Skriftlig eksamen i Datalogi

Indledende møde til Førtidspension 20. april :44

AFSLUTTENDE OPGAVE. udemiljø

Intendantur Del 3 Guide til webapplikation til bestilling af mad

MJ: 28 years old, single, lives in Copenhagen, last semester student at university.

Du har arbejdet for dine penge. Nu skal de arbejde for dig. - Drop opsparingen og investér i stedet pengene.

Forældreperspektiv på Folkeskolereformen

E K S A M E N. Emnekode: NO-213 Emnenamn: Emnestudium i nordisk språk Nordiske språk og grannespråk. Dato: 10. desember 2014 Lengde:

Spil om LEDELSE. Rigtig god fornøjelse!

En mini e-bog til dig fra Solrød Kommune i samarbejde med Aros Business Academy 7 FEJL DU IKKE MÅ BEGÅ, NÅR DU SØGER JOB

Analyse af PISA data fra 2006.

Betjeningsvejledning. for. UniRace

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

Model til forandringer i almen praksis

FSFI s guide til DFR s elektronisk bevissystem

qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui Polynomier opåasdfghjklæøzxcvbnmqwertyuiopå

Kort om Eksponentielle Sammenhænge

Bilag A Spørgeskema. Undersøgelse af 2 minus 1 veje i Danmark. På forhånd tak for hjælpen. Telefonnummer på kontaktperson:

Ligeværdige udtryk. Aktivitet Emne Klassetrin Side. Vejledning til Ligeværdige udtryk 2

1-1 Usability evaluering af den simple udgave

Spørgeskema vedrørende nye designforslag til Boligportal.dk

Brugervejledning til DHF's onlinesystem

Huskesedler. Anvendelse af regneark til statistik

18 Multivejstræer og B-træer.

OPRET OG REDIGER FORMULARER I DYNAMICWEB

Tid og sted: Fredag den 28. juni

Vejledning til indtastning af de alfabetiske lister

Manual til PRO DK180

_2_mulighederAfgive vælgererklæring eller tilbagetrække støtte?

Boligsøgning hos Domea.dk

FORSIDE NYHEDER GEDDER I TRYGGEVÆLDE Å VANDRER SJÆLDENT UD I KØGE BUGT. FREDAG 06 NOV 15 Af Finn Sivebæk

Ikke-grupperede observationer

Vejledning i forbindelse med CV-samtalen

Instagrammanual til frivillige i Mødrehjælpen

Københavns åbne Gymnasium Elevudsagn fra spørgeskemaundersøgelsen i 2q

Stofskiftets afhængighed af temperatur og aktivitet hos ektoterme dyr.

Objektorientering. Programkvalitet

JAR Øvelse nr. 2. JAR-Manual, Version 1.0. Avanceret søgning. Regionsvejledning

Optimeret Ruteforslag

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet

Håndtering af stof- og drikketrang

Bilag 10. Side 1 af 8

Trivsel og Bevægelse i Skolen. Eksempelsamling vol. 2. Brain breaks

Anvendelse af BPT til manuel test

Brugervejledning. Optagelse.dk Vejledning til forældre og elever i grundskolen

MultiPlan Selvbetjening. Spærreplan

Kontroller af forretningsregler ved indsendelse af digitale årsrapporter

Brug din butik som salgsredskab. Af Sanne Godt

kommunalbestyrelse et forsikringsselskab medlemsblade

KUNDEVEJLEDNING APRIL 2014

Tema MitHelbred på din ipad

Automatisering Af Hverdagen

ÅRSBERETNING F O R SKAGEN KOMMUNALE SKOLEVÆSEN VED. Stadsskoleinspektør Aage Sørensen

Vejledning til Photofiltre nr. 117 Side 1

KARRIERE. »Vi ønsker, at arbejdet med. rationel lægemiddelbehandling herunder medicingennemgang bliver en vedvarende proces.

Lærervejledning til teacher-content.com senest rettet Efter beskrivelsen kan du få svar på nogle af de oftest stillede spørgsmål.

VI HAR EN HJERNESKADE! PÅRØRENDEPERSPEKTIVER TO ÅR EFTER EN HJERNESKADE?

Sprogsynet bag de nye opgaver

GrundlÄggende variabelsammenhänge

Manual for Jobmultimeter Bruger

Transkript:

Bente Maegaard, Københavns Universitet, Institut for anvendt og m a t e m a t i s k lingvxstik, Njalsgade 96 2300 K ø b e n h a v n S R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik. Når m a n i 'gamle dage' lavede et s y stem til sproglig a n a lyse, gjorde man det o f test på den måde, at man skrev et p r o gram, i h v i l k e t man u d trykte al den viden, der skulle bruges. Det, der især er interessant her, er at den grammatiske viden der skulle bruges, var udtrykt i selve programmet. P r o g r a m møren og sprogforskeren var måske en og samme person, men selv i det t i lfælde er det u h e n s i g t s m æ s s i g t - af mange kendte grunde. D e r f o r er man da også m e re og mere gået over til at s k r i ve systemer, h v or p r o g r a m og data h o l d e s adskilt - og g r a m m a tikker altså opfattes som data. Disse g r ammatikker skrives i et b e s t e m t f o r m a t ; det er det jeg o v e n f o r har kaldt r e gelform a l i s m e. Der findes efterhånden en række sådanne parsere m e d forskellige regelformalismer. Disse formalismer afviger fra hinanden på forskellige måder. Jeg vil h e r især interessere m i g for, h v o r d a n det ser ud fra b r u g e r e n s - lingvistens - synspunkt, o g m i n d r e for, h v o r d a n det er implementeret. De oplagte krav, s o m en l i ngvist stiller til en regelformalisme, er at den er r i meligt n a t u r l i g - man skal kunne u d trykke sproglige fakta på en rimeligt i n tuitiv måde - og at den er k l ar og o v e r s k u e l i g. E U R O T R A. Det projekt, s o m jeg i det følgende vil referere til, er EUROTRA, EF's m a s k i n o v e r s æ t t e l s e s p r o j e k t. Projektet b l ev v e d t a g e t i n o v e m b e r 1982 og har en løbetid på 5,5 år. Efter 5,5 år skal en p r o t o t y p e af s y stemet være færdig; den skal kunne oversætte m e l l e m de 7 E F - s p r o g (dansk, engelsk, fransk, græsk, italiensk, n e d e r l a n d s k og tysk). De tekster, der skal 162

kunne oversættes skal ligge inden for et b e s t e m t emneområde (f.eks. informationsteknologi), m e d et o r d f o r r å d på ca. 20.000 ord. P r o j e k tperioden er inddelt i 3 faser, å 2, 2 og 1.5 år. I den første fase, s o m vi nu er i gang med, skal b å de den lingvistiske og den p r o g r a m m e l m æ s s i g e side - og k o b l ingen m e l l e m dem - defineres. EUROTRAs r e g e l f o r m a l i s m e. Regelformalismen er en m e g e t v æ s e n t l i g del af g r æ n s e fladen m e llem det sproglige og det programmelmæssige: man skal kunne udtrykke de sproglige fakta, som den lingvistiske model lægger op til, og samtidig b e s t e m m e r den valgte type af programmel en række e g e n s k a b e r v e d formalismen. En ho vedfilosofi i EUROTRA's p r o g r a m m e l s y s t e m er, at det skal være d e k l a r a t i v t. H e r m e d menes, at den l i ngvistiske v i den om, hvad der er et s p r o g l i g t faktiam, er adskilt fra den procedurelle viden o m h v o r d a n o g h v o r n å r denne viden skal udnyttes. I den yderste k o n s e k v e n s b e t y d e r dette, at l i n g visten skriver sine regler og at h a n ikke ved, i h v i l k e n r æ k kefølge, de b l iver anvendt. Det er dog næppe m u l i g t at f o restille sig f.eks. hele a n alysen af dansk skrevet i et stort ustruktureret d e k l arativt system. D e r f o r er EUROTRA's p r o grammel bygget som et såkaldt 'Controlled P r o d u c t i o n S y s t e m ', dvs. et p r o d u k t i o n s s y s t e m u d s t y r e t m e d et kontrolsprog. K o n trolsproget giver m u l i g h e d for at samle regler i 'grammatikker' og endvidere for at bestemme, o m en g r a m matik skal anvendes kun én gang eller gentages, o m g r a m m a t i k k e r på samme niveau skal anvendes p a r a l l e l t eller sekventielt osv. Dette er den m e st procedurale del af formalismen. Der gælder to h o v e d p r i n c i p p e r for den deklarative del af EUROTRA's regelformalisme: den skal være generel og den skal kunne b e skrive de relevante data. Kravet o m g e n e ralitet skal forstås således: E U R O T R A har 3 hovedmoduler: analyse, o v e r f ø r s e l o g generering, og det er hensigten, at samme formalisme skal kunne b r uges i alle m o duler. Denne formalisme skal y d e r l i g e r e kunne anvendes til 163

at udtrykke forskellige l i ngvistiske strategier, idet de d e l tagende grupper fra de forskellige lande nogenlunde frit skal kunne vælge strategi (inden for de rammer, som det valgte p r o d u k t i o n s s y s t e m s æ t t e r ). Udover at formalismen skal kunne beskrive forskellige typer af lingvistisk strategi, skal den som nævnt kunne bruges på alle niveauer af o v e r s æ t t elsesprocessen: til g r ammatikregler såvel som ordbogsregler, til morfologi såvel som kasusgrammatik og syntaks, til regler m e d stor k o mpleksitet såvel som til h e l t enkle regler. Dette h o v e d k r a v om, at formalismen skal være generel er af to grunde delvis m o d s t r i d e n d e m e d k r avet o m naturlighed og klarhed. For det første må man tage h e nsyn til de mest komplekse regler, når m a n u d f o r m e r formalismen, og det b e tyder, at de enkle regler kan blive unødigt k o mplicerede at udtrykke. For det andet er det jo sådan, at jo mere s k r æ d d e r syet en formalisme er til et b e s t e m t formål, jo nemmere er det at bruge den. Der er således gode argiamenter for at u d vikle særlige formalismer (og særlige fortolkere) til specielle v e l a f g r æ n s e d e delopgaver. M a n vil dog udarbejde en generel formalisme, der k a n b r u g e s overalt, således at e v entuelle s p e c i a l f o r m a l i s m e r kun er et supplement. Jeg har ovenfor nævnt to h o v e d k r a v til formalismen: 1) den skal være d e k l a r a t i v - o g jeg har nævnt, at det ikke h e lt er opfyldt, og at det næppe h e l l e r er nogen god idé at hævde k r a v e t rigoristisk, 2) den skal være generel. Dette k r a v kan opfyldes, men det er formentlig h e l l e r ikke h e r h e n s i g t s m æ s s i g t at overholde k r a v e t strengt. Det tredie h o v e d k r a v er, at formalismen skal kunne håndtere de data, vi arbejder m e d i EUROTRA. Dette k r av er der ingen m u l i g h e d for at slække på. De data, der skal behandles, er t r æ s trukturer m e d k o m p l e k se o p l y s n i n g e r (dekorationer) på kunderne. Træstrukturerne skal kunne se ud på alle m u l i g e måder? men dekorationerne kan kun indeholde bestemte o p l y s n i n g e r i bestemte mønstre. Man kan derfor lade b r u g e r e n erklære, h v ilke dekorationer, der 164

er mulige. Det er p r aktisk b å de for det fortolkende p r o g r a m og for brugeren. Det generelle regelformat, Det generelle format for en regel i E U R O T R A - f o r m a l i s m e n er den velkendte genskrivningsregel: venstre side -» højre side Her består såvel venstre side s o m højre side af t r æ s t r u k t u r e r med knudeoplysninger. Formatet ser således ud: geometry < specifikation af et træ > ^ < specifikation af et træ > conditions < b e t i n g e l s e r på d e k o r a t i o n e r n e > assignments < t i lskrivning af v æ r d i e r til h ø j r e s i d e n > F. eks, vil geometry A + B C(A' + B') conditions MS of A = A D J and MS of B = N O UN ai^ G E N D E R of A = G E N D E R of B and N U M B E R of A = N U M B E R of B assignments A':=A; B':=B; MS of C:=NP GENDER of C : = G E N D E R of B; N U M B E R of C : = N U M B E R of B. danne et s u b s tantivsyntagme af et adjektiv og et substantiv, der stemmer overens i køn og t a l. (MS b e t y d e r m o r p h o - s y n t a c - tic class, resten skulle være u m i d d e l b a r t forståeligt). Det kan måske føles en lille smule o m s t æ n d e l i g t at skrive regler på denne måde; men det kan næppe gøres m e g e t nemmere. 165

En af de ting, vi h a r diskuteret, er om træstrukturering i g e ometrien altid skal være et træ m e d rod eller o m det godt kan være et d e l t r æ af et større træ, altså o m træet.a B ^ C også skal kunne findes i denne datastruktur,.d S o m m e t i d e r vil lingvisten gerne have at træet bliver fundet, u a nset h v or det er placeret, sommetider er han kun interesseret, hvis det har en rod. Det skal derfor være muligt at s p e c ificere dette. Her adskiller systemet sig fra f.eks. Q- systemet, h v o r man kun kan få adgang til kunder i et træ ved at specificere hele vejen fra roden. Det at specificere hele denne vej er besværligt, m e n meget værre er det, at man må lave lige så mange regler, som der findes mulige træstrukturer, s o m d e ltræet kan indgå i. Et andet særligt tilfælde, er noget svarende til følgende.a B \ \ h v or B og C ikke er de eneste d a tterknuder til A. Det er relativt n e mt at klare at beskrive i en formalisme; i EUROTRA skriver m a n A(B+C +I+X), h v o r kan Være tom eller bestå af et eller flere træer, hvis der kan være grene til højre for C. Hvis der også k a n være grene til venstre for B og m e l l e m B og C, må m a n skrive A(éY+B+f^Z+C+t^X). E n sidste ting, jeg vil nævne, o m kring t r a ^ t r u k t u r e r n e, er, at de s e lvfølgelig normalt er ordnede, dvs. i træet A(B+C) står B til venstre for C. Orden er som regel en relevant egenskab ved et træ. Men netop i oversættelsesprocessen er der ét tilfælde, h v o r man evt. kan være uinteresseret i orden. Cet er i genereringsfasen. Her har man ved udgangen 166

fra overførselsfasen fået en træstruktur, h v or ordene står i en eller anden rækkefølge, s o m ikke nødvendigvis er den rigtige på m å l s p r o g e t 1 Her vil d e t kunne være praktisk, at man kan skrive konstituenterne op, m e d d e l e at de må betragtes som uordnede, og fortælle, h v i l k e n orden m a n ønsker, de skal stå i. A l ternativet er, at man må lave lige så mange regler, s o m der er 'forkerte' r æ k k efølger for ordene; dette er for det første besværligt, for det andet b e t y d e r det, at man skal forestille sig alle de m u lige raskkefølger af konstituenter, hvilket ofte vil føles h e l t irrelevant. Jeg har her nævnt nogle af de muligheder, vi mener der er for at lette lingvistens arbejde m e d at skrive regler vedrørende træstrukturer. S e l v o m implementeringen af d e m gør systemet lidt mindre effektivt, er der tale o m en god investering. B r u g e r g r æ n s e f l a d e n. B r ugergrænsefladen b e s t å r dels af den/de regelformalismer, systemet tilbyder og dels af de e d i t e r i n g s f a c i l i t e t e r, der stilles til rådighed. Brugerens arbejde kan lettes m e g e t v e d at specielle editorer stilles til rådighed. F.eks kan en r e g e leditor automatisk bede o m de 3 hovedelementer i en regel, og en ordbogseditor kan automatisk bede om at få udfyldt relevante felter (afh æ n g i g af allerede indtastet information, således f.eks. at man b e d e r om køn for substantiver, men ikke for verber). S å danne e d itorer vil blive udarbejdet. Når spørgsmålet om brugergrænseflade' føles så vigtigt i d e t te projekt, er det fordi 100-150 m e n n e s k e r fordelt på 10 lande og endnu flere universiteter, skal arbejde intensivt med den, når projektet er i gang i fuld skala. A l t h v a d der kan gøres for at lette lingvisternes arbejde skal gøres, for det første fordi det h u r t i g t vil have tjent sig ind, for det andet - og ikke m i n d s t - fordi det giver større sikkerhed m o d fejl. 167

L i t t e r a t u r. A l a i n Colmerauer: Les systemes-q, TAUM, Montreal, 1970. A n n a Sågvall Hein; A p a rser for Swedish, UCDL, Uppsala, 1983 Dieter Maas and Bente Maegaard: S y n t a x and Semantics of the E U R O T R A Formalism, EEC, 1984 (ikke frit tilgængelig). 168