R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

Bente Maegaard, Københavns Universitet, Institut for anvendt og m a t e m a t i s k lingvxstik, Njalsgade 96 2300 K ø b e n h a v n S R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik. Når m a n i 'gamle dage' lavede et s y stem til sproglig a n a lyse, gjorde man det o f test på den måde, at man skrev et p r o gram, i h v i l k e t man u d trykte al den viden, der skulle bruges. Det, der især er interessant her, er at den grammatiske viden der skulle bruges, var udtrykt i selve programmet. P r o g r a m møren og sprogforskeren var måske en og samme person, men selv i det t i lfælde er det u h e n s i g t s m æ s s i g t - af mange kendte grunde. D e r f o r er man da også m e re og mere gået over til at s k r i ve systemer, h v or p r o g r a m og data h o l d e s adskilt - og g r a m m a tikker altså opfattes som data. Disse g r ammatikker skrives i et b e s t e m t f o r m a t ; det er det jeg o v e n f o r har kaldt r e gelform a l i s m e. Der findes efterhånden en række sådanne parsere m e d forskellige regelformalismer. Disse formalismer afviger fra hinanden på forskellige måder. Jeg vil h e r især interessere m i g for, h v o r d a n det ser ud fra b r u g e r e n s - lingvistens - synspunkt, o g m i n d r e for, h v o r d a n det er implementeret. De oplagte krav, s o m en l i ngvist stiller til en regelformalisme, er at den er r i meligt n a t u r l i g - man skal kunne u d trykke sproglige fakta på en rimeligt i n tuitiv måde - og at den er k l ar og o v e r s k u e l i g. E U R O T R A. Det projekt, s o m jeg i det følgende vil referere til, er EUROTRA, EF's m a s k i n o v e r s æ t t e l s e s p r o j e k t. Projektet b l ev v e d t a g e t i n o v e m b e r 1982 og har en løbetid på 5,5 år. Efter 5,5 år skal en p r o t o t y p e af s y stemet være færdig; den skal kunne oversætte m e l l e m de 7 E F - s p r o g (dansk, engelsk, fransk, græsk, italiensk, n e d e r l a n d s k og tysk). De tekster, der skal 162

kunne oversættes skal ligge inden for et b e s t e m t emneområde (f.eks. informationsteknologi), m e d et o r d f o r r å d på ca. 20.000 ord. P r o j e k tperioden er inddelt i 3 faser, å 2, 2 og 1.5 år. I den første fase, s o m vi nu er i gang med, skal b å de den lingvistiske og den p r o g r a m m e l m æ s s i g e side - og k o b l ingen m e l l e m dem - defineres. EUROTRAs r e g e l f o r m a l i s m e. Regelformalismen er en m e g e t v æ s e n t l i g del af g r æ n s e fladen m e llem det sproglige og det programmelmæssige: man skal kunne udtrykke de sproglige fakta, som den lingvistiske model lægger op til, og samtidig b e s t e m m e r den valgte type af programmel en række e g e n s k a b e r v e d formalismen. En ho vedfilosofi i EUROTRA's p r o g r a m m e l s y s t e m er, at det skal være d e k l a r a t i v t. H e r m e d menes, at den l i ngvistiske v i den om, hvad der er et s p r o g l i g t faktiam, er adskilt fra den procedurelle viden o m h v o r d a n o g h v o r n å r denne viden skal udnyttes. I den yderste k o n s e k v e n s b e t y d e r dette, at l i n g visten skriver sine regler og at h a n ikke ved, i h v i l k e n r æ k kefølge, de b l iver anvendt. Det er dog næppe m u l i g t at f o restille sig f.eks. hele a n alysen af dansk skrevet i et stort ustruktureret d e k l arativt system. D e r f o r er EUROTRA's p r o grammel bygget som et såkaldt 'Controlled P r o d u c t i o n S y s t e m ', dvs. et p r o d u k t i o n s s y s t e m u d s t y r e t m e d et kontrolsprog. K o n trolsproget giver m u l i g h e d for at samle regler i 'grammatikker' og endvidere for at bestemme, o m en g r a m matik skal anvendes kun én gang eller gentages, o m g r a m m a t i k k e r på samme niveau skal anvendes p a r a l l e l t eller sekventielt osv. Dette er den m e st procedurale del af formalismen. Der gælder to h o v e d p r i n c i p p e r for den deklarative del af EUROTRA's regelformalisme: den skal være generel og den skal kunne b e skrive de relevante data. Kravet o m g e n e ralitet skal forstås således: E U R O T R A har 3 hovedmoduler: analyse, o v e r f ø r s e l o g generering, og det er hensigten, at samme formalisme skal kunne b r uges i alle m o duler. Denne formalisme skal y d e r l i g e r e kunne anvendes til 163

at udtrykke forskellige l i ngvistiske strategier, idet de d e l tagende grupper fra de forskellige lande nogenlunde frit skal kunne vælge strategi (inden for de rammer, som det valgte p r o d u k t i o n s s y s t e m s æ t t e r ). Udover at formalismen skal kunne beskrive forskellige typer af lingvistisk strategi, skal den som nævnt kunne bruges på alle niveauer af o v e r s æ t t elsesprocessen: til g r ammatikregler såvel som ordbogsregler, til morfologi såvel som kasusgrammatik og syntaks, til regler m e d stor k o mpleksitet såvel som til h e l t enkle regler. Dette h o v e d k r a v om, at formalismen skal være generel er af to grunde delvis m o d s t r i d e n d e m e d k r avet o m naturlighed og klarhed. For det første må man tage h e nsyn til de mest komplekse regler, når m a n u d f o r m e r formalismen, og det b e tyder, at de enkle regler kan blive unødigt k o mplicerede at udtrykke. For det andet er det jo sådan, at jo mere s k r æ d d e r syet en formalisme er til et b e s t e m t formål, jo nemmere er det at bruge den. Der er således gode argiamenter for at u d vikle særlige formalismer (og særlige fortolkere) til specielle v e l a f g r æ n s e d e delopgaver. M a n vil dog udarbejde en generel formalisme, der k a n b r u g e s overalt, således at e v entuelle s p e c i a l f o r m a l i s m e r kun er et supplement. Jeg har ovenfor nævnt to h o v e d k r a v til formalismen: 1) den skal være d e k l a r a t i v - o g jeg har nævnt, at det ikke h e lt er opfyldt, og at det næppe h e l l e r er nogen god idé at hævde k r a v e t rigoristisk, 2) den skal være generel. Dette k r a v kan opfyldes, men det er formentlig h e l l e r ikke h e r h e n s i g t s m æ s s i g t at overholde k r a v e t strengt. Det tredie h o v e d k r a v er, at formalismen skal kunne håndtere de data, vi arbejder m e d i EUROTRA. Dette k r av er der ingen m u l i g h e d for at slække på. De data, der skal behandles, er t r æ s trukturer m e d k o m p l e k se o p l y s n i n g e r (dekorationer) på kunderne. Træstrukturerne skal kunne se ud på alle m u l i g e måder? men dekorationerne kan kun indeholde bestemte o p l y s n i n g e r i bestemte mønstre. Man kan derfor lade b r u g e r e n erklære, h v ilke dekorationer, der 164

er mulige. Det er p r aktisk b å de for det fortolkende p r o g r a m og for brugeren. Det generelle regelformat, Det generelle format for en regel i E U R O T R A - f o r m a l i s m e n er den velkendte genskrivningsregel: venstre side -» højre side Her består såvel venstre side s o m højre side af t r æ s t r u k t u r e r med knudeoplysninger. Formatet ser således ud: geometry < specifikation af et træ > ^ < specifikation af et træ > conditions < b e t i n g e l s e r på d e k o r a t i o n e r n e > assignments < t i lskrivning af v æ r d i e r til h ø j r e s i d e n > F. eks, vil geometry A + B C(A' + B') conditions MS of A = A D J and MS of B = N O UN ai^ G E N D E R of A = G E N D E R of B and N U M B E R of A = N U M B E R of B assignments A':=A; B':=B; MS of C:=NP GENDER of C : = G E N D E R of B; N U M B E R of C : = N U M B E R of B. danne et s u b s tantivsyntagme af et adjektiv og et substantiv, der stemmer overens i køn og t a l. (MS b e t y d e r m o r p h o - s y n t a c - tic class, resten skulle være u m i d d e l b a r t forståeligt). Det kan måske føles en lille smule o m s t æ n d e l i g t at skrive regler på denne måde; men det kan næppe gøres m e g e t nemmere. 165

En af de ting, vi h a r diskuteret, er om træstrukturering i g e ometrien altid skal være et træ m e d rod eller o m det godt kan være et d e l t r æ af et større træ, altså o m træet.a B ^ C også skal kunne findes i denne datastruktur,.d S o m m e t i d e r vil lingvisten gerne have at træet bliver fundet, u a nset h v or det er placeret, sommetider er han kun interesseret, hvis det har en rod. Det skal derfor være muligt at s p e c ificere dette. Her adskiller systemet sig fra f.eks. Q- systemet, h v o r man kun kan få adgang til kunder i et træ ved at specificere hele vejen fra roden. Det at specificere hele denne vej er besværligt, m e n meget værre er det, at man må lave lige så mange regler, som der findes mulige træstrukturer, s o m d e ltræet kan indgå i. Et andet særligt tilfælde, er noget svarende til følgende.a B \ \ h v or B og C ikke er de eneste d a tterknuder til A. Det er relativt n e mt at klare at beskrive i en formalisme; i EUROTRA skriver m a n A(B+C +I+X), h v o r kan Være tom eller bestå af et eller flere træer, hvis der kan være grene til højre for C. Hvis der også k a n være grene til venstre for B og m e l l e m B og C, må m a n skrive A(éY+B+f^Z+C+t^X). E n sidste ting, jeg vil nævne, o m kring t r a ^ t r u k t u r e r n e, er, at de s e lvfølgelig normalt er ordnede, dvs. i træet A(B+C) står B til venstre for C. Orden er som regel en relevant egenskab ved et træ. Men netop i oversættelsesprocessen er der ét tilfælde, h v o r man evt. kan være uinteresseret i orden. Cet er i genereringsfasen. Her har man ved udgangen 166

fra overførselsfasen fået en træstruktur, h v or ordene står i en eller anden rækkefølge, s o m ikke nødvendigvis er den rigtige på m å l s p r o g e t 1 Her vil d e t kunne være praktisk, at man kan skrive konstituenterne op, m e d d e l e at de må betragtes som uordnede, og fortælle, h v i l k e n orden m a n ønsker, de skal stå i. A l ternativet er, at man må lave lige så mange regler, s o m der er 'forkerte' r æ k k efølger for ordene; dette er for det første besværligt, for det andet b e t y d e r det, at man skal forestille sig alle de m u lige raskkefølger af konstituenter, hvilket ofte vil føles h e l t irrelevant. Jeg har her nævnt nogle af de muligheder, vi mener der er for at lette lingvistens arbejde m e d at skrive regler vedrørende træstrukturer. S e l v o m implementeringen af d e m gør systemet lidt mindre effektivt, er der tale o m en god investering. B r u g e r g r æ n s e f l a d e n. B r ugergrænsefladen b e s t å r dels af den/de regelformalismer, systemet tilbyder og dels af de e d i t e r i n g s f a c i l i t e t e r, der stilles til rådighed. Brugerens arbejde kan lettes m e g e t v e d at specielle editorer stilles til rådighed. F.eks kan en r e g e leditor automatisk bede o m de 3 hovedelementer i en regel, og en ordbogseditor kan automatisk bede om at få udfyldt relevante felter (afh æ n g i g af allerede indtastet information, således f.eks. at man b e d e r om køn for substantiver, men ikke for verber). S å danne e d itorer vil blive udarbejdet. Når spørgsmålet om brugergrænseflade' føles så vigtigt i d e t te projekt, er det fordi 100-150 m e n n e s k e r fordelt på 10 lande og endnu flere universiteter, skal arbejde intensivt med den, når projektet er i gang i fuld skala. A l t h v a d der kan gøres for at lette lingvisternes arbejde skal gøres, for det første fordi det h u r t i g t vil have tjent sig ind, for det andet - og ikke m i n d s t - fordi det giver større sikkerhed m o d fejl. 167

L i t t e r a t u r. A l a i n Colmerauer: Les systemes-q, TAUM, Montreal, 1970. A n n a Sågvall Hein; A p a rser for Swedish, UCDL, Uppsala, 1983 Dieter Maas and Bente Maegaard: S y n t a x and Semantics of the E U R O T R A Formalism, EEC, 1984 (ikke frit tilgængelig). 168