143 Foredrag ved Nordiske D atalin g vistd ag e på laml, Københavns U n iv e rs ite t, 9.-1 0. oktober 1979. Henrik Holmboe: Lemmatisering - h v ilk e af de id e e lle krav t i l lemmatisering er o p fy ld e lig e e l l e r opfyldte? Lemmatisering er en term, der er kurant i snævre kredse, hvor termen anvendes på en måde, der v e l ikke er entydig, men dog har e t c e n tr a lt betydningsområde, som a l le er enige om hører med t i l termen. Hvis man ko n sulterer en række gængse lin g v is tis k e term inologiske ordbøger e l le r oversigtsvæ rker, ko n s ta te re r man im id le r t id, a t termen ikke er optaget og d e fin e r e t i disse værker. At lemmatisere betyder m inim alt a t henføre e t ord fra en tekst t i l en bestemt type e l le r k a te g o ri, som det i teksten a k tu e lt forekommende ord kan påstås at være en b ø jet form a f. Dette forudsæ tter en analyse af ordet og e ve n tu elt dets om givelser i teksten, men behøver ikke a t forudsæ tte in fo rm atio n er, der lig g e r uden fo r ordet og teksten selv. Ud over d e tte m inimale krav v i l man e v e n tu e lt også forlan g e, a t lemmatiseringen skal re s u lte re i en henvisning t i l den le k s ik a ls k e indgang, som o rdet skal søges under i gængse ordbøger, hvad enten d e tte * e r en a b s trak t form e l le r en bestemt forekommende bøjningsform af ordet. Dette v i l im p licere viden, der ikke nødvendigvis er t i l stede i o rdet e l le r teksten på sted et. 145
146 Endvidere v i l man e v e n tu e lt fo rla n g e, a t lemmatiseringen skal henføre ikke b lo t den del af o rd e t, der rummer dets c e n tra le betydning, t i l en le k s ik a ls k type e l l e r k a te g o ri, med a l l e ordets dele t i l le k s ik a ls k e e l l e r m orfologiske typer e l l e r k a te g o rie r. D ette v i l im p licere en endnu s tø rre viden. Men d e tte krav er v i g t i g t, hvis man v i l opnå en mere gen erel d e f in it io n af ordet lem m atisering, således a t termen kan anvendes også i fo rb in d e ls e med sprog, der f.e k s. t i l l a d e r mere end en orddel med det, v i v i l kalde c e n tra l betydning, inden fo r é t og samme ord: 146
Lemmatiseringen skal også kunne oplyse sandhi- fænomener in te r n t og ek s te rn t af f o r s k e llig kompleksit e t (a s s im ila tio n, fu s io n ): ASSIMILATION: SANSKRIT: Når termen Icm matisering ikke kan siges a t være en gængs lin g v is t is k term i alm indelighed uden fo r ' leksiko g rafers og d a ta lin g v is tc rs kreds, skyldes det ikke, a t lin g v is tik k e n ikke har beskæ ftiget sig med det problemkompleks, som lem m atisering o m fa tte r, men a t beskrivelsen af disse problemer skal s^^es under d i s c i p lin e rn e m orfologi og fo n o lo g i og e v t. m orfo fon olog i. M orfologisk analyse og Icm m atisering skal a lts å kunne opvise en række fæ lles r e s u lt a te r. Ser v i på en tra n s formationsgrammatisk model, møder v i straks den vanskelighed i f.e k s. Aspects-m odellen, a t TG beskæ ftiger sig meget l i d t med m o rfo log i. Den går næsten d ir e k te fra transform ationer af hovedsagelig s y n ta k tis k natur t i l en fonologisk komponent, der producerer den fo n e tis k e 147
148 repræ sentation. Ind imellem skyder man de såkaldte read ju s tm e n t-ru le s, hvis status ikke er ganske k la r. En l i d t ændret transform ationsgram m atisk model kunne være følgende, id e t kun de hér relevan te dele er medtag et: FONETISK OVERFLADE FONOLOGISK KOMPONENT FONOLOGISKE PROCESSER (INTERPRET.) MORFOLOGISK OVERFL. MORFOLOGISK KOMPONENT MORFOLOGISKE PROCESSER SYNTAKTISK OVERFL. TRANS FORMATIONER f.eks.: norf.proc. norf.overfl.: DRENGEN SVØMMEDE 148
149 Anskuet på denne måde er det lem m atiseringens opgave a t bevæge sig f r a den m orfologiske o v e rfla d e t i l den syn taktiske o v e rfla d e. Jeg v i l ikke hævde, a t en lem m atisering skal fo rlø b e som e t baglæns gennemløb af den m orfologiske komponent,. men re s u lta te rn e af de to s k u lle gerne være sammenfaldende: in p u tte t t i l den m orfologiske komponent ( e ll e r den del a f grammatikken, der rummer de såkald te read ju stm en t-ru les) skal være det samme som o u tp u tte t fr a en lem m atiseringsproces. Dvs. en lem m atisering "skal kunne" det samme som en grammatiks m orfologiske komponent (hvad enten denne anskues som analyserende e l l e r genererende), men ikke nødvendigvis på samme måde. D ette må være det id e e lle krav t i l lem m atisering. I lin g v is tik k e n har man beskrevet indholdet a f den m orfologiske komponent på l i d t - men ikke meget- f o r s k e llig måde. Bl.a.J.H. Greenberg og P.H. Matthews har e la b o re re t 149
AFFIXERING: og f o r f i n e t den b e s k riv e ls e, v i fin d e r hos Sapir i Language fr a 1921, men fo r ikke a t fo rtab e mig i det a l j e r v i l jeg i store træk holde mig t i l S a p ir, der om taler følgende m orfologiske e l l e r grammatiske processer: FUSING JUXTAPOSING PRÆ- + - ' IN- SANDHI SANDHI SUB- INTERN MODIFIKATION: VOKALHARMONI OMLYD. FJERNASSIMILATION AFLYD STADIEVEKSLING 'PROGRESSIV ' REGRESSIV REDUPLIKATION: PRÆFIGERING AF EN ^DUBLETDEL^. Vokalharmoni og i visse tilfæ ld e omlyd kan anskues som henholdsvis progressiv og regressiv fje rn a s s im ila tio n og er a lts å fo ru d s ig e lig e e l l e r redundante. Dette gælder ikke a fly d som v i kender den fr a f.eks. germanske stærke verber e l l e r in te rn fle x io n i arab isk. D ette er a lts å fundam entalt to typer af processer: A. Den ene v i l jeg kalde fo rø g e ls e, dvs. noget forøges med noget andet, herunder hører a ffix e r in g og redup l ik a t io n. Lemmatiseringsopgaven er her a t id e n t i fic e r e d et, der er b le v e t fo rø g e t, og forøgelsen. B. Den anden v i l jeg kalde mønsterændring, dvs. ét mønster e r s ta tte s af et andet; f.eks. ARAB. KITAB < - KUTUB (PL) RASUL ------- RUSUL (PL) BAJT <.. BUJUT (PL) JAUM AJJÅM (PL) DA. AJUÅM ("PL) SPRINGE <----- SPRANG (PRÆT) ^^2nd N o rdic Conference ofc om putational Linguistics 150
151 Herunder h^^cr in te rn m o d ifik a tio n. Lemmatiseringsopgaven er hér a t skelne m ønsteret fr a baggrunden og derpå id e n t if ic e r e disse to. I begge t ilfæ ld e kan in te rn og extern sandhi s lø re b ille d e t. Der v i l så v id t jeg kan se være t a le om to h e lt f o r s k e llig e le m m a tis e rin g s s tra te g ie r a l t e f t e r, om man skal id e n t if ic e r e en fo røgelse e l l e r e t mønster. R esultaterne og e rfa rin g e rn e v is e r, a t man l e t t e s t kan autom atisere lem m atisering af agglutinerende s tru k tu re r uden sandhi. Sandhi-fænomener er brydsomme, men ikke u o v ervin d elig e. I systemer, der m estrer problemer af denne type, v i l s tra te g ie n over fo r mønsterproblemerne være a t henvise disse t i l u n d ta g e ls e s lis te r. Denne s t r a t e g i er lan g t fra id e e l, men p ra k tis k og anvendelig, så længe man beskæ ftiger sig med sprog, hvo ri de agglutinerende fænomener er de hyppigste og de fle k te re n d e b efin d er sig i r e l a t i v t små, lukkede k la s s e r, men s tra te g ie n v i l l e være uanvendelig, hvis fo rh o ld e t var det omvendte. Af de id e e lle krav t i l lem m atisering mangler man a t opfylde dem, der vedrører mønstergenkendelse og formodentl i g også metoder t i l a t s ty re, hvornår den ene og hvornår den anden s tr a te g i skal bringes i anvendelse. {S JR rje G ] SPØRGE SPURGT^ [STRATEG! A[ 151
152 Den a l m in d e lig e o p f a t t e l s e a f, hvad d e r e r s v æ rt og l e t, s v a r e r n ø je t i l, hvad v o r e m a s k in e lle m e to d e r i dag kan k l a r e : t y r k is k e n s m o r f o lo g i, d e r e r a g g lu t in e r e n d e næ sten uden s a n d h i, e r l e t t e r e end f.eks. u n g a rs k e n s, d e r e r a g g lu t in e r e n d e med s a n d h i. N o g e t s v æ re re e r f.eks. s a n s k r i t med s in b la n d in g a f a g g lu t in e r e n d e og f le k t e r e n d e m o r fo lo g i med u d s t r a k t s a n d h i og s v æ re s t e r k la s s i s k a r a b is k med s in i n t e r n t f l e k t e r ende m o r f o lo g i med en d e l s a n d h i. H e n r ik Holm boe I n s t i t u t f o r L i n g v i s t i k A a rh u s U n i v e r s i t e t 152