Foredrag ved Nordiske Datalingvistdage på laml, Københavns Universitet, oktober 1979.

Relaterede dokumenter
2nd N o rdic Conference o f Computational Linguistics N O D A L ID A 1979

Medfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog:

Faglig praksis i udvikling i tysk hhx

Fagstudieordning Bachelortilvalg i indoeuropæisk 2019

Et sprogtypologisk blik på alverdens sprog

Faglig praksis i udvikling i tysk stx

Gruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi

Studieordning for 1-ÅRIG SUPPLERINGSUDDANNELSE (TYPE A) I T Y S K. September 1997

Flersprogede praksisser på gaden og i klassen

Gödel: Über formal unentschiedbare Sätze der Principia Mathematica und verwandter Systeme I, 1931

Sprogets byggeklodser og hjernens aktivitet ved sproglige processer Regionshospitalet Hammel Neurocenter

Rettelsesblad til Studieordning for bacheloruddannelsen i dansk 2013 Gælder for studerende indskrevet pr. 1. september 2013.

En fagperson fa r ordet: Interview med Hans Basbøll

SPROGNOTER for mindrebemidlede

Studieordning for tilvalget på bachelorniveau i. Indoeuropæisk, 2013-ordningen. Justeret 2015

STUDIEORDNING Græsk og Latin. Propædeutisk sprogundervisning

Dansk Grammatik Eksamen

Religion STUDIEORDNING 2009 ODENSE TILLÆG PROPÆDEUTISK SPROGUNDERVISNING

Propædeutisk sprogundervisning i Græsk og Latin

Det kommunikative sprogsyn

Studieordning for 1-ÅRIG SUPPLERINGSUDDANNELSE I N E D E R L A N D S K. September 1998

Hvordan kan vi styrke elevernes sproglige opmærksomhed og sproglige anerkendelse i fremmedsprogsundervisningen?

TILLÆG TIL STUDIEORDNING FOR RELIGION: PROPÆDEUTISK SPROGUNDERVISNING FOR RELIGIONSSTUDERENDE

Læsning med flere sprog

Læseletbøger. Hvad er let? Hvad er svært? Dorthe Klint Petersen Center for Grundskoleforskning DPU, Aarhus Universitet.

Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve

Sådan bruger du Den Dansk-Engelske Regnskabsordbog

Forudsætninger for at lære sprog

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

Regelmæssige udsagnsord

Anja Qvist GANG I. grammatik. med CL. Cooperative Learning. Dansk 5. klasse Elevhæfte

Klassen er sammenlæst, altså 5 og 6 klasse på en og samme tid. Samtidig er klassen pt på ca 11 elever ialt.

Læsning med flere sprog

Det kommunikative sprogsyn

Sådan bruger du Den Danske Regnskabsordbog

Modalverbernes infinitiv

Tilvalg i Polsk for begyndere

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Fagstudieordning Bachelordelen af sidefaget i spansk sprog og kultur 2019

Og deres resultater er ikke til at tage fejl af; 122 kilo tabte de 6 deltagere på 16 uger.

Censorrapport, skriftlig græsk 2010.

DM507 Algoritmer og datastrukturer

Studieordning for 1-ÅRIG SUPPLERINGSUDDANNELSE I M O D E R N E G R Æ S K S P R O G O G K U L T U R. September 2003

Sprogteknologiske resourcer for islandsk leksikografi

Sprogteknologi I Undervisningsplan Forårssemester 2008

Frederikke Bækhøj Ulv Aarhus Universitet, Business and Social Science Februar 2016

Polsk for begyndere. Indholdsfortegnelse. Indledning...2

Forsøgslæreplan for græsk A - stx, marts 2014

Håndbog om rettigheder og online musik

Hans Arndt. Skriften på tapetet

FREDERIKSSUND KOMMUNE

STUDIEORDNING FOR TYSK Studieordning sept., 2015

Analyseinstitut for Forskning

Om sandhed, tro og viden

Sådan bruger du Den Engelsk-Danske Regnskabsordbog

Lightning Decision Jam. Ti enkle trin til at fastlægge fokus og realiserbare næste bedste skridt

Bedømmelsesvejledning Mundtlig del af Prøve i Dansk 1

Talesprog skriftsprog taleprocessering

Sprogsynet bag de nye opgaver

Appendiks 6: Universet som en matematisk struktur

STRUKTURUDVALGETS ARBEJDE I EFTERÅRET 1980 MED ENDELIG INDSTILLING TIL BESTYRELSEN

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Læseevaluering på begyndertrinnet - hvordan kan man opdage elever i risiko for at udvikle læsevanskeligheder

STUDIEORDNING 2009 Elementarkurser i Græsk og Latin ODENSE SUPPLERING AF STUDENTEREKSAMEN

DRAFTLINE - RENGØRING AF FADØLSANLÆG

Grundtvigs Sandkasse

DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER

Problem 1: Trykbevidsthed

Vejledning for censorer i skriftlig spansk begyndersprog A, stx. Gl-Spansk digital

I,. Grammatik. Indholdsfortegnelse. .nd-

Nye prøveformater stx B og A 2017 læreplaner

Forsøgslæreplan for latin A stx, marts 2014

Når du det? Information om mandlig inkontinens

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Årsplan for danskundervisning på Den Skandinaviske Skole I Maputo April, Maj, Juni 2015

2nd N o rdic Conference o f Computational Linguistics N O D A L ID A 1979

Formerne: Udsagnsord (verbs) Tider (tenses): Navnemåde (infinitiv) eller på en anden vokal: Nutid (præsens):

Niels Chr. Rasmussen. 3 stille sange. Sæløje Lys Træet som du er. Kor a capella SATB. trofe

Samtale om tab og livsmod til dig som har mistet

BRUGER MANUAL. Ø305 cm trampolin (3 ben) Ø427 cm trampolin (4 ben)

Dette er et uddrag fra: Lis og Torben Pøhler: "Hu Hej - Vild med dyr" - en læsevejledning Maaholms Forlag 2000.

Studieordning for SUPPLERINGSFAG I BRASILIANSKE STUDIER DET HUMANISTISKE FAKULTET AARHUS UNIVERSITET

Latinsk Grammatik AIGIS 8,2 1

Dagsorden til MR-møde d. 15/ kl i Frokoststuen på Folkesundhed:

a wäxçw z{xwxç yéüåxä à ÄztÇz à Ä fñüézä wxç

Generalforsamling 2014 Formandens beretning

Fagstudieordning Bachelordelen af sidefaget i tysk sprog og kultur 2019

10 Vigtigste SEO Ranking Faktorer

Repræsentation af køn og etnicitet på Folkemødet 2019

LexicoNordica. Leksikografi og lingvistik i Norden. Henrik Lorentzen & Emma Sköldberg. Kilde: LexicoNordica 20, 2013, s. 9-16

literære værker på engelsk. At dømme på disse literære værker beherskede Joseph Conrad engelsk morfosyntaks og leksikon på et niveau der er

Studieordning for det centrale fag på BA-niveau i. Indoeuropæisk ordningen

Unge og rusmidler hvad kan kommunerne gøre?

Studieordning for FAGLIG SUPPLERING I F R A N S K

1. HVERT ØJE SER SIT BILLEDE

Hjælpemiddel, værktøj og konkret materiale. Hjælpemiddelkompetencen. Hjælpemiddel, En definition

eksamen dansk ordbog 462D E8346A96D7C42CA7E9 Eksamen Dansk Ordbog 1 / 6

.. if L(u) + w(u, v) < L(v) then.. begin... L(v) := L(u) + w(u, v)... F (v) := u.. end. med længde L(z)}

Transkript:

145 Foredrag ved Nordiske Datalingvistdage på laml, Københavns Universitet, 9.-10. oktober 1979. Henrik llolinboe: Lemmatisering - hvilke iif de ideelle krav til leimnatisering er opfyldelige eller oj^fyldte? Lemmatisering er en term, der er kurant i snævre kredse, hvor termen anvendes på en måde, der vel ikke er entydig, men dog har et centralt betydningsområde, som alle er enige om hører med til termen. Hvis man konsulterer en række gængse lingvistiske terminologiske ordbøger eller oversigtsværker, konstaterer man imidlertid, at termen ikke er optaget og defineret i disse værker. At lemmatisere betyder minimalt at henføre et ord fra en tekst til en bestemt type eller kategori, som det i teksten aktuedt forekommende oiai kan jjåslås al va're en bøjet form af. Delle f (jiiuls.i'l ler en analyse af ordet og eventuelt dets omgivelser i teksten, men behøver ikke at forudsætte informationer, der ligger uden for ordet og teksten selv. DA: MAL----- KØB- -- MALEDE KØBTE Ud over dette minimale krav vil man eventuelt også forlange, at lemmatiseringen skal resultere i en henvisning til den leksikalske indgang, som ordet skal søges under i gængse ordbøger, hvad enten dette'er en abstrakt form eller en bestemt forekommende bøjningsform af ordet. Dette vil implicere viden, der ikke nødvendigvis er til stede i ordet eller teksten på stedet. Lemmatisering - hvilke af de ideelle krav til lemmatisering er opfyldelige eller opfyldte? Henrik Holmboe, pages 145-152

146 DA; MALE ^------ MAL- MALEDE KØBE ----- KØB- < KØBTE SYNGE <.------ SANG SPØRGE <------ 9 <- SPURGTE FÅ <----- c <- - FIK # LILLE < MINDRE Endvidere vil man eventuelt forlange, at lemmatiseringen skal henføre ikke blot den del af ordet, der rummer dets centrale betydning, til en leksikalsk type eller kategori, med alle ordets dele til leksikalske eller morfologiske typer eller kategorier. Dette vil implicere en endnu større viden. DA: MALE < MAL- e- MALEDE ->~EDE SYNGE < SANG >? Y-A-U / PRÆT. AKTIV SYNGES > -ES - -> PRÆS. PASS. Men dette krav er vigtigt, hvis man vil opnå en mere generel definition af ordet lemmatisering, således at termen kan anvendes også i forbindelse med sprog, der f.eks. tillader mere end én orddel med det, vi vil kalde central betydning, inden for ét og samme ord: GRØ: KAVFE KAVFILIORPUNØA PRÆS. l.sg. -LIOR- (la v er) IGDLO (h u s) IGDLULIORPOQ KAVFISORPOQ > PRÆS. J.SG. -SOR- (d r ik k e r ) 146

1 4 7 Lemmatiseringen skal også kunne opløse sandhi- fænomener internt og eksternt af forskellig kompleksitet (assimilation, fusion) : ASSIMILATION: s a n s k r i t : VEDAVIC CHURO X i VEDAVIT CURAH CURA- X U -s > SG. f u s i o n : UNG.; CITROMMAL T CITRONVAL CITRON < -VAL "'> k o m ITAT IV SG i Når termen Icmmatisering ikke kan siges at være en gængs lingvistisk term i almindelighed uden for leksikografers og datalingvisters kreds, skyldes d e t ikke, at lingvistikken ikke har beskæftiget sig med det problemkompleks, som lemmatisering omfatter, men at beskrivelsen af disse problemer skal søges under disciplinerne morfologi og fonologi og evt. morfofonologi. Morfologisk analyse og lemmatisering skal altså kunne opvise en række fælles resultater. Ser vi på en transformationsgrammatisk model, møder vi straks den vanskelighed i f.eks. Aspects-modellen, at TG beskæftiger sig meget lidt med morfologi. Den går næsten direkte fra transformationer af hovedsagelig syntaktisk natur til en fonologisk komponent, der producerer den fonetiske 147

148 repræsentation. Ind imellem skyder man de såkaldte readjustment-rules, hvis status ikke er ganske klar. En lidt ændret transformationsgrammatisk model kunne være følgende, idet kun de hér relevante dele er medtaget : rf FONOLOGISKE V /////:'//////7/7/77/}\ <-- FONETISK OVERFLADE FONOLOGISK KOMPONENT 1 PROCESSER (i n t e r p r e t,) w s i i i æ e u i t A MORFOLOGISK OVERFL. MORFOLOGISK KOMPONENT MORFOLOGISKE PROCESSER 77~rn n / ^ m n m m SYNTAKTISK OVERFL, TRANS FORMATIONER f.eks.: +BEST +PRÆT +AKT SY^JT. OVERFL: -en d r e n g -(e )de s v ø m m e r norf.proc,: 7 7 ^ i norf.overfl.: d r e n g e n SVØMMEDE 148

S T 149 fjp \ N \ DET n m N VP \ \ AUX "v ' n? / AUX VP V +BEST +PL +AKT +PPÆT +AKT +PPÆT ( ------- - SYiMT.OVERFL.:?+-(e )ne m a n d -te s p i s e OG DRIKKE flo RF.PRO C.: n O R F.O V E R F L.: MÆNDENE 1... 1... r SPISTE / OG - DRAK c P z i \ J Anskuet på denne måde er det lemmatiseringens opgave at bevage sig fra den morfologiske overflade til den syntaktiske overflade. Jeg vil ikke hævde, at en lemmatisering skal forløbe som et baglæns gennemløb af den morfologiske komponent, men resultaterne af de to skulle gerne være sammenfaldende: inputtet til den morfologiske komponent (eller den del af grammatikken, der rummer de såkaldte readjustment-rules) skal være det samme som outputtet fra en lemmatiseringsproces. Dvs. en lemmatisering "skal kunne" det samme som en grammatiks morfologiske komponent (hvad enten denne anskues som analyserende eller genererende), men ikke nødvendigvis på samme måde. Dette må være det ideelle krav til lemmatisering. I lingvistikken har man beskrevet indholdet af den morfologiske komponent på lidt - men ikke meget- forskellig måde. Bl.a.J.H. Greenberg og P.H. Matthews har elaboreret 149

150 og forfinet den beskrivelse, vi finder hos Sapir i Language fra 1921, men for ikke at fortabe mig i detaljer vil jeg i store træk holde mig til Sapir, der omtaler følgende morfologiske eller grammatiske processer : A: a f f i x e r i n g :... f u s i n g JUXTAPOSING PRÆ- + - IN- SANDHI SANDHI SUB- B: INTERN MODIFIKATION: VOKALHARMONI FJERNASSIMILATION OMLYD AFLYD STADIEVEKSLING "p r o g r e s s i v REGRESSIV A: r e d u p l i k a t i o n : PRÆFIGERING AF EN "d UBLETDEL" Vokalharmoni og i visse tilfælde omlyd kan anskues som henholdsvis progressiv og regressiv fjernassimilation og er altscå forudsigelige eller redundante. Dette gælder ikke aflyd som vi kender den fra f.eks. germanske stærke verber eller intern flexion i arabisk. Dette er altså fundamentalt to typer af processer: A. Den ene vil jeg kalde forøgelse, dvs. noget forøges' med noget andet. Herunder hører affixering og reduplikation. Lemmatiseringsopgaven er her at identificere det, der er blevet forøget, og forøgelsen. B. Den anden vil jeg kalde mønsterændring, dvs. ét mønster erstattes af et andet; f.eks. B: ARAB. : Kl TAB < - RAS Dl BAJT <. JAUM <-- DA. : SPRINGE <- GÅS < KUTUB (p l ) RUSUL (p l ) BUJUT (p l ) A ^ Å M (p l ) AJUÅM ("PL) SPRANG (p r æ t ) GÆS (p l ) 150

151 Herunder hører intern modifikation. Lemmatiseringsopgaven er hér at skelne mønsteret fra baggrunden og derpå identificere disse to. I begge tilfælde kan intern og extern sandhi sløre billedet. Der vil så vidt jeg kan se være tale om to helt forskellige lemmatiseringsstrategier alt efter, om man skal identificere en forøgelse eller et mønster. Resultaterne og erfaringerne viser, at man lettest kan automatisere lemmatisering af agglutinerende strukturer uden sandhi. Sandhi-fænomener er brydsonune, men ikke uovervindelige. I systemer, der mestrer problemer af denne type, vil strategien over for mønsterproblemerne være at henvise disse til undtagelseslister. Denne strategi er langt fra ideel, men praktisk og anvendelig, så længe man beskæftiger sig med sprog, hvori de agglutinerende fænomener er de hyppigste og de flekterende befinder sig i relativt små, lukkede klasser, men strategien ville være uanvendelig, hvis forholdet var det omvendte. Af de ideelle krav til lemmatisering mangler man at opfylde dem, der vedrører mønstergenkendelse og formodentlig også metoder til at styre, hvornår den ene og hvornår den anden strategi skal bringes i anvendelse. ISJRATEG I Al i SPØRGE T STRATEGI, B SPURGTE [s t r a t e g i a[ D A T T ^ vi/ SAIiDHl] m t r e STRATEGI B T - 151

152 Den almindelige opfattelse af, hvad der er svært og let, svarer nøje til, hvad vore maskinelle metoder i dag kan klare: tyrkiskens morfologi, der er agglutinerende næsten uden sandhi, er lettere end f.eks. ungarskens, der er agglutinerende med sandhi. Noget sværere er f.eks. sanskrit med sin blanding af agglutinerende og flekterende morfologi med udstrakt sandhi og sværest er klassisk arabisk med sin internt flekterende morfologi med en del sandhi. Henrik Holmboe Institut for Lingvistik Aarhus Universitet 152