2nd N o rdic Conference o f Computational Linguistics N O D A L ID A 1979



Relaterede dokumenter
FREDERIKSSUND KOMMUNE

FREDERIKSSUND KOMMUNE

FREDERIKSSUND KOMMUNE

Dage i København. En film om det, der gør en by. A f Max Kestner

Register. I. U d s e n d e l s e r. Rettelser til tjenestedokumenter.

landinspektøren s meddelelsesblad maj 1968 udsendes kun til Den danske Landinspektørforenings redaktion: Th. Meklenborg Kay Lau ritzen landinspektører

Diskret møde på Rådhuspladsen i København. Bundfald (Palle Kjærulff-Schmidt, 1956). Framegrab. ASA.

ÅRSBERETNING F O R SKAGEN KOMMUNALE SKOLEVÆSEN VED. Stadsskoleinspektør Aage Sørensen

Latterligt! Pinligt! Virkeligt? Virkeligheden som komisk reference i Klovn. A f Julie Hornbek Toft

M obiltelefonitis. Om mobiltelefonens entré i film og tv-serier. A f Jakob Isak Nielsen

Landinspektørens Meddelelsesblad Den danske Landinspektørforening * Lindevangs Allé Frederiksberg telefon

Omegnshistorier. Forstæderne i filmen - filmen i forstæderne. A f Palle Schantz Lauridsen

Visuelle rytmer ernes storbysymfonier. A f Lasse Kyed Rasmussen

E n skør og blodtørstig verden. Mondofilm, shockumentary og snuff. af Kenneth T. de Lorenzi

REGISTER. I. Frem sendelse af T jenestedokum enter.*) A. Rettelse af Tjenestedokumenter.

Faglig k a l e n d e r

2nd N o rdic Conference o f Computational Linguistics N O D A L ID A 1979

Baggrunden for Skole og Forældres politikpapir om forældreansvar er den seneste ændring i Folkeskoleloven, hvor begrebet forældreansvar blev indføjet

D B F - m e s t r e

Gram Skole 2018 (Haderslev)

Frederikshavn kommunale skolevæsen P -

ÅRSBERET NING F O R SKAGEN SKOLE SKOLEÅRET VED. Stadsskoleinspektør Aage Sørensen

HVAD SKER DER? Hv a d e r d e t, d e r s k e r h e r i d a g?

Skæring Skole 2018 (Aarhus)

Fra slot til skrot. Fremstillinger af betonboligbyggeri i dansk film. A f Tina Brændgaard Nissen

Register. I. Forholdet til kunderne

SKAGEN KOMMUNALE SKOLEVÆSEN

Dette værk er downloadet fra Slægtsforskernes Bibliotek

FREDERIKSSUND KOMMUNE

STRUKTURUDVALGETS ARBEJDE I EFTERÅRET 1980 MED ENDELIG INDSTILLING TIL BESTYRELSEN

Processer, logistik, standardisering og containere

Skagen kommunale skolevæsen

Interview med et filmfantom. J.X. Williams om Peep Show og andre skandaler. A f Mads Mikkelsen

BJB T e l: E-m a il: in n ie u w la n d.b e - W e b s it e : - Fa x :

Dette værk er downloadet fra Slægtsforskernes Bibliotek

Nyt liv til kystruterne Cykelkonferencen, 22. maj 2013 Jesper Pørksen, Cyklistforbundet

Film skal ses i biografen. En historisk anlagt montage om filmens fremtid. A f Erik Svendsen

ma 24 - vrij 28 september 2007 Marnix Academie

Den danske Landinspektørforening. Lindevangs Alle København F. Telefon (01) ARGANG, NR. 13 SÆRNUMMER

G e n e r a l f o r s a m l i n g e r n e september og 8. september 2001 på. o Scandic Hotel Arhus. I n d h o l d s f o r t e g n e l s e

SORAIVERBIADET MAANEDSSKRIFT FOR SORAMSH - SAMFUMD. dette er vort og værd at værne om RIBEGADE A A R G A N G N U M M E R 5.

POLITIK FOR KVALITET I UNDERVISNINGEN / 2. JUNI Indholdsfortegnelse. Politik for kvalitet i undervisningen

11 Hl SPAR RÅENERGIEN I DIN BYGNING E N R G STYRELSEN. - nye bygninger. Energi mærkningsrapport N P Josiassens Vej 44B 8500 Grenaa


Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

Årsberetning. Skoleåret

Dette værk er downloadet fra Slægtsforskernes Bibliotek

landinspektøren s meddelelsesblad Maj 1970 sendes kun til Den danske Landinspektørforenings m edlem mer redaktion Kay Lauritzen, landinspektør

SIKKERHEDSDATABLAD. P U N K T 1: Id e n tifik a tio n a f s to ffe t/bla n d in g e n o g a f s e ls k a be t/v irk s o m h e d e n

SKAGEN KOMMUNALE SKOLEVÆSEN

Kronikeromsorg. Visioner for fremtiden. Projektlederdag for projekter om kronisk sygdom i Region Syddanmark d. 9. juni 2011

FREDERIKSSUND KOMMUNE

Sprogteknologiske resourcer for islandsk leksikografi

Skagen kommunale skolevæsen

DANSKERNE ØNSKER STOP FOR EKSPROPRIATION TIL PRIVATE FOMÅL

DANwORD Hyppighedsundersøgelser i moderne dansk. Bente Maegaard og Hanne Ruus

LANDINSPEKTØRENS MEDDELELSESBLAD

DET KONGELIGE BIBLIOTEK

SORAJYERBLADET MAANEDSSKRIFT KOR SORAMSH - SAMFUND

SORATVERBLADET MAAMEDSSKRIFT FO R SO RAM SK - SAJVÆFT'UIVD

Basale hjælpemidler til løsning af skriftlige afleveringer/ årsprøve/ terminsprøve og eksamen:

Dette værk er downloadet fra Slægtsforskernes Bibliotek

Dette værk er downloadet fra Slægtsforskernes Bibliotek

Register. I. Udsendelser

Generalforsamlingerne 1987

OVER KIRKEBØGER BIND LO LLA N D -FA LS TER S S T IF T 2. DEL M ARIBO A M T : FALSTER

Ordliste over anvendt fagterminologi

Alvorlig konflikt med skole

DocTools BasisSkabeloner

Anm eldelsesblanket fo r tillid s re p ræ s e n ta n te r

Holbergskolen 2018 (København)

landinspektøren s Annoncer... side 55 Annoncer - Klip... side 56

FORKYNDER AF KRISTI NÆRVÆRELSE. JUNI 1956 JULI

h i t e D a n m a rk s e n e s te s p e c ia lfo rre tn in g i b a d m in to n... C O U R T M A S T E R S U P E R ER DE GÅET I STÅ?

Resultatet af den kommunale test i dansk

H e a lin g o g s e n fø lg e r a f k ræ ftb e h a n d lin g

Kystturismen. Information om rapportens datagrundlag. Helle Damkjær Analysechef, VisitDenmark

Fiskeridirektoratet. Årsrapport 2004

Hjælp til min datter med dyspraksi

Dette værk er downloadet fra Slægtsforskernes Bibliotek

1 JENS PORSBORG Jela HENRIK DAHL

It-støttet excerpering og registrering af nye ord og ordforbindelser

Lærereksemplar. Kun til lærerbrug. en eller et. bil sko hus bus bi ur. hus. bus. sko. bil. Her er seks ord. Træk streg til det rigtige billede.

Den danske Landinspektørforening. Lindevangs Alle København F. Telefon (01) a u g u st - 1. s e p te m b e r p å

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

Register. I. Udsendelser. T j e n e s te d o k u m e n te r

En undersøgelse af elevernes stavefærdighed i FSA 2008, retskrivning

Dette værk er downloadet fra Slægtsforskernes Bibliotek

FREDERIKSSUND KOMMUNE

FORÆLDREINDDRAGELSE I DAGTILBUD (VIDA+) PETER BERLINER & DORTE KOUSHOLT

LANDINSPEKTØRENS MEDDELELSESBLAD

OiZiiNliZSt'sl: Af / OiZitiLSc! b/ O L I K I K I ^ I O I L ^ KsbsnkAvn / dvpekikazsn

GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode

Delegeretmøde. Re fe ra t fra d e le g e re tm ø d e S ø n da g de n 3. m a j kl i Ho lbæ k.

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

3 Sange med tekst af H. C. Andersen

KØBENHAVNS BADMINTON KREDS. F ø l g e n d e s p i l l e r e u n d e r K ø b e n. h a v n s B a d m i n t o n K r e d s e r u d e l u k

Dette er et uddrag fra: Lis og Torben Pøhler: "Hu Hej - Vild med dyr" - en læsevejledning Maaholms Forlag 2000.

L A N D I N S P E K T Ø R E N S M E D D E L E L S E S B L A D

SIKKERHEDSDATABLAD. P U N K T 1: Id e n tifik a tio n a f s to ffe t/bla n d in g e n o g a f s e ls k a be t/v irk s o m h e d e n

Transkript:

H anne Ruus 139 In stitu t for nordisk filo lo g i Københavns Universitet Njalsgade 80 DK 2300 København S. SEMANTIK I AUTOMATISK LEMMATISERING. De fleste, der beskæftiger sig med lemmatisering, har som data autentiske tekster på naturlige sprog og som nært mål at kunne svare på spørgsmål som: Hvor mange og hvilke ord er almindelige i aviser, i en fo rfa tte rs værker, i børnebøger osv.? I denne situation er der fle r e grunde t i l at automatisere lem matiseringsprocessen. For det første den rent praktiske, at en så godt som automatisk lemmatisering gør det muligt at komme igennem et stort materiale på overskuelig tid. For det andet den vigtigere grund, at kun ved at beskrive tilordningen af bøjningsformer t i l lemmaer algoritmisk kan man sikre sig en helt konsekvent behandling af materialet. For det tredie kan en automatiseret lemmatiseringsprocedure anvendes igen og igen på mange slags tekst t i l forskellige formål: frekvensundersøgelser, automatisk syntaktisk analyse, maskinoversættelse. En automatisering fordrer en entydig definition af lemma: man må kræve udtryksforskel i mindst ån form i to s e rie r a f ordformer for at opstille to lemmaer ( j f. Nusvensk Frekvensordboks og DANvORDs^lemmadefinition). Selv med denne formelle lemmadefinition kommer man ikke uden om at anvønde semantiske oplysninger, når man v il nærme sig en fuldautomatisk lemmatisering. For at få en enkel og b illig lemmatiseringsprocedure må man im idlertid vride så meget information som muligt ud af udtryksforskelle og begrænse sig t i l et minimum af semantik. Derfor er jeg på udkig efter semantiske træk, der kan bruges ved mange forskellige ord, og helst sådanne, som kobles med udtryksforskelle. Heterografer er ord, der i alle bøjningsformer staves anderledes end alle andre ord. De kan altså lemmatiseres automatisk alene ud fra deres udseende uden semantik. Men vejen t i l den automatiske analyse af naturlige sprog er brolagt med entydiggjorto homografer. Man kan komme et godt stykke i entydiggørelsen ved hjælp af formelle træk i konteksten, men derefter er man henvist t i l semantikken. Overvejelserne om entydiggørelse nedenfor bygger på excerpering af ordformerne i f ig. 1 og 2 i DANwORDs^prøver fra fik tio n s te k ster for voksne (godt 250 000 løbende ord), hvad der gav godt 200 belæg på rejse I, I I og I I I og godt 50 belæg på øre I og I I. Eksemplerne er v a lg t, så de v iser homografi inden fo r samme ordklasse: øre I og I I er substantiver, rejse I I og I I I er verber. 139

140 ø re I "le g e m sd el" sb. - t, p i. - r e l. -n øre ø r e t ø r e r ( a r en ^ ø re rn e ørene øre I I " b e ta lin g s m id d e l" sb. - n, p i. dsm. e l - r øre (.a r e n, ø r e r ø re rn e ørene f i g. 1. I figuren er entydige former streget under. Da de to substantiver har hver^ s it genus,kan en del forekomster af øre i singula^^s entydiggøres ud fra kongruensbøjede former foran ordet: cluljupl. ^pt indre øre t i l are I og en øre t i l øre I I. øre brugt som pluralis af ø^e I I kan også bestemmes ud fra konteksten: det har a ltid et talord som adled tolv øre. halvtreds øre. Men ved de øvrige homografe pluralisform er er man henvist t i l semantiske hjælpemidler. I sb. p i. - r r e j s e r I I " t r a v e l" v b. - t e r e j s e r r e j s t e r e j s t f i g. 2. I I I " r a is e " v b. - t e, -n in g r r e j s t e r e j s t I figuren er fra substantivet rejse kun anført de former, der er homografe med verbalformer. Disse substantivformer v il i de fleste tilfæ lde kunne udskilles ved hjælp af kongruerende adled, f.eks. en besværlig rejse, hele denne rejse, den oplevelsesrige re js e. Begge verber er tra n s itiv e, men kun rejse ITT kan have refle k s iv t objekt. Denne syntaktisk-semantiske oplysning er kvant it a t iv t set vig tig, da knap 2/3 af belæggene på rejse er former af rejse sig. T il resten af verbaleksemplerne må man finde mere forfinede,semantiske deskriptorer. 140

141 Når man ser sig om i den d atalingvistiske forskning fo r at f i n de ideer t i l semantiske oplysninger og anvendelsen a f dem, v i ser det sig, at de projekter, der arbejder med automatisk behandling a f semantiske oplysninger, befinder sig inden fo r området simuleret intelligens, hvor man interesserer sig mere for metoderne end fo r resultaterne og fø lg e lig udvikler disse metoder på re t begrænsede tekstmængder. Her arbejder man på at a f bilde så meget betydning, at maskinen kan simulere en form for forståelse a f den indlæste tekst. Man er derfor mindre in te re s seret i udtrykket og bruger t i l gengæld komplicerede sæt a f semantiske p rim itiv e r og slutningsregler, som det i deres nuværende form v ille være uoverkommeligt at anvende på større tekstmæng^er. Men måske kan man låne et l i l l e sæt anvendelige kategorier? f i g. 3. Figuren viser de vigtigste dele af de semantiske udtryk for øre I og I I formuleret i Yorick Wilks'^semantiske formler, øre I I har to betydninger, en der henviser t i l selve mønten (THING "metal") og en anden t i l værdien ( s ig N ), mens øre I er beskrevet som del af menneske e lle r dyr (PAHT ANl) Ved brug af semantiske oplysninger kan man nøjes med at udvælge sådanne, der entydigt kan bestemme forekomster af den ene af to tolkningsmuligheder,hvis man kan finde semantishh oplysninger, der gør dette tilstræ kkeligt sikkert. Da øre I I har flere betydninger i Wilks' system, er det oplagt at forsøge at finde træk, der entydigt kan udskille øre 1-eksemp- 1erne. Af excerpterne fremgår det, at øre I ofte forekommer med possessiver som adled, j f. de possessive neutrumformer, der blev brugt t i l at bestemme singularisformerne af øre 1. Hvis man t i l føjer en regel om, at possessiv ofte står foran "legemsdel", kan man entydiggøre ved hjælp af en delvis formelt afgrænselig klasse af ordformer, de possessive pronominer og personnavne i genitiv. Denne regel v il klarø over 3/4 af de resterende flertydige belæg og virker bedre end en ren semantisk regel, der bygger på, at ord fo r legemsdele ofte forekommer sammen, og derfor forudsætte r, at a lle ord fo r legemsdele er mærket som sådanne uanset entydighed. Den semantiske regøl v ille kun klare halvt så mange eksempler som possessiv reglen og yderligere kræve, at ansigt, mund, øjne, kæbeben og ro tte h a le r er mærket som legemsdele. T il entydiggørelse af former af rejse I I pg I I I kan man hente hjælp i Roger Schanks Conceptual Analysis. Beskrevet i Schanks diagramform ser rejse I I og I I I således ud: 141

142 B e tin g e ls e r t i l de s t ø r r e ls e r, d e r in d g å r på p la d s e rn e : X: human; Y = X; Z, W: p la c e I I I " r a is e " B e tin g e ls e r t i l de s t ø r r e ls e r, d e r in d g å r på p la d s e rn e : X: a n im a te ; Y: physobj f i g. 4. Diagrammet over rejse I I kan parafraseres: at X fysisk fly tte r Y fra W t i l Z, forårsager, at Y er på lokaliteten Z. Diagrammet over rejse I I I kan parafraseres: at X fysisk fly tte r Y, forårsager, at Y befinder sig i oprejst s tillin g. rejse I I I har a lt id "ægte" objekt og burde derfor kunne udskilles af den syntaktiske analyse. Denne kan im idlertid ikke laves uden visse semantiske oplysninger: mulige kerner i alle de tidsog målsadverbialer, der kan have form af et nominalhypotagme,må særmærkes. Ellers v ille man få forkert analyse af sætninger som Søren rejste en del omkring. Det er altså ikke så lige t i l at udskille rejse-iii-øksemplerne. Man kan derimod bestemme ganske mange af rejse-ii-bélæggene ved at anvende den semantiske rolle retning. Schanks D-case (D irective). Den manifesteres nemlig, så den er nogenlunde le t genkendelig f.eks. ved retningsadverbier og præpositionssyntagmer indledt med t i l og fra (Hanne Ruus: Sproglig betydningsanalyse, i Nydanske Studier 10-11, 1979# s.186). En regel om at søge efter en retningsangivelse i konteksten v il bestemme godt halvdelen af de resterende flertydige belæg rig tig t. 142

Entydiggørelsen a f den sidste restmængde v i l fo rm e n tlig kræve adgang t i l ganske fy ld ig e semantiske b e s k riv e ls e r a f mange ord f.e k s. kan re js e 1 11 have så semantisk fo r s k e llig e o b je k te r som hoved, s ig t e ls e, spørgsmål, galge og hær. 143 Denne undersøgelse af 2 sæt homografer har v is t, at man forholdsvis let kan opstiiio syntaktisk-semantiske regler, der ved hjælp ^ f ^ t il dels^formelt afgrænsede klasser, possessiver og retningsadverbier, entydiggør de fleste af do belæg, der ikke kan klares uden semantik. Som bemærket ovenfor er det v ig tig t, at dc semantiske træk, man vælger ud t i l brug i entydiggørelsesprocedurer, kan anvendes ved mange ord og ikke medfører krav om semantiske oplysninger ved alle ord. De træk, jeg har skitseret brugen af her, opfylder begge dette krav: den semantiske r o lle "retning", som blev fo reslået ved rejse eksemplerne, v il kunne anvendes ved flertydige bevægelsesverber som fa r e, fø re, lede, mens klassen af posses siv^r, som blev indført ved øre, v il være nyttig ved flertydige ord for mere e lle r mindre umistelige legems/ejen-dele som arm, tunge og s to l. Ved k v an titative opgørelser over lemmaor behøver man næppe.bekymre sig om den sidste rest af flertydigheder, men t i l en fuldt automatisk analyse kan man forudse, at der kræves både en ret gennemarbejdet syntaktisk analyse og et omhyggeligt udvalgt større sæt af semantiske oplysninger. N o te r. (1) DANwORD, Hyppighedsundersøgelser i moderne dansk, ved Bente Maegaard og Hanne Ruus, se f.e k s. SAML T i l. 5. (2) se. f.e k s. Y orick W ilks: The Stanford Machine T ra n s la tio n P ro je c t, i N atural Language Processing ed. by Randall R ustin, New York 1973. ( 3 ) se f.e k s. Roger Schank: Id e n t if ic a t io n o f C onceptualizations Underlying N atu ral Language, i Computer Models o f Thought and Language ed. by Roger C. Schank and Kenneth Mark Colby, San Francisco 1^73. 143