AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG. Eckhard Bick

Størrelse: px
Starte visningen fra side:

Download "AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG. Eckhard Bick"

Transkript

1 AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG Eckhard Bick Institut for Lingvistik, Århus Universitet, Nordre Ringgade, DK-8000 Århus C tel: , fax: , lineb@hum.aau.dk Abstract The paper describes an automatic grammar- and lexicon-based parser for unrestricted Portuguese text. The parser has been developed as a three-year Ph.D.-project and is ultimately intended for applications like corpora tagging, grammar teaching and machine translation, which all have been made accessible in the form of internet based prototypes. Grammatical rules are formulated in the Constraint Grammar formalism (CG) and focus on robust disambiguation, treating several levels of linguistic analysis in a related manner. In spite of using a highly differentiated tag set, the parser yields correctness rates - for unrestricted and unknown text - of over 99% for morphology (part of speech and inflection) and 97-98% for syntactical function, even when geared to full disambiguation. Among other things, argument structure, dependency relations and subclause function are treated in an innovative way, that allows automatic transformation of the primary, "flat" CG-based 1

2 syntactic notation into traditional tree structures (like in DCG and PSG). The parser uses valency and semantical class information from the lexicon, and a pilot study on disambiguation on these levels has been conducted, yielding encouraging results. The system runs at about 200 words/sec on a 200 MHz Pentium based Linux system, when using all levels. Morphological and POS disambiguation alone approach 2000 words/sec. 2

3 1. Oversigt I denne artikel evalueres en morfologisk-syntaktisk parser for fri portugisisk tekst, hvor der anvendes Constraint Grammar til disambiguering af ikke kun ordklasser og morfologiske tags, men også dependens- og valensforhold, samt ledsætningers funktion. Parseren er udviklet som led i min Ph.D.-forskning om automatisk analyse af portugisisk. Projektet har en leksikografisk baggrund (beskrevet i mit cand.mag.- speciale) og et applikativt perspektiv involverende bl. a. maskinoversættelse og grammatik-formidling (automatic tutoring), men i det følgende vil jeg koncentrere mig om at præsentere parserens notationelle system, især på det syntaktiske niveau, samt redegøre for hvordan man indenfor samme parsing-formalisme kan tackle en bilingual motiveret polysemi-resolution. Endeligt skal en kvantitativ evaluering samt en række eksempelsætninger gøre det muligt for læseren selv at vurdere parserens notationelle koncept i forhold til andre systemer. 2. Baggrund De fleste ord i natursprogstekster er - isoleret set - flertydige med hensyn til ordklasse, bøjning, syntaktisk rolle, semantisk indhold m.m. Det er sætningskonteksten (foruden den indholdsmæssige samenhæng og læserens "viden om verden"), der afgør hvordan ordet skal forstås. Constraint Grammar (CG), som den er udviklet af Helsinki-skolen (fx. Karlsson et.al., 1995) er en grammatisk metode der søger at gennemføre en sådan éntydiggørelse (disambiguering) ved at opstille regler for hvilken af et ords mulige læsninger der skal vælges og hvilke læsninger der skal forkastes i en given sætningskontekst. I selve parseren bliver reglerne kompileret til et computerprogram, der som input tager tekst hvor hvert ord har fået tilføjet tags for alle dets mulige morfologiske og ordklasse-læsninger af en leksikon-baseret tagger. Som output leveres for hver ordform kun én tag-linie, med den korrekte grundform, ordklasse m.m. (1) "<nunca>" "nunca" ADV "<como>" "como" <rel> ADV "como" <interr> ADV "como" KS "como" <vt> V PR 1S VFIN "<peixe>" "peixe" N M S "<$.>" [ADV=adverbium, KS=subordinerende konjunktion, V=verbum, N=substantiv, PR=præsens, S=singularis, M=maskulinum, 1=1.person, VFIN=finit verbum, <rel>=relativum, <interr>=interrogativum, <vt>=monotransitiv] De fire læsninger 1 af ordformern 'como' kaldes i CG-terminologien en kohorte. En typisk CG-regel 2 til disambiguering af denne flertydighed er fx. følgende: 1 Forskellen mellem <rel> ADV og <interr> ADV er strengt set ikke morfologisk eller ordklassemotiveret, men udtryk for en semantisk-funktionel distinktion (den danske oversættelse ville i det første tilfælde som regel være 'som', men i det andet 'hvordan'. Som det beskrives sidst i artiklen, er det af stor betydning for polysemidifferentieringen at vide, hvilket af et ords potentielle valensmønstre der er blevet realiseret i en given (led)sætningskontekst, og hvilken semantisk klasse udfylder en given valensplads (slot). I denne forbindelse får valenstags (og selektionsrestriktioner) betydning ikke kun 3

4 (2) SELECT (VFIN) IF (NOT *-1 VFIN) (NOT *1 VFIN) [vælg for enhver ordform læsningen VFIN (finit verbum) hvis der ikke (NOT) - hverken til venstre (*- 1) eller til højre (*1) - findes et andet ord der kan være VFIN.] 3 som sekundære tags (som udelukkende bruges til at disambiguere morfologiske/syntaktiske tags), men også som selvstændige primære tags, der kan og skal disambigueres, som i ordformen 'revista', hvor den enkelt ordklasseambiguitet (V-N) bliver til firedobbelt leksemambiguitet. <rr> rever <vt> V 'gense' rever <vi> V 'sive igennem' revista <+n><rr> N 'avis' revista <CP> N 'inspektion' realiseret valens: transitiv <vt> realiseret valens: intransitiv <vi> realiseret valens: titel <+n>, semantisk klasse: læsestof realiseret semantisk klasse: +CONTROL, +PERFEKTIV 2 Jeg anvender her konventionen fra Pasi Tapanainens cg2-compiler, der bl.a. erstatter de ældre operatorer '@w=0' og '@w=!' med de almindelige engelske ord 'REMOVE' med ' SELECT'. 3 Reglen er forenklet, idet den forudsætter at enhver periode indeholder mindst ét finit verbum, hvad der ikke altid er tilfældet i overskrifter, udråb o.l. Reglen kan gøres mere sikker ved at kræve et punktum (*1 PUNKTUM) eller udnytte den mulige valensrelation mellem det transitive comer og den 'sikre' NP peixe (0 <vt>) (1C NP). 4

5 Ved først at tilføje ("mappe") alle 4 mulige syntaktiske funktioner til ordformen udfra dens ordklasse, bøjning m.m., og herefter at disambiguere denne syntaktiske flertydighed, kan Constraint Grammar også bruges til syntaktisk parsing, som det fx. er sket i Bank-of-English-projektet (200 millioner ord, Järvinen, 1994). (3) "<nunca>" "nunca" "<como>" "como" <vt> V PR 1S "<peixe>" "peixe" N @ACC=akkusativobjekt, Tilføjelsen af de mulige syntaktiske tags (@) har i eksemplet resulteret i firedobbelt syntaktisk ambiguitet for peixe. Læsningen som direkte objekt (@ACC) kan udvælges positivt med en 'SELECT'-regel der udnytter verbets transitivitet, men den kan lige så godt fremstå indirekte 5, - ved at være den sidste overlevende læsning, efter at CGregler har forkastet de andre: (4) REMOVE (@SUBJ) IF (0 N) (NOT *-1 V3) (NOT *1 V3) [forkast subjektlæsningen hvis ordet (0) er et substantiv (N) og der ikke findes et verbum i 3. person] REMOVE (@SC) IF (NOT *-1 <vk>) (NOT *1 <vk>) [forkast subjektprædikativlæsningen (@SC) hvis der ikke findes et kopulaverbum (<vk>) i sætningen] REMOVE (@OC) IF (NOT (NOT [forkast objektprædikativlæsningen (@OC) hvis der ikke findes et direkte objekt (@ACC) i sætningen] 6 CG-grammatikker er først og fremmest blevet beskrevet for engelsk (fx. Karlsson et.al., 1991), men der findes - i hvert fald på det morfologiske niveau - projekter for flere andre sprog fra såvel den germanske, romanske og finno-ugriske sprogfamilie (svensk, tysk, fransk, finsk m.m.). En moden CG-grammatik for det morfologiske niveau (ordklasse-disambigueringen m.m.) består typisk af regler. For engelsk opgives fejlprocenter på under 0.3% ved en disambigueringsgrad på 94-97% (Voutilainen, 1992). 3. "Flade" træstrukturer i CG-syntaks 4 Også i mapping-fasen anvendes constraint-regler, og listen over mulige syntaktiske funktioner for et bestemt ord kan således gøres kontekst-afhængig (og dermed kortere). 5 Det er denne indirekte disambiguering, der er mest karakteristisk for Constraint Grammar, og her ligger en vigtig årsag til metodens robusthed: selv sjældne eller ufuldstændige konstruktioner vil få mindst én analyse - nemlig den der overlever flest forbudsregler. Parseren foretrække således som regel en struktur, der er "næsten rigtig" frem for en, der er "temmelig forkert". 6 Alle anførte regler gør brug af "ubundne" kontekstbetingelser: *-1 = kontekstbetingelsen søges opfyldt fra og med det 1. ord til venstre (et eller andet sted til venstre) *1 = kontekstbetingelsen søges opfyldt fra og med 1. ord til højre (et eller andet sted til højre) Man kan også bruge "bundne" kontekstbetingelser, fx -2 = andet ord til venstre, 3 = tredje ord til højre. De "bundne" kontekstbetingelser kan i princippet gengives som n-gram-regler (som brugt i mange probabilistiske parsere), mens de "ubundne" (*-kontekster) er mere CG-specifikke. 5

6 3.1 Syntaktisk form og syntaktisk funktion Historisk set udspringer CG fra morfologisk analyse, de fleste systemer benytter sig af en morfologisk toniveau-analyse (TWOL, jf. Koskenniemi, 1983) som præprocessor, og fokuserer på morfologiske træk og ordklasser. Den grammatiske beskrivelse er derfor i høj grad ordbaseret og implementeres ved at hæfte tags til ordformer. "Flad" syntaks er en naturlig konsekvens af dette, og også i min parser benytter jeg mig af en "flad" repræsentation af syntaktisk struktur. Beskrivelsen indeholder information om både syntaktisk funktion (fx og konstituentstruktur (syntaktisk form). Den sidste bliver markeret ved hjælp af dependensmarkører (<, >) som er rettet mod det pågældende syntagmes hoved og samler konstituenten til en kohærent helhed med implicitte syntagmegrænser. Hvor hovedet ikke er hovedverbet, bliver det anført ved pilespidsen (fx N for nominalhoved, A for adjekt-hoved 7 ). Dependensmarkører bliver enten hæftet til de funktionelle @N<PRED), eller står, ved visse bestemmerled, alene for [bestemmer-] prænominal). (5) Temos [ter] <vt> V PR 1P IND em [em] <sam-> este [este] <-sam> <dem> DET M país [país] <top> N M uns [um] <art> DET P castelos [castelho] <hus> N M muito [muito] <quant> velhos [velho] ADJ M Idet hvert ord således kun behøver at "huske" sin umiddelbare dependensrelation (dvs. hvad det selv er dependent til), kan hele den syntaktiske struktur beskrives lokalt (som ordrelateret tag), - som i en uro, hvor den enkelte tråd kun "kender" nøjagtig 2 af uroens mange faste dele: i den ene ende den stang den selv hænger i (hovedet, som dependensmarkøren peger på) og i den anden ende det objekt (eller den stang) der hænger i tråden (dependenten, som dependensmarkøren peger væk fra). Hvis bare man skriver ned for hver del i uroen hvilken anden del den skal hænge i, kan man faktisk godt skære den i stykker og gemme den i en skotøjsæske - den strukturelle information bevares 8. I eksemplet befinder 'muito' sig langt nede i uroen, men kender sin 'adverbialadjekt'- (@>A) snor til 'velho'. Denne igen fastgøres til venstre som postnominal (@N<) til 'castelo'. 'Castelo' selv ved, at det er direkte objekt (@<ACC) til et venstre- (<)stående hovedverbum, 'temos', som er roden i dependens-uroen. Men uden mere komplekse dependensforbindelser kan en sådan flad beskrivelse kun fungere tilfredsstillende, hvor et enkelt ord bærer hele vægten af et syntagmes funktion. Der vil uvægerligt være problemer med dependensforhold der involverer flere forskellige syntaktiske niveauer, som det fx er tilfældet når en infinitivsætning fungerer som subjekt i hovedsætningen('visiting the Louvre was not his only reason for coming to Paris'), eller når en infinitivsætnings eget subjekt efter blokeringsreglen konkurrerer med matrixsætningens subjekt ( O perigo de os inimigos atacarem o 7 Ved et adjekthoved forstår jeg kernen i et adjektiv- eller adverbialsyntagme. Også attributivt brugte participier tilhører adjektkategorien. 8 At den strukturelle information både markeres og processeres lokalt (på ordplan) er faktisk kongstanken i CG's syntaktiske filosofi, og jeg vil i det følgende diskutere nogle af fordelene (og ulemperne) ved en sådan "flad" beskrivelse, og vise hvordan selv mere komplekse dependenter (ledsætninger m.m.) kan håndteres på denne måde. 6

7 castelo era imanente ). Også hierarkisering af ledsætningsgrænser (fx ved indskudte ledsætninger) kan være et problem. Min løsning har været (a) at forsyne alle de syntaktiske tags med "rettede" dependensmarkører (jf. ovenfor), og (b) at hæfte 2 tags til de centrale forbinderord ("complementizer" som: subordinerende konjunktioner, relativer og interrogativer) i finitte og absolutte ledsætninger, samt til infinitiver, gerundier og participier i infinitte ledsætninger 9. Disse ord vil så bære både en "indadvendt" tag (@...) der beskriver deres funktion i ledsætningen, og en "udadvendt" tag (@#...) der beskriver ledsætningens egen ledfunktion i sætningens dependenshierarki. Teknisk set som to adskilte lister, således at "indadvendte" og "udadvendte" tags kan disambigueres uafhængig af hinanden, af distinkte regelmoduler. (6) Sabe [saber] <vq> V PR 3S que os [o] <art> DET M problemas [problema] N M são [ser] <vk> V PR 3P graves [grave] ADJ M/F [@FMV = finite main = finite subclause, functioning as direct (accusative) object attached to a main verb to the = = prenominal = subject for a main verb to the = subject complement for a (copula) verb to the left, V = verb, KS = subordinating conjunction, DET = determiner, N = noun, ADJ = adjective, PR = present tense, IND = indicative, 3S = third person singular, 3P = third person plural, M = male, F = female, S = singular, P = plural, <art> = article, <vq> = cognitive verb, <vk> = copula verb] Lad os se på et mere komplekst eksempel: O baque foi atenuado pelo fato de sua mulher ter um emprego que garante as despesas básicas da família. Nedenstående analyse gør det tydeligt hvordan dependensrelationerne samler sætningens byggeklodser i en hierarkisk struktur. Kasserne markerer (udefra indad) hovedsætningen, et passivkomplement, en infinitiv ledsætning (der fungerer som præpositionskomplement) og en finit ledsætning (der fungerer som et postnominalt attribut). Nominalsyntagmer er skygget, og den syntaktiske makrostruktur er tilføjet til venstre. (7) SUBJ o [o] <art> DET M 'den' baque [baque] <cp> N M 'fald' VP foi [ser] <x+pcp> V PS 3S IND 'blive' atenuado [atenuar] <vt> <sn> V PCP AUX< 'svække' PP-PASS por [por] <sam-> <+INF> <PCP+> 'af' 9 En anden metode til funktionel tagging af ledsætninger beskrives af Voutilainen (1994). Her er det hovedverbet, der bærer ledsætningens tag (...@), mens dependensforholdene gøres mere eksplicitte ved at indsætte markører for ledsætningsgrænser, og ved at skelne mellem argumenter af henholdsvis finitte og infinitte verbaler. Tapanainen (1997) har udviklet en egentlig dependensgrammatik som overbygning for en CG-baseret morfologisk disambiguering. Her arbejdes der med nummertilordning af head og dependenter. 7

8 P< o [o] <-sam> <art> DET M 'den' fato [fato] <ac> <+de+inf> N M 'kendsgerning' PP-N< de [de] 'af' SUBJ sua [seu] <poss 3S/P> DET F 'hans' mulher [mulher] <H> N F 'kvinde' VP & ICL-P< ter [ter] <vt> <sh> V 'have' ACC um [um] <quant2> <arti> DET M 'en' emprego [emprego] <stil> <ac> N M 'stilling' SUBJ & FS-N< que [que] <rel> SPEC 'som' garante [garantir] <vt> <v-cog> V PR 3S IND 'garantere' ACC as [a] <art> DET F 'den' despesas [despesa] <ac> N F 'udgift' básicas [básico] <jn> ADJ F 'basal' PP-N< de [de] <sam-> '(genitiv)' P< a [a] <-sam> <art> DET F 'den' família [família] <HH> N F 'familie' Nedenstående ordkæde viser hvordan en dependensgrammatisk "attachment sequence" ser ud hvis man fører den op fra laveste niveau (her fra artiklen 'a') til højeste niveau, verbalkernen i hovedsætningen ('>' betyder "hæfter til", ':' betyder "danner") : a > família:np > de:pp > despesas:np > garante:fs > emprego:np > ter:icl > de:pp > fato:np > por:pp > atenuado:icl > foi:s a > família:np > de:pp > despesas:np > garante:fs > emprego:np > ter:icl > de:pp > fato:np > por:pp > atenuado:icl > foi:s 3.2. Transformation af flad dependenssyntaks til træstrukturer I lyset af den store popularitet som konstituentgrammatikkerne nyder i nutidens lingvistik, er det således nærliggende at spørge: kan en flad (CG) syntaktisk beskrivelse på denne måde bevare så megen strukturel information, at der kan opretholdes en vis ækvivalens og "transformerbarhed" i forhold til klassiske trænotationer? For at vise at dette godt kan lade sig gøre, har jeg skrevet et computerprogram, der identificerer syntagme- og ledsætningsgrænserne i en flad CG-beskrivelse, markerer dem som form (np, pp, icl m.m.) og tildeler dem somfunktion deres kernes syntaktiske CG-tag. Transformationen vises ved følgende sætning: O crise apura o palador do consumidor e valoriza o dono de restaurante que pilota a própria cozinha. 8

9 (8a) anlyseret tekst, i "flad", ordbaseret CG-notation: ordform grundform valens & semantik ordklasse & bøjning syntaks *a [a] <art> DET F crise [crise] <sit> N F apura [apurar] <vt> <sn> V PR 3S IND o [o] <art> DET M paladar [paladar] <anost> <fh> N M de [de] <sam-> o [o] <-sam> <art> DET M consumidor [consumir] <DERS -or> N M e [e] valoriza [valorizar] <vt> <sn> V PR 3S IND o [o] <art> DET M dono [dono] <H> N M de [de] restaurante [restaurante] <inst> N M que [que] <rel> SPEC pilota [pilotar] <vt> <vh> V PR 3S IND a [a] <art> DET F própria [próprio] <jn> ADJ F cozinha [cozinha] <ejo> N F (8b) teksten transformeret til træstruktur, med indføjede syntagme-tags og hierarkisk -@>N:DET F S *a [a] <art> -@H:N F S crise [crise] PR 3S IND VFIN apura [apurar] <vt> -@>N:DET M S o [o] <art> -@H:N M S paladar [paladar] <anost> <fh> -@N<:pp -@H:PRP de [de] <sam-> -@P<:np -@>N:DET M S o [o] <-sam> <art> -@H:N M S consumidor [consumir] <DERS e PR 3S IND VFIN valoriza [valorizar] <vt> -@>N:DET M S o [o] <art> -@H:N M S dono [dono] <H> -@N<:pp -@H:PRP de [de] -@P<:N M S restaurante [restaurante] <inst> -@N<:fcl -@SUBJ>:SPEC M/F S/P que [que] <rel> 9

10 PR 3S IND VFIN pilota [pilotar] <vt> <vh> F S a [a] <art> -@>N:ADJ F S própria [próprio] <jn> -@H:N F S cozinha [cozinha] <ejo> 10

11 [ordklasser: DET=determiner, N=noun, V=verb, PRP=preposition, KC=coordinating conjunction, SPEC=specifier-pronoun, ADJ=adjektiv; bøjning: S=singular, P=plurar, M=male, F=female, PR=present, 3S=third person singular; derivation: <DERS -or>=suffiksderivation på @FMV=finite main object, subclause functioning as postnominal; valens: <art>=article, <rel>=relative, <vt>=monotransitive verb; semantik: <H>=human, <sit>=situation, <ejo>=functional place, <inst>=institution, <anost>=anatomical bone structure; selektionsregler: <fh>=human feature, <sn>=has non-human subject, <vh>=has always human subject, <jn> has non-human head; ortografi: <sam->&<-sam>=first and second part of fused expression] np=noun phrase, pp=prepositional phrase, fcl=finite clause, ':'=separator for function and form] (8c) Samme sætning, automatisk transformeret til vandret @N<:fcl 1 @SUBJ>:SPEC 2 @H:N 3 *a crise apura o palador de o consumidor e valoriza o dono de restaurante que pilota a própria cozinha En vigtig forskel mellem den flade CG-notation og træ-notationen er, at denne skal opløse visse flertydigheder, som den flade syntaks underspecificerer, fx. i forbindelse med tilhæftningen af postnominaler (især præpositionssyntagmer), koordination og frie nominaladjunkter. Denne underspecifikation bliver imidlertid til et gode, når man betragter den udfra et MT-perspektiv: - for det første er mange af tilfældene eksempler på "ægte flertydighed", der kun kan tydes af den fuldt kontekstualiserede - menneskelige - lytter/læser (og under alle omstændigheder er der tale om ægte syntaktisk flertydighed). - Og for det andet er en række af disse strukturelle ambiguiteter (især koordination (10a) og "kort" (9b) vs. "lang" (9a) tilhæftning af postnominale præpositionssyntagmer) forholdsvis universelle, dvs. sproguafhængig, således at de kan bevares i oversættelsen, der baseres direkte på den "flade" beskrivelse (9c). (9a) Han hentede (9b) Han hentede (9c) Foi buscar o a a At gøre en sådan flertydighed eksplicit (for et sprogpar der ellers håndterer den éns) ville kun belaste oversættelsesmodulet med irrelevant ballast. Adjektiviske bestemmere, enten postnominal eller som frie adjunkter, er derimod mere problematiske, idet der kan være kongruensrelationer (11b) mellem hoved og bestemmer: 11

12 (10a) (10b) 12

13 4. Statistisk evaluering For at kunne afprøve nye og kontrollere gamle regler i min parser har jeg udarbejdet et "bench mark"- corpus (i alt ca ord), hvor der for hver flertydige kohorte markeres med en <Correct!> -tag hvilken læsning der er korrekt. Pga. de mange gentestninger har reglerne efterhånden kunnet opnå fuld disambiguering og fejlprocenter på under 0.1% for disse arbejdstekster. For ukendt tekst er tallene selvfølgelig lavere; alligevel er resultatet ikke irrelevant. Det viser nemligt, at CG-metoden ikke lider under systemimmanente interference-problemer i samme grad som fx. en probabilistisk tagger baseret på en ren trigram-hmm 10, hvor der (så vidt jeg ved) selv ved gentræning og - måling på samme corpus sjældent opnås fejlprocenter på under 3%, end ikke for ordklasse-tags 11. For at opnå maksimal præcision, har jeg også arbejdet med et større utagget tekstmateriale ( ord fra Borba-Ramsey-corpuset 12 ), både på det morfologiske og det syntaktiske niveau. Dette var muligt, fordi precision (defineret som overlevende korrekte læsninger : overlevende læsninger i alt) kan approksimeres ved at nedbringe ambiguiteten, i hvert fald så længe lejlighedsvise bench mark-kørsler sikrer at nye regler kun forkaster få korrekte tags, og så længe ambiguiteten stadigt er høj. Ambiguiteten kan så måles nemt med automatiske midler (fx. programmet grep) på en hvilken som helst tekst. Derimod kan recall (defineret som overlevende korrekte læsninger : alle korrekte læsninger) kun kvantificeres ved optælling i mindre testtekster (der findes mig bekendt ikke noget stort analyseret portugisisk corpus til sammenligning). Indstiller man parseren til fuld disambiguering (hvor der med undtagelse af de få tilfælde af ægte ambiguitet kun er én overlevende læsning per ordform), kan man her betragte recall tallene som et direkte mål for parserens præstation, og jeg vil i det følgende bruge det mere generelle udtryk correctness i betydningen af recall ved 100% disambiguering. En optælling af fejltyperne under test-kørslen af en mindre ("ukendt") prosa-tekst på ca ord ("O tesouro" af Eça de Queiroz) gav følgende resultat: fejl i: antal fejl: ordklasser 16 grundformer 1 Alle morfologiske 17 (99.3 % correctness) 10 Hidden Markov Model, hvor de mulige sætningsanalyser udtrykkes som (oftest ordklasse-) tagsekvenser og siden vurderes for deres respektive sandsynlighed: at en ordform skulle bære en given tag beregnes som produktet af a) den leksikale sandsynlighed (ord/ordklasse) og b) n-gram-sandsynligheden (for bigrammer fx. ordklasse n /ordklasse n-1 ), og hele sekvensen sandsynlighed igen er produktet af de "individuelle" sandsynligheder for de i sekvensen realiserede tags. 11 I en probabilistisk tagger vil "manuelle" indgreb (håndlavede regler, bias eller priming), designet til at håndtere uregelmæssigheder eller sjældne strukturer, ofte resultere i skadelige interferencer, fordi de probabilistiske regler er "majoritetsdrevne", og en lille "gevinst" for minoritetstilfældene vil tit føre til tilsvarende større "tab" mht. majoritetstilfældene, idet opprioriteringen af undtagelserne går ud over de "normale" statistiske regler (jf. Chanod & Tapanainen, 1994). 12 Corpuset indeholder mest brasiliansk materiale, og er i alt på 5 millioner ord. Over ord er offentliggjort på CD som led i ECI-projektet (European Corpus Initiative). 13

14 verbalfunktion 3 verbers argumenter 25 præpositioners argumenter 2 Argumentstruktur 30 Bestemmere 13 Adjunkter 11 Ledsætninger 10 Alle syntaktiske 64 (97.4 % correctness) "lokale" syntaktiske fejl pga. morfologiske/ordklasse-fejl -27 Rent syntaktiske 37 (98.5% correctness) Man kunne formode at fejlene var fordelt jævnt over hele teksten, hvad der - ved en gennemsnitlig sætningslængde på 15 ord - ville svare til en "fejltæthed" af ca. 1 morfologisk fejl i hver tiende sætning, og en syntaktisk i hver tredje. Dette er imidlertid ikke tilfældet. Fejlene optræder ofte i grupper: indlysende nok, vil de fleste ord med ordklassefejl også kunne findes på listen over syntaktiske fejl, og mange syntaktiske fejl vekselvirker med læsninger i naboordene, pga. regler der involverer sætningsgrænse-ord, uniqueness-princippet osv. Således kan en N-V-ordklassefejl afføde 2 eller 3 syntaktiske fejl omkring sig. Denne "ophobningstendens" for syntaktiske fejl har en gavnlig sideeffekt på parserens robusthed (mange sætninger er således helt fejlfrie), og letter desuden grammatikerens arbejde: en korrektur ét sted kan "helbrede" en hel kæde af sekundære interferens-fejl. Fejlinterferencen betyder også at den syntaktiske parser alene, dvs. når den forsynes med morfologisk fejlfri tekst som input, kan opnå endnu bedre resultater (forskellen er typisk på procentpoint). For at undersøge, om fejlprocenterne varierer i afhængighed af teksttypen, har jeg også testet parseren på aktuelle avistekster 13 (VEJA-magasinet). Der er igen tale om (for parseren) ukendt, løbende tekst. Artiklerne repræsenterer henholdsvis underholdnings- og kunst-genrerne. Tekst: "VEJA" (videogames) 2412 ord "VEJA" (kunst) 1837 ord ialt 4249 ord Fejltyper: antal fejl % korrekt antal fejl % korrekt antal fejl % korrekt Morfologi (alle) % % % ukendte engelske ord i overskrifter Morfologi (ren) % % % Tal for yderligere 2 avistekster fra VEJA (genremæssigt placeret indenfor politik og sundhed), viser nogenlunde de samme fejlprocenter (jf. Bick, 1996). 14

15 Syntaks (alle) % % % syntaks pga. morfologi Syntaks (ren) % % % En nærmere gennemgang af fejltyperne viser, at de valgte avistekster adskiller sig fra fiktionsprosa både leksikalsk og syntaktisk. For det første møder man en stor andel af komplekse egennavne (fx. 'Massachusets Institute of Technology'), forkortelser ('MIT') og engelske modeord (således er det ét enkelt ord, console, der - brugt som ukendt engelsk substantiv ['spillekonsol'], og ikke som portugisisk verbum ['trøster'] - tegner sig for en tredjedel (!) af fejlene i teksten om video-spil). For det andet er teksterne - på det syntaktiske plan - meget rige på frie prædikativer (typisk oplysninger om personer, institutioner eller forkortelser, som alder, sted, definition m.m.) og indskudte "overflødige" finitte verber i form af citationsrammer. Fejlprocenterne skal desuden ses i lyset af det meget differentierede tag-set (jf. 5.1). Således kan parserens detaljerede dependens- og funktionsoplysninger for præpositional-syntagmerne (som fx. adverbielt @ADVL, frit argument for give anledning til en lang række potentielle "indbyrdes" fejl, der ville være "usynlige" i en beskrivelse, der smelter disse tags sammen til en simpel "syntagmatisk" tag 'PP' (præpositionssyntagme), eller et rudimentært "funktionelt" 'ADVL' (adverbial). Indbyrdes "forvekslinger" inden for PPgruppen står således for 15 tilfælde, eller hele 22%, af de 68 rent syntaktiske fejl i VEJAteksterne. 15

16 5. Parseren 5.1 Tag-sættet 14 Parserens tag-sæt indeholder 13 ordklasse-kategorier, der kombineres med 24 tags for bøjningsformer, ialt flere hundrede distinkte komplekse tags. I tag-linien 'V PR 3S IND VFIN', for eksempel, alternerer ordklassen 'V' således med 12 andre ordklasser, og indenfor V-klassen alternerer 'PR' (præsens) med 5 andre tider, der hver igen findes i 6 forskellige person-numerus former for både 'IND' (indikativ) og 'SUBJ' (konjunktiv). På denne måde beskrives 6x6x2=72 finitte verbalformer ved hjælp af kun 6+6+2=14 deltags. Denne analytiske karakter af tag-strengene gør dem mere "gennemskuelige", og letter desuden arbejdet for disambiguerings-reglerne. I modsætning til andre systemer (jf., for eksempel, CLAWS-systemet, som beskrevet i Leech, Garside, Bryant, 1994), skelnes der i tag-strengen skarpt mellem grundformer ("ord"), ordklasser og bøjningskategorier. Desuden etableres ordklasserne næsten udelukkende på morfologisk vis, og holdes dermed adskilt fra de syntaktiske kategorier. Således defineres et substantiv (N) paradigmatisk som den ordklasse der udviser genus som (invariant) leksemkategori og numerus som (variabel) ordformkategori. Det modsatte gælder for numeralia (NUM), mens både genus og numerus er leksemkategorier for propria (PROP), og ordformkategorier for adjektiver (ADJ) 15. Det syntaktiske tag-sæt råder over 40 tags for ord/syntagme-funktion og ca. 30 tags for sætningsfunktion (der dækker over tre slags ledsætninger: finitte, infinitte og absolutte [=verballøse]). Også her er det virkelige antal af distinkte tag-strenge meget højere, fordi det ord der bærer ledsætningens tag, jo også skal markeres for dets ledsætnings-interne funktion. Systemerne for valens og semantik er under udvikling, og det er derfor vanskeligt at angive nøjagtige tal for tag-sættenes størrelse. Omtrentlige tal er ca. 100 for valensklasser (især for verber), og ca. 200 for semantiske klasser (især for substantiver). De semantiske klasser er baseret på 16 "atomare" træk (som, fx., ±HUM). 5.2 Parserens tekniske data Den portugisiske parser består af en række programmoduler, der - bortset fra lingsofts sproguafhængige compiler for CG-regler - er skrevet af mig selv i 14 En fuldstændig oversigt over de brugte morfologiske og syntaktiske tags og deres definitioner findes i [Bick, 1997], eller kan hentes via internet på 15 Pronominer kan opdeles efter samme skema, i en determiner-klasse (DET) med de samme (variable) kategorier som adjektiver, og en "specifier"-klasse (SPEC) af "substantiviske" pronominer der udviser de samme (invariante) kategorier som propria-klassen. Personlige pronominer (PERS), som tredje klasse, har 4 ordformkategorier: numerus, genus, casus og person. Alle 3 pronominalklasser adskiller sig fra de "rigtige" nominalklasser ved at de ikke tillader derivation. Pronominer som 'o' og 'este', der både kan forekomme "adjektivisk" og "substantivisk", er efter dette system entydige medlemmer af DET-klassen. Artikel-klassen får heller ikke særstatus: 'o' er altid DET, uanset om det bruges som "artikel", "adjektivisk demonstrativ" eller "substantivisk demonstrativ". Tagsene <art> og <dem> optages på taglisten, men de er ikke ordklassekategorier, og disambigueres først på et senere tidspunkt (valens-niveauet), til brug ved MT. Participiet (V PCP), ordklasssernes enfant terrible, er morfologisk markeret som ('-id/-ad'); men udenfor verbalkæden overtager det adjektivets ordformkategorier, og parseren vælger i dette tilfælde at "fusionere" PCP/ADJ-ambiguiteten: <ADJ> V PCP. 16

17 programmeringssprogene C og Perl. Parseren omfatter følgende moduler på det morfologisk-syntaktiske niveau 16 : 1. et morfologisk analyse-program (beskrevet i Bick, 1995), som behandler orthografisk præprocessering, ordklasse, bøjning, derivation, faste udtryk (polyleksikalier) og inkorporerende verber. Analyse-modulet støtter sig til et håndbygget leksikon med enheder, der dækker over ca leksemer og udgør en tilpasset elektronisk version af ordbogsmateriale fra forfatterens cand.mag.- speciale om leksikografi (Bick, 1993) 2. en morfologisk disambiguator med 1700 Constraint Grammar regler 3. en syntaktisk "mapper" med 400 kontekstbaserede regler der "mapper" (alle mulige) syntaktiske funktioner udfra en ordforms morfologiske/ordklasse-tags 4. en syntaktisk disambiguator med 1500 Constraint Grammar regler 5. en disambiguator for valens og semantiske klasser (med 2200 Constraint Grammer regler, eksperimentel) En fuldstændig grammatisk analyse på alle niveauer håndterer ca. 200 ord/sec på en 200 MHz Pentium-baseret Linux-maskine. Den morfologiske/ordklasse-disambiguering alene opnår hastigheder i nærheden af 2000 ord/sec. Systemet kan afprøves igennem en interaktiv brugerflade på følgende web-adresse: 6. Det semantiske perspektiv: "Incremental Semantical Parsing" (ISP) Det er almindeligt at niveaudele sproglig analyse (såvel manuel som automatisk), fx i et morfologisk, syntaktisk, semantisk og pragmatisk niveau, hvor forskellige applikationer kræver en analyse på forskellige niveauer. Således er en morfologisk analyse tilstrækkelig for en forsker der arbejder med corpusbaserede frekvensanalyser, mens den internetbaserede grammatikformidling i projektet VISL kræver en syntaktisk analyse og maskinoversættelse en semantisk. Det ser imidlertid ud som om det samme redskab - Constraint Grammar - kan "presses" til stadigt højere analyseniveauer (Bick, 1996, 1997) - forudsat, der samtidigt udvikles en tilsvarende leksikografisk database. Man kan sige at analysens finkornethed her som andetsteds ikke er teknikken iboende, men snarere formålsdreven, og kan forbedres "inkrementelt". Således er det måske principielt umuligt databasemæssigt at definere det brasiliansk portugisiske ord fato, men i et bilingualt (dvs. praktisk orienteret MT-) perspektiv kan man udmærket adskille de tre danske oversættelser "kendsgerning", "habit" og "flok" ved hjælp af atomic semantic features som henholdsvis abstrakt ikke levende ("kendsgerning"), ikke abstrakt ikke levende ("habit") og ikke abstrakt levende ("flok"). Disse træk er ovenikøbet tilstrækkelige til at afgrænse (ikke definere!) større prototypfamilier mod hinanden, som "tøj" og "dyrisk flerhed" eller "menneskeflerhed" (i skemaet henholdsvis AA og HH). I en Constraint Grammar parser kan et hierarki af 16 Hertil kommer eksperimentelle moduler for portugisisk-dansk MT: polysemidisambiguering, oversættelse af disambiguerede grundformer, portugisisk-dansk syntaktisk transformation og en generator for dansk morfologi. 17

18 leksikon- og kontekst-drevne grammatiske regler "forbyde" eller "selektere" disse træk eller prototypiske trækfamilier 17 i den konkrete sætning. + ABSTRAKT kendsgerning LIV + LIV HH festtøj tøj habit stime drengebande AA dragt flok gruppe ABSTRAKT Diagrammet placerer en række ord i et semantisk felt, i forhold til hianden og i forhold til prototypiske begreber (halvstore grønne cirkler) eller trækkombinationer (store blå cirkler). Ordenes kernebetydninger er symboliseret ved små røde punkter, og deres semantiske muligheder med cirkler af mere eller mindre vilkårlig størrelse. Det fremgår at 'festtøj', 'dragt' og 'habit' er vanskelige at adskille, siden de alle tilhører prototypen 'tøj'. Derimod er et enkelt atomisk træk - ±LIV - nok til at distancere alle tre fra ord som 'flok' eller 'drengebande'. Vil man skelne mellem ord indenfor samme LIV/ABSTRAKT-kvadrant, skal der yderligere træk til, fx. ±DYR til at afgrænse AA-ordet 'stime' fra HH-ordet 'drengebande' ('flok' og 'drengebande' har et semantisk overlap, der kommer til udtryk i 'en flok drenge' og bedst kan beskrives som metaforisk: 'flok'-semet projicerer sit træk +DYR på det valensbundne komplement 'drenge'). Trækkombinationen +ABSTRAKT/+LIV udgår iøvrigt, idet ±LIV er en hierarkisk binær underopdelng af ABSTRAKT. En særlig elegant og "inkrementel" løsning for polysemireduktion af indholdsmæssigt flertydige ord er den semantiske udnyttelse af "lavere parsing- 17 I alt anvendes ca. 200 forskellige tags for semantiske prototyper. For substantivers vedkommende, er de semantiske tags afledt af 16 hierarkisk ordnede "atomare" træk. Verber tagges for ±HUM-subjektselektion, og adjektiver for ±HUM-nominalselektion. 18

19 information" (morfologisk form eller syntaktisk funktion), som systemet allerede er i stand til at slå fast. Ordet "saber" fx. betyder 'vide' når det er bøjet i imperfektum, men 'få at vide' i perfektum. Her kan morfologisk information kapitaliseres til semantiske formål. Også ordklassen kan bruges: er "saber" brugt som hjælpeverbum (AUX), betyder det 'kunne'. Endelig kan man udnytte syntaktisk information fra sætningens andre led til at instantiere et af flere mulige valensmønstre for "saber": mens både 'vide' og 'få at vide' kræver direkte objekter, skal betydningen 'smage' vælges før adverbiale komplementer (godt/dårligt), og 'smage af' før et præpositionalobjekt indledt af præpositionen 'a'. Leksikografisk kan denne fremgangsmåde implementeres ved hjælp af såkaldte (polysemi-) diskriminatorer: (11) saber IMPF, PERF, <de^vp> 'vide' 'få at vide' 'kunne' 'smage' 'smage af' 'kende til' [@ = syntaktisk funktion: MV =hovedverbum, AUX=hjælpeverbum; <> =valens: <vt> =transitiv, <+INF> efterfulgt af infinitiv, <va> =med adverbialobjekt, <vp> =med præpositionalobjekt, a^ =præposition "a", de^ =præposition "de"; morfologi: IMPF =imperfektum, PERF =perfektum] Endeligt kan de semantisk éntydige (eller allerede disambiguerede) ord hjælpe ved analysen af de flertydige. Således skal den portugisiske præposition "de" oversættes med 'fra', når præpositionens argument er et sted (+LOC), men 'af', hvis der følger et materialeord (fx. de ouro af guld) og med genitiv, hvis komplementet er et menneske (+HUM: o cachorro do homem - mandens hund). Igen skal tilsvarende diskriminatorer optages i leksikonnet, i form af semantisk beriget valensinformation (såkaldte selektionsrestriktioner). (12) Følgende sætning illustrerer mulighederner: apesar=de [apesar=de] <sam-> 'på trods af' * a [a] <-sam> <art> DET F 'den' advertência [advertência] <s> N F 'råd' de [de] <sam-> <+hum> '(genitiv)' * o [o] <-sam> <art> DET M 'den' meu [meu] <poss 1S> DET M 'min' pai [pai] <fam> N M 'far', que [que] <rel> SPEC M/F 'som' não [não] 'ikke' gosta [gostar] <de^vp> <vh> <ink> V PR 3S IND 'kunne lide' de [de] <sam-> 'af' * a [a] <-sam> <art> DET F 'den' minha [meu] <poss 1S> DET F 'min' 19

20 nova [novo] <ante-attr> <jn> ADJ F 'ny' vida [vida] <feat> <per> N F 'liv', comprei [comprar] <vt> <vh> <ink> V PS 1S IND 'købe' uma [um] <quant2> <arti> DET F 'en' carroçada [carroçada] <qus> N F 'læs' de [de] <quant+> '(partitiv)' * coisas [coisa] <cc> <ac> N F 'ting-1' $, por=exemplo [por=exemplo] <adv> <+NP> 'fx' um [um] <quant2> <arti> DET M 'en' fato [fato] <tøj> <AA> N M 'habit' de [de] <+mat> 'af' * lã [lã] <cm> <stof> N F 'uld' preta [preto] <col> <jn> ADJ F 'sort' que [que] <rel> SPEC 'som' veio [vir] <va+dir> <sn> V PS 3S IND 'komme' de [de] <sam-> <+top> 'fra' * a [a] <-sam> <art> DET F 'den' *argentina [Argentina] <top> PROP F 'Argentina' de [de] <+V> 'med' * avião [avião] <fly> N M 'fly' em=menos=de [em=menos=de] <c> 'på mindre end' * uma [um] <card> NUM F 'een' semana [semana] <dur> <num+> N F 'uge'. Den tilsvarende leksikonartikel oplister først en række valensmæssige og semantiske kontekstualiseringsmuligheder for præpositionen 'de', og angiver så hvilken oversættelse der skal vælges hvis den ene eller anden polysemi-diskrimintor instantieres (dvs. overlever disambiguerings-constraints'ene). Også information om syntaktisk funktion - fra det "næstlavere" parsingniveau - for komparativkomplement) kan bruges som diskriminator: de PRP <komp><corr><+hum><+mat><+top><+v><+feat><+il><+tøj><quant+> af (default-oversættelse) <quant+> (partitiv) (efter quantitiva) <+mat> af (før materiale-ord) <+hum> (genitiv) (før egennavne og ord for mennesker) <+V><+feat><+il><+tøj> med (før køretøjer, træk, værktøjer eller tøj) <+top> fra (før toponymer og andre stedbetegnelser) af, blandt (som komparativkomplement: "den største af..." end (som korrelativ komparativkomplement: "større end" 20

21 For substantivet 'fato' foreligger følgende polysemidiskriminatorer i leksikonnet, hvoraf nogle er valensinstantieringer (<+que>, <+de+que>, <+de+inf>), nogle semantiske prototyper (<ac><tøj><aa>) og én en oplisting af alle de atomare semantiske træk, prototyperne tilsammen dækker over (fx. A = +ANIM, a = ANIM). fato N M <ac><tøj><aa><+que><+de+que><+de+inf><=eeciijjaahmnnvpsdxflt=> <ac><+de+que><+de+inf> kendsgerning <tøj> habit, kostyme <AA> flok {fx geder} fato=de=banho N M badedragt fato=de=macaco N M kedeldragt I sætningen 'Um fato de ovelhas corria no campo' skal parseren bruge 8 regler for at disambiguere polysemien i 'fato', - ikke medregnet de regler for sætningens øvrige ord, der skulle til for at skabe de nødvendige éntydige kontekstbetingelser. (12a) *um [um] <quant2> <arti> DET M 'en' fato [fato] <AA> N M 'flok' UTR de [de] <quant+> '(partitiv)' ovelhas [ovelha] <zo> N F 'får' NEU corria [correr] <vi> V IMPF 1/3S IND 'løbe' PCP-ER em [em] <sam-> <+top> 'i' o [o] <-sam> <art> DET M 'den' campo [campo] <BB> <top> <topabs> N M 'mark-2' UTR 8784 En prøvekørsel af parseren med regel-tracing viser at der først anvendes 3 valensinstantieringsregler: REMOVE (<+de+que>) (*1 CLB/SB LINK NOT 0 QUE-KS) ;... hvis den næstfølgende (led)sætningsgrænse ikke er konjunktionen 'que'. REMOVE (<+que>) (*1 NON-ADV LINK NOT 0 QUE-KS) ;... hvis det førstfølgende ikke-adverbielle ord ikke er konjunktionen 'que'. REMOVE (<+de+inf>) (*1 CLB/SB OR <+PRP+INF> ;... hvis der ikke forekommer en præpositionskomplementerende infinitiv før den næstfølgende sætningsgrænse eller infinitivvalente præposition. Herefter fjernes positive (store bogstaver) eller negative (små bogstaver) semantic features. Den eneste virkelige regel er den første, der slår fast at 'fato' i denne sætning kan bevæge sig; de andre er bare "reflekskonklusioner" ud fra trækket +MOVE. REMOVE (<i>) AND <I>) BARRIER CLB-ORD LINK 0 V- MOVE); hvis det er subjekt og der følger et bevægelses-hovedverbum uden sætningsgrænse imellem, så kan det bevæge sig. REMOVE (<j>) (NOT 0 <i>) ; 21

22 hvis det kan bevæge sig (aktiv bevægelighed, + =I, =i), kan man også bevæge det (passiv bevægelighed, + =J, =j). REMOVE (<tøj>) (NOT 0 <i>) ; det kan ikke være prototypen tøj hvis den kan bevæge sig. REMOVE (<e>) (NOT 0 <i>) ; det kan ikke være abstrakt hvis den kan bevæge sig. REMOVE (<ac>) (NOT 0 <e>) ; det kan ikke være prototypen 'abstrakt ting', hvis det ikke er abstrakt. I udtrykket 'Um fato de lã preta' bruges 4 af de samme regler plus en regel der fastslår den postnominale materialekontekst (af sort uld) til højre. (12b) *um fato de lã preta [um] <quant2> <arti> DET M 'en' [fato] <tøj> <AA> N M 'habit' [de] <+mat> 'af' [lã] <cm> <stof> N F 'uld' [preto] <col> <jn> ADJ F 'sort' REMOVE (<+de+que>) (*1 CLB/SB LINK NOT 0 QUE-KS) ; REMOVE (<+que>) (*1 NON-ADV LINK NOT 0 QUE-KS) ; REMOVE (<+de+inf>) (*1 CLB/SB OR <+PRP+INF> ; REMOVE (<e>) (*1 PRP-DE BARRIER NON-POST-N LINK LINK LINK 0 <M> AND <E>); det kan ikke være abstrakt, hvis der uden andet end postnominaler imellem følger præpositionen 'de' brugt som postnominal og med et direkte efterfølgende (dvs. artikelløs) argument af typen +MASS og +KONKRET (dvs. fx. stof, materiale). REMOVE (<ac>) (NOT <=e>) ; Selv hvor ingen af de semantiske regler griber, kan det stadigt være en valensinstantiering, der afgør polysemidifferentieringen 18. Her er det <+de+que> der overlever constraints'ene. (12c) *o [o] <art> DET M 'den' fato [fato] <ac> <tøj> <AA> <+de+que> N M 'kendsgerning' de [de] '(af)' que 'at' sua [seu] <poss 3S/P> DET F 'hans' namorada [namorada] <title> N F 'kæreste' tem [ter] <vt> <sh> V PR 3S 'have' um [um] <quant2> <arti> DET M 'en' emprego [emprego] <stil> <ac> N M 'stilling' REMOVE (<+qu>) (*1 NON-POST-N LINK NOT 0 QUE-KS) ; 18 Parseren vælger det oversættelsesalternativ, der har flest overlevende diskriminatorer. Er dette kriterium utilstrækkelig, vælges på heuristisk vis den første oversættelse i listen. 22

23 hvis det første ord efter eventuelle postnominaler ikke er konjunktionen 'que'. REMOVE (<+de+inf>) (*1 CLB/SB OR <+PRP+INF> ; 7. Konklusion Constraint-Grammar-baserede parsere er robuste og kan opnå meget lave fejlprocenter på fri, løbende tekst. Metoden lægger op til en deskriptivt elegant, ordbaseret notation, der inden for samme formalisme kan håndtere flere grammatiske analyseniveauer. På det morfologiske plan synes portugisisk, et stærkt inflekterende sprog med relativ fri ordstilling, at udvise den samme grad af ambiguitets- og regelkompleksitet som engelsk, et inflektionsfattigt sprog med fast ordstilling, et faktum der underbygger Constraint- Grammer-skolens påstand om formalismens universalitet og sproguafhængighed 19. På det syntaktiske plan er det lykkedes for portugisisk at behandle også ledsætningers mere komplekse form og funktion, samt at muliggøre automatisk transformation fra en detaljeret flad dependensnotation til konstituentgrammatiske træstrukturer. Endeligt viser forsøg med det semantiske plan 20 at formalismen også er egnet til en bilingual motiveret polysemiresolution, på den ene side ved at udnytte morfologisk-syntaktisk information (herunder instantieret valens) fra "lavere" analyseniveauer, på den anden side ved at disambiguere semantisk ambiguitet ved hjælp af tags for semantiske prototyper og atomare semantiske træk. Resultaterne peger på at parseren vil kunne integreres i applikative kontekster som fx. maskinoversættelse, grammatiske tutoring systemer 21 og grammatiske filtre til corpussøgning. 19 Sproguafhængighed gælder formalismen og compiler-implementeringen, ikke de enkelte regler, der ikke kan overføres fra et sprog til et andet. 20 Det semantiske plan er ellers ikke omfattet af Ph.D.-projektet, ligesom en del af det syntaktiske arbejde ligger udenfor projektrammen. 21 Parseren er blevet forsynet med en tilsvarende (prototypisk) brugerflade i forbindelse med VISL-projektet ved Institut for Sprog og Kommunikation, OU (Visual Interactive Syntax Learning). 23

24 Litteratur Eckhard Bick, Portugisisk - Dansk Ordbog, Mnemo, Århus, 1993, 1995 Eckhard Bick, The Parsing System "Palavras", Documentation, upubliceret Ph.D. projektevaluering, 1995 Eckhard Bick, Automatic Parsing of Portuguese, i Proceedings of the Second Workshop on Computational Processing of Written Portuguese, Curitiba, 1996 Eckhard Bick, Dependensstrukturer i Constraint Grammar Syntaks for Portugisisk, i Datalingvistisk forenings årsmøde nr.6, Aalborg 1997 Jean-Pierre Chanod & Pasi Tapanainen, "Tagging French - comparing a statistical and a constraint-based method", adapted from: Statistical and Constraint-based Taggers for French, Technical report MLTT-016, Rank Xerox Research Centre, Grenoble, 1994 Timo Järvinen, "Annotating 200 million words: The Bank of English project", i Proceedings of The 15th International Conference on Computational Linguistics Coling-94, Kyoto, Japan, 1994 (citeret fra: Pasi Tapanainen, The Constraint Grammar Parser CG-2, Publications No. 27, Department of Linguistics, University of Helsinki, 1996) Timo Järvinen & Pasi Tapanainen, A Dependency Parser for English, Helsinki, 1997 Fred Karlsson, Atro Voutilainen, Juka Heikkilä, Arto Anttila (eds.), "Constraint Grammar, A Language-Independent System for Parsing Unrestricted Text, with an application to English", i: Natural language text retrieval. Workshop notes from the Ninth National Conference on Artificial Intelligence, Anaheim, CA, American Association for Artificial Intelligence, 1991 Fred Karlsson, Atro Voutilainen, Juka Heikkilä, Arto Anttila (eds.), Constraint Grammar, A Language-Independent System for Parsing Unrestricted Text, Mouton de Gruyter, Berlin 1995 Fred Karlsson, "Robust parsing of unconstrained text", pp , i: Nellike Oostdijk & Pieter de Haan, Corpus-based research into language, Amsterdam, 1994 Kimmo Koskenniemi, Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production, Publication No. 11, Department of Linguistics, University of Helsinki,

AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG. Eckhard Bick

AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG. Eckhard Bick AUTOMATISK ANALYSE AF PORTUGISISK SKRIFTSPROG Eckhard Bick Institut for Lingvistik, Århus Universitet, Nordre Ringgade, DK-8000 Århus C tel: +45-89 422152, fax: +45-86 281397, e-mail: lineb@hum.aau.dk

Læs mere

Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk

Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk EN CONSTRAINT GRAMMAR PARSER FOR DANSK Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk 1. Projektet Det moderne samfunds udstrakte brug

Læs mere

DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK. Eckhard Bick

DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK. Eckhard Bick DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK Eckhard Bick Institut for Lingvistik, Århus Universitet, Nordre Ringgade, DK-8000 Århus C tel: +45-89 422170, fax: +45-86 281397, e-mail:

Læs mere

Parsing-systemet Palavras

Parsing-systemet Palavras Eckhard Bick Parsing-systemet Palavras Automatisk Grammatisk Analyse af Portugisisk i et Constraint Grammar-Miljø Institut for Lingvistik, Aarhus Universitet e-mail: lineb@hum.au.dk, web: http://visl.hum.sdu.dk

Læs mere

DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK. Eckhard Bick. Abstract

DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK. Eckhard Bick. Abstract DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK Eckhard Bick Institut for Lingvistik, Århus Universitet, Nordre Ringgade, DK- 8000 Århus C tel: +45-89 422170, fax: +45-86 281397, e- mail:

Læs mere

MORFOSYNTAKTISK OPMÆRKEDE KORPORA FOR DANSK: KORPUS90/2000 OG ARBORETUM Af Eckhard Bick (Institut for Sprog og Kommunikation, Syddansk Universitet)

MORFOSYNTAKTISK OPMÆRKEDE KORPORA FOR DANSK: KORPUS90/2000 OG ARBORETUM Af Eckhard Bick (Institut for Sprog og Kommunikation, Syddansk Universitet) MORFOSYNTAKTISK OPMÆRKEDE KORPORA FOR DANSK: KORPUS90/2000 OG ARBORETUM Af Eckhard Bick (Institut for Sprog og Kommunikation, Syddansk Universitet) 1. Introduktion En lang række lingvistiske applikationsområder,

Læs mere

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.

Læs mere

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.

Læs mere

Basale hjælpemidler til løsning af skriftlige afleveringer/ årsprøve/ terminsprøve og eksamen:

Basale hjælpemidler til løsning af skriftlige afleveringer/ årsprøve/ terminsprøve og eksamen: Græsk De skriftlige afleveringer i græsk og latin minder om hinanden i opbygning; i begge prøves i en sproglig og en indholdsmæssig del. I græsk er der også spørgsmål i morfologi (orddannelse), oversættelsesvurdering

Læs mere

JO HERMANN. Latinsk grammatik. på dansk. Akademisk Forlag

JO HERMANN. Latinsk grammatik. på dansk. Akademisk Forlag JO HERMANN Latinsk grammatik på dansk Akademisk Forlag Latinsk grammatik på dansk 2. udgave, 2. 4. oplag, 2. 2011 Jo Hermann og Akademisk Forlag, et forlag under Lindhardt og Ringhof Forlag A/S, et selskab

Læs mere

Ordliste over anvendt fagterminologi

Ordliste over anvendt fagterminologi Ordliste over anvendt fagterminologi Adjektiv / tillægsord Adverbial / biled Adverbium / biord Akkusativ m. infinitiv Ord, der beskriver eksempelvis en person eller en genstand, f.eks. er stor, god og

Læs mere

Sprogteknologi I Undervisningsplan Forårssemester 2009

Sprogteknologi I Undervisningsplan Forårssemester 2009 Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog

Læs mere

gyldendal tysk grammatik

gyldendal tysk grammatik agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik gyldendal

Læs mere

Sprogteknologi I Undervisningsplan Forårssemester 2008

Sprogteknologi I Undervisningsplan Forårssemester 2008 Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer

Læs mere

Grammatik: Fællesnavne: Ting, begreber og levende væsener: F.eks. knallert, spade, radio, virkelighed, ide, hund, giraf

Grammatik: Fællesnavne: Ting, begreber og levende væsener: F.eks. knallert, spade, radio, virkelighed, ide, hund, giraf Grammatik: Substantiver (navneord) Substantiver er benævnelser for personer, steder, begreber og ting. Der findes to slags: Køn: Fællesnavne: Ting, begreber og levende væsener: F.eks. knallert, spade,

Læs mere

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Overordnede faglige mål med AP-forløbet Det primære formål med AP er at give eleverne en nødvendig basisforståelse for morfologi,

Læs mere

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik. Bente Maegaard, Københavns Universitet, Institut for anvendt og m a t e m a t i s k lingvxstik, Njalsgade 96 2300 K ø b e n h a v n S R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

Læs mere

Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet

Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet MORFOSYNTAKTISK OPMÆRKEDE KORPORA FOR DANSK: KORPUS90/2000 OG ARBORETUM Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk 1. Introduktion En

Læs mere

CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora

CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora Peter Widell og Mette Kunøe (udg.): 10. Møde om Udforskningen af Dansk Sprog Århus 2004 CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora Af Eckhard Bick (Syddansk Universitet)

Læs mere

Prosodi i ledsætninger

Prosodi i ledsætninger Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger

Læs mere

DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER

DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER M20 DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER At træne eleverne i de danske og latinske betegnelser inden for den mest gængse grammatik. NB! Mulighed for selvkontrollerende aktiviteter med vendekortene.

Læs mere

Sprogteknologiske resourcer for islandsk leksikografi

Sprogteknologiske resourcer for islandsk leksikografi Eiríkur Rögnvaldsson Sprogteknologiske resourcer for islandsk leksikografi Seminar om leksikografi og sprogteknologi Schæffergården 31. januar 2010 Foredragets emne Islandsk sprogteknologi omkring århundredskiftet

Læs mere

Minigrammatik. Oversigter fra tysk.gyldendal.dk

Minigrammatik. Oversigter fra tysk.gyldendal.dk Minigrammatik Oversigter fra Artikler (kendeord) 1 Artikler danner bestemte eller ubestemte former af substantiver (navneord). De viser også, hvilket køn et substantiv har, om det er ental eller flertal,

Læs mere

Dette er et uddrag fra: Lis og Torben Pøhler: "Hu Hej - Vild med dyr" - en læsevejledning Maaholms Forlag 2000.

Dette er et uddrag fra: Lis og Torben Pøhler: Hu Hej - Vild med dyr - en læsevejledning Maaholms Forlag 2000. LET-tallet Dette er et uddrag fra: Lis og Torben Pøhler: "Hu Hej - Vild med dyr" - en læsevejledning Maaholms Forlag 2000. Langt de fleste letlæsningsbøger i Danmark er i dag»lix'et«, det vil sige, at

Læs mere

FIP-kursus i tysk WORKSHOP MED FOKUS PÅ DEN NYE SKRIFTLIGE PRØVE

FIP-kursus i tysk WORKSHOP MED FOKUS PÅ DEN NYE SKRIFTLIGE PRØVE FIP-kursus i tysk WORKSHOP MED FOKUS PÅ DEN NYE SKRIFTLIGE PRØVE Program Præsentation af den nye skriftlige prøves opbygning og opgavetyper Bedømmelseskriterier Opgavetyper Eksempler på træningsopgaver

Læs mere

Lingvistik Analyse M etode data Baser Datamater Applikation

Lingvistik Analyse M etode data Baser Datamater Applikation Lingvistik Analyse M etode data Baser Datamater Applikation Nr 7. N o rd isk e D a t a lin g v is t ik d a g e og Symposium f o r d a t a m a t s t ø t t e t l e k s i k o g r a f i og t e r m in o lo

Læs mere

PaNoLa: The Danish Connection. Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet lineb@hum.au.dk, http://visl.hum.sdu.

PaNoLa: The Danish Connection. Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet lineb@hum.au.dk, http://visl.hum.sdu. PaNoLa: The Danish Connection Eckhard Bick Institut for Sprog og Kommunikation, Syddansk Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk 1. The project PaNoLa (Parsing Nordic Languages) is a two-year

Læs mere

Vejledning for censorer i skriftlig spansk begyndersprog A, stx. Gl-Spansk digital

Vejledning for censorer i skriftlig spansk begyndersprog A, stx. Gl-Spansk digital Maj 2019 Vejledning for censorer i skriftlig spansk begyndersprog A, stx Gl-Spansk digital Den digitale prøve i spansk begyndersprog A består af to delprøver. Bedømmelsen er en samlet helhedsvurdering

Læs mere

Sådan bruger du Den Engelske Regnskabsordbog

Sådan bruger du Den Engelske Regnskabsordbog Sådan bruger du Den Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.

Læs mere

Gruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi

Gruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi Skriftlig gruppeaflevering Morfologi 1. Løs nedenstående opgaver sammen med jeres studiegruppe 2. Aflever ét eksemplar samlet for hele studiegruppen a. a. Notér på opgaven: i. Uddannelse (Logopædi, Pædagogisk

Læs mere

LOGIK ANVENDT TIL OVERSÆTTELSE AF JAPANSK.

LOGIK ANVENDT TIL OVERSÆTTELSE AF JAPANSK. Arendse Bernth Datalogisk Inst. Københavns Univ. Sigurdsgade 41, DK-2200 København N LOGIK ANVENDT TIL OVERSÆTTELSE AF JAPANSK. På Datalogisk Institut ved Københavns Universitet eksperimenteres for tiden

Læs mere

Vejledning for censorer i skriftlig fransk begyndersprog A, hhx. Gl-Fransk digital

Vejledning for censorer i skriftlig fransk begyndersprog A, hhx. Gl-Fransk digital Maj 2019 Vejledning for censorer i skriftlig fransk begyndersprog A, hhx Gl-Fransk digital Den digitale prøve i fransk begyndersprog A består af to delprøver. Bedømmelsen er en samlet helhedsvurdering

Læs mere

Medfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog:

Medfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog: Medfødt grammatik I slutningen af 1950 erne argumenterede lingvisten Noam Chomsky for, at sprogets generativitet måtte indeholde nogle komplekse strukturer. Chomskys argumentation bestod primært af spørgsmålet

Læs mere

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Overordnede faglige mål med AP-forløbet Det primære formål med AP er at give eleverne en nødvendig basisforståelse for morfologi,

Læs mere

Gerhard Boysen: Fransk grammatik. København: Munksgaard, 1992.

Gerhard Boysen: Fransk grammatik. København: Munksgaard, 1992. Merete Birkelund 133 Gerhard Boysen: Fransk grammatik. København: Munksgaard, 1992. Forlaget Munksgaard har med Gerhard Boysens Fransk Grammatik, 1992, indledt en grammatikserie i romanske sprog, der senere

Læs mere

SPROGNOTER for mindrebemidlede

SPROGNOTER for mindrebemidlede AALBORG UNIVERSITET CENTER FOR LINGVISTIK HANS GÖTZSCHE SPROGNOTER for mindrebemidlede Emne: SPROG og TEKSTLIG FREMSTILLING version opd/prt 2011-09-07 Teori og eksempler: ORD OG SÆTNING BLIVER TIL TEKST

Læs mere

Morfologi og syntaks

Morfologi og syntaks Morfologi formlære, ordføjningslære - læren om ordenes opbygning og former Morfologi Rod et ord mindste kerne (rodmorfem) Morfologi Rod et ord mindste kerne: hus Morfologi Rod et ord mindste kerne: hus

Læs mere

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks Opgave 1: Vigtige begreber 1. Syntagmerne, som udgør sætningens byggesten, er helheder bygget op af ét hovedord, der kan knytte foranstillede og efterstillede bestemmelser til sig. 2. Det rekursive princip,

Læs mere

Hjælp til kommatering

Hjælp til kommatering Hjælp til kommatering Materialet her indeholder en række forklaringer som er nødvendige for at kunne sætte komma. Vælg ud hvad du synes er relevant for dig. Indhold i materialet Hvis du venstreklikker

Læs mere

ENGELSK GRAMMATIK. Videooversigt. De skriftlige opgaver... 2 Eksamen... 2 Grammatik... 3 Shakespeare... 4 Up your game!... 5.

ENGELSK GRAMMATIK. Videooversigt. De skriftlige opgaver... 2 Eksamen... 2 Grammatik... 3 Shakespeare... 4 Up your game!... 5. ENGELSK GRAMMATIK Videooversigt De skriftlige opgaver... 2 Eksamen... 2 Grammatik... 3 Shakespeare... 4 Up your game!... 5 36 Videoer 1 De skriftlige opgaver Eksamen Den skønlitterære stil 1. Hvordan starter

Læs mere

Intro til design og brug af korpora

Intro til design og brug af korpora Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-

Læs mere

substantiver/navneord

substantiver/navneord appellativer/fællesnavne - ting, begreber og levende væsner - fx cykel, virkelighed, mening osv. proprier/egennavne - navne på personer, institutioner, steder, ting mv., som der kun er én af - fx Eva,

Læs mere

Faglig praksis i udvikling i tysk stx

Faglig praksis i udvikling i tysk stx Faglig praksis i udvikling i tysk stx F R E D E R I K S B E R G GY M N A S I U M 1 2. A P R I L 2 0 1 6 Mette Hermann Indhold Input 1: 11.15 12.00 Sprogsyn i læreplanen Kommunikativ sprogundervisning Kobling

Læs mere

Ny Forskning i Grammatik

Ny Forskning i Grammatik Ny Forskning i Grammatik Titel: Forfatter: Kilde: URL: Sætningsled Argumenter vs modifikatorer Finn Sørensen P. Durst-Andersen og J. Nørgård-Sørensen (red.). Ny Forskning i Grammatik 2, 1995, s. 41-47

Læs mere

Projektpræsentation. Grammatiske relationer i sætninger og nominalsyntagmer en tværsproglig analyse med tværteoretisk tilgang.

Projektpræsentation. Grammatiske relationer i sætninger og nominalsyntagmer en tværsproglig analyse med tværteoretisk tilgang. Ph.D.-studerende Katrine Tafteberg Jakobsen Projektpræsentation Grammatiske relationer i sætninger og nominalsyntagmer en tværsproglig analyse med tværteoretisk tilgang. (Delområde 3.1 i den overordnede

Læs mere

Sproget Six. Til brug i rapportopgaven på kurset Oversættere. Vinter 2006. Abstract

Sproget Six. Til brug i rapportopgaven på kurset Oversættere. Vinter 2006. Abstract Sproget Six Til brug i rapportopgaven på kurset Oversættere Vinter 2006 Abstract Six er baseret på det sprog, der vises i figur 6.2 og 6.4 i Basics of Compiler Design. Den herværende tekst beskriver basissproget

Læs mere

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks Opgave 1: Vigtige begreber 1. Syntagmerne, som udgør sætningens byggesten, er helheder bygget op af ét hovedord, der kan knytte foranstillede og efterstillede bestemmelser til sig. 2. Det rekursive princip,

Læs mere

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt. Børns morfologi En optælling af Peters ordforråd viser, at han den ordklasse han bruger mest, er substantiver. Det hænger hovedsageligt sammen med, at det er nemmere at forene en fysisk genstand med en

Læs mere

GRAMMATIK OVER DET DANSKE SPROG

GRAMMATIK OVER DET DANSKE SPROG ERIK HANSEN OG LARS HELTOFT GRAMMATIK OVER DET DANSKE SPROG Indledning og oversigt BIND I UNIVERSITÅTSBIBLIOTHEK KIEL - ZENTRALBIBLIOTHEK - D S L Det Danske Sprog- og Litteraturselskab Syddansk Universitetsforlag

Læs mere

Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog

Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december 2016 Dansk som andetsprog Information om prøven i skriftlig fremstilling D Prøven i skriftlig fremstilling D består af et teksthæfte,

Læs mere

Faglig praksis i udvikling i tysk hhx

Faglig praksis i udvikling i tysk hhx Faglig praksis i udvikling i tysk hhx C A M P U S V E J L E 2 6. A P R I L 2 0 1 6 Mette Hermann Indhold Input 1: 11.15 12.00 Sprogsyn i læreplanen Kommunikativ sprogundervisning Kobling af fagets discipliner

Læs mere

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Overordnede faglige mål med AP-forløbet Det primære formål med AP er at give eleverne en nødvendig basisforståelse for morfologi,

Læs mere

Censorvejledning engelsk A og B, stx Maj 2014

Censorvejledning engelsk A og B, stx Maj 2014 Censorvejledning engelsk A og B, stx Maj 2014 Hanne Kær Pedersen Fagkonsulent hanne.kaer.pedersen@uvm.dk 25324494 Indholdsfortegnelse Censorvejledning engelsk A og B, stx... 1 Maj 2014... 1 Opgavesættet...

Læs mere

Grammatisk mini-encyklopædi Ved Sten Stenbæk Fjerritslev Gymnasium

Grammatisk mini-encyklopædi Ved Sten Stenbæk Fjerritslev Gymnasium Grammatisk mini-encyklopædi Ved Sten Stenbæk Fjerritslev Gymnasium Mini-encyklopædien er bygget alfabetisk op. Der er 3 måder at orientere sig: 1. Du kan bruge alfabet-bjælken herover 2. Du kan også trykke

Læs mere

Christian Becker-Christensen. dansk syntaks. Indføring i dansk sætningsgrammatik og sætningsanalyse

Christian Becker-Christensen. dansk syntaks. Indføring i dansk sætningsgrammatik og sætningsanalyse Christian Becker-Christensen dansk syntaks Indføring i dansk sætningsgrammatik og sætningsanalyse DANSK SYNTAKS Indføring i dansk sætningsgrammatik og sætningsanalyse CHRISTIAN BECKER-CHRISTENSEN Christian

Læs mere

Fagplan. Fransk B Niveau. Biology B

Fagplan. Fransk B Niveau. Biology B Fagplan Fransk B Niveau Biology B Fransk B Niveau Video Oversigt Grammatik...4 Udtale...9 Eksamen...10 18 videoer i Fransk B Niveau Sidst opdateret d. 28-07-2019 2/10 Videoplayerinstructions for the teacher

Læs mere

A Profile for Safety Critical Java

A Profile for Safety Critical Java A Profile for Safety Critical Java Martin Schoeberl Hans Søndergaard Bent Thomsen Anders P. Ravn Præsenteret af: Henrik Kragh-Hansen November 8, 2007 Forfatterne Martin Schoeberl Udvikler af JOP processoren

Læs mere

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Overordnede faglige mål med AP-forløbet Det primære formål med AP er at give eleverne en nødvendig basisforståelse for morfologi,

Læs mere

Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve

Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve Maj 2018 Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx Analog prøve Den skriftlige eksamen i fransk er først og fremmest en sproglig prøve, som skal give eksaminanderne

Læs mere

Janni Nielsen Department of Informatics HCI Research Group

Janni Nielsen Department of Informatics HCI Research Group Janni Nielsen Department of Informatics HCI Research Group SKAL VI SE PÅ BRUGERNE? - KULTURSPECIFIKKE PERSPEKTIVER PÅ USABILITY WORLD USABILITY DAY, 14 NOVEMBER, 2006 Globale digitalisering - verdens borgere

Læs mere

CD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet

CD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet CD-ORD 8 Værktøjet til læsning og skrivning mikro Værkstedet CD-ORD CD-ORD er et personligt værktøj, der tilbyder støtte til læsning og skrivning for alle - i skolen, på jobbet, under uddannelse eller

Læs mere

Kursusguide. Grammatik og sprogbeskrivelse I, II og III

Kursusguide. Grammatik og sprogbeskrivelse I, II og III Modul: Tysk sprog Kursusguide Grammatik og sprogbeskrivelse I, II og III Tysk åben uddannelse Aalborg Universitet Indholdsfortegnelse 1. Introduktion til kurset 2. Kursets mål 3. Eksamen 4. Kursets opbygning,

Læs mere

Latin 10 gode råd: ikke Afleveringer Syntaktisk analyse

Latin 10 gode råd: ikke Afleveringer Syntaktisk analyse Latin Det overordnet formål med skriftlig latin i gymnasieksolen er at vise, at man har forstået sproget både gennem syntaktisk analyse / oversættelse og analyse af indholdet. Lige meget hvilken type opgave,

Læs mere

Evaluering af skriftlig eksamen i spansk A (hhx) maj/juni 2017

Evaluering af skriftlig eksamen i spansk A (hhx) maj/juni 2017 Evaluering af skriftlig eksamen i spansk A (hhx) maj/juni 2017 Oktober 2017 1. Evaluering af skriftlig eksamen i spansk A (hhx) 2017 Sommer 2017 var der to opgavesæt til den skriftlige prøve i spansk A,

Læs mere

Repræsentationer af handlinger og sproghandlinger

Repræsentationer af handlinger og sproghandlinger Repræsentationer af handlinger og sproghandlinger Generelt: I denne opgave omhandler pensum generelt koblingen mellem IT-systemer, som et medium hvorved brugerne af disse systemer udfører sproghandlinger.

Læs mere

Teknisk tegning Flowdiagrammer til procesanlæg Generelle regler

Teknisk tegning Flowdiagrammer til procesanlæg Generelle regler Dansk Standard DS/EN ISO 10628 1. udgave Godkendelsesblad Godkendt:2001-04-06 Teknisk tegning Flowdiagrammer til procesanlæg Generelle regler Flow diagrams for process plants General rules DANSK STANDARD

Læs mere

Part 5 Leisure Time and Transport

Part 5 Leisure Time and Transport Part 5 Leisure Time and Transport Lesson 3 Situation and Listen & Practice Situation Line and Louise are colleagues. They meet at a café before work. Line is late because h bike had a puncture on the way.

Læs mere

Latinsk Grammatik AIGIS 8,2 1

Latinsk Grammatik AIGIS 8,2 1 Latinsk Grammatik anmeldt af Sebastian Persson Dirk Panhuis, Latin Grammar, The University of Michigan Press, Ann Arbor, 2006 oversat af forfatteren sammen med Gertrud Champe fra Latijnse grammatica, Garant,

Læs mere

GRAMMATIK OVER DET DANSKE SPROG

GRAMMATIK OVER DET DANSKE SPROG ERIK HANSEN OG LARS HELTOFT GRAMMATIK OVER DET DANSKE SPROG Sætningen og dens konstruktion BIND III UIMIVET.S!TÅTS3iCL!CTHI,v k!... j -ZENTHALBiBUOTHEK- D S L Det Danske Sprog- og Litteraturselskab Syddansk

Læs mere

Web of Science Core Collection

Web of Science Core Collection Dato: 29. juni 2016 Ref.: Randi Juul Nørskov Web of Science Core Collection Udgiver: Thomson Reuters Type: Bibliografisk database / henvisning til artikler Indhold og omfang Tværvidenskabelig database

Læs mere

FOR BETTER UNDERSTANDING. WordFinder. Professional 10. Kvikguide

FOR BETTER UNDERSTANDING. WordFinder. Professional 10. Kvikguide FOR BETTER UNDERSTANDING WordFinder Professional 10 Kvikguide Installationsvejledning 1 Indsæt program-dvd en i computeren. Installationsprogrammet starter nu automatisk. 2 Kontroller, at det nummer, som

Læs mere

Formula 1. Hvis du vil udfordre dine elever, kan du bede dem slå gloserne fra, når de læser teksten.

Formula 1. Hvis du vil udfordre dine elever, kan du bede dem slå gloserne fra, når de læser teksten. Formula 1 Niveau 5. klasse Varighed 10-12 lektioner Om forløbet Formula 1 handler om motorsport og har fokus på ordforråd, der handler om biler og racerløb. Eleverne skal også både lytte og læse til tekster

Læs mere

Grammatik Personlige pronominer Institutionaliserede præpositioner

Grammatik Personlige pronominer Institutionaliserede præpositioner Grammatik Institutionaliserede præpositioner Laila Kjærbæk FIO2009 Tirsdag den 2. juni 2009 Pronominer (stedord) Et pronomen er et ord, der står i stedet for eller henviser til andre ord, først og fremmest

Læs mere

Nye tiltag i grammatikundervisningen

Nye tiltag i grammatikundervisningen Vibeke Andersen* 187 Nye tiltag i grammatikundervisningen Abstract The author discusses the disadvantages of traditional grammar teaching from a didactic and learning perspective. Traditional grammar teaching

Læs mere

Sprogskader, Neurologi og Lingvistisk Teori.

Sprogskader, Neurologi og Lingvistisk Teori. K. R. C. 2001 resumé i Dansk resumé: Sprogskader, Neurologi og Lingvistisk Teori. Baseret på fakta såsom, at sproget er et artsspecifikt menneskeligt træk, og at det er universelt for alle mennesker, argumenterer

Læs mere

Niveau Gennemsnit (ikke beståede i %) Begyndersprog A 3,5 (26,0) Begyndersprog A med netadgang 5,26 (3,5) Fortsættersprog A 4,3 (5,3)

Niveau Gennemsnit (ikke beståede i %) Begyndersprog A 3,5 (26,0) Begyndersprog A med netadgang 5,26 (3,5) Fortsættersprog A 4,3 (5,3) Uddannelsesaftaler Evaluering af skriftlig eksamen i fransk A (hhx) maj/juni 2017 Oktober 2017 1. Evaluering af skriftlig eksamen i fransk A (hhx) 2017 Sommer 2017 var der tre opgavesæt til den skriftlige

Læs mere

DET SOM FORMELT SUBJEKT, OBJEKT OG PRÆDIKATIV I DANSK

DET SOM FORMELT SUBJEKT, OBJEKT OG PRÆDIKATIV I DANSK FOLIA SCANDINAVICA VOL. 10 POZNAŃ 2009 DET SOM FORMELT SUBJEKT, OBJEKT OG PRÆDIKATIV I DANSK ANDRZEJ SZUBERT Adam Mickiewicz University, Poznań ABSTRACT. The aim of the article is to present and analyse

Læs mere

Import af rekursivt (parent-child) hierarki i Palo

Import af rekursivt (parent-child) hierarki i Palo Import af rekursivt (parent-child) hierarki i Palo Dette dokument beskriver hvordan et simpelt rekursivt (parent-child) hierarki kan importeres ind i Palo på forskellige måder via SQL og samtidig bibeholde

Læs mere

Alphabetical list of primary and secondary tags currently used in corpus annotation with the DanGram parser

Alphabetical list of primary and secondary tags currently used in corpus annotation with the DanGram parser Alphabetical list of primary and secondary tags currently used in corpus annotation with the DanGram parser The tag list given here is a complete alphabetical inventory of all tags used when choosing "parser

Læs mere

REDIGERING AF REGNEARK

REDIGERING AF REGNEARK REDIGERING AF REGNEARK De to første artikler af dette lille "grundkursus" i Excel, nemlig "How to do it" 8 og 9 har været forholdsvis versionsuafhængige, idet de har handlet om ting, som er helt ens i

Læs mere

Almen sprogforståelse

Almen sprogforståelse Almen sprogforståelse Silkeborg Gymnasium 2017 Læreplansrevisionen i 2017 har endnu ikke medført de store ændringer i forløbs- og lektionsplanerne for da de fleste nye punkter allerede stort set blev tilgodeset

Læs mere

Censorvejledning engelsk B, HF 2017-læreplan

Censorvejledning engelsk B, HF 2017-læreplan Maj 2019 Line Flintholm, fagkonsulent line.flintholm@stukuvm.dk 33 92 53 83 Indholdsfortegnelse... 1 Det skriftlige opgavesæt HF B... 1 Bedømmelsen af opgaven... 1 Hvad prøves der i?...2 Prøver i opgavens

Læs mere

Appendiks 6: Universet som en matematisk struktur

Appendiks 6: Universet som en matematisk struktur Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes

Læs mere

Applications. Computational Linguistics: Jordan Boyd-Graber University of Maryland RL FOR MACHINE TRANSLATION. Slides adapted from Phillip Koehn

Applications. Computational Linguistics: Jordan Boyd-Graber University of Maryland RL FOR MACHINE TRANSLATION. Slides adapted from Phillip Koehn Applications Slides adapted from Phillip Koehn Computational Linguistics: Jordan Boyd-Graber University of Maryland RL FOR MACHINE TRANSLATION Computational Linguistics: Jordan Boyd-Graber UMD Applications

Læs mere

Skriftlig Eksamen Beregnelighed (DM517)

Skriftlig Eksamen Beregnelighed (DM517) Skriftlig Eksamen Beregnelighed (DM517) Institut for Matematik & Datalogi Syddansk Universitet Mandag den 7 Januar 2008, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug af lommeregner

Læs mere

Digitale Videnssystemer: Notater

Digitale Videnssystemer: Notater Digitale Videnssystemer: Notater Sigfred Hyveled Nielsen IVA / Københavns Universitet 3. Semester Denne tekst er skrevet af Sigfred Nielsen, og stillet til rådighed under Creative Commons Navngivelse-IkkeKommerciel-DelPåSammeVilkår

Læs mere

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996 Hjerner i et kar - Hilary Putnam noter af Mogens Lilleør, 1996 Historien om 'hjerner i et kar' tjener til: 1) at rejse det klassiske, skepticistiske problem om den ydre verden og 2) at diskutere forholdet

Læs mere

sproget.dk en internetportal for det danske sprog

sproget.dk en internetportal for det danske sprog sproget.dk en internetportal for det danske sprog Ida Elisabeth Mørch, Dansk Sprognævn Lars Trap-Jensen, Det Danske Sprog- og Litteratuselskab 1 Baggrunden 2003 Sprog på spil 2005 Ekstrabevilling 2006

Læs mere

Tredje kapitel i serien om, hvad man kan få ud af sin håndflash, hvis bare man bruger fantasien

Tredje kapitel i serien om, hvad man kan få ud af sin håndflash, hvis bare man bruger fantasien Tredje kapitel i serien om, hvad man kan få ud af sin håndflash, hvis bare man bruger fantasien For nogen tid siden efterlyste jeg i et forum et nyt ord for håndflash, da det nok ikke er det mest logiske

Læs mere

Lykken er så lunefuld Om måling af lykke og tilfredshed med livet, med fokus på sprogets betydning

Lykken er så lunefuld Om måling af lykke og tilfredshed med livet, med fokus på sprogets betydning Lykken er så lunefuld Om måling af lykke og tilfredshed med livet, med fokus på sprogets betydning Jørgen Goul Andersen (email: goul@ps.au.dk) & Henrik Lolle (email: lolle@dps.aau.dk) Måling af lykke eksploderer!

Læs mere

SEPA Direct Debit. Mandat Vejledning 2013.03.15. Nets Lautrupbjerg 10 DK-2750 Ballerup

SEPA Direct Debit. Mandat Vejledning 2013.03.15. Nets Lautrupbjerg 10 DK-2750 Ballerup SEPA Direct Debit Mandat Vejledning 2013.03.15 Nets Lautrupbjerg 10 DK-2750 Ballerup Indholdsfortegnelse 1. Indledning... 3 1.1 Tilknyttet dokumentation... 3 1.2 Kontakt til Nets... 3 2. Krav til SEPA

Læs mere

Grammatik Personlige pronominer Institutionaliserede præpositioner

Grammatik Personlige pronominer Institutionaliserede præpositioner Grammatik Personlige pronominer Institutionaliserede præpositioner Laila Kjærbæk FIO2010 Onsdag den 2. juni 2010 Pronominer (stedord) Et pronomen er et ord, der står i stedet for eller henviser til andre

Læs mere

Sådan bruger du Den Dansk-Engelske Regnskabsordbog

Sådan bruger du Den Dansk-Engelske Regnskabsordbog Sådan bruger du Den Dansk-Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.

Læs mere

Objektorientering. Programkvalitet

Objektorientering. Programkvalitet 1 PROSA-Bladet nr. 4 1993 Objektorientering = Programkvalitet? Af Finn Nordbjerg, adjunkt ved Datamatikeruddannelsen, Aalborg Handelskole 1. Indledning Objektorientering er blevet et edb-fagets mest udbredte

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj-juni 2013 Institution Uddannelse Fag og niveau Lærer(e) Hold VUF - VoksenUddannelsescenter Frederiksberg

Læs mere

Authors: Katja Gjevnøe Andersen & Majken Gjevnøe Andersen. MA: Cand.ling.merc. (interpreter, French) Institution: Copenhagen Business School (CBS)

Authors: Katja Gjevnøe Andersen & Majken Gjevnøe Andersen. MA: Cand.ling.merc. (interpreter, French) Institution: Copenhagen Business School (CBS) Anvendelsen af infinitte verbalformer i franske og danske SugarTexts samt ækvivalerende udtryk i danske SugarTexts [The use of infinite verb forms in French and Danish SugarTexts and equivalent expressions

Læs mere

Indhold. Forord... 11. Særlige forkortelser og tegn... 12. 1 Indledning... 13. 2 Opbygning af sætninger: sætningsled og kombinationer af led.

Indhold. Forord... 11. Særlige forkortelser og tegn... 12. 1 Indledning... 13. 2 Opbygning af sætninger: sætningsled og kombinationer af led. Indhold Forord... 11 Særlige forkortelser og tegn... 12 1 Indledning... 13 Syntaks... 13 Dansk Syntaks... 14 Terminologi... 15 Ord, fraser og led... 17 Semantiske roller og sætningsled... 19 Rækkefølge

Læs mere

Ugeplaner for engelsk i 7. kl. - 2014-2015:

Ugeplaner for engelsk i 7. kl. - 2014-2015: Ugeplaner for engelsk i 7. kl. - 2014-2015: Uge 33 Udlevering af materialer og ultrakort gennemgang af curriculum. Uge 34 London Town ( Textbook side 13 ) 24 Hours in London ( T side 14+15 ) To be i nutid

Læs mere

Guide til lektielæsning

Guide til lektielæsning Guide til lektielæsning Gefions lærere har udarbejdet denne guide om lektielæsning. Den henvender sig til alle Gefions elever og er relevant for alle fag. Faglig læsning (=lektielæsning) 5- trinsmodellen

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere