NyS. NyS og artiklens forfatter
|
|
- Lene Hansen
- 7 år siden
- Visninger:
Transkript
1 NyS Titel: Fyrre kilometer kryds og bolle. Metoder til grammatisk opmærkning i største skala Forfatter: Kilde: Udgivet af: URL: Peter Juel Henrichsen NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s Akademisk Forlag A/S NyS og artiklens forfatter Betingelser for brug af denne artikel Denne artikel er omfattet af ophavsretsloven, og der må citeres fra den. Følgende betingelser skal dog være opfyldt: Citatet skal være i overensstemmelse med god skik Der må kun citeres i det omfang, som betinges af formålet Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger. Søgbarhed Artiklerne i de ældre NyS-numre (NyS 1-36) er skannet og OCR-behandlet. OCR står for optical character recognition og kan ved tegngenkendelse konvertere et billede til tekst. Dermed kan man søge i teksten. Imidlertid kan der opstå fejl i tegngenkendelsen, og når man søger på fx navne, skal man være forberedt på at søgningen ikke er 100 % pålidelig.
2 Fyrre kilometer kryds og bolle Metoder til grammatisk opmærkning i største skala PETER JUEL HENRICHSEN I. INDLEDNING Opgaven for den deskriptive lingvistik er at beskrive sproget som det udtrykker sig når det ikke er under videnskabelig observation, det frit strømmende sprog. Som deskriptivist har man ikke meget udbytte af de omhyggeligt tilvirkede sprogprøver som grammatikbøgerne giver, men er henvist til at tappe sine primærdata ved kilden. Kvantiteten får dermed betydning i sig selv; når man giver afkald på at redigere sine data, må man til gengæld have rigelige mængder for at sikre forsyningen af eksempler. Den deskriptive sprogvidenskab har derfor fået et stærkt redskab i netværkscomputeren i direkte forbindelse med samfundets store, søgbare tekstbanker. Deskriptivisten er blevet korpuslingvist. Almindelig søgeadgang til et stort tekstkorpus er dog ikke nok. Ud over avanceret fritekstsøgning har korpuslingvisten typisk brug for at søge ud fra grammatiske kriterier - altså ikke blot søge efter konkrete ord og tekstdele, men også efter mønstre og grupperinger beskrevet i den aktuelle undersøgelses egne termer. Hvordan man målretter en søgning mod et grammatisk fænomen med måske titusinder af forekomster i et korpus der tæller millioner eller milliarder af ord, er emnet for denne artikel. Vi demonstrerer en metode der bygger på machine learning. Teknikken består i at optræne computeren i grammatisk analyse og dernæst bruge den til at annotere korpusteksten - ord for ord - med information om ordklasse og bøjning, med det formål at forsyne tekstmassen med en grammatisk søgedimension. Artiklen begynder med at præsentere et eksemplarisk korpus (Berling- 68 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
3 ske-99), og vi giver eksempler på spørgsmål som en korpusundersøgelse kunne besvare. Derefter præsenterer vi en træningsalgoritme og viser hvordan dens komponenter kan udvikles i praksis (Eric Brills algoritme Transformation Based Learning med PAROLEs annoterede korpus som reference). Vi anvender den trænede applikation på Berlingske-99, og der gives prøve på automatisk analyseret tekst. Det demonstrerede system er funktionsdygtigt - men, må det indrømmes, ikke særlig brugervenligt. Det bygger på en meget rig annotation med omkring ISO forskellige kategorier, og et så finmasket analytisk net er ikke altid hensigtsmæssigt. Et halvt hundrede kategorier eller færre, udvalgt med et specifikt formål, giver ikke blot en mere anskuelig analyse, men i tilgift en lavere fejlprocent (Kesons reducerede Parole-tagset gives som eksempel). Ideelt set burde hver korpuslingvist have mulighed for at definere sin personlige grammatiske taksonomi så den understøttede søgninger præcist rettet mod hans egne mål. Vi undersøger vilkårene for en sådan fleksibel korpussøgetjeneste, og til slut tegner vi omridset af en internetportal der tilbyder automatisk grammatisk opmærkning i største skala- med et personligt tilsnit. 1.1 ET EKSEMPLARISK KORPUS Den daglige avis er et af samfundets mest levende tekstfora. I avisen mødes alle de tekstarter der spiller en rolle i samfundslivet, og enhver ordbog over det nutidige sprog må forholde sig til sproget som det bruges i avisen. Dagbladenes brødtekst opfylder altså korpuslingvistikkens krav om autencrtet, relevans og kvantitet. Dertil kommer kravet om søgbar repræsentation. Et af de danske bladhuse som tidligst erkendte nytten af aviser på computerlæsbar form, er det Berlingske Hus, som udgiver hver årgang af Berlingske Tidende Morgenavisen og Weekendavisen på cd-rom kort efter årets slutning. Berlingskes årlige opsamlings-cd'er har allerede fået status af standardressource i den danske korpuslingvistik, og derfor har vi som gennemgående eksempel i denne artikel valgt korpus Berlingske-99, bestående af al indekseret brødtekst i samtlige 1999-udgaver af Morgenavisen og Weekendavisen. Berlingske-99 rummer godt 32 millioner løbende ord, fordelt på avisartikler. Skrev man hele brødteksten ud som en lang spalte, ville den være på længde med et maraton.
4 1.2 ORDKLASSER SOM TEKSTINDGANGE Hvilke spørgsmål kunne man have lyst at stille Berlingske-99? Det kommer naturligvis an på hvem man er. Sociolingvisten kunne finde det relevant at undersøge om mandlige forfattere oftere end kvindelige anvender passive verbalkonstruktioner, og politiske kommentatorer oftere end sportsjournalister. Leksikografen kunne have brug for at verificere at der blandt kombinationerne VERBUM-ADJEKTIV-SUBSTANTIV er stor overvægt af"give grønt lys" i forhold til "give rødt lys" og "have grønt lys". Dansklæreren har måske brug for en række eksempler på en karakteristisk grammatisk form eller konstruktion- i flæng kan nævnes gerundium ("deres klynken hørtes tydeligt", "al løben og legen forbudt"), konjunktiv ("Fødselaren leve", "Herren være lovet") og objektsprædikat ("eksplosionen gjorde omegnen ubeboelig', "vi valgte Ib til formand"). Sprogingeniøren kunne have nytte af et materiale af hyppigt forekommende forvekslinger - for eksempel infinitiv for præsens ("han studere lingvistik") eller hyperkorrekt kommatering ("hun plejede, at læse Berlingeren"), med henblik på automatisk tekstkorrektur. Det er let at fortsætte listen af mulige morfologiske, syntaktiske og leksikalske korpusundersøgelser der refererer til grammatiske kategorier. Her ses en annoteret tekstprøve fra Berlingske-99, læseren selv til inspiration: EKSEMPEL l. Tekstprøve fra Berlingske-99 annoteret med de "skolegrammatiske" kategorier. Den øgede trafik vil især kunne mærkes omkring skisportsstederne PRONfkøn+sing. Vperf.part. Nfkøn+indef.+sing. V præs. aktiv ADV V inf. V inf.passiv PRÆP Nikøn+def.+plur. TEGN 2. KOMPONENTERNE I ET AUTOMATISK SYSTEM Søgning efter grammatiske kriterier kræver, som før nævnt, at hvert ord i objektkorpus er annoteret med ordklasseinformation. Da det naturligvis er praktisk umuligt at opmærke et kæmpekorpus med håndkraft, sætter man en computer i lingvistens sted. Der er to principielt forskellige måder at opskole computeren. Enten må man formulere en række eksplicitte grammatikregler, et ekstremt res- 70 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
5 sourcekrævende projekt, som samtidig er næsten umuligt at føre til en ende- eller også må man følge den mere overkommelige strategi at lade computeren lære kunsten selv. Der findes i dag effektive metoder til at lade computere træne sig selv op uden supervision, til at opmærke ukendt tekst. Fælles for de metoder der bygger på optræning, er at de kræver adgang til et korpus af mindre størrelse, som til gengæld er omtrent perfekt annoteret. Et sådant referencekorpus er typisk stykket sammen af repræsentative tekstarter og omhyggeligt opmærket af lingvister. Træningen består nu i at lade computeren studere referencekorpusset og udvikle regler til udvælgelse af ordklassemærker (herefter kaldet tags, udt. på engelsk) i så nær overensstemmelse med referencen som muligt. Når computeren er færdigtrænet, er den i stand til at anvende den udviklede algoritme på ukendt tekst, og skridtet kan dermed tages fra det mellemstore referencekorpus til det vilkårligt store objektkorpus. Fælles for de mest udbredte systemer til optræning i automatisk ordklasseanalyse er altså de tre grundlæggende komponenter: TAGSET: Et repertoire af tags der dækker de almindeligste analysekategorier (ordklasser, bøjningsformer etc.) REFERENCEKORPUS: Et mellemstort korpus (typisk ord), manuelt opmærket med tags fra TAGSET TRÆNINGSALGORITME: En applikation der lader computeren studere REFERENCEKORPUS og derved træne sig op til at annotere ukendt tekst Dagens træningsalgoritmer giver ikke computeren samme kompetence som en øvet lingvist (eksempler gives i det følgende), men man kan dog nå resultater som er gode nok til mange praktiske formål. 2.1 TRÆNINGSALGORITME TRANSFORMATION-BASED LEARNING Algoritmen Transformation-based learning (TBL, Brilll993) er en regelbaseret metode der lader computeren udvikle et slags 'kompendium' af grammatiske annotationsregler. Når træningen er gennemført og regelsamlingen er færdigudviklet, kan computen anvende reglerne på vilkårligt store tekstmængder som derved bliver annoteret med grammatiske tags, typisk med en nøjagtighed på 90-95%. 71
6 En TB L-træningssession tager udgangspunkt i et perfekt annoteret referencekorpus, MASTER. Som optakt til træningen dannes et parallelkorpus, DUMMY, bestående af præcis de samme ord som MASTER, men nu annoteret ud fra en primitiv initial regel- fx "alle ord er substantiver". Træningen består nu i gradvist at bringe annotationen i DUMMY i overensstemmelse med annotationen i MASTER. I hvert trin i træningsprocessen udvikles en ny regel som føjes til de øvrige, nemlig den regel der til enhver tid mindsker afstanden fra DUMMY til MASTER mest effektivt. TypiskeTBL-regler kan være: Ord der ender på '-ede', er verber i præteritum Ord der ender på '-este', er adjektiver i superlativ når de forekommer netop før et substantiv i ubestemt form Ordet 'det' er et determinativ, når det forekommer som ord nummer l eller 2 før et adjektiv i bestemt form Det er klart at TBL-regler ikke er ufejlbarlige, men blot fornuftige approksimationer. Typisk vil anvendelsen af en regel medføre fejl som ikke var der før - men hvis blot reglen retter flere fejl end den selv skaber, er skaden ikke stor, for så kan en senere regel korrigere de nye fejl. En TBLtagger arbejder altså efter parolen to-skridt-frem-og-et-tilbage: en initial, meget grov annotation følges af en lang serie af korrektioner og korrektioner-til-korrektioner. 2.2 TAGSET OG REFERENCEKORPUS: DET DANSKE PAROLE Som nævnt skal træningsalgoritmen forsynes med input i form at et grammatisk opmærket referencekorpus på helst ord eller mere. I skrivende stund er der kun et tilgængeligt dansk tekstkorpus som kan fungere som REFERENCEKORPUS i en TBL-træningssession som den beskrevne, nemlig det danske PAROLE-korpus. Kun dette korpus har på en gang den fornødne størrelse og kvalitet i opmærkningen. Det opmærkede PAROLE-korpus består af ca grammatisk annoterede tokens, heraf ca egentlige!eksemer (resten er interpunktion og andre ikke-alfabetiske tegn). Korpus består af blandede tekstgenrer, med avistekster som den største del. Opmærkningen er foretaget med halvautomatiske metoder og er efterfølgende verificeret af 72 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
7 ----~ ~ ~---~~~ lingvister - den skulle dermed være så tæt på perfekt som man i praksis kan komme. Tagsettet som er benyttet i PAROLE-korpusset, er defineret så det kan gøre rede for (næsten) alle grammatiske dimensioner i den danske morfologi. Substantiver kan således markeres for: subkategori (proprium/appellativ), genus (fælleskøn/intetkøn), numerus (singularis/pluralis), kasus (neutral/genitiv) og bestemthed (definit/indefinit) Tag som eksempel de to former "skisportsstedets" og "skisportsstedernes". PAROLE-tagsetlet kan specificere de morfologiske forskelle og ligheder mellem disse to, idet de analyseres som hhv. NCNSG==D og NCNPG==D. Disse tagsymboler er systematiske: De første tre segmenter, NCN, bestemmer begge de to former som Noun-Common-Neuter (substantiv-appellativ-intetkøn). Det fjerde segment, S hhv. P, bestemmer de to former som Singularis hhv. Pluralis. Det femte segment, G, står for Genitiv. Det ottende segment, D, betyder Defmit (bestemt form). (Det sjette og syvende segment er ikke anvendt for substantiver, derfor er disse pladser blokeret med tegnene==). De andre ordklasser har tilsvarende systematiske tags. I alt omfatter det danske PAROLE-tagset 151 tags (se Dorte Haltrups introduktion til PA ROLE-tagsettet og PAROLE-korpusset sidst i dette nummer af NyS). 2.3 DEN TRÆNEDE TAGGER Et træningsforløb tager typisk to-fem døgn, hvis man anvender Eric Brills originale software og et referencekorpus i størrelsesordenen som det annoterede PAROLE-korpus. I vores konkrete forsøg udviklede taggeren 960 regler (heraf 447leksikalske regler og 513 kontekstregler,jf. Haltrup 2002). 73
8 ~----~--~-- Den udviklede regelsamling sætter, som før nævnt, den automatiske tagger i stand til at annotere en vilkårlig tekst med PAROLE-tags. Vi anvender derfor taggeren på Berlingske-99- og i løbet af nogle få timer har vi en fuldt opmærket version. En tekstprøve fra det friskopmærkede Berlingske-99 ses herunder. Sætningen er den samme som i eksempel l: "Den øgede trafik vil især kunne mærkes omkring skisportsstederne ". EKSEMPEL 2. Tekstprøve fra Berlingske-99, automatisk annoteret (PAROLE-tags) Token PAROLE-tag Grammatisk kategori Den PD-CSU-U Pronomen (fkøn+sing.) øgede VAPA=SICN]DA-U Verbum (perf.part.) trafik NCCSU==I Substantiv (fkøn+indef.+sing.) vil VADR=----A- Verbum (præsens aktiv) især RGU Adverbium kunne VAF-=--- -A- Verbum (infinitiv aktiv) mærkes VADR=----P- Verbum (præsens passiv) omkring SP Præposition (apposit.) skisportsstederne NCCPU==D Substantiv (fkøn+def.+plur.) XP Interpunktion Som man ser, har taggeren taget fejl to steder. Verbet 'mærkes' er blevet analyseret som en præsens passiv frem for det korrekte infinitiv passiv. Substantivet 'skisportsstederne' er fejlagtigt rubriceret som fælleskøn. I begge tilfælde er fejlene dog moderate. Ordklasserne er korrekte, og den morfologiske placering er kun delvist forkert: bestemmelsen som 'passiv' hhv. 'def. +p lur.' er således rigtig nok. Hovedparten af de fejl den automatiske tagger begår, er netop sådan at fejlanalyserede tokens trods alt placeres i nærheden af den korrekte kategori. Som vi skal se herunder, bliver denne type fejl ofte usynlige hvis man skifter til et tagset med færre og større kategorier. 3. KESONS REDUCEREDE PAROLE-TAGSET PAROLE-taggene er højt strukturerede og rige på morfologisk information. Dette er en stor søgeteknisk fordel. Man kan fx fmde alle substanti- 74 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE ~--~--~-----~ ~
9 vervedat søge på tags indledt med 'N'. Søger man på 'NC', får man kun appellativerne (dvs. proprierne udelukkes). 'NCN' giver kun appellativer i intetkøn, mens 'NCNS' af disse kun lader singularisformerne komme igennem, osv. Hvert tilføjet tegn virker som et nyt filter. I mange praktisk!! sammenhænge er PAROLE-taggene dog for besværlige at arbejde med. Som man ser i eksempel2, er tagsymbolerne ikke lette at læse. Derfor kan det være praktisk at afbilde det fulde tagset på en mindre delmængde og på den måde skjule en del af den grammatiske information. Britt Keson har foreslået en allround reduktion bestående af 38 tags, omtalt i det følgende som Det Reducerede PAROLE-tagset, eller blot RedPAR (Keson 1999). Keson reducerer alle ordklasser i cirka samme grad, og for substantivernes vedkommende betyder det en sammenlægning af de oprindelige 25 tags til bare fire: {EGEN,EGEN_GEN,N,N_GEN}.Samtidig erstatter Keson de strengt systematiske PAROLE-tags med mere læselige varianter. Symbolet EGEN_ GEN kan fx let genkendes som "egennavn i genitiv". Herunder ses til sammenligning "skisports"-sætningen fra eksempel2, nu afbildet på RedPAR. Som det ses, er RedPAR's tagnavne lette at gennemskue og behøver ikke nærmere beskrivelse. EKSEMPEL 3 Tekst annoteret med Det Reducerede PAROLE-tagset (RedPAR). Den øgede trafik vil især kunne mærkes omkring skisportsstederne PRON_DEMO V_PARTC]AST N V_PRES ADV V_INF V_PRES PRÆP N TEGN Bemærk at den ene annotationsfejl i eksempel2 er blevet usynlig efter afbildningen på det reducerede tagset, nemlig "skisportsstederne" der nu kun er bestemt som N, dvs. uspecificeret appellativ. Den anden fejl ('mærkes' som præsensform) er stadig synlig. Generelt bliver en del homografi usynlig når tagsettet reduceres. Tag som eksempel formen 'fornemme', der kan være både (i) adjektiv i definit singularis, (ii) adjektiv i pluralis og (iii) verbum i infinitiv. Det fulde PAROLE-tagset har tags for alle disse muligheder. RedPAR har kun to adjektiv-tags, {ADJ,ADLGEN}, og kan altså ikke beskrive forskellen på adjektiverne i "(den) fornemme (vin)v og "(mange) fornemme (vine)". Eksemplerne herunder viser hvordan visse homografler stadig er synlige efter opmærkningen med RedPAR, mens andre typer reduceres eller forsvinder helt. 75
10 EKSEMPEL 4. Usynlige homografer efter opmærkning med RedPAR Intakt homografi 'tier' N 'Øst' N 'fortyndes' V _IN F V_PRES EGEN V_PRES Reduceret homografi 'blandede' (V_PART(_PASTsing.+def, 'kort' ADJ 'fornemme' ( ADJsing.+def. V _PART(_PAST plur. ) ( Nsing. ADJplur.l V_PAST Nplur. l V_INF Kollapset homografi 'års' ( N_GENsing. 'ægtepar' ( Nsing. 'ting' ( Nfkøn+sing. N_GENplur.) Nplur. l Nikøn+sing. Nplur.) (I eksempel4 er de originale PAROLE-tags erstattet med læseligere symboler, og irrelevant information er udeladt; fx. er NCCSU==I erstattet med Nfkøn+sing. Homografer der bliver uskelnelige i RedPAR-annotation, er sat i parentes). Afbildningen af den rigere annotation på den fattigere med grovere inddelinger tilslører altså typisk en del taggingfejl. Derfor giver det ikke mening at spørge hvor stor en fejlprocent en given taggingalgoritme har per se - præcisionen er uløseligt forbundet til det anvendte tagsets størrelse og art. 4. DET PERSONLIGE TAGSET Kesons reducerede PAROLE-tagset har vundet udbredelse som et pædagogisk udvalg der på anskuelig måde knytter forbindelsen mellem det komplette PAROLE-set og de alment kendte ordklasser- et nyttigt hjælpemiddel for den studerende. Som korpuslingvist får man dog snart brug NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
11 for at definere tagset efter sine egne kriterier, uddifferentiere visse kategorier og sammenlægge andre, som dikteret af den undersøgelse man er i gang med. Med andre ord, man har behov for et personligt tagset. Det personlige tagsets mulighed kræver dog lidt reflektion. Går man frem som beskrevet i de foregående afsnit, virker vejen håbløst lang fra definitionen af tagsettet til den trænede applikation er klar til brug: l. Det personlige tagset TAGSET MY defineres 2. REFERENCEKORPUS opmærkes med TAGSET MY, hvorved opstår REFERENCEKORPUSMY 3. TRÆNINGSALGORITME arbejder på REFERENCEKORPUSMY og udvikler taggeren TAGGERMY 4. TAGGERMY anvendes på OBJEKTKORPUS Stadium l, udviklingen af det personlige tagset, kan gennemføres på nogle få timer eller minutter, og arbejdet føles fagligt tilfredsstillende fordi det er relateret direkte til den aktuelle undersøgelse. Stadium 2, opmærkningen af referencekorpusset, kræver derimod adskillige ugers rutinepræget arbejde uden særlig forbindelse til undersøgelsen, det vil sige: spildtid. Stadium 3, selve den ikke-superviserede optræning, tager ofte flere dage, og det samme gør stadium 4, opmærkningen af objektkorpusset (hvis det er i en størrelsesorden som Berlingske-99). Heldigvis kan der snydes nogle hjørner. Hvis man udvælger sine personlige kategorier skønsomt og definerer TAGSET MY som en mange-tilen afbildning af PAROLE' s tagset (eller et andet tilgængeligt superset), så kan man genbruge et allerede eksisterende referencekorpus. Tabel l giver tre eksempler på sådanne PAROLE-afbildninger med forskellig fokusering. De to første, TAGSETpassiv og TAGSETadv> er rettet mod henholdsvis undersøgelser af passive verbalkonstruktioner (fx 'blev kørt'/ 'kørtes') og adverbialer ('ofte'/'oftere'/'oftest'). Den tredje er Kesons RedPAR (jf. afsnit 3). 77
12 TABEL l. Mange-til-en afbildninger afparole-tagsettet (uddrag) Grammatisk kategori TAGSETPAROLE TAGSET passiv TAGSETadv RedPAR Verbum (præsens aktiv) VADR=- ---A- V_PRES_AKT V_PRES Verbum (præsens passiv) VADR=---- P- V_PRES_PASS Verbum (præteritum aktiv) VADA=--- -A- V_PAST_AKT V_FIN Verbum (præteritum passiv) VADA=---- P- V _PAST_PASS V_PAST Verbum (infinitiv aktiv) VAF-=--- -A- V_INF_AKT Verbum (infinitiv passiv) VAF-=--- - P- V_INF_PASS V_INF V_INF Adverbium (posistiv) RGP ADV_POS Adverbium (komparativ) RGC ADV_KOMP Adverbium (superlativ) RGS ADV ADV_SUP ADV Adverbium (ubøjelig) RGU ADV_U At der er tale om mange-til-en-afbildninger ses af at de reducerede tagset aldrig underdeler de basale PAROLE-kategorier. Hvis TAGSET MY defineres som en mange-til-en afbildning afparoletagsettet, kommer man altså næsten gratis til ressourcen REFERENCE KORPUSMY> som nu kan afledes direkte af PAROLE-korpuset. Man er blot underlagt den begrænsning ikke at kunne uddifferentiere supersettets basale kategorier. 1 Dermed er den værste hurdle, stadium 2, undgået. Tilbage er de mange timer eller dage som computeren anvender på sagen, til træning og efterfølgende opmærkning. Hvis også de kan undgås, er der ikke langt til at grammatisk fokuserede søgninger kan tilbydes online.. Man.kunneJor eksempeltænke sig en internetbaseret tjeneste der tillod lingvisten at: l. definere sit personlige TAGSET MY i et tekstområde i sin browsers vindue, 2. udpege et OBJEKTKORPUS blandt en række tilbudte muligheder (se fx Kirchmeier-Andersen 2002 i dette nummer af NyS), 3. definere en søgning der refererer til kategorierne i TAGSET MY, og 4. trykke SØG, hvorefter web-tjenesten efter få minutter afleverede et komplet søgeresultat. NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
13 Resten af denne artikel er viet overvejelser over en sådan eksprestjenestes mulighed- og muligheder. 5. PERSONLIG TAGGING SOM EKSPRESSERVICE Skal man undgå de lange ventetider, må man skyde genvej uden om stadium 3 og 4. For det første må man undgå at udvikle personlige taggere og i stedet i alle tilfælde anvende en tagger trænet på et forud givet supertagset og referencekorpus, sådan at stadium 3 kun behøver passeres en gang. For det andet skal der oparbejdes en bank af objektkorpora annoteret i det rige supertagset ved hjælp af den trænede tagger, så at også tidsforbruget i stadium 4 bliver en engangsudgift. Når slutbrugeren har defineret et TAGSET MY, udpeget et OB]EKTKORPUS, samt beskrevet en søgning, gennemføres søgningen efter en simpel afbildning af OBJEKT KORPUS' annotation, som beskrevet i sidste afsnit. Nu kan søgeprocessen gennemløbes på ganske få minutter. 2 Før man iværksætter Projekt Eksprestagger efter disse retningslinier, er der dog et spørgsmål som må besvares: Sætter man noget til på taggingens præcision ved at overgå fra den tidskrævende model Reduce-then Train-then-Tag (RTT) til genbrugsmodellen Train-then-Tag-then-Reduce (TTR)? Vi undersøger kvalitetsforholdet mellem de to metoder ved at gennemføre en lille forsøgsrække. l. Berlltrgske-99 annoteres af både RTT-taggeren og TTR-taggeren 3 Hvorstor er afvigelsen i absolutte tal? afvigende domme vurderes manuelt. Hvilken tagger har oftest ret? 3. Taggingfejl er typisk koncentreret om homograferne. Der udskilles en mængde af særligt kritiske 'testhomografer'. Hvor meget afviger taggingen i denne worst case gruppe? Konklusionerne samles op i et afsluttende afsnit. 79
14 5.1 RTT VERSUS TTR Undersøgelsen begynder med at korpus Berlingske-99 tagges to gange, af henholdsvis RTT-taggeren (den dyre) og TTR-taggeren (den billige). I hvert tilfælde er resultatet en individuel version af Berlingske-99 opmærket med RedPAR. Ved at sammenligne de to korpusversioner token-for-token finder man at ca. 94,4% af alle tokens tagges ens af de to taggere. I vores sammenhæng samler interessen sig naturligvis om de sidste 5,6%, for det er her man skal søge svaret på hvilken tagger der er den bedste. I tabellerne herunder ses en opgørelse over taggingens resultater. Resultatet er opgjort for de to delkorpora Morgenavisen og Weekendavisen, og desuden er en enkelt udgave (Morgenavisen ) udtaget til nærmere analyse (se næste afsnit). TABEL 2. Enstaggede tokens. Udgaver (=filer) Artikler T ok ens Enstaggede Enighed Morgenavisen % Weekendavisen % Mor % TABEL 3 Distribution over RedPAR Tag TIR RTT ADJ ADJ_GEN ADV EGEN EGEN_ GEN FORK FORM INTERJ N NUM NUM_GEN So NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
15 NU M_ ORD NUM_ORD_GEN 4 4 N_ GEN PRON_DEMO PRON_DEMO_GEN PRON_INTER_REl PRON_INTER_REl_GEN o PRON_PERS PRON_POSS PRON_REC PRON_REC_GEN PRON_UBST PRON_UBST_GEN PRÆP SKONJ SYMBOl TEGN UKONJ Ul UNIK V_GERUNO V_IMP V_INF V_MED_INF V _MED_PART(_PAST V_MED_PAST V_MED_PRES V_PART(_PAST V _PART(_PRES V_PAST V_PRES )()( De største relative forskelle samler sig (heldigvis) om de sjældnest benyttede tags: ADLGEN (adjektiv i genitiv), FORK (forkortelse), FORM (formel), osv (konkrete eksempler på anvendelsen af FORK ses i tabel 5 herunder). 81
16 At de store afvigelser ses på de små forekomster er ikke overraskende: Her har det ret lille referencekorpus ikke kunnet levere tilstrækkeligt med eksempler til en egentlig regeldannelse, og de grammatiske domme er følgelig ret tilfældige. Da de bemeldte tags kun anvendes nogle få tusind gange, påvirker de umotiverede domme ikke den overordnede fejlprocent ret meget STIKPRØVER De 1000 første uens-taggede tokens i en tilfældigt valgt udgave af Berlingske Morgen ( ) er udtaget til manuel kontrol. Det dækkede korpusområde består af tokens, svarende til 37% af udgavens samlede brødtekst (0.06% af hele korpus). Hvert af de 1000 tokensblev afbildet i en 2+2 kontekst og annoteret med sine to afvigende tags (hhv. TTR og RTT). I langt de fleste tilfælde var et sådant S-ords tekstvindue tilstrækkeligt til en sikker afgørelse; i tvivlstilfælde blev de taggede filer konsulteret. I hvert tilfælde blev vurderingen af de to uens tags udtrykt med en kode: O = begge forkerte 1 = TTR-tagget korrekt, RTT-tagget forkert 2 = RTT-tagget korrekt, TTR-tagget forkert 3 = begge korrekte 12 = TTR-tagget korrekt, RTT-tagget mildt forkert 21 = RTT-tagget korrekt, TTR-tagget mildt forkert? =vurdering usikker/umulig I tabel4 herunder ses de første 10 uens-taggede tokens (vist i fed font). 82 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
17 TABEL 4. Uens tags: De første lo stikprøver. Nr. Tekstvindue TTR-tag RTT-tag Vurdering 1. at det anerkendte museum opfører v_past AOJ 2 2., stærkt omdiskuteret tilbygning tegnet V_PART(_PAST AOJ 2 3. kroner skal Humlebæk-borgerne op med N V_INF 1 4. de vil matche den pris N V_INF 2 5. den nye» Støtteforening for ADJ N o 6. nye» Støtteforening for Gammel N EGEN Støtteforening for Gammel Humlebæk Havn EGEN ADJ » Skødet er jo N EGEN 1 9. er jo betinget af, ADJ V_PART(_PAST Og det tvivler jeg stærkt V:...PRES N 1 Bemærkattoken nr. 2 er vurderet som '2' (kun RTT-tagget er korrekt, dvs. AD J), idet 'omdiskuteret' næppe kan anses for en form af et verbum 'at omdiskutere'. Tokens nr. 6 og 7 forekommer begge som egennavne i den aktuelle kontekst, men da 'Støtteforening' og 'Gammel', leksikalsk betragtet er hhv. substantiv og adjektiv, er de alternative tags N og ADJ bedømt som blot 'mildt forkerte' (hhv. kode '21' og '12'). Til sammenligning ses i tabels nogle typiske kode-3 vurderinger, altså alternative taggings der begge anses for korrekte: TABEL 5. Uens tags: Godkendte alternativer. Tekstvindue TTR-tag RTT-tag Vurdering med sig hjem. (end-of-line) N ADV 3 kan præsentere Beograd-styret for et N EGEN 3, professor dr.jur. (end-of-line) FORK N 3 følge aftvind-loven efterbetalt. N EGEN 3 med tidligere gadebørn, ADJ ADV 3 kendskabet til Stairway-pædagogikken i Danmark N EGEN 3 er det kendetegnende, at ADJ V _PART(_PRES 3 fandt politiet afrevne ærmer med ADJ V_PART(_PAST 3 og 40 mm luftværnskanoner. N FORK 3
18 Som det fremgår, er kode-3 ofte brugt hvor to alternative tags kan motiveres ud fra hhv. indholdsmæssige og formmæssige kriterier (fx adjektiv vs. participium, substantiv vs. forkortelse, proprium vs. appellativ). Kode-O (begge taggings forkerte) optræder typisk ved stærkt homografe ord ("31 års tro tjeneste", "Den sky amerikaner"), ord med arkaisk bøjning ("dolket til døde", "i går aftes", "skulle ske fyldest"), ikke-danske former (''et par :XXL-jeans", "avisen Welt am Sonntag") og alle slags ortografiske anomalier ("Man ved selvfølgeig aldrig", " Optællingen af de 1000 vurderinger viser at de to taggere deler fejlene næsten ligeligt mellem sig. Blandt de 1000 udvalgte takens har TTR tagget 473 korrekt, mens RTT har tagget 464 korrekt. Detaljerne ses herunder. Vurdering '?' Antal 'O' 138 '1' 377 '".,. IL 19 '2' 346 '21' 41 '3' 77 ialt 1000 ~ -- I dette forsøg viser RTT-taggeren og TTR-taggeren sig altså praktisk talt jævnbyrdige. 5.3 TESTHOMOGRAFER Vi udpeger nu en kontrolleret delmængde af de takens som forekommer i Berlingske-99, nemlig de homografer som giver størst mulighed for afvigende tagging. Man kan forvente af taggingen i dette vanskeligste fragment af korpus afviger mere end de gennemsnitlige 5,6%. Spørgsmålet er hvor meget afvigelsen øges eller, med andre ord, hvor robuste taggerne er over for homografi. NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
19 Vi definerer først kategorien testhomografer. En ordform W udgør en testhomograf hvis de to applikationer RTT og TTR l. har (mindst) to leksikalske indgange hver for W, 2. har identiske indgange for W, 3. opmærker W forskelligt på (mindst) to forekomster i OBJEKT KORPUS. Leksemet 'fører' er et eksempel på en testhomograf For det første har RTT- og TTR-taggeren hver to leksikalske indgange for dette leksem: TTR: indgang tag fører fører V_PRES N RTT: indgang tag fører fører V_PRES N For det andet er indgangene parvist identiske - det vil sige at TTR aldrig kan tagge en forekomst af 'fører' på en måde som er uden for RTTs rækkevidde, og vice versa. For det tredje anvendes begge tags i praksis af begge applikationer. Med andre ord: Der findes i OBJEKTKORPUS (mindst) to forekomster af ordet 'fører' som TTR-applikationen tagger forskelligt, og tilsvarende med RTT. Herunder ses en analyse af de to største testhomografer, nemlig 'det' og 'den'. De er begge leksikaliseret afttr- og RTT-applikationen som såvel personligt pronomen som demonstrativt pronomen. Som det fremgår af tabellen er de to applikationer langt oftest enige i valget af tag, nemlig i hhv. 91 o/o og 96o/o af tilfældene. 85
20 TABEL 6. De to største testhomografer ordform RTT tag TTR tag antal ens? det PRON_PERS PRON_PERS PRON_DEMO PRON_PERS PRON_PERS PRON_DEMO PRON_DEMO PRON_DEMO forekomster= enstaggede= enighed=91,06% den PRON_PERS PRON_pERS PRON_DEMO PRON_PERS PRON_PERS PRON_DEMO PRON_DEMO PRON_DEMO forekomster= enstaggede= enighed=95, 96% Enighed i denne størrelsesorden viser sig at være normen. Blandt de ti største testhomografer ligger overensstemmelsen for de nis vedkommende i området 91-99% (j f. tabel 7), og kun den femtestørste testhomograf, 'indtil', tagges forskelligt i 19 ud af 100 tilfælde. TABEL 7. De lo største testhomografer rang ordform enighed #1 det 91,06% #2 den 95,96% #3 Det 94,03% #4 Den 97,52% #5 indtil 81.42% #6 fører 92,22% #7 Så 90,52% #8 det 93,46% #9 Med 98,93% #10 Da 99,05% De IO mest frekvente testhomografer dækker ca. 98% af testhomografmassen, og i dette korpusfragment er den samlede enighed ialt på 86 NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
21 92,99%. Da testhomograferne er særligt udvalgt til at udstille de to applikationers svagheder, har vi hermed et indtryk af såvel gennemsnitlig enighed (94,4o/o) som worst case enighed (93,0%). Den beskedne forskel mellem disse tal viser at taggernes indbyrdes afvigelse kan forventes at være nogenlunde konstant i alle dele af objektkorpus. Dertil kommer at taggingens præcision er uafhængig af den valgte metode (med forbehold for usikkerheden i den lille 1000-ordstest). Konklusion på undersøgelsen er altså at opmærkningskvaliteten er den samme med de to metoder. Eksprestagging (TTR) synes dermed inden for rækkevidde. 6. AFSLUTTENDE BEMÆRKNINGER Vi vil anbefale udviklingen af et (internetbaseret) opmærkningsværktøj til annotation af meget store korpora med personlige tagset. En ekspresservice som den skitserede vil for alvor udløse det potentiale der er i de moderne maskinlærte metoder til grammatisk annotation. På få øjeblikke kan en vilkårlig tekst forsynes med en 'lingvistisk undertekst'. Annotationen kan ske så hurtigt at den vil kunne tilbydes som en standardfeature i en offentlig søgetjeneste. Fra et teoretisk-lingvistisk synspunkt ville en sådan eksprestjeneste åbne en endnu ukendt analytisk dimension, idet det vil blive praktisk muligt at opfatte definitionen af tagsettet, altså selve batteriet af grundlæggende anaiysekategorier, som en eksperimentel parameter. Sidst men ikke mindst vil man hermed omgå et problem som i dag står i vejen for den automatiske ordklasseanalyses udbredelse, nemlig den tekniske barriere. I dag kræver det fx indsigt i programmeringssprogene c++ og Perl at udnytte Eric Brills algoritme i personlige træningssessioner. Med udbydelsen af en internetbaseret ekspresservice kunne man holde alle lingvistisk uvedkommende teknikaliteter skjult bag ved en web-side. Og dermed vinde nye sjæle for korpuslingvistikken. Peter Juel Henrichsen Institut for Datalingvistik, Handelshøjskolen i København pjuel@id.cbs.dk
22 ~ ~--- - NOTER l. PAROLEs tagset blev netop udviklet som et tilbud om et supertagset der er tilstrækkeligt rigt til at den lingvistiske slutbruger altid har de mindstekategorier til rådighed han har brug for; desuden omfattede PAROLEprojektet, som før nævnt, også den manuelle opmærkning af et (mellemstort) korpus. 2. Nok så vigtigt: søgning kan ske i bedre-end-lineær tid i forhold til størrelsen af objektkorpus (forudsat at søgeværktøjet kan håndtere indekseret tekst). Dette sidste er et stort plus, fordi det fremtidssikrer metoden. 3. I de to forsøgsrækker anvendes Berlingske-99 som objektkorpus, mens rollerne som TTR- og RTT-applikation spilles af hhv. TAGGERPAROLE og TAGGERRedPAR) 4. Korpus omfatter nogle ekstrasektioner til Weekendavisen, derfor er antal udgaver >52. LITTERATUR Brill, E. (1993): A Corpus-Based Approach to Language Learning. Ph.D. thesis, Dpt. of Computer and Information Sc., Univ. of Pennsylvania; ( computerprogrammet kan hentes gratis på Haltrup Hansen, D. (2000): Evaluering af NP-genkendere. M.Sc. thesis (unpubl.) Haltrup Hansen, D. (2002): To ressourcer. NyS 30. Hardt, D. (2001): Dansk grammatikkontrol med Transformation-Based Learning. NyS 30. Henrichsen, P. J. (200 l): Sidste Ars Aviser - grammatisk opmærkning af et stort dansk aviskorpus. Lambda 27. Handelshøjskolen i Kbh: Henrichsen, P.J. (2001): Transformation-Based Learning ofdanish StressAssignment. EuroSpeech-01. Keson, B.-K. (1999): Vejledning til det Danske Marjasyntaktisk Taggede PARO LE-korpus. Det Danske Sprog- og Litteraturselskab Kirchmeier-Andersen, S. (2002): Dansk korpusbaseret forskning- hvordan kommer vi videre? NyS NYS 30 FYRRE KILOMETER KRYDS OG BOLLE
NyS. NyS og artiklens forfatter
NyS Titel: Forfatter: Kilde: Udgivet af: URL: Danske resurser til automatisk opmærkning Dorte Haltrup NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s. 59-67 Akademisk Forlag A/S www.nys.dk NyS
Læs mereDANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER
M20 DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER At træne eleverne i de danske og latinske betegnelser inden for den mest gængse grammatik. NB! Mulighed for selvkontrollerende aktiviteter med vendekortene.
Læs mereHjælp til kommatering
Hjælp til kommatering Materialet her indeholder en række forklaringer som er nødvendige for at kunne sætte komma. Vælg ud hvad du synes er relevant for dig. Indhold i materialet Hvis du venstreklikker
Læs meresproget.dk en internetportal for det danske sprog
sproget.dk en internetportal for det danske sprog Ida Elisabeth Mørch, Dansk Sprognævn Lars Trap-Jensen, Det Danske Sprog- og Litteratuselskab 1 Baggrunden 2003 Sprog på spil 2005 Ekstrabevilling 2006
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Replik til Kirsten Rasks anmeldelse af RO 2012 (bragt i NyS 44) Forfatter: Anita Ågerup Jervelund og Jørgen Nørby Jensen Kilde: NyS Nydanske Sprogstudier 45, 2013, s. 141-145 Udgivet af: URL:
Læs mereFuldstændig fantastisk?
Fuldstændig fantastisk? Holger Juul, lektor, ph.d., Center for Læseforskning, Københavns Universitet Enten-eller vs. både-og I marts-nummeret af Nyt om Ordblindhed tager Erik Arendal afstand fra det han
Læs mereONTOQUERY Januar 2000
ONTOQUERY Januar 2000 Træning og brug af Brill-taggeren på danske tekster Teknisk Rapport af Dorte Haltrup Hansen Center for Sprogteknologi dorte@cst.dk 1 INTRODUKTION Træningen af Brill-taggeren er foretaget
Læs mereDET LYDER DA ENS? FORMÅL MATERIALER OPDELING AF ELEVER
DET LYDER DA ENS? FORMÅL MATERIALER OPDELING AF ELEVER At træne elevernes skelneevne mellem ord, som har enslydende endelser som -er/- re/-rer/-ere. Her skal de både finde den rette ordklasse og bøjning,
Læs mereDet islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir
Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir Det islandske ordklasseopmærkede korpus Oversigt over foredraget: Hvor stammer projektet fra? Hvad er et ordklasseopmærket korpus? Hvordan
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Om sammenhængen mellem eksplikative ledsætninger og determinative relativsætninger Forfatter: Kilde: Udgivet af: URL: Peter Harms Larsen NyS Nydanske Studier & Almen kommunikationsteori 1, 1970,
Læs mereNy Forskning i Grammatik
Ny Forskning i Grammatik Titel: Forfatter: Kilde: URL: Sætningsled Argumenter vs modifikatorer Finn Sørensen P. Durst-Andersen og J. Nørgård-Sørensen (red.). Ny Forskning i Grammatik 2, 1995, s. 41-47
Læs mere4. KAPITEL - NOMINALSYSTEMET (substantiver, proprier, adjektiver, pronomen og numerale)
4. KAPITEL - NOMINALSYSTEMET (substantiver, proprier, adjektiver, pronomen og numerale) I dette kapitel er det meningen at komme ind på de ordklasser, som tilhører NOMINER. Dvs. substantiver, propier,
Læs mereOpdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk
Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.
Læs merehttp://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Sprog i Norden Titel: Forfatter: Kilde: URL: Termer og normer på vestgrønlandsk Carl Christian Olsen Sprog i Norden, 1998, s. 94-98 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk språkråd
Læs mereRESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL
RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL OVERSÆTTELSE AF SELSKABSRETLIG DOKUMENTATION. I den foreliggende
Læs mereIntro til design og brug af korpora
Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-
Læs mereGruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi
Skriftlig gruppeaflevering Morfologi 1. Løs nedenstående opgaver sammen med jeres studiegruppe 2. Aflever ét eksemplar samlet for hele studiegruppen a. a. Notér på opgaven: i. Uddannelse (Logopædi, Pædagogisk
Læs mereOrdliste over anvendt fagterminologi
Ordliste over anvendt fagterminologi Adjektiv / tillægsord Adverbial / biled Adverbium / biord Akkusativ m. infinitiv Ord, der beskriver eksempelvis en person eller en genstand, f.eks. er stor, god og
Læs mereOpgaveteknisk vejledning Word 2013. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2013 Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden mens man
Læs mereOpgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2016 til Mac Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden
Læs mereCD-ORD. Alle kan læse og skrive med CD-ORD
Alle kan læse og skrive med CD-ORD Få succes med læsning selv om du er ordblind. Skriv bedre tekster med færre fejl. Få selvtillid og mod på at lære. CD-ORD Hvad er CD-ORD? CD-ORD er Danmarks mest roste
Læs mereTal i det danske sprog, analyse og kritik
Tal i det danske sprog, analyse og kritik 0 Indledning Denne artikel handler om det danske sprog og dets talsystem. I første afsnit diskuterer jeg den metodologi jeg vil anvende. I andet afsnit vil jeg
Læs mereOpgaveteknisk vejledning Word 2011 til Mac. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2011 til Mac Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden
Læs meregr@mmatikrytteren Niveau F - august 2012 Månedsopgave August 2012 Niveau F Navn: PS Forlag ApS
Månedsopgave August 2012 Niveau F Navn: 1 Substantiver (navneord) Nogle substantiver kan være vanskelige at bøje. Det gælder følgende: 1. Substantiver, der ender på ar, -er, -ir, -or, -yr, -ær og ør 2.
Læs mereSeminaropgave: Præsentation af idé
Seminaropgave: Præsentation af idé Erik Gahner Larsen Kausalanalyse i offentlig politik Dagsorden Opsamling på kausalmodeller Seminaropgaven: Praktisk info Præsentation Seminaropgaven: Ideer og råd Kausalmodeller
Læs mereReferencer. Udarbejdelse af teksthenvisninger og referenceliste i Word. Hvornår skal der henvises til kilder, og hvad skal du være opmærksom på:
Referencer Udarbejdelse af teksthenvisninger og referenceliste i Word Hvornår skal der henvises til kilder, og hvad skal du være opmærksom på: Normalt anføres kildeangivelse, hver eneste gang man trækker
Læs mereDen store danske encyklopædi
Den store danske encyklopædi Gratis og online Version: August 2012 Indholdsfortegnelse Den Store Danske...4 Licensbetingelser og...4 Nye artikler...5 Oprindelige artikler...5 Nye artikler/orindelige artikler...5
Læs mereOpdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk
Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.
Læs mereDaglig brug af JitBesked 2.0
Daglig brug af JitBesked 2.0 Indholdsfortegnelse Oprettelse af personer (modtagere)...3 Afsendelse af besked...4 Valg af flere modtagere...5 Valg af flere personer der ligger i rækkefølge...5 Valg af flere
Læs mereYouYonder. så husker du det du lærer
YouYonder så husker du det du lærer Lidt om kunsten at tage effektive noter Hvis du læser en artikel på internettet, ser en video, læser en bog eller hører et foredrag, så vil du kunne øge dit udbytte
Læs mereRita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side
Rita Lenstrup 109 Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side 127-136. 1. Indledning I Hermes nr. 5 præsenteredes en sammenlignende vurdering
Læs mereSådan bruger du Den Dansk-Engelske Regnskabsordbog
Sådan bruger du Den Dansk-Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.
Læs mereItalien spørgeskema til seminarielærere / sprog - dataanalyse
Italien spørgeskema til seminarielærere / sprog - dataanalyse Om dig 1. 7 seminarielærere, der under viser i sprog, har besvaret spørgeskemaet 2. 6 undervisere taler engelsk, 6 fransk, 3 spansk, 2 tysk
Læs mereAt vurdere websteder. UNI C 2008 Pædagogisk IT-kørekort. af Eva Jonsby og Lena Müller oversat til dansk af Kirsten Ehrhorn
At vurdere websteder af Eva Jonsby og Lena Müller oversat til dansk af Kirsten Ehrhorn Trykt materiale, f.eks. bøger og aviser, undersøges nøje inden det udgives. På Internet kan alle, der har adgang til
Læs mereGOD AKADEMISK PRAKSIS. - Sådan håndterer du kilder og undgår eksamenssnyd
GOD AKADEMISK PRAKSIS - Sådan håndterer du kilder og undgår eksamenssnyd UNDGÅ EKSAMENSSNYD SDU forudsætter, at du kan arbejde selvstændigt og at eksamen altid afspejler dit arbejde. Når du står med dit
Læs mereAalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse
Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse Overordnede faglige mål med AP-forløbet Det primære formål med AP er at give eleverne en nødvendig basisforståelse for morfologi,
Læs mereSkriv en artikel. Korax Kommunikation
Skriv en artikel Indledningen skal vække læserens interesse og få ham eller hende til at læse videre. Den skal altså have en vis appel. Undgå at skrive i kronologisk rækkefølge. Det vækker ofte større
Læs mereSprogteknologiske resourcer for islandsk leksikografi
Eiríkur Rögnvaldsson Sprogteknologiske resourcer for islandsk leksikografi Seminar om leksikografi og sprogteknologi Schæffergården 31. januar 2010 Foredragets emne Islandsk sprogteknologi omkring århundredskiftet
Læs mereCD-ORD. Alle kan læse og skrive med CD-ORD
Alle kan læse og skrive med CD-ORD Få succes med læsning selv om du er ordblind. Skriv bedre tekster med færre fejl. Få selvtillid og mod på at lære. CD-ORD Hvad er CD-ORD? CD-ORD er Danmarks mest roste
Læs mereSprog i Norden. Nunat Aqqinik Aalajangiisartut Grønlands stednavnenævn. Kilde: Sprog i Norden, 2008, s. 185-188
Sprog i Norden Titel: Forfatter: Nunat Aqqinik Aalajangiisartut Grønlands stednavnenævn Carl Chr. Olsen Kilde: Sprog i Norden, 2008, s. 185-188 URL: http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Læs mereStatistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Signe, Helene, Marie, Amalie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt
Læs mereSandhed del 1. Relativ eller absolut sandhed 1?
Sandhed del 1 Relativ eller absolut sandhed 1? Dagens spørgsmål: Når det gælder sandhed findes der grundlæggende to holdninger. Den ene er, at sandhed er absolut, og den anden at sandhed er relativ. Hvad
Læs mereDet første, eleverne møder, er siden Kom godt i gang. Her får de en kort introduktion til de funktioner, de skal bruge undervejs i forløbet.
Af Marianne og Mogens Brandt Jensen NIVEAU: 7.-9. klasse Denne vejledning er en introduktion til forløbet Instruktion 1 i iskriv.dk til overbygningen. Vejledningen gennemgår og uddyber det forløb, eleverne
Læs mereUndgå eksamenssnyd en hjælp til studerende
Undgå eksamenssnyd en hjælp til studerende Eksamenssnyd er en forseelse, som Erhvervsakademi Aarhus ser med største alvor på, fordi forseelsen medfører, at man ikke kan stole på erhvervsakademiets eksamensbeviser.
Læs mereManuskriptvejledning De Studerendes Pris
Fremsendelse af artikel Artikler skrevet på baggrund af bachelorprojekter, der er afleveret og bestået i det annoncerede tidsrum, kan deltage i konkurrencen om De Studerendes Pris. Det er kun muligt at
Læs mereUNDGÅ EKSAMENSSNYD. - hjælp til selvhjælp
UNDGÅ EKSAMENSSNYD - hjælp til selvhjælp UNDGÅ EKSAMENSSNYD SDU forudsætter, at du kan arbejde selvstændigt og at eksamen altid afspejler dit arbejde. Når du står med dit eksamensbevis i hånden, skal man
Læs mereKvadratrodsberegning ved hjælp af de fire regningsarter
Kvadratrodsberegning ved hjælp af de fire regningsarter Tidligt i historien opstod et behov for at beregne kvadratrødder med stor nøjagtighed. Kvadratrødder optræder i forbindelse med retvinklede trekanter,
Læs mereSådan bruger du Den Engelske Regnskabsordbog
Sådan bruger du Den Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.
Læs mereMatematik, maskiner og metadata
MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer
Læs mereTip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik
Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,
Læs mereNP-genkendelse i OntoQuery
NP-genkendelse i OntoQuery OntoQuery-projekt Teknisk rapport X.X November 2000 Dorte Haltrup Center for Sprogteknologi Introduktion Denne rapport handler om Steven Abneys parser, Cass, der bliver brugt
Læs mereVelkommen til Stifikseren!
Powered by Velkommen til Stifikseren! Du har nu fået et meget effektivt værktøj til på én gang at lette dit arbejde og kvalificere dine elevers udbytte af deres og din indsats i forhold til deres skriftlige
Læs mereKære bachelor-opgaveskriver. Velkommen.
Kære bachelor-opgaveskriver Velkommen. Dette vejlederbrev i beskriver rammerne for min vejledning og for vores samarbejde omkring din bacheloropgave. I brevet kan du læse mere om, hvad jeg tilbyder i vejledningsforløbet,
Læs mereMaskinel køretøjsklassifikation ud fra mønstergenkendelse. Udarbejdet: Christian Overgård Hansen 28. september 2004
Notat Sag: Titel: Maskinel køretøjsklassifikation ud fra mønstergenkendelse Analyse af antalstællinger Notatnr. 11-7 Rev.: Til: Bjarne Bach Nielsen, Allan Christensen Udarbejdet: Christian Overgård Hansen.
Læs mereSkabelonfilen er udarbejdet i Word til Windows (Office 2010) og er også afprøvet i Word til Mac.
Nordiske Studier i Leksikografi 13 (København 2015) Brug af stilark Vi vil gerne have at alle forfattere benytter den Word-fil som redaktionen har udarbejdet og sendt ud, både forfattere og redaktører
Læs mereALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring
ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE Udfordring INDHOLDSFORTEGNELSE 1. Forløbsbeskrivelse... 3 1.1 Overordnet beskrivelse tre sammenhængende forløb... 3 1.2 Resume... 5 1.3 Rammer
Læs mereForberedelse. Forberedelse. Forberedelse
Formidlingsopgave AT er i høj grad en formidlingsopgave. I mange tilfælde vil du vide mere om emnet end din lærer og din censor. Det betyder at du skal formidle den viden som du er kommet i besiddelse
Læs mereBliv opdaget på Internettet! - 10 gode råd til at optimere din hjemmeside til søgemaskiner
Bliv opdaget på Internettet! - 10 gode råd til at optimere din hjemmeside til søgemaskiner Af Henrik Bro og Martin T. Hansen I har måske allerede en flot, og informativ hjemmeside. Og alle jeres kursister
Læs mereNye tal fra Sundhedsstyrelsen. Dødsårsager i de nordiske lande 1985-2000 2004:9
Nye tal fra Sundhedsstyrelsen Dødsårsager i de nordiske lande 1985-2000 2004:9 Redaktion: Sundhedsstyrelsen Sundhedsstatistik Islands Brygge 67 2300 København S. Telefon: 7222 7400 Telefax: 7222 7404 E-mail:
Læs mereeksamens snyd UNDGÅ EKSAMENSSNYD En hjælp til Handelshøjskolens studerende
eksamens snyd UNDGÅ EKSAMENSSNYD En hjælp til Handelshøjskolens studerende Eksamenssnyd er en forseelse, som Handelshøjskolen ser med største alvor på, fordi forseelsen medfører, at man ikke kan stole
Læs mereSproglige problemstillinger ved informationssøgning
Sproglige problemstillinger ved informationssøgning Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Søgemaskiner i dag: nogle problemer Nogle krav til fremtidig
Læs mereGOD AKADEMISK PRAKSIS. - Sådan håndterer du kilder og undgår eksamenssnyd
GOD AKADEMISK PRAKSIS - Sådan håndterer du kilder og undgår eksamenssnyd UNDGÅ EKSAMENSSNYD SDU forudsætter, at du kan arbejde selvstændigt og at eksamen altid afspejler dit arbejde. Når du står med dit
Læs mereLæring af test. Rapport for. Aarhus Analyse Skoleåret
Læring af test Rapport for Skoleåret 2016 2017 Aarhus Analyse www.aarhus-analyse.dk Introduktion Skoleledere har adgang til masser af data på deres elever. Udfordringen er derfor ikke at skaffe adgang
Læs mereDigitale Videnssystemer: Notater
Digitale Videnssystemer: Notater Sigfred Hyveled Nielsen IVA / Københavns Universitet 3. Semester Denne tekst er skrevet af Sigfred Nielsen, og stillet til rådighed under Creative Commons Navngivelse-IkkeKommerciel-DelPåSammeVilkår
Læs mereStatistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig
Læs mereBrugerundersøgelse af IDAs portal 2004
Brugerundersøgelse af IDAs portal 2004 Som led i realiseringen af IDAs IT-strategi blev IDAs hjemmeside, portalen, i august 2004 relanceret med nyt design og ny struktur. For at undersøge hvordan brugerne
Læs mere1. Hvilke fordele og ulemper er der ved at gennemføre en undersøgelse som denne?
Studieoplæg for forkyndere (1) Læs kapitel 2-4 (side 9-26) i rapporten 1. Hvilke fordele og ulemper er der ved at gennemføre en undersøgelse som denne? 2. Drøft i hvor høj grad, I deler de forudsætninger
Læs mereFremstilling af digitalt undervisningsmateriale
Side 1 af 6 Fremstilling af digitalt undervisningsmateriale Rammer for indskanning og upload på Absalon Arbejdsgang for upload på Absalon Rammer for samling i digitalt kompendium Arbejdsgang for samling
Læs mereGoogle Scholar. Søgning. Udgiver Google
Find vejen frem VIA University College Dato: 1. august 2019 Ulla Buch Nilson, VIA Biblioteker Google Scholar Søgning Udgiver Google Indhold Google Scholar er et søgeværktøj til at finde videnskabelig litteratur.
Læs mereeksamens snyd UNDGÅ EKSAMENSSNYD En hjælp til universitetets studerende AARHUS UNIVERSITET
eksamens snyd UNDGÅ EKSAMENSSNYD En hjælp til universitetets studerende AARHUS UNIVERSITET 2 UNDGÅ EKSAMENSSNYD UNDGÅ EKSAMENSSNYD Eksamenssnyd er en forseelse, som universitetet ser med største alvor
Læs mereAndengradsligninger. Frank Nasser. 12. april 2011
Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette
Læs mereCensorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve
Maj 2018 Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx Analog prøve Den skriftlige eksamen i fransk er først og fremmest en sproglig prøve, som skal give eksaminanderne
Læs mereBAAN IVc. Brugervejledning til BAAN Data Navigator
BAAN IVc Brugervejledning til BAAN Data Navigator En udgivelse af: Baan Development B.V. P.O.Box 143 3770 AC Barneveld Holland Trykt i Holland Baan Development B.V. 1997. Alle rettigheder forbeholdes.
Læs mereVirker knowledge management?
Virker knowledge management? Virker knowledge management? Januar 2006 af professor Per Nikolaj Bukh, pnb@pnbukh.com, Aalborg Universitet 1. Indledning Gammel vin på nye flasker? Med jævne mellemrum dukker
Læs mereFÅ SVAR PÅ DINE PC-SPØRGSMÅL:
FÅ SVAR PÅ DINE PC-SPØRGSMÅL: Velkommen til det nye I Komputer for alles Spørg os Forum har læserne fået løst næsten 0.000 pc-problemer i de seneste år. Nu har vi gjort den populære tjeneste endnu bedre,
Læs mereRasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling
Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling Rasmus Rønlev CV i uddrag 2008: Cand.mag. i retorik fra Københavns Universitet 2008-2009: Skrivekonsulent
Læs mereBringe taksonomier i spil
Bringe taksonomier i spil Frans la Cour Hvem er jeg? Frans la Cour 3 år hos ensight a/s Systemdesign Projektledelse og implementering Undervisning Med udgangspunkt i Veritys værktøjer Vise nogle af de
Læs mereHer kan du skrive noter til dit oplæg
Her kan du skrive noter til dit oplæg 1 2 Dette er Danmarks Statistiks definition på hvad statistik er 3 Danmarks Statistik kategoriserer deres statistikker i statistik om hhv. personer, erhverv og økonomi
Læs mereOLAM et semiautomatisk morfologisk og lydstrukturelt kodningssystem for dansk
OLAM et semiautomatisk morfologisk og lydstrukturelt kodningssystem for dansk Thomas O. Madsen, Hans Basbøll og Claus Lambertsen 1 Syddansk Universitet, Institut for sprog og kommunikation Campusvej 55,
Læs meregyldendal tysk grammatik
agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik gyldendal
Læs mereIt-støttet excerpering og registrering af nye ord og ordforbindelser
It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition
Læs mereCensorvejledning engelsk B, HF 2017-læreplan
Maj 2019 Line Flintholm, fagkonsulent line.flintholm@stukuvm.dk 33 92 53 83 Indholdsfortegnelse... 1 Det skriftlige opgavesæt HF B... 1 Bedømmelsen af opgaven... 1 Hvad prøves der i?...2 Prøver i opgavens
Læs mereVejledning for censorer i skriftlig fransk begyndersprog A, hhx. Gl-Fransk digital
Maj 2019 Vejledning for censorer i skriftlig fransk begyndersprog A, hhx Gl-Fransk digital Den digitale prøve i fransk begyndersprog A består af to delprøver. Bedømmelsen er en samlet helhedsvurdering
Læs mereSubstantiver - genus. For det meste samme genus i dansk og svensk: En stol Et bord. En kvinde, en mand Et barn. Undtagelser findes:
Substantiver - genus For det meste samme genus i dansk og svensk: En stol Et bord En kvinde, en mand Et barn Undtagelser findes: Et digt, et kys, et menneske, et flag En finger, en bi, en pris, en krig
Læs mereKorpusbaseret lemmaselektion og opdatering
Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk Program 1. Introduktion til DSL 2. Introduktion
Læs mereProjektarbejde med scrum- metoden
Projektarbejde med scrum- metoden Indhold Indhold... 1 1 Indledning... 2 2 Roller og terminologi i scrum... 3 Opgavestilleren... 3 Scrum Masteren... 3 Projektgruppen... 3 Sprint... 3 3 Møder... 3 Planlægningsmødet...
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Forfatter: Tyrannocorpus Rex Peter Juel Henrichsen Kilde: NyS Nydanske Studier & Almen kommunikationsteori 26+27. Artikler om partikler, 2000, s. 225-245 Udgivet af: URL: Dansklærerforeningen
Læs mereMænd med lange uddannelser skriver debatsiderne
1 Mænd med lange uddannelser skriver debatsiderne Notat om uddannelse og køn i de danske debatsektioner De mennesker, der skriver debatindlæg i de store landsækkende medier, har ikke meget til fælles med
Læs mereBilag til AT-håndbog 2010/2011
Bilag 1 - Uddybning af indholdet i AT-synopsen: a. Emne, fagkombination og niveau for de fag, der indgår i AT-synopsen b. Problemformulering En problemformulering skal være kort og præcis og fokusere på
Læs mereDansk-historieopgaven (DHO) skrivevejledning
Dansk-historieopgaven (DHO) skrivevejledning Indhold Formalia, opsætning og indhold... Faser i opgaveskrivningen... Første fase: Idéfasen... Anden fase: Indsamlingsfasen... Tredje fase: Læse- og bearbejdningsfasen...
Læs mereDe bøjes i måde (modus) og art (diatese). Navneordene står altid i akkusativ efter et verbum.
Opgave om verber Hvad er et verbum? 1. Navn Løsning 2. Et verbum kaldes også på dansk for et Udsagnsord navneord tillægsord biord sagnord 3. Hvilket af følgende udsagn gælder om verberne? De bøjes i køn,
Læs mereGentofte Skole elevers alsidige udvikling
Et udviklingsprojekt på Gentofte Skole ser på, hvordan man på forskellige måder kan fremme elevers alsidige udvikling, blandt andet gennem styrkelse af elevers samarbejde i projektarbejde og gennem undervisning,
Læs mereVejledning til 5 muligheder for brug af cases
Vejledning til 5 muligheder for brug af cases Case-kataloget kan bruges på en række forskellige måder og skabe bredde og dybde i din undervisning i Psykisk førstehjælp. Casene kan inddrages som erstatning
Læs mereDanske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog.
Danske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog. Af Thomas Troelsgård. Projektet Ordbog over Dansk Tegnsprog
Læs mereTil skriftlige censorer ved sommereksamen i engelsk 2009 hf B ny ordning
Maj 2009 Til skriftlige censorer ved sommereksamen i engelsk 2009 hf B ny ordning Kære censorer Dette brev henvender sig til censorer, der skal censurere opgaver fra hf efter den nye ordning. Brevet indeholder
Læs mereTEKST: CAMILLA BØDKER THOMSEN / ILLUSTRATIONER: CHARLOTTE PARDI
Sådan bliver en bog til at finde TEKST: CAMILLA BØDKER THOMSEN / ILLUSTRATIONER: CHARLOTTE PARDI Jeg skal bruge en bog om rumfart, som helst ikke er alt for gammel, og som er til at forstå for en niårig,
Læs mereAndengradsligninger. Frank Nasser. 11. juli 2011
Andengradsligninger Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion
Læs mereManual til Groupcare: Indhold, formål og brug
Manual til Groupcare: Indhold, formål og brug Indledning Groupcare er en elektronisk, internetbaseret kommunikationsform som vi bruger i forbindelse med din DOL-uddannelse. Grundlæggende set er Groupcare
Læs mereInformation fra Lærerens hæfte om skriftlig eksamen i spansk:
Nyttig information om Delprøve 1 og 2: http://www.tornbjerg-gym.dk/letbanen/skriv-i-fagene/humaniora/spansk/ Information fra Lærerens hæfte om skriftlig eksamen i spansk: Delprøve 1 Prøveform Delprøve
Læs mereCD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet
CD-ORD 8 Værktøjet til læsning og skrivning mikro Værkstedet CD-ORD CD-ORD er et personligt værktøj, der tilbyder støtte til læsning og skrivning for alle - i skolen, på jobbet, under uddannelse eller
Læs mere