NyS. NyS og artiklens forfatter
|
|
- Camilla Lindholm
- 7 år siden
- Visninger:
Transkript
1 NyS Titel: Forfatter: Kilde: Udgivet af: URL: Danske resurser til automatisk opmærkning Dorte Haltrup NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s Akademisk Forlag A/S NyS og artiklens forfatter Betingelser for brug af denne artikel Denne artikel er omfattet af ophavsretsloven, og der må citeres fra den. Følgende betingelser skal dog være opfyldt: Citatet skal være i overensstemmelse med god skik Der må kun citeres i det omfang, som betinges af formålet Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger. Søgbarhed Artiklerne i de ældre NyS-numre (NyS 1-36) er skannet og OCR-behandlet. OCR står for optical character recognition og kan ved tegngenkendelse konvertere et billede til tekst. Dermed kan man søge i teksten. Imidlertid kan der opstå fejl i tegngenkendelsen, og når man søger på fx navne, skal man være forberedt på at søgningen ikke er 100 % pålidelig.
2 Danske resurser til automatisk opmærkning DORTE HALTRUP INDLEDNING At opbygge sproglige resurser (såsom korpora, leksika og sprogteknologiske værktøjer) er meget tidskrævende og derfor meget bekosteligt. Når man opbygger resurser, er det derfor vigtigt at de kan bruges af mange og genbruges til forskellige formål, ikke mindst for at få dem finansieret. Genbrug af sproglige resurser er særlig aktuelt i korpuslingvistikken, hvor der ofte stilles store krav til tekstresursernes størrelse og grammatiske opmærkning. Denne artikel præsenterer to vigtige emner i den danske korpuslingvistik, nemlig PAROLE-korpuset og Eric Brills algoritme til maskinlæring, Transformation-based Learning (TBL). Tilsammen danner disse to resurser udgangspunkt for mange af de danske taggere (programmer til automatisk korpusopmærkning med grammatiske kategorier) der er i brug i dag. PAROLE og TBL er omtalt i flere af de øvrige artikler i dette nummer af NyS. l. PAROLEKORPUSSET OG DETS TAGSET Med udgangspunkt i genbrugstanken nedsatte EU i 1993 et udvalg kaldet EAGLES 1 (the Expert Advisory Group for Language Engineering Standards) der har til formål at definere standarder for sproglige resurser. Gruppen har bl.a. udarbejdet en anbefaling om morfosyntaktisk opmærkning afkorpora der er udformet som et sprogneutralt tagset. Ideen har været at lave en ramme der er så finmasket at den kan rumme morfosyntaktiske værdier for alle de involverede europæiske sprog. Men der er langt fra teoretisk beskrivelse af et tagset til et konkret annoteret korpus. 59
3 Skridtet fra det teoretiske til det praktiske blev taget af det europæiske LE-PAROLE-projekt i årene Projektet bestod af tre dele for hvert af de 14 involverede sprog: i) opbygning af et almensprogligt tekstkorpus på 20 mio. ord, ii) opbygning af et leksikon på lemmaer samt iii) opbygning af et morfosyntaktisk annoteret korpus på løbende ord. I det følgende vil jeg skitsere hvad det danske annoterede PAROLE-korpus er, hvordan det er blevet skabt og derefter se lidt nærmere på dets tagset. 1.1 DET DANSKE MORFOSYNTAKTISK ANNOTEREDE PAROLE KORPUS2 Det annoterede PAROLE-korpus består at tekstord der er fordelt på 1553 tekstuddrag. Teksterne dækker 8 forskellige genrer, dog er ca. 70% avistekster (se Keson 99). Det rå tekstkorpus er først blevet morfologisk analyseret med DAN TWOL-algoritmen3, som giver en eller flere alternative analyser til hvert ord. Derefter er den korrekte analyse manuelt markeret <correct!>. Fx: "<*samtlige>" "<partier>" ll<i>ll "<*folketinget>" "samtlige" <*>A POS UK UT UB NOM <correct!> "parti" N INT PL UBEST NOM <correct!> "i" U <adv> "i" U <prep> <correct!> "i" U <adv> "i" U <prep> "i" NUM <roman> "folke#ting" <*>N INT SG BEST NOM <correct!> Den manuelle udvælgelse af de korrekte analyser er fortaget parallelt af to personer for at sikre at resultatet er så korrekt som muligt. De steder hvor annotørerne har vært uenige, er der gennem diskussion opnået et 60 NYS 30 DANSKE RESURSER
4 fælles resultat; men til trods for denne omhyggelige fremgangsmåde forekommer der stadig et antal fejlanalyser i korpusset. Analyserne der er markeret <correct!>, er trukket ud automatisk, hvorefter analyserne er konverteret til det fælles PAROLE-format. Tekststumpen der blev vist i DAN-TWOL-format ovenfor, ser i PAROLE-formatet ud på flg. måde: <W lemma::::" samtlige" msd==" ANP[CN][SP]U==[DI]U ">Samtlige<IW> <W lemma==" parti" msd==" NCNPU====I" >partier<iw> <W lemma=="i" msd:::::"sp">k/w> <W lemma=="folketing" msd=="ncnsu====d">folketinget</w> - hvor ordet efter lemma er tekstordets lemma, bogstaver og tegn efter msd er tekstordets analyse, og tekstordet står sidst før <IW>. 1.2 DET DANSKE PAROLE-TAGSET Af eksemplet ovenfor fremgår det vist tydeligt at analyser i PAROLE-formatet ikke umiddelbart er let læselige. I dette afsnit vil jeg beskrive hvordan analyserne ( taggene) er bygget op ud fra den fælles ramme for alle PAROLE-tagset. Den generelle ramme er et ordnet sæt af træk hvilket vil sige at hvert træk (eller rettere dets værdi) har sin bestemte plads. Fx står ordklassen (Kat) altid på første plads. Rammens indhold udgør således det maksimale tagset ud fra hvilket hvert sprog kan definere sit eget. I rammen der er illustreret nedenfor, skal man dels bemærke at de hvide felter er træk der anvendes i det danske PAROLE-korpus; mens de grå felter er træk der ikke er anvendt i det danske tagsæt. Og dels skal man bemærke at felterne 1-7 er de træk der er fælles for alle PAROLE-sprogene; mens trækkene i felterne 8-11 er sprogspecifikke (de træk der er vist her, er for dansk). 61
5 Pladsnummer For bedre at forstå hvad trækkene dækker over, kan man fx se på et ord som partier der i PAROLE-format ser ud som følgende: <W lemma="parti" msd=" NCNPU==I ">partier</w> hvor tagget er NCNPU==I. Hvis man går ind i skemaet og ser på hvilke danske værdier de forskellige træk for et substantiv kan have, finder man følgende 4 : Pladsnummer 62 NYS 30 DANSKE RESURSER ~ ~~----~-~
6 Ud fra skemaet kan man altså se at ordet partier er: N et substantiv (noun) C af formen appellativ N er intetkøn P i pluralis U er umarkeret for kasus = (ikke eksisterende) (ikke eksisterende) I i ubestemt form I alt er der 151 forskellige kombinationer af værdier i det danske PARO LE-tagset, dvs. at der findes 151 forskellige tags. Nu er det ikke sikkert at man til alle formål har brug for så detaljeret et tagset. Nedenfor kan man se forskellige muligheder for at reducere det. Den mest ekstreme reduktion der indebærer kun at have ordklasserne med, fører til et tagset på 10 forskellige tags. Med dette minimale tagset vil man kunne lave en grov, basal analyse af en tekst; men fx tal og bestemt/ubestemt artikel vil forsvinde i analysen fordi disse størrelser hhv. tilhører ordklassen adjektiv og pronomen. Udvider man tagsettet med ordklassernes undertyper, fås et tagset på 25, medtages fx modus for verberne, fås et tagset på 34 osv. Tagsettet på 38 tags er det Britt Kesons anbefaler5, og som i resten af artiklen kaldes "det reducerede tagset':
7 Pladsnummer Kategori Noun Sub. kategori proprium, appellativ Verb alm., indikativ, præsens, med i al imperativ, præteritum infinitivform, gerundium, participium Ad j Pro n Ad v Ad pos Con j lnterj Residual alm. kardinal, ordinal. personligt, demonstrativt, ubestemt, interrog/rel, reciprokt, possessivt generel præposition sideord. underor d. forkortelse, udenlandske ord, tegn, formler, symboler, andet Unique 10 tags 25 tags 34 tags 38 tags l alt 151 PAROLE-tags Det store spørgsmål er selvfølgelig om det er fordelagtigt at reducere tagsettet, og i givet fald hvad man skal reducere det til (denne diskussion tages op i artiklen afjuel Henrichsen i dette nummer af NyS). 2. BRILL-TAGGEREN Automatisk tagging består generelt af tre faser: i. Tekstordene slås op i en ordbog for at finde deres kategori. NYS 30 DANSKE RESURSER
8 ii. For ordformer der ikke findes i ordbogen, skal systemet gætte kategorien. iii. For ordformer der kan have flere kategorier, skal systemet vælge hvilken der er den korrekte i konteksten. Hvilke metoder man vælger til at løse disse tre typer problemer, afhænger af ens teoretiske udgangspunkt. I dette afsnit vil vi beskrive Eric Brills taggingmetode der hedder transformation based learning (Brilll993). Transformation based learning er en algoritme der tager udgangspunkt i at systemet (taggeren) skallære regler om tekstords kategorier automatisk ved at blive trænet på et allerede tagget korpus. Under træningen arbejdes med to versioner af samme korpus: den oprindelige taggede version samt en version hvor alle taggene er fjernet. Først tildeles ordene i det nøgne korpus et tilfældigt tag. Derefter ændres taggene ved hjælp af transformationer på en måde så den transformationsregel der får det "nøgne" korpus til at nærme sig det oprindelige, får en højere vægtning, mens de regler der får korpus til at fjerne sig fra det oprindelige, bliver smidt væk. På den måde opbygges lister af ordnede regler: leksikalske regler og kontekstuelle regler. Træningen stopper når der ikke kan findes flere regler, eller hvis systemet når en prædefineret grænse. I de leksikalske regler ses bl.a. på tekstordenes præ- og suffikser hvorved der opbygges information der kan bruges til at gætte ukendte ords kategori. En leksikalsk regel kan fx se således ud: ede hassuf 3 V_PAST hvilket betyder: "Hvis ordet har suffikset -ede skal tagget (hvad det end er) ændres til V_PAST" Dvs. at hvis et ord ender på -ede, er det ifølge taggeren datidsformen af et verbum. Tallet efter reglen er en form for vægtning af reglen. De kontekstuelle regler derimod ser på tekstordets omgivelser hvorved de kan bruges til at vælge mellem en række alternative kategorier, altså til at fjerne syntaktisk flertydighed. En kontekstuel regel kan se således ud:
9 V_PASTV_INF PREWD at hvilket betyder: "Ændr V _PAST til V _INF hvis det foregående ord var at" Dvs. at der ifølge taggeren er tale om infinitivsformen af et verbum hvis det foregående tekstord var at. Gennem træningen har taggeren altså opbygget en ordbog og de to sæt transformationsregler. Med disse er den nu i stand til at tagge ny og ukendt tekst. Har man fx følgende tekststump: "Samtlige partier i Folketinget står i dag sammen om at bevilge 50 millioner kroner om året til samfundets svageste", vil den efter tagging se således ud: Samtlige/ADJ partier/n i/præp Folketinget/N står/v_pres i/præp dag/n sammen/adv om/præp at/unik bevilge/v_inf 50/NUM millioner/n kroner/n om/præp året/n tii/præp samfundets/n_gen svageste/adj Den taggede tekststump ovenfor er fejlfri. Generelt har Brills tagger og enhver anden tagger en fejlrate på mellem 1,5 og 10 o/o. Forsøg har vist at Brill taggeren trænet med det reducerede tagsæt har en fejlrate på ca. 4o/o, hvilket er ganske pænt. Man skal dog være forsigtig med at lægge alt for meget i det pæne resultat. For det første er resultatet opnået på samme teksttype som træningen er foretaget på. Man kunne forestille sig at tagging af en anden teksttype eller et andet domæne ville give et dårligere resultat. For det andet siger tallet kun at der forekommer en række fejl, ikke hvilken type de er, hvor eller hvorfor de er opstået. Haltrup (2000) samt artiklerne af Hardtog Juel Henrichsen (dette nummer af NyS) giver eksempler på anvendelser af de resurser der er gennemgået her i teksten. Dorte Haltrup Hansen Center for Sprogteknologi dorte@cst.dk 66 NYS 30 DANSKE RESURSER
10 NOTER: l. http./ / 2. Korpusset er udarbejdet på Dansk Sprog- og Litteraturselskab under ledelse af Britt Keson og kan dawnloades fra: e-resurser/parole-korpus.html 3. Algoritmen er udviklet til dansk af Thomas Bilgram (jf. Keson 1999) 4. Se en detaljeret gennemgangaftrækkenes mulige værdier i :"Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus", der kan downloades sammen med korpusset. 5. Britt Keson, 1999: "Morfosyntaktisk taggingaf danske tekster" i 7. Møde om Udforskning af Dansk Sprog (MUDS), red. af Peter Widell og Mette Kunøe, Århus LITTERATUR: Brill, E. (1993): A Corpus-Based Approach to Language Learning. Ph.D. thesis, Dpt. o f Computer and Information Science, Univ. o f Pennsylvania; [hent computerprogrammet på Haltrup Hansen, D. (2000): Evaluering af NP-genkendere. M.Sc. thesis, Kbh. Universitet; ( unpubl.) Keson, B.-K. (1999): Vejledning til det Danske Morfosyntaktisk Taggede PARO LE-korpus. Det Danske Sprog- og Litteraturselskab.
ONTOQUERY Januar 2000
ONTOQUERY Januar 2000 Træning og brug af Brill-taggeren på danske tekster Teknisk Rapport af Dorte Haltrup Hansen Center for Sprogteknologi dorte@cst.dk 1 INTRODUKTION Træningen af Brill-taggeren er foretaget
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Replik til Kirsten Rasks anmeldelse af RO 2012 (bragt i NyS 44) Forfatter: Anita Ågerup Jervelund og Jørgen Nørby Jensen Kilde: NyS Nydanske Sprogstudier 45, 2013, s. 141-145 Udgivet af: URL:
Læs mereVejledning til det danske morfosyntaktisk taggede PAROLE-korpus
Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus af Britt Keson Det Danske Sprog- og Litteraturselskab (DSL) 1. INDLEDNING 4 2. MORFOSYNTAKTISK KORPUSTAGGING 5 2.1 Korpustaggingens forløb
Læs mereSprogteknologiske resourcer for islandsk leksikografi
Eiríkur Rögnvaldsson Sprogteknologiske resourcer for islandsk leksikografi Seminar om leksikografi og sprogteknologi Schæffergården 31. januar 2010 Foredragets emne Islandsk sprogteknologi omkring århundredskiftet
Læs mereIntro til design og brug af korpora
Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-
Læs mereVejledning til det danske morfosyntaktisk taggede PAROLE-korpus
Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus af Britt Keson Det Danske Sprog- og Litteraturselskab (DSL) 1. INDLEDNING 4 2. MORFOSYNTAKTISK KORPUSTAGGING 5 2.1 Korpustaggingens forløb
Læs mereNORDISKE STUDIER I LEKSIKOGRAFI
NORDISKE STUDIER I LEKSIKOGRAFI Titel: Forfatter: Den Danske Ordbogs tekstkorpus og spordhunde Kilde: Nordiske Studier i Leksikografi 2, 1993, s. 138-142 Rapport fra Konference om leksikografi i Norden,
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Om sammenhængen mellem eksplikative ledsætninger og determinative relativsætninger Forfatter: Kilde: Udgivet af: URL: Peter Harms Larsen NyS Nydanske Studier & Almen kommunikationsteori 1, 1970,
Læs mereNy Forskning i Grammatik
Ny Forskning i Grammatik Titel: Forfatter: Kilde: URL: Sætningsled Argumenter vs modifikatorer Finn Sørensen P. Durst-Andersen og J. Nørgård-Sørensen (red.). Ny Forskning i Grammatik 2, 1995, s. 41-47
Læs merehttp://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Sprog i Norden Titel: Forfatter: Kilde: URL: Termer og normer på vestgrønlandsk Carl Christian Olsen Sprog i Norden, 1998, s. 94-98 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk språkråd
Læs mereVejledning til det danske morfosyntaktisk taggede PAROLE-korpus
Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus af Britt Keson Det Danske Sprog- og Litteraturselskab (DSL) 1. INDLEDNING 4 2. MORFOSYNTAKTISK KORPUSTAGGING 5 2.1 Korpustaggingens forløb
Læs mereDANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER
M20 DANLATINSK FORMÅL MATERIALER OPDELING AF ELEVER At træne eleverne i de danske og latinske betegnelser inden for den mest gængse grammatik. NB! Mulighed for selvkontrollerende aktiviteter med vendekortene.
Læs meresproget.dk en internetportal for det danske sprog
sproget.dk en internetportal for det danske sprog Ida Elisabeth Mørch, Dansk Sprognævn Lars Trap-Jensen, Det Danske Sprog- og Litteratuselskab 1 Baggrunden 2003 Sprog på spil 2005 Ekstrabevilling 2006
Læs mereSprog i Norden. Nunat Aqqinik Aalajangiisartut Grønlands stednavnenævn. Kilde: Sprog i Norden, 2008, s. 185-188
Sprog i Norden Titel: Forfatter: Nunat Aqqinik Aalajangiisartut Grønlands stednavnenævn Carl Chr. Olsen Kilde: Sprog i Norden, 2008, s. 185-188 URL: http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Læs mereSprogteknologi I Undervisningsplan Forårssemester 2009
Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog
Læs mereSprog i Norden Titel: Forfatter: Kilde: URL: Lidt om færøsk sprogrøgt Kaj T. Larsen Sprog i Norden, 1975, s. 53-56 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Dansk Sprognævn Betingelser
Læs mereOpdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk
Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.
Læs mereSproglige problemstillinger ved informationssøgning
Sproglige problemstillinger ved informationssøgning Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Søgemaskiner i dag: nogle problemer Nogle krav til fremtidig
Læs mereDet islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir
Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir Det islandske ordklasseopmærkede korpus Oversigt over foredraget: Hvor stammer projektet fra? Hvad er et ordklasseopmærket korpus? Hvordan
Læs mereOpdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk
Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk Grammatik på dansk er nu på Facebook: facebook.com/grammatikpd Her kan du følge med i sproglige spørgsmål og selv spørge.
Læs mereReferencer. Udarbejdelse af teksthenvisninger og referenceliste i Word. Hvornår skal der henvises til kilder, og hvad skal du være opmærksom på:
Referencer Udarbejdelse af teksthenvisninger og referenceliste i Word Hvornår skal der henvises til kilder, og hvad skal du være opmærksom på: Normalt anføres kildeangivelse, hver eneste gang man trækker
Læs mereHan overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.
Børns morfologi En optælling af Peters ordforråd viser, at han den ordklasse han bruger mest, er substantiver. Det hænger hovedsageligt sammen med, at det er nemmere at forene en fysisk genstand med en
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Fyrre kilometer kryds og bolle. Metoder til grammatisk opmærkning i største skala Forfatter: Kilde: Udgivet af: URL: Peter Juel Henrichsen NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002,
Læs merehttp://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Sprog i Norden Titel: Forfatter: Kilde: URL: Samarbejde mellem modersmålslærerforeningerne i Norden Lise Ettrup og Inger Madsen Sprog i Norden, 1979, s. 91-96 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Læs mereLexicoNordica. Herbert Svenkerud og Helge Parnemann Cappelens Tysk-Norsk og Norsk-Tysk Ordbok. Oslo: J.W. Cappelen.
LexicoNordica Forfatter: Anmeldt værk: Jens Erik Mogensen Herbert Svenkerud og Helge Parnemann. 1992. Cappelens Tysk-Norsk og Norsk-Tysk Ordbok. Oslo: J.W. Cappelen. Kilde: LexicoNordica 1, 1994, s. 277-280
Læs mereSpørgsmål om ophavsret den islandske erfaring
Spørgsmål om ophavsret den islandske erfaring Sigrún Helgadóttir Árni Magnússon instituttet for islandske studier Leksikografisk afdeling Spåkteknologisk infrastruktur Nordiskt seminarium vid Wallenberg
Læs mereForskning med brug af tekster og tekstværktøjer
Forskning med brug af tekster og tekstværktøjer Lene Offersgaard, Center for Sprogteknologi, NFI, KU leneo@hum.ku.dk KU, 20. april 2015 DIGHUMLAB har tre søjler: Language-based materials and tools Research
Læs mereJO HERMANN. Latinsk grammatik. på dansk. Akademisk Forlag
JO HERMANN Latinsk grammatik på dansk Akademisk Forlag Latinsk grammatik på dansk 2. udgave, 2. 4. oplag, 2. 2011 Jo Hermann og Akademisk Forlag, et forlag under Lindhardt og Ringhof Forlag A/S, et selskab
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Forfatter: Imperativens fundamentfelt. Et råmateriale Erik Hansen Kilde: NyS Nydanske Studier & Almen kommunikationsteori 16+17. Sætningsskemaet og dets stilling 50 år efter, 1986, s. 99-104
Læs mereNyS. NyS og artiklens forfatter
NyS Forfatter: Jan Heegård Anmeldt værk: Susanne Annikki Kristensen: Grammatiske grundbegreber. Sætningen, ordet og sproget. Odense: Syddansk Universitet, 2011 (224 s.) Kilde: NyS Nydanske Sprogstudier
Læs mereFaglige delmål og slutmål i faget Dansk. Trin 1
Faglige delmål og slutmål i faget Dansk. Trin 1 Undervisningen skal lede frem mod, at eleverne i 1. klasse har tilegnet sig kundskaber og Det talte sprog Undervisningen tager udgangspunkt i elevernes sproglige
Læs meregyldendal tysk grammatik
agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik agnete bruun hansen elva stenestad i samarbejde med carl collin eriksen gyldendal tysk grammatik gyldendal
Læs mereNyS. NyS og artiklens forfatter
NyS Titel: Korpus 2000. Et overblik over projektets baggrund, fremgangsmåder og perspektiver Forfatter: Kilde: Udgivet af: URL: Jørg Asmussen NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s. 27-38
Læs merea. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?
En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger
Læs mereEn rundvisning i ordnet.dk
Tur En rundvisning i ordnet.dk Guide Jørg Asmussen Det Danske Sprog- og Litteraturselskab Tid & Sted Fredag, 9. november 2012 Universität Flensburg Mere Denne præsentation findes under http://korpus.dsl.dk/staff/ja/pres/uniflens2012.pdf
Læs merehttp://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Sprog i Norden Titel: Forfatter: Kilde: URL: Det danske sprogs stilling i grænselandet Knud Fanø Sprog i Norden, 1986, s. 69-73 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk språksekretariat
Læs mereSprogteknologi I Undervisningsplan Forårssemester 2008
Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer
Læs mereLæringsmål: Årsplan 2015-2016. Dansk. 2.klasse. Mål
Årsplan 2015-2016 Dansk 2.klasse Mål Formålet med undervisningen i dansk er, at fremme elevernes oplevelse og forståelse af sprog, litteratur og andre udtryksformer som kilder til udvikling af personlig
Læs mereKlassifikation af korpustekster, og kvantitative mål for sammensætningen af et almensprogligt korpus
LexicoNordica Titel: Forfatter: Klassifikation af korpustekster, og kvantitative mål for sammensætningen af et almensprogligt korpus Ole Norling-Christensen Kilde: LexicoNordica 3, 1996, s. 121-129 URL:
Læs mereEuklids algoritme og kædebrøker
Euklids algoritme og kædebrøker Michael Knudsen I denne note vil vi med Z, Q og R betegne mængden af henholdsvis de hele, de rationale og de reelle tal. Altså er { m } Z = {..., 2,, 0,, 2,...} og Q = n
Læs meredansk TRÆNING DANSK.GYLDENDAL.DK
dansk TRÆNING DANSK.GYLDENDAL.DK dansk TRÆNING DANSK.GYLDENDAL.DK Træning dansk.gyldendal.dk 1. udgave, 1. oplag 2017 Gyldendal A/S, København Redaktion: Karen Agnild Efter idé af Mads Dyrmose Omslag og
Læs merehttp://ojs.statsbiblioteket.dk/index.php/sin/issue/archive
Sprog i Norden Titel: Forfatter: Kilde: URL: Nogle ord om lovgivning og færøsk sprog Jóhan Hendrik W. Poulsen Sprog i Norden, 1981, s. 29-33 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Dansk
Læs mereDanske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog.
Danske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog. Af Thomas Troelsgård. Projektet Ordbog over Dansk Tegnsprog
Læs mereLexicoNordica. Nyt fra bestyrelsen for Nordisk Forening for Leksikografi. Kilde: LexicoNordica 21, 2014, s
LexicoNordica Titel: Forfatter: Nyt fra bestyrelsen for Nordisk Forening for Leksikografi Kilde: LexicoNordica 21, 2014, s. 375-378 URL: http://ojs.statsbiblioteket.dk/index.php/lexn/issue/archive LexicoNordica
Læs mereGRUNDLÆGGENDE TEORI LIGE FRA HJERTET
GUIDE 3 Programmerne i kameraet GRUNDLÆGGENDE TEORI LIGE FRA HJERTET 2015 LÆRfoto.dk Indhold Indhold... 2 Indledning... 3 Auto S A M... 4 Auto grøn firkant... 5 S Lukkertidsprioriteret... 6 A - Blændeprioriteret...
Læs mereOpgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2016 til Mac Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden
Læs mereNogle bemærkninger til Henning Bergenholtz: Hurtig og sikker tilgang til informationer om ordforbindelser i LexicoNordica 16
LexicoNordica Titel: Forfatter: Nogle bemærkninger til Henning Bergenholtz: Hurtig og sikker tilgang til informationer om ordforbindelser i LexicoNordica 16 Christian Becker-Christensen Kilde: LexicoNordica
Læs mereOpgaveteknisk vejledning Word 2011 til Mac. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2011 til Mac Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden
Læs mereKlart språk i Norden. Når borger og kommune mødes digitalt. Kilde: Klart språk i Norden, 2014, s. 17-22
Klart språk i Norden Titel: Forfatter: Når borger og kommune mødes digitalt Anja Flebbe Kilde: Klart språk i Norden, 2014, s. 17-22 URL: http://ojs.statsbiblioteket.dk/index.php/ksn/issue/archive 2014
Læs mereHjælp til kommatering
Hjælp til kommatering Materialet her indeholder en række forklaringer som er nødvendige for at kunne sætte komma. Vælg ud hvad du synes er relevant for dig. Indhold i materialet Hvis du venstreklikker
Læs mereErik Hansen og Jørn Lund: Sæt tryk på. Syntaktisk tryk i dansk. DLH-forskningsserien 6. Lærerforeningens materialeudvalg. København 1983. 105 pp.
NyS Forfatter: Anmeldt værk: Hans Basbøl Erik Hansen og Jørn Lund: Sæt tryk på. Syntaktisk tryk i dansk. DLH-forskningsserien 6. Lærerforeningens materialeudvalg. København 1983. 105 pp. Kilde: NyS Nydanske
Læs mereAppendix B. Dansk resumé. B.1 Indledning
Appendix B Dansk resumé B.1 Indledning De centrale træk i den morfosyntaktiske udvikling af de skandinaviske sprog og engelsk der omtales i denne afhandling er tabet af morfologisk kasus, V -til-i flytning
Læs mereOpgaveteknisk vejledning Word 2013. Tornbjerg Gymnasium 10. december 2015
Opgaveteknisk vejledning Word 2013 Tornbjerg Gymnasium 10. december 2015 Gem!!! Så snart et dokument er oprettet skal det gemmes under et fornuftigt navn, gør det til en vane at gemme hele tiden mens man
Læs mereCorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora
Peter Widell og Mette Kunøe (udg.): 10. Møde om Udforskningen af Dansk Sprog Århus 2004 CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora Af Eckhard Bick (Syddansk Universitet)
Læs mereBringe taksonomier i spil
Bringe taksonomier i spil Frans la Cour Hvem er jeg? Frans la Cour 3 år hos ensight a/s Systemdesign Projektledelse og implementering Undervisning Med udgangspunkt i Veritys værktøjer Vise nogle af de
Læs mereMinigrammatik. Oversigter fra tysk.gyldendal.dk
Minigrammatik Oversigter fra Artikler (kendeord) 1 Artikler danner bestemte eller ubestemte former af substantiver (navneord). De viser også, hvilket køn et substantiv har, om det er ental eller flertal,
Læs mereAALBORGHUS GYMNASIUM TIL SKRIFTLIGE OPGAVER & AKADEMISK SKRIVNING
AALBORGHUS GYMNASIUM TIL SKRIFTLIGE OPGAVER & AKADEMISK SKRIVNING Indhold Formål... 2 Layout... 2 Hvordan laver man citater?... 2 Kortere citater... 2 Længere citater... 3 Når man udelader ord og sætninger
Læs mereSPROGNOTER for mindrebemidlede
AALBORG UNIVERSITET CENTER FOR LINGVISTIK HANS GÖTZSCHE SPROGNOTER for mindrebemidlede Emne: TEKSTLIG KOHÆSION og KOHÆRENS version opd/prt 2011 09 07 Teori: KOHÆSION / KOHÆRENS Introduktion Begreberne
Læs mereBente Skov. Castellano. Spansk grammatik. Haase & Søns Forlag
Bente Skov Castellano Spansk grammatik Haase & Søns Forlag Bente Skov: Castellano. Spansk grammatik Bente Skov og Haase & Søns Forlag 2012 Fagkonsulent: Niels Leifer Forlagsredaktion: Tom Havemann og Michael
Læs mereKlart språk i Norden Titel: Forfatter: Kilde: URL: Klarsprogsarbejdet i Island Ari Páll Kristinsson og Eygló S. Halldórsdóttir Klart språk i Norden, 1999, s. 16-19 http://ojs.statsbiblioteket.dk/index.php/ksn/issue/archive
Læs mereGruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi
Skriftlig gruppeaflevering Morfologi 1. Løs nedenstående opgaver sammen med jeres studiegruppe 2. Aflever ét eksemplar samlet for hele studiegruppen a. a. Notér på opgaven: i. Uddannelse (Logopædi, Pædagogisk
Læs merePeriodemål 7.-9. klasse
Periodemål 7.-9. klasse I min praksis som lærer udvikler jeg forskellige ressourcer til brug i min undervisning. Her følger eksempler på mål for forskellige perioder med varierende fokusområder. ålene
Læs mereCD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet
CD-ORD 8 Værktøjet til læsning og skrivning mikro Værkstedet CD-ORD CD-ORD er et personligt værktøj, der tilbyder støtte til læsning og skrivning for alle - i skolen, på jobbet, under uddannelse eller
Læs mereRita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side
Rita Lenstrup 109 Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side 127-136. 1. Indledning I Hermes nr. 5 præsenteredes en sammenlignende vurdering
Læs mereDu skal lære. o o o o o. Om filmen. Filmen er en animationsfilm. Animation betyder at gøre noget levende.
Du skal lære o o o o o At tale om, hvad der sker i filmen på dansk. At lytte godt efter, hvad der bliver sagt i filmen. At læse og forstå korte tekster om filmen på dansk. At skrive ord og sætninger om
Læs mereKildehenvisninger. - Information og guide til korrekte kildehenvisninger
Kildehenvisninger - Information og guide til korrekte kildehenvisninger Af: Emil Madsen Slotshaven Gymnasium d.12/12 2016 Indhold Hvorfor overhovedet kildehenvise?:... 1 Hvad er en kildehenvisning så?:...
Læs mereAutomatiske metoder til excerpering af nye ord
Automatiske metoder til excerpering af nye ord Kristín Bjarnadóttir og Eiríkur Rögnvaldsson Seminar om sprogrøgt og sprogteknologi København 29. oktober 2007 Foredragets emne Prototype af et værktøj for
Læs mereSprog i Norden Titel: Forfatter: Kilde: URL: Nordisk sprogmøde den 24. august 2000 i Katuaq Jonathan Motzfeldt Sprog i Norden, 2001, s. 5-7 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk
Læs mereDansk D. Almen forberedelseseksamen. Sproglig prøve. Mandag den 10. december 2012 kl. 9.00-10.00. AVU121-DANsp/D. (1 time) Prøveafholdende institution
Dansk D Almen forberedelseseksamen Sproglig prøve (1 time) Eksaminandens navn Eksaminandnummer Prøveafholdende institution Tilsynsførendes underskrift Jeg bekræfter herved med min underskrift, at opgavebesvarelsen
Læs mereLexicoNordica Titel: Forfatter: Ordbogsbrug i Norden Henning Bergenholtz og Sven-Göran Malmgren Kilde: LexicoNordica 15, 2008, s. 1-4 URL: http://ojs.statsbiblioteket.dk/index.php/lexn/issue/archive LexicoNordica
Læs mereBRUGERVEJLEDNING TIL BRUG AF MC IKAST HJEMMESIDE.
BRUGERVEJLEDNING TIL BRUG AF MC IKAST HJEMMESIDE. www.mcikast.dk På hjemmesiden kan du se alle de kommende ture både i indland og udland. Du kan også se de ture, som er kørt. Alle turene er placeret i
Læs mereProsodi i ledsætninger
Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger
Læs mereIt-støttet excerpering og registrering af nye ord og ordforbindelser
It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition
Læs mereEckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk
EN CONSTRAINT GRAMMAR PARSER FOR DANSK Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet lineb@hum.au.dk, http://visl.hum.sdu.dk 1. Projektet Det moderne samfunds udstrakte brug
Læs mereBILLEDROMANER OG KLASSENS TOSPROGEDE ELEVER
BILLEDROMANER OG KLASSENS TOSPROGEDE ELEVER MARS ER FOR TABERE Igennem de seneste år er det blevet mere og mere åbenlyst, hvor vigtigt det er at arbejde med læseforståelse, når vi snakker om indholdet
Læs mereFejl! Ukendt betegnelse for dokumentegenskab. Fejl! Ukendt betegnelse for dokumentegenskab. Fejl! Ukendt betegnelse for dokumentegenskab.
Fejl! Ukendt betegnelse for dokumentegenskab. Fejl! Ukendt betegnelse for dokumentegenskab. Fejl! Ukendt betegnelse for dokumentegenskab. NOTAT 13-12-2013 edoc 2013-0261756-3 Digitalisering af folkebibliotekernes
Læs mereDet da løgn. Tegn på læring til læringsmålene kan være. Færdigheds- og vidensmål. Plot 4, kapitel 1. Side 10-55 FORTOLKNING
Plot 4, kapitel 1 Det da løgn Side 10-55 FORTOLKNING Oplevelse og indlevelse Eleven kan dramatisere litteratur og andre æstetiske tekster gennem oplæsning og tegning mundtlige, kropslige og billedlige
Læs mereDansk sproghistorie 12
Dansk sproghistorie 12 opsamling og afrunding Thomas Olander Roots of Europe, INSS, Københavns Universitet 29. november 2010 i dag opfølgning dansk sproghistorie i overblik fonetik morfosyntaks og leksikon
Læs mereSprog i Norden Titel: Forfatter: Kilde: URL: Årets bog Den Store Danske Udtaleordbog Jørgen Schack Sprog i Norden, 1992, s. 120-123 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk språksekretariat
Læs mereBedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog
Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december 2016 Dansk som andetsprog Information om prøven i skriftlig fremstilling D Prøven i skriftlig fremstilling D består af et teksthæfte,
Læs mereÅrsplan for 9. A & B klasse i Dansk for skoleåret 2018/2019
Årsplan for 9. A & B klasse i Dansk for skoleåret 2018/2019 Undervisningen er tilrettelagt således, så den følger retningslinjerne fra Fælles Mål for faget dansk. Vi ønsker, at eleverne skal udvikle et
Læs mereInformationssøgning metoder og scenarier
Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean
Læs mereNP-genkendelse i OntoQuery
NP-genkendelse i OntoQuery OntoQuery-projekt Teknisk rapport X.X November 2000 Dorte Haltrup Center for Sprogteknologi Introduktion Denne rapport handler om Steven Abneys parser, Cass, der bliver brugt
Læs mereKapitel 7 BØJNING OG ORDKLASSER. Bøjning og ordklasser
Kapitel 7 BØJNING OG ORDKLASSER Indhold: 1 Hvad man kan bøje 2 Hvorfor man bøjer 3 Substantiver 4 Pronominer 5 Artikler 6 Adjektiver 7 En lille digression 8 Verber 9 Kongruens 10 Adverbier 11 Talord 12
Læs mereUndervisningsplan. Fag : Tysk
Tillæg til undervisningsministeriets fagmål (fælles mål). Fag : Tysk Gældende for Frederikssund Private Realskole. Undervisningsplan. Forord Det er skolens opgave at drive prøveforberedende undervisning.
Læs mereSådan bruger du Den Dansk-Engelske Regnskabsordbog
Sådan bruger du Den Dansk-Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.
Læs mereRetningslinjer for manuskripter til Dansk Tidsskrift for Teologi og Kirke
Retningslinjer for manuskripter til Dansk Tidsskrift for Teologi og Kirke Version 2.1 (april 2016) Redaktionen vil være taknemmelig for, om tidsskriftets artikelforfattere gør sig bekendt med og følger
Læs mereBrugervejledning for niveauinddeling
Brugervejledning for niveauinddeling Niveauinddeling Mine serier 1. Formål: På denne side kan faggrupperne niveauinddele deres egne serier på autoritetslisten - bogserier, tidsskrifter og konferenceserier
Læs mereFagplan for dansk Delmål 2 (efter 3. klassetrin) Det talte sprog:
Fagplan for dansk Skolens formål med faget dansk følger beskrivelsen af formål i folkeskolens Fælles Mål: Stk. 1. Formålet med undervisningen i dansk er at fremme elevernes oplevelse af sproget som en
Læs mereIndholdsfortegnelse Opret engelsk version af hjemmesiden... 2
Indholdsfortegnelse Opret engelsk version af hjemmesiden... 2 Indledning:... 2 Metode 1 en samling af sider, med kun en engelsk version:... 3 Metode 2 Eksisterende sider med både en dansk og en engelsk
Læs mereAnmeldt værk: Carsten Elbro & Mads Poulsen: Hold i virkeligheden. Statistik og evidens i uddannelse
NyS Forfatter: Laura Winther Balling & Rikke Slot Johnsen Anmeldt værk: Carsten Elbro & Mads Poulsen: Hold i virkeligheden. Statistik og evidens i uddannelse Kilde: NyS Nydanske Sprogstudier 48. Sprogtilegnelse,
Læs mereOLAM et semiautomatisk morfologisk og lydstrukturelt kodningssystem for dansk
OLAM et semiautomatisk morfologisk og lydstrukturelt kodningssystem for dansk Thomas O. Madsen, Hans Basbøll og Claus Lambertsen 1 Syddansk Universitet, Institut for sprog og kommunikation Campusvej 55,
Læs mereDET LYDER DA ENS? FORMÅL MATERIALER OPDELING AF ELEVER
DET LYDER DA ENS? FORMÅL MATERIALER OPDELING AF ELEVER At træne elevernes skelneevne mellem ord, som har enslydende endelser som -er/- re/-rer/-ere. Her skal de både finde den rette ordklasse og bøjning,
Læs mereWord. Strukturering, henvisninger m.m.
Word Strukturering, henvisninger m.m. August 2015 Strukturer dokumentet I kan tildele de forskellige dele af teksten, specielt afsnitsoverskrifter, forskellige niveauer, vha. typografi-paletten 2 Strukturer
Læs mereEN VEJLEDNING FRA UCL BIBLIOTEKET. Zotero. version 5
EN VEJLEDNING FRA UCL BIBLIOTEKET Zotero version 5 En praktisk guide - sådan henter du referencer - sådan redigerer du referencer - sådan indsætter du referencer i Word - sådan deler du referencer November
Læs mereVejledning: AMUUDBUD.DK
Vejledning: AMUUDBUD.DK Henvendt til uddannelsesinstitutioner Websiden amuudbud.dk bruges af uddannelsesinstitutioner til at ansøge om godkendelse til at udbyde AMU. Du skal have modtaget en e-mail med
Læs mereSprog i Norden. Titel: Sproglovgivning under Grønlands Selvstyre. Forfatter: Carl Chr. Olsen. Kilde: Sprog i Norden, 2011, s.
Sprog i Norden Titel: Forfatter: Kilde: URL: Sproglovgivning under Grønlands Selvstyre Carl Chr. Olsen Sprog i Norden, 2011, s. 25-30 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Dansk Sprognævn
Læs mereI denne artikel, vil der blive gennemgået de grundlæggende PHP-funktioner, såsom udskrift til skærmen, tid og dato og if-sætningen.
Denne guide er oprindeligt udgivet på Eksperten.dk Grundlæggende PHP I denne artikel, vil der blive gennemgået de grundlæggende PHP-funktioner, såsom udskrift til skærmen, tid og dato og if-sætningen.
Læs mereNår vi forbereder et nyt emne eller område vælger vi de metoder, materialer og evalueringsformer, der egner sig bedst til forløbet.
DANSK Delmål for fagene generelt. Al vores undervisning hviler på de i Principper for skole & undervisning beskrevne områder (- metoder, materialevalg, evaluering og elevens personlige alsidige udvikling),
Læs mereNORDISKE STUDIER I LEKSIKOGRAFI
NORDISKE STUDIER I LEKSIKOGRAFI Titel: Forfatter: En ordbog er en database Helle Degnbol, Guðrùn Ása Grímsdóttir, Bent Chr. Jacobsen, Jette Knudsen, Eva Rode & Christopher Sanders Kilde: Nordiske Studier
Læs mere