Sprogteknologi I Undervisningsplan Forårssemester 2008



Relaterede dokumenter
Sprogteknologi I Undervisningsplan Forårssemester 2009

Informationssøgning metoder og scenarier

Sprogteknologiske resourcer for islandsk leksikografi

Studieordning for tilvalget på bachelorniveau i. It og sprog, 2013-ordningen

Fag. Navne. Undervisere. Antal anslag. IT og Informationssøgning de bagvedliggende datalogiske og sprogteknologiske principper

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Sprogteknologi og formel semantik

Bilag 2. Formidling i 2002

Automatisk analyse af Zaccos og Ankiros tekstmateriale

Effectiveness of Data

Sprogteknologiske ressourcer til informationssøgning

Aalborg Universitet, 2. juni Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13

Stokastisk og heuristisk sprogmodellering.

DK CLARIN: METADATA FOR WP4 RESSOURCER

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Intro til design og brug af korpora

Indholdsfortegnelse 1 Indledning 2 Grammatisk analyse af SMT output 3 BLEU 4 Translation memory tool 5 Statisk- og regelbaseret maskinoversættelse

Danske adverbier mellem leksikon og syntaks Ph.d.-afhandling Sanni Nimb

1. Hvad er Parsing? Ken Ramshøj Christensen Sprogpsykologi Ken Ramshøj Christensen Sprogpsykologi (2) S

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

»Computational linguistics«introduktion til datalingvistik

Sprog og Multimedier. Redigeret af: Tom Brøndsted & Inger Lytje. RJ) Aalborg Universitetsforlag

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Dat 2/BAIT6/SW4: Syntaks og semantik En manual for studerende

Uge 7 9 Grundfag: PÆD - Undervisningsplan F14-3

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

Forskning med brug af tekster og tekstværktøjer

Sproglige problemstillinger ved informationssøgning

JO HERMANN. Latinsk grammatik. på dansk. Akademisk Forlag

Grundtvigs Sandkasse

En læseindsats. der virker!

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

Undervisningsplan for Master i Sprogtilegnelse forår 2010

University of Copenhagen Faculty of Science Written Exam - 8. April Algebra 3

Automatisk identifikation af virksomhedens termer og nøgleord

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

Åben uddannelse, Efterår 1996, Oversættere og køretidsomgivelser

Modulguide for modul 8 Sygepleje, Psykisk syge patienter/borgere og udsatte grupper. Hold SVS12-NET Modul: 8

Skabelon for. Faculty of Humanities Curriculum for the Elective Studies in IT and Language The 2007 Curriculum. Justeret 2010


- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

It-støttet excerpering og registrering af nye ord og ordforbindelser

Sammenskrivning af gruppearbejde fra vejledertræf foråret 2011.

Undervisningen i AP har 42 timer til rådighed (= 26½ moduler), som i moduler fordeler sig således:

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

læsesvage elever i overbygningen

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Mål for læringsudbytte Deltagelse i IIS-undervisningen skal gøre, at du ved afslutningen af første studieår har tilegnet dig:

NORDISKE STUDIER I LEKSIKOGRAFI

Epistemisk logik og kunstig intelligens

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Forord. Steffen Estrup Nielsen

Sproget Six. Til brug i rapportopgaven på kurset Oversættere. Vinter Abstract

Bilag 7. avu-bekendtgørelsen, august Dansk, niveau D. 1. Identitet og formål

Undervisningsplan for Matematikdidaktik 2 (5 sp)

Lingvistik Analyse M etode data Baser Datamater Applikation

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

Christianshavns Gymnasium Studieretningsopgaven i 2.g (SRO) januar- marts 2014 VEJLEDNING

1. Årsplan for Dansk i 7a. 2015/2016 Der vil i hver uge være grammatik træning om mandagen, samt 20 minutters læsebånd hver tirsdag.

Grammatik Negation Konjunktioner. Negationens placering i infinitiv-frasen. Samordningskonjunktioner. Underordningskonjunktioner.

Sprog og sprogteknologi i Danmark. Sabine Kirchmeier sabine@dsn.dk

Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær

GRAMMATIK OVER DET DANSKE SPROG

Kursusevaluering efteråret 2012 SIV Tysk

Propædeutisk sprogundervisning i Græsk og Latin

Rettelserne er markeret med understregning. 13. Socialisations- og institutionsforståelser (Culturalization and Institutional Analysis)

Studieordning for Propædeutik i Latin, 2012-ordningen

literære værker på engelsk. At dømme på disse literære værker beherskede Joseph Conrad engelsk morfosyntaks og leksikon på et niveau der er

DiaSketching og afterminologisering hvornår er en term en term? Nordterm juni 2005 Reykjavik, Island

Studieordning for FAGLIG SUPPLERING I F R A N S K

Strategisk forhandling i praksis Læseplan

Inklusion gennem æstetiske læreprocesser

Hans-Peder Kromann. Base b11: FAGSPROGSBIBLIOGRAFIEN. Sprogbiblioteket, HERMES on-line katalog, Handelshøjskolen

Dansk som andetsprog Læreplan og karakterstatistik. Sune Weile, fagkonsulent dansk stx/hf

Barnets sproglige miljø fra ord til mening

University of Copenhagen Faculty of Science Written Exam - 3. April Algebra 3

Undervisningsbeskrivelse

Almen sprogforståelse

Dansk sproghistorie 1

IT-UNIVERSITETET I KØBENHAVN. KANDIDAT I SOFTWAREUDVIKLING OG -TEKNOLOGI ITU.dk/uddannelser

Semantiske analysemodeller Med fokus på brugergenereret data

Henning Bergenholtz; Ilse Cantell; Ruth Vatvedt Fjeld; Dag Gun- dersen; Jón Hilmar Jónsson; Bo Svensén: Nordisk leksikografisk ordbok

LÆSEPLAN DANSK LIII/DANISH LANGUAGE III - SYLLABUS Approved by the Board of Governors of the European Schools

MULINCO - Korpusplatform til sprog- og oversættelsesstudier

LEKSIKOGRAFISK TRADITION OG FORNYELSE: Digital revolution eller organisk reformisme? Lars Trap-Jensen NFL, Oslo 2013

Mendeley kan hjælpe dig med at organisere din forskning og samarbejde med andre online.

- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst.

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Undervisningsprogram for socialvidenskab. Efterår 2015

DM536. Rapport og debug

DELTIDSSTUDIUM MED SEMINARER I AALBORG OG KØBENHAVN SPLIT MASTERUDDANNELSE I SPROGUNDERVISNING, LINGVISTIK OG IT SPLIT.AAU.DK

Modalverbernes infinitiv

Spansk A hhx, juni 2013

Interim-studieordning for BACHELORUDDANNELSE I KINESISK DET HUMANISTISKE FAKULTET AARHUS UNIVERSITET

STUDIEORDNING 2009 Elementarkurser i Græsk og Latin ODENSE SUPPLERING AF STUDENTEREKSAMEN

Som bruger af Mendeley kan man komme ud for, at de poster man downloader skal rettes en smule til.

Anglo-American culture and literature + Mythbusters (grundforløb)

Skriftlig eksamen, Programmer som Data Onsdag 5. januar 2011

Nye tiltag i grammatikundervisningen

Psykologi Bachelor Boger

Transkript:

Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer Kursusgennemgang J&M: s.1-18. Test af NLTK-installation og øvelse med tekstprocessering (fra NLTK-bogen, kapitel 2, s.1-26): s. 8: 1, 3 s.15: 9 s.19: 1, 2 s.26: 5 2 Regulære udtryk og finite state automata Regulære udtryk: hvad de er og hvad de bruges til (e.g. navnegenkendelse) Regulære udtryk i Pyhton Finite state automata J&M: s.21-52. NLTK-bogen: kap.2, s.26-31. 1

Regulære udtryk i Python (fra NLTK-bogen, kapitel 2): s.31: 1, 2 s.32: 6 3 Ord og korpora Ord, tokens, typer, tokenisering Ordfrekvens, Zipfs lov Dokumentindeksering NLTK-bogen: kap. 3. Tokenisering og korpusanalyse med NLTK (NLTK bog, kap.3). s. 8: 5, 6 s.13: 5 s.22: 5, 9.a 4 PoS tagging Ordklasser Syntaktisk opmærkning Gold standard og evaluering J&M: s.287-319. NLTK-bogen: kapitel 4 (s.1-15). At analysere tagget tekst med NLTK, fx fra NLTK-bogen kap. 4: s. 9: 2, 3 s.12: 5, 6 (Look also at CST on-line tools, and apply some of the programs from the exercises to the Danish PAROLE corpus) 2

5 Statistiske sprogmodeller og n-grams Hvad er en statistisk sprogmodel Unsmoothed n-grams Smoothing, backoff, entropi J&M: s.191-229. NLTK-bogen: kapitel 4 (s.16-24); kapitel 7 (s.18-19). Fra NLTK-bogen kap.3-4: kap.3 s.22: 6, 7 kap.4 s.21: 5, 6 Også øvelse hvor man genererer ord-associationer ud fra bigrams og kollokationer (se chapter3/excollocassoc.py): metoden kan senere sammenlignes med brug af WordNet til samme formål. 6 Morfologi og lemmatisering Bøjnings- og afledningsmorfologi Two-level morphology Stemming og lemmatisering J&M: s.57-90. Jongejan (2006). The Soundex algorithm and stemming in Python. Fra NLTK-bogen kap.2-3: kap.2 s.32: 7 kap.3 s.13: 3 Plus en øvelse hvor man bruger CST-lemmatiseringsprogrammet. 7 Syntaks og grammatikker Ord og syntagmer Chunking Grammatikker og syntakstræer 3

J&M: s.323 352. NLTK-bogen: kapitel 7 (s.1-11, 15-16), kapitel 8 (s.7-9). Fra NLTK-bogen kap.7-8: kap.7 s.8: 3-5 kap.7 s.17: 3 kap.8 s.12: 9, 14 8 Parsing med CFG s Top-down og bottom-up parsing Chart parsing Finite state parsing J&M: s.357 391. NLTK-bogen: kapitel 8 (s.13-15). Fra NLTK-bogen kap.8: s.20: 3, 4 s.21: 5 (test grammatikken med både top-down og shift-reduce parsere) 9 Probabilistisk parsing og unifikationsbaseret parsing PCFG s og probabilistisk parsing Human parsing Trækstrukturer og unifikation NLTK-bogen: kapitel 9 (s.21-25, 29). J&M: s.395 428. Fra NLTK-bogen kap.9: 4

s.19 tilpas Listing 2 og 3 til at kunne trace kørsler med bottom-up og top-down strategier, og modificer grammatikken til at kunne parse et antal danske sætninger. s.29 tilpas programmet på siden til at inducere grammatikproduktioner fra en større portion af træbanken og til at parse nogle engelske sætninger med viterbi-parseren. Lav en trace for at se hvad der sker. 10 Semantik Semantisk kompositionalitet og formel semantik Leksikalsk semantik Wordnet J&M: s.543-626, 590-626. Wordnet øvelser fra NLTK, Word association øvelse med WordNet 11 En avanceret sprogteknologisk applikation Enten I: Semantisk entydiggørelse og tekstkategorisering eller II: Informationssøgning. Teoretisk præsentation I: Leksikalsk tvetydighed Semantisk entydiggørelse vha. maskinindlæring En anvendelse: tekstkategorisering Læsestof I: J&M: s.632-646, 658-660. Øvelser I: Måske en øvelse om tekstkategorisering fra J&M: den forudsætter kendskab til naive Bayes, som bogen introducerer ifm. speech. Måske kan jeg gøre det ifm. probabilistisk parsing. Teoretisk præsentation II: Termer og indeksering Boolsk og vektorbaseret søgning Evaluering i IR 5

Læsestof II: J&M: s.646-658. Øvelser II: Se kurset i Informationsøgning. 12 Spørgetime Litteratur The NLTK book (http://nltk.sourceforge.net/index.php/book). Enheder per side: ca. 3000 (Teknisk test). J&M: Jurafsky, Daniel and James Martin (2000) Speech and Language Processing. Prentice-Hall. Enheder per side: ca. 3000. NB: En normalside for tekniske tekster (fx. NLTK-bogen) er 1550 enheder inkl. mellemrum. For almindelige tekster er det 2400 enheder. Andre relevante tekster: Ann Copestake: lectures in NLP (http://www.cl.cam.ac.uk/users/aac). Dorte Haltrup Hansen (2006) Sprogteknologiske værktøjer til tekst- og informationshåndtering. I: A. Braasch et al. Sprogteknologi i dansk perspektiv, Reitzels Forlag 2006. Bart Jongejan (2006) CST s lemmatiser for dansk. I: A. Braasch et al. Sprogteknologi i dansk perspektiv, Reitzels Forlag 2006. 6