Sprogteknologi I Undervisningsplan Forårssemester 2009

Relaterede dokumenter
Sprogteknologi I Undervisningsplan Forårssemester 2008

Sprogteknologiske resourcer for islandsk leksikografi

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Studieordning for tilvalget på bachelorniveau i. It og sprog, 2013-ordningen

Ugeplaner for engelsk i 7. kl :

Fag. Navne. Undervisere. Antal anslag. IT og Informationssøgning de bagvedliggende datalogiske og sprogteknologiske principper

Sprogteknologi og formel semantik

Studieområde -Erhvervscase - fhh14c212 HH2c

Intro til design og brug af korpora

Skabelon for. Faculty of Humanities Curriculum for the Elective Studies in IT and Language The 2007 Curriculum. Justeret 2010

Automatisk analyse af Zaccos og Ankiros tekstmateriale

Stokastisk og heuristisk sprogmodellering.

Undervisningsbeskrivelse Informationsteknologi B. Undervisningsbeskrivelse Informationsteknologi B

Bilag 2. Formidling i 2002

Sprogteknologiske ressourcer til informationssøgning

En rundvisning i ordnet.dk

Danske adverbier mellem leksikon og syntaks Ph.d.-afhandling Sanni Nimb

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Aalborg Universitet, 2. juni Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13

Sproglige problemstillinger ved informationssøgning

sproget.dk en internetportal for det danske sprog

Dat 2/BAIT6/SW4: Syntaks og semantik En manual for studerende

Almen didaktik , Campus Roskilde

Kursets hjemmeside:

Effectiveness of Data

Propædeutisk sprogundervisning i Græsk og Latin

Stamoplysninger til brug ved prøver til gymnasiale uddannelser

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Sprog og Multimedier. Redigeret af: Tom Brøndsted & Inger Lytje. RJ) Aalborg Universitetsforlag

»Computational linguistics«introduktion til datalingvistik

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

STUDIEORDNING 2009 Elementarkurser i Græsk og Latin ODENSE SUPPLERING AF STUDENTEREKSAMEN

Undervisningsbeskrivelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst.

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Fra ide til problemformulering

Indholdsfortegnelse 1 Indledning 2 Grammatisk analyse af SMT output 3 BLEU 4 Translation memory tool 5 Statisk- og regelbaseret maskinoversættelse

Studieordning for FAGLIG SUPPLERING I F R A N S K

Strategisk forhandling i praksis Læseplan

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Nyt fra fagkonsulenten august 2018

Dat 2/F6S: Syntaks og semantik 2005 Centrale emner og eksamenspensum

Kursusevaluering efteråret 2012 SIV Tysk

NORDISKE STUDIER I LEKSIKOGRAFI

Automatisk identifikation af virksomhedens termer og nøgleord

Undervisningsbeskrivelse

Sprogteknologi skal gøre fremtidens søgemaskiner intelligente

Kompetencer til At analysere og vurdere, hvordan kultur, litteratur og sprog anvendes i og har betydning for brugeres liv og udtryksformer.

Rettelsesblad til BA studieordning 2007 revideret 2009 Et Fremmedsprog og Medier

Informationssøgning metoder og scenarier

1. Hvad er Parsing? Ken Ramshøj Christensen Sprogpsykologi Ken Ramshøj Christensen Sprogpsykologi (2) S

Barnets sproglige miljø fra ord til mening

Studieplan Stamoplysninger Periode Institution Uddannelse Fag og niveau Lærer(e) Hold Oversigt over planlagte undervisningsforløb

Rettelsesblad til Master-studieordning 2010 i International Virksomhedskommunikation Masteruddannelsen:

GRAMMATIK OVER DET DANSKE SPROG

Tilmelding sker via stads selvbetjening indenfor annonceret tilmeldingsperiode, som du kan se på Studieadministrationens hjemmeside

Studieplan modul 13 efterår2015: Fra idé til problemformulering i dit bachelorprojekt.

Studieordning for efteruddannelse på bachelorniveau i Latin, 2015-ordningen

Rettelsesblad til PBA-studieordning 2011 i erhvervssprog og it-baseret markedskommunikation Slagelse: Gælder for studerende indskrevet i 2014.

Undervisningsplan for Master i Sprogtilegnelse forår 2010

Kursusguide. Grammatik og sprogbeskrivelse I, II og III

Forord. Steffen Estrup Nielsen

Fra ide til problemformulering

NyS. NyS og artiklens forfatter

Skriftlig eksamen, Programmer som Data Onsdag 5. januar 2011

Dansk som andetsprog Læreplan og karakterstatistik. Sune Weile, fagkonsulent dansk stx/hf

Studieordning for. Suppleringsuddannelsen til Kandidatuddannelsen i didaktik (dansk)

Prøvebeskrivelser for moduler. på 4. semester (prøve 6) med 2 prøveformer. foråret 2007

Vesthimmerlands Naturfriskole

Statistiske metoder der kan understøtte opbygning af tekstbaserede ontologier

Forskning med brug af tekster og tekstværktøjer

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Dat 2/F6S/SW4: Syntaks og semantik En manual for studerende

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

Sådan bruger du Den Engelske Regnskabsordbog

Rettelserne er markeret med understregning. 13. Socialisations- og institutionsforståelser (Culturalization and Institutional Analysis)

Stafetanalyse /Q&A Relay. Pia Lauritzen, ph.d.

Arbejds- og Organisationspsykologi Læseplan

DK CLARIN: METADATA FOR WP4 RESSOURCER

Undervisningsbeskrivelse

Åben uddannelse, Efterår 1996, Oversættere og køretidsomgivelser

Fagstudieordning Efter- og tillægsuddannelser i latin 2019

Integration af akustisk genkendelse og natursprogsprocessering

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

DM536. Rapport og debug

Kurset bedømmes ved porteføljeeksamen, der udarbejdes under kurset i grupper af 2-4 studerende.

Christianshavns Gymnasium Studieretningsopgaven i 2.g (SRO) januar- marts 2014 VEJLEDNING

En model for identificering af ledsætningskommaer (nyt komma)

Undervisningsbeskrivelse

Tilmelding sker via STADS-Selvbetjening indenfor annonceret tilmeldingsperiode, som du kan se på Studieadministrationens hjemmeside

Undervisningsplan/pensumliste for: Metode for tilvalg i samfundsfag E2019

Regularitet og Automater

Undervisningsbeskrivelse

Håndværk og design, valgfag, kl. Lad os prøve det på egen krop!

STUDIEORDNING Græsk og Latin. Propædeutisk sprogundervisning

Organisationskommunikation og rekvirentforløb, 3. semester 2009 Kommunikation II, Ugerne , vers 02

Til de studerende på Pædagogisk Diplomuddannelse, skolebibliotekar EH Modul 1: Læring og læringsressourcer

Fra ide til problemformulering

Transkript:

Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer Kursusgennemgang J&M: s.1-18. NLTK-bogen: kap. 1 + kap.3, s. 8 11. Test af NLTK-installation og øvelser med tekstprocessering (strings, lists, frequency distribution). 13.feb: Lektion 2. Regulære udtryk og tilstandsmaskiner Regulære udtryk: hvad de er og hvad de bruges til (e.g. navnegenkendelse) Regulære udtryk i Python Finite state automata J&M: s.21 52. NLTK-bogen: kap.3, s.1 7, 12 30. Regulære udtryk i Python. Fra NLTK-bogen, kap. 2: nr. 1, 2, 4. Øvelse med at matche danske vokaler. 1

20.feb: Lektion 4. Ord og korpora At arbejde med korpora i NLTK. NLTK-bogen: kap. 2 (minus sektion 2.5). Korpusanalyse med NLTK. Fra NLTK-bogen, kap.2: et udvalg blandt nr. 3, 9, 12, 21, 22, 41. 27.feb: Lektion 3. Mere om ord og korpora Ord, tokens, typer, tokenisering Ordfrekvens, Zipfs lov NLTK-bogen: kap. 3. Fra NLTK-bogen, kap.2: nr. 49(a). Fra NLTK-bogen, kap.3: nr. 13, 14, 24. 6.mar: Lektion 5. POS tagging Ordklasser Syntaktisk opmærkning Gold standard og evaluering J&M: s.287-319. NLTK-bogen: kapitel 4 (s.1 25). At analysere tagget tekst med NLTK, fx fra NLTK-bogen kap. 4: nr. 3, 6, 11, 12. Vi vil også anvende nogle af de gennemgåede programmer på det danske PAROLE-korpus. 13.mar: Lektion 6. Mere om PoS tagging Transformationsbaseret PoS-tagging CST-taggeren 2

NLTK-bogen: kapitel 4 (s.25 30); artikel om Brill s tagger Fra NLTK-bogen, kap.4: nr. 20. Arrangement kl.13-15: Christiane Fellbaum taler om WordNet i Lingvistkredsen (www.lingvistkredsen.dk/). Detaljer følger senere. 20.mar: Lektion 7. Statistiske sprogmodeller og n-grams Hvad er en statistisk sprogmodel Unsmoothed n-grams Smoothing, backoff, entropi Tekstklassifikation J&M: s.191-229. Alternativt: NLTK-bogen, kap.5 (klassifikation) Øvelser om bigrammer, kollokationer, ordassociationer, evt. tekstklassifikation. Gennemgang af evt. problemer og tidligere øvelser. 27.mar Lektion 8. Morfologi og lemmatisering Bøjnings- og afledningsmorfologi Two-level morphology Stemming og lemmatisering J&M: s.57-90. Jongejan (2006) Stemming i Python. Fra NLTK-bogen kap.3: nr. 25, 33. Vi vil også arbejde med CST s on-line lemmatiser. 3.apr: Lektion 9. Syntaks og grammatikker Ord og syntagmer Chunking 3

Grammatikker og syntakstræer J&M: s.323 352. NLTK-bogen: kapitel 7. Fra NLTK-bogen kap.7: nr. 4, 5, 6, 11 (tilpasset PAROLE), 18 (ny). Udlevering af midtvejsopgave 17.apr: Lektion 10. Parsing med CFG s Gennemgang af midtvejsopgave Top-down og bottom-up parsing Chart parsing Finite state parsing J&M: s.357 391. NLTK-bogen: kapitel 8. Fra NLTK-bogen kap.8: nr. 14, 15, 16 (grammatikken testes med både top-down og shift-reduce parsere). Plus øvelse fra appendix om Chart Parsing. 24.apr: Lektion 11. Probabilistisk parsing og unifikationsbaseret parsing PCFG s og probabilistisk parsing Human parsing Trækstrukturer og unifikation NLTK-bogen: enten kapitel 9 eller appendix om Probabilistisk Parsing. J&M: s.395 428. Vælges enten fra NLTK-bogen kap.9 (en af opgaverne kan tilpasses til at kunne parse et antal danske sætninger), eller fra Appendix om Probabilistic Parsing (noget om at inducere grammatikproduktioner fra en træbank, om at parse nogle engelske sætninger med viterbi-parseren og om at producere en trace ). 4

1.maj: Lektion 12. Semantik Gennemgang af pensumopgivelser Semantisk kompositionalitet og formel semantik Leksikalsk semantik Wordnet, inkl. anvendelser fx til informationssøgning J&M: s.543-626, 590-626. NLTK-bogen: kap.2, sektion 2.5. Wordnet øvelser fra NLTK (fx 2.52, ny), Word association -øvelse med WordNet. 22.maj: Lektion 13. Spørgetime Gennemgang af eksamensform og -regler Gennemgang af eksamensopgave Spørsgmål til eksamen Eksamen Pensumopgivelser: Fristen er ikke fastlagt endnu. Sidste år var det 13. maj. Opgaveformulering: Fristen er ikke fastlagt endnu. Sidste år var det 16. maj, dvs. 2 uger inden fristen for opgaveafleveringen. Opgaveaflevering: Fristen er ikke fastlagt endnu. Sidste år var det 6. juni inden kl.15. Litteratur En normalside for tekniske tekster (fx. NLTK-bogen) er 1550 enheder inkl. mellemrum. For almindelige tekster er det 2400 enheder. The NLTK book (http://www.nltk.org/book). Enheder per side: ca. 3000 (Teknisk test). J&M: Jurafsky, Daniel and James Martin (2000) Speech and Language Processing. Prentice- Hall. Enheder per side: ca. 3000. Jørg Asmussen (2006) At måle og veje korpusser. I: A. Braasch et al. Sprogteknologi i dansk perspektiv, Reitzels Forlag 2006. Ann Copestake: lectures in NLP (http://www.cl.cam.ac.uk/users/aac). Dorte Haltrup Hansen (2006) Sprogteknologiske værktøjer til tekst- og informationshåndtering. I: A. Braasch et al. Sprogteknologi i dansk perspektiv, Reitzels Forlag 2006. Bart Jongejan (2006) CST s lemmatiser for dansk. I: A. Braasch et al. Sprogteknologi i dansk perspektiv, Reitzels Forlag 2006. 5