Sprogteknologi og formel semantik

Relaterede dokumenter
Sproglige problemstillinger ved informationssøgning

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

Medfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog:

Sprogteknologi I Undervisningsplan Forårssemester 2009

Sprogteknologi I Undervisningsplan Forårssemester 2008

Italien spørgeskema til seminarielærere / sprog - dataanalyse

Studieordning for tilvalget på bachelorniveau i. It og sprog, 2013-ordningen

Sprog, evolution og kognition - et dilemma der peger fremad. Johan Pedersen Københavns Universitet jhp@hum.ku.dk

Hans-Peder Kromann. Base b11: FAGSPROGSBIBLIOGRAFIEN. Sprogbiblioteket, HERMES on-line katalog, Handelshøjskolen

Epistemisk logik og kunstig intelligens

NORDISKE STUDIER I LEKSIKOGRAFI

Sprogteknologiske resourcer for islandsk leksikografi

Sprogets byggeklodser og hjernens aktivitet ved sproglige processer Regionshospitalet Hammel Neurocenter

KOGNITIONSFORSKNING. Niels Ole Bernsen, Roskilde Universitet

ALMEN GRAMMATIK 1. INDLEDNING. At terpe eller at forstå?

Intro til design og brug af korpora

DANNET ET LEKSIKALSK-SEMANTISK WORDNET FOR DANSK

Sprogteknologiske ressourcer til informationssøgning

Skabelon for. Faculty of Humanities Curriculum for the Elective Studies in IT and Language The 2007 Curriculum. Justeret 2010

Den sproglige vending i filosofien

Sådan bruger du Den Engelske Regnskabsordbog

DANSK DANish helpdesk

Eksperimentel matematikundervisning. Den eksperimentelle matematik som didaktisk princip for tilrettelæggelse af undervisningen

Forskning med brug af tekster og tekstværktøjer

Kan anbefalinger af anbefalere anbefales?

Faglig praksis i udvikling i tysk stx

sproget.dk en internetportal for det danske sprog

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

STUDIEORDNING Græsk og Latin. Propædeutisk sprogundervisning

DanNet Fra ordbog til et leksikalsk-semantisk WordNet for dansk

Menneskets sprog. Rids af et forskningsunivers. Indledning. Af Per Anker Jensen

ENGELSK GRAMMATIK. Videooversigt. De skriftlige opgaver... 2 Eksamen... 2 Grammatik... 3 Shakespeare... 4 Up your game!... 5.

Test din viden om Adjektiver

NORDISKE STUDIER I LEKSIKOGRAFI

Ansøgning om godkendelse af kandidatuddannelse i IT og kognition

Baggrundsnote om logiske operatorer

Faglig praksis i udvikling i tysk hhx

t a l e n t c a m p d k Matematiske Metoder Anders Friis Anne Ryelund 25. oktober 2014 Slide 1/42

Rettelsesblad til studieordning for kandidatuddannelsen i tysk 2012 Gælder for studerende indskrevet pr. 1. september 2013 og senere

LOGIK ANVENDT TIL OVERSÆTTELSE AF JAPANSK.

Sprogteknologi skal gøre fremtidens søgemaskiner intelligente

Ontologier og metadata i relation til søgning i tekster

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

En rundvisning i ordnet.dk

1 Formål med samarbejdet

DiaSketching og afterminologisering hvornår er en term en term? Nordterm juni 2005 Reykjavik, Island

Latinsk Grammatik AIGIS 8,2 1

Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve

TILLÆG TIL STUDIEORDNING FOR RELIGION: PROPÆDEUTISK SPROGUNDERVISNING FOR RELIGIONSSTUDERENDE

Nye Fælles Mål og årsplanen. Thomas Kaas, Lektor og Kirsten Søs Spahn, pæd. konsulent

DanNet: udvikling og anvendelse af det danske wordnet

Danske adverbier mellem leksikon og syntaks Ph.d.-afhandling Sanni Nimb

STUDIEORDNING 2009 Elementarkurser i Græsk og Latin ODENSE SUPPLERING AF STUDENTEREKSAMEN

Korpusbaseret lemmaselektion og opdatering

Konvertering af STO-SIMPLE til LMF med udgangspunkt i filen: nysimpletotal.sgml

DK CLARIN: METADATA FOR WP4 RESSOURCER

Religion STUDIEORDNING 2009 ODENSE TILLÆG PROPÆDEUTISK SPROGUNDERVISNING

Fagstudieordning Bachelordelen af sidefaget i spansk sprog og kultur 2019

Forskningsrådet for Kultur og Kommunikation

1. Hvad er Parsing? Ken Ramshøj Christensen Sprogpsykologi Ken Ramshøj Christensen Sprogpsykologi (2) S

Evaluering af matematik undervisning

Udkast til fagbeskrivelse for engelsk

Tysk begyndersprog B. 1. Fagets rolle

Indholdsfortegnelse. Side 1 af 7

Diskursrelationer

II. Beskrivelse af kandidatuddannelsens discipliner

CV for Lasse Nielsen

a d e m i e t Program for foråret 2011 Akademiet for Talentfulde Unge

Rettelsesblad til studieordning for bacheloruddannelsen i tysk 2012 Gælder for studerende indskrevet pr. 1. september 2012 og senere

Matematik samlet evaluering for Ahi Internationale Skole

Ordforrådstilegnelse i fremmedsprog. CFU Hjørring

Paedagogisk Sociologi Arbejde

OLE ELIASEN, VIAUC LEDER AF INNOVATIONS LABORATORIET FOR PÆDAGOGIK OG BEVÆGELSE Partnerskabskonsulent Lektor

LEKSIKOGRAFISK TRADITION OG FORNYELSE: Digital revolution eller organisk reformisme? Lars Trap-Jensen NFL, Oslo 2013

Elementær Matematik. Mængder og udsagn

Introduktion til prædikatlogik

EN KOGNITIV REVOLUTION I VIDENSKABEN?

Er du interesseret i at tage et tilvalg med IT, der er rettet mod erhvervslivet? Hvis ja, så har du følgende muligheder:

Ouverture: if a person can t communicate, the very least he can do is to shut up! Tom Lehrer. Human beings just can t not communicate. Dorthe Duncker.

PRØV! mundtlig til undervisningen og prøvesituationen

Anstændige jobs og økonomisk vækst. Brug ressourcerne effektivt i forbrug og produktion. Skab fuld beskæftigelse

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Er Bliss stadig i live i Danmark

Sådan bruger du Den Dansk-Engelske Regnskabsordbog

Semantiske relationer og begrebssystemer

UDDANNELSESBESKRIVELSE KREATIV LÆRING 2012

OBS! Prøveeksamen med syntaks på tirsdag! Kursusgang 8

Forsøgslæreplan for græsk A - stx, marts 2014

Propædeutisk sprogundervisning i Græsk og Latin

Ny Forskning i Grammatik

Test din viden om Substantiver

Matematik og målfastsættelse

Københavns Universitet. Svært ved grammatikken - del 2 Kristensen, Line Burholt; Boye, Kasper. Published in: Logos. Publication date: 2016

Årsplan for 7. klasse Skoleåret 2014/2015 efterår Fag: Engelsk mandag, torsdag og fredag Ugeplan - dag Emne/tema/projekt Mål & Arbejdsformer

Sprogpakken. Nye teorier om børns sprogtilegnelse. Hvad er sprog? Hvad er sprog? Fonologi. Semantik. Grammatik.

3. klasse 6. klasse 9. klasse

Test din viden om Pronominer

Studieplan for klasse 1H forår Aktiviteter Januar Februar Marts April Maj Faglige mål. SO2: Bærerdygtighed CSR og Interessenter

15. NORDISKE SYMPOSIUM OM BØRNESPROG SYDDANSK UNIVERSITET MAJ

Transkript:

Oversigt Sprogteknologi og formel semantik Bolette Sandford Pedersen Center for Sprogteknologi Københavns Universitet bolette@cst.dk Det formelle paradigme Vigtige forskningsspørgsmål inden for sprogteknologi og formel semantik og leksikologi DanNet: et leksikalsk-semantisk ordnet for dansk Sprogteknologi og samfundet Sprogteknologi i fremtiden generelt og på KU 2 Det formelle paradigme (Spang-Hanssen 2006 & Prebensen 2006) Det formelle paradigme Det formelle paradigme - at anskue sproget som et produktionssystem: Chomskys generative grammatikker: de centrale grammatiske strukturer kan beskrives i form af genskrivningsregler Ikke direkte knyttet til computere, men til matematikkens og logikkens udvikling af formelle logiske systemer Computeren som et håndgribeligt udtryk for hvordan man kan formalisere et bredt felt af menneskelig tænkning og symbolbehandling Regelbaserede systemer giver et billede af kompleksiteten i naturlige sprogs grammatikker Fascinerende at se sproget som et matematisk, logisk system I dag er sprogteknologi meget mere.. ambitionerne og mulighederne er blevet større 3 4 Formel semantik (Partee 1996) Det formelle paradigme har traditionelt stået mere famlende overfor semantikken, men Montague fik stor betydning for formel semantik i lingvistikken (English as a Formal Language 1970, Universal Grammar 1970) Syntaks og semantik kunne hver især beskrives som en algebra med relationer imellem dem Partee introducerede Montague for lingvister, modelteoretisk semantik blev en lingvistisk disciplin Formel semantik: interesseobjekter 'To know the core meaning of a sentence uttered as a statement is to understand the conditions under which it is true' Cann 1993:15 Interesseobjekter i den 'klassiske' formelle semantik: sandhedsværdi reference virkefelt kausalrelationer kompositionalitet (betydningen af helet er en funktion af betydningen af de enkelte dele) 5 1

Sprogteknologi og formel semantik Interesse for de elementer i naturligt sprog som har 'parallel' i logiske sprog, funktionsord : kvantorer (determinatorer, ubestemte pronominer, alle, en) operatorer (konjunktioner og, eller, hvis, så adverbier ikke) Eks. på formel repræsentation i prædikatslogik: Someone liked Jo and hated Fiona x [(like' (jo'))(x) & (hate' (fiona'))(x)] Formel semantik: udvikling Aspekter som gjorde formel semantik anvendelig for lingvister og som 'flyttede' lingvistikken: Barwise & Cooper 1981: behandling af andre kvantorer end en og alle som fx nogle, de fleste, mere end, mange, 2 ved at opfatte NPer som generaliserede kvantorer inden for mængdeteorien [two' (student')] = {X [student'] 2} Formel semantik og den omgivende sprogforskning Kritikpunkter: hvad med den leksikalske semantik? Formelt apparat? hvor kompositionel er semantik egentlig? (fx. kollokationer - få skudt noget i skoene sammensatte ord - moderkage) hvad med overførte betydninger og metaforer? (Lakoff) semantikken og de kommunikative og kognitive aspekter Leksikon i det formelle paradigme Leksikologi og leksikalsk semantik er kommet i fokus i det formelle paradigme pgr. 'leksikalismen' Før: lexicon is a wastebin of irregularities (Chomsky), list of irregularities, appendix to the grammar (Bloomfield), regular variations are not matters for the lexicon, which should only contain idiosyncratic items (Chomsky & Halle 1968) Nu: vi taler om leksikalisme inden for formelle paradigme: mere og mere strukturel information indsættes ordbogen, ordet anses for det centrale i sproget (i modsætning til sætningen) ordbog-----------------------------------grammatik Fokus på indholdsordene: substantiver, verber, adjektiver, Hvordan kan de beskrives i et formelt sprog? Hvilken information ønsker vi at kunne beregne på et formelt grundlag? (Copestake&Briscoe, Calzolari, Pustejovsky) Først og fremmest ønsker vi et formelt apparat der gør det muligt at udtrykke forskellige betydningsdimensioner i de leksikalske enheder at opløse flertydighed at beregne semantisk similaritet at udtrykke relationerne i mellem begreber Pustejovskys Generative Lexicon (1995) Betydningsdimensioner i form af Qualia Structure: formal role: typisk is_a -relation agentive role: oprindelse, typisk created_by -relation telic role: formål, typisk used_for -relation constitutive role: intern struktur, typisk has as parts -relation Generative mekanismer, fx selektiv binding: a fast car - hurtig til at køre a fast typist - hurtig til at skrive Håndtering af systematisk polysemi vha dotted types book Artifact+Semiotic 2

WordNets (bl.a. DanNet) (Miller & Feldbaum, Vossen) Relationer ml. synonymsæt Formelle ontologier i relation til semantiske net/lingvistiske ontologier (Guarino, Lenci) Leksikalsk semantik og leksikologi Uformel tilgang: i almindelig ordbøger eller tesaurusser vha definition og brugseksempler definition på kop: lille skåleformet el. cylindrisk beholder til at drikke af, typisk med hank og brugt sammen med en dertil hørende underkop til varme drikke (Den Danske Ordbog) brugseksempler: kopper og tallerkner, kvinden stiller to kopper på bordet, forsvinder ind i stuens mørke og kommer tilbage med kaffe 14 Formel tilgang: delmængde af de samme oplysningstyper som i en almindelig ordbog, blot formaliseret ud fra en sprogteknologisk anskuelsesvinkel, fx i et ordnet vha. etablerede relationer: is_a, part_of, used_for, contains indeholde beholder og korpus Stadig en udfordring: At repræsentere eksempelmaterialet: kopper og tallerkner, kvinden stiller to kopper på bordet, forsvinder ind i stuens mørke og kommer tilbage med kaffe Korpus som central kilde Vi plukker det prototypiske/hyppige ud (fx betydningsdimensionerne) men meget information repræsenteres ikke Statistiske metoder drikke af kop drikkevare hank tekop te Leksikalske profiler på basis statistisk materiale (Killgarrif & Rundell) 15 16 DanNet Hvorfor? For at kunne gennemføre intelligente begrebs- eller konceptorienterede søgninger, sammendrag og klassifikation af store tekstmængder (fx på internettet eller inden for en virksomhed) kræves bl.a. semantiske ordog begrebsdatabaser.. (Sprog på spil s. 56) Måle semantisk afsnit ml. begreber DanNet leksikalsk semantisk ordnet Samarbejdsprojekt ml. KU (CST) og Det Danske Sprog- og Litteraturselskab (www.wordnet.dk) Forskningsmæssig udfordring: at undersøge det danske ordforråds ontologiske struktur: udgangspunktet er hyponymier udtrukket fra Den Danske Oordbog, men også andre relationer fra definitioner Samme indhold i forskellig forklædning diabetes - sukkersyge tykke børn - fede børn - overvægtige børn - børn med overvægt - børn med fedmeproblemer Næsten samme indhold, forskelligt specificeringsniveau mangelsygdom beriberi 17 18 3

DanNet leksikalsk semantisk ordnet 19 20 Sprogteknologi og det omgivende samfund Dansk forskning på området Fokus på udviklingen af danske sprogresurser i form af: formelle ordbøger formelle grammatikker termbaser korpora: annoterede korpora, træbanker, parallelle korpora Sprogteknologi har en anvendelsesside i sprogværktøjer: Avanceret tekstbehandling/skrivehjælp Informationssøgning/navigering Automatisk resumering E-læring, indlæringssystemer Maskinoversættelse Taletjenester (kunstig tale, analyse af talt sprog) Herudover foregår en del grundforskning bl.a. med brug af sprogresurser 21 Fremtiden 22 Fremtiden på KU Sprogteknologi udfordrer sprogforskningen bl.a. fordi den opstiller modeller som kan afprøves; derved opstår nye problemstillinger og nye erkendelser Sprogteknologi vil påvirke sprogforskningen bl.a. via de værktøjer den stiller til rådighed Kravene til omfattende undersøgelse af sproglige data vil stige Statistikbaserede beskrivelser og regelbaserede beskrivelser vil gensidigt berige hinanden 23 Med den centrale plads, som sproget har inden for humaniora, må et humanistisk fakultet uden undervisning og forskning i sprogteknologi i dag betragtes som en anakronisme Spang-Hanssen 2006 24 4

Fremtiden på KU? Tværfagligt tilvalg i IT og sprog Forslag om sprogteknologi som et element i en kandidatuddannelse i IT og kognition Tre søjler: datalogi sprogteknologi/lingvistik psykologi Hvis uddannelsen godkendes, kan den igangsættes fra efteråret 2007. 25 5