Sprogteknologiske resourcer for islandsk leksikografi



Relaterede dokumenter
Automatiske metoder til excerpering af nye ord

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

LexicoNordica. særtryk. leksikografi og språkteknologi i norden. nordisk forening for leksikografi

Spørgsmål om ophavsret den islandske erfaring

Sprogteknologi I Undervisningsplan Forårssemester 2009

Sprogteknologi I Undervisningsplan Forårssemester 2008

Intro til design og brug af korpora

ISLEX. Islandsk-skandinavisk webordbog. Stofnun Árna Magnússonar í íslenskum fræðum Árni Magnússon-instituttet for islandske studier. 1.

It-støttet excerpering og registrering af nye ord og ordforbindelser

NORDISKE STUDIER I LEKSIKOGRAFI

ISLEX - Islandsk-skandinavisk webordbog

sproget.dk en internetportal for det danske sprog

Terminologiske oplysninger som del af det almensproglige: webportalen málið.is

LEKSIKOGRAFISK TRADITION OG FORNYELSE: Digital revolution eller organisk reformisme? Lars Trap-Jensen NFL, Oslo 2013

Nordiska studier i lexikografi

NyS. NyS og artiklens forfatter

Rettelserne er markeret med understregning. 13. Socialisations- og institutionsforståelser (Culturalization and Institutional Analysis)

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

Studieordning for tilvalget på bachelorniveau i. It og sprog, 2013-ordningen

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

PHP Quick Teknisk Ordbog

Sprogteknologi og formel semantik

Udvikling af sprogteknologi i Danmark. Hvilken rolle spiller de offentlige institutioner? Sabine Kirchmeier

2nd N o rdic Conference o f Computational Linguistics N O D A L ID A 1979

GUIDE. for børn og deres voksne

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Danske adverbier mellem leksikon og syntaks Ph.d.-afhandling Sanni Nimb

Terminologi på tværs af Danmark og EU

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

MULINCO - Korpusplatform til sprog- og oversættelsesstudier

En rundvisning i ordnet.dk

Lingvistiske faktorers betydning for interskandinavisk sprogforståelse. Charlotte Gooskens

DK CLARIN: METADATA FOR WP4 RESSOURCER

Center for Internationalisering og Parallelsproglighed (CIP)

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

CENTER FOR SPROGTEKNOLOGI. Center for Sprogteknologi. Årsrapport

I denne e-bog får du en introduktion til følgende:

Sprogzonen. Sprogfaglig Dag. // CFU Sjælland + Hovedstaden. Arbeitsgeschäft. Roskilde //

OLAM et semiautomatisk morfologisk og lydstrukturelt kodningssystem for dansk

Islandsk i officiel teori og individuel praksis

Fag. Navne. Undervisere. Antal anslag. IT og Informationssøgning de bagvedliggende datalogiske og sprogteknologiske principper

SPØRGSMÅL OG SVAR TIL UDBUDDET [D ]

ordbøgerne og internettet

Integration af flere forskellige værktøjer i oversættelsesprocessen. Nancy L. Underwood Center for Sprogteknologi

Semantikopgave Ved Tobias Scavenius

Årsplan for 4. klasse (dansk)

Hvad ved vi nu. om danske talesprog? Redigeret af Frans Gregersen og Tore Kristiansen SPROGFORANDRINGSCENTRET

ordnet.dk ordbøger og korpus på internettet

gelig tendens til, at fagordbøger bliver skæmmet ved en sjusket leksikografisk udførelse, der medfører, at det faglige og sproglige indhold ikke

Fri software for Microsoft Windows. Velkommen! V/ Carsten Agger,

BILAG 3_Tabel Komparativ Analyse 4 Maritime Kilder omsat i Tabelform Præsentation6 Inspiration Komparativ Analyse 4 Maritime Kilder

Årsplan for 4. klasse (dansk)

Sprogteknologiske ressourcer til informationssøgning

SPØRGSMÅL OG SVAR TIL UDBUDDET [D ]

Bilag 1. Der er en rar og hyggelig atmosfære. interesseret i Frekvens Antal Procent 54,5 % 65,4 % 94,2 % 27,6 %

Bioinformatik Open Source Software i biologiens tjeneste

Generelle synspunkter i forhold til skolens formål og værdigrundlag.

Virtuelle perspektiver for ordbogsredigering: muligheder, strategier og virkelighedens begrænsning

Gruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi

PHP kode til hjemmeside menu.

CURRICULUM VITAE. Hoda Al-Amood, 2014

Sproglige problemstillinger ved informationssøgning

Databasesøgning. 1. års

Læringsmål: Årsplan Dansk. 2.klasse. Mål

NORDISKE STUDIER I LEKSIKOGRAFI

Informationssøgning metoder og scenarier

Grundforløbet på HHX

Ordklasser. Hele feltet

LexicoNordica. Sproglige varieteter i nordiske ordbogsresurser. Henrik Lorentzen & Emma Sköldberg. Kilde: LexicoNordica 22, 2015, s.

Uge Indhold Aktivitet Færdigheder/mål. Skriveøvelser

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Supersælgende hjemmeside i 2019

Fællesmål for faget dansk som fremmedsprog på Prins Henriks Skole Formål, slutmål, delmål og undervisningsplaner

brug nettet / lær at søge effektivt

Retskrivning og normering i nutidens Island nogle tanker

Manuskriptvejledning De Studerendes Pris

Open access. Open Access på Aarhus Universitet. Gør dine publikationer mere synlige og tilgængelige på nettet

Indhold. Indhold... 2

Bilag 1 (2.del) Der er en rar og hyggelig atmosfære. jeg er interesseret i Frekvens Antal Procent 57% 63% 88,1% 32,6%

gyldendal tysk grammatik

NORDISKE STUDIER I LEKSIKOGRAFI

TILLADTE HJÆLPE- MIDLER

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

Læringsmål på NIF. Dansk. for yngste-, mellemste- og ældste trinnet 2014/15

- de primære funktioner

Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus

Case: Findvej.dk. Ved Peter Brodersen, Korruption. FDIH seminar, 16. april 2008

Automatisk identifikation af virksomhedens termer og nøgleord

Udkast til fagbeskrivelse for engelsk

Kursusevaluering efteråret 2012 SIV Spansk

Importord i danske aviser i 2000 og 2016

Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet

Center for Sprogteknologi 25 år

Data er sølv tale er guld. Det danske sprog resurse eller barriere?

LÆSEPLAN FOR FAGET MODERSMÅLSUNDERVISNING LETTISK Børnehave 6. klassetrin

Rektor Ralf Hemmingsen, Dekan Kjelgaard-Petersen, Ambassadør Sturla Sigurjónsson. Ærede gæster,

Transkript:

Eiríkur Rögnvaldsson Sprogteknologiske resourcer for islandsk leksikografi Seminar om leksikografi og sprogteknologi Schæffergården 31. januar 2010

Foredragets emne Islandsk sprogteknologi omkring århundredskiftet Sprogteknologiske resurser for islandsk Morfologisk database Balanceret tagget corpus Sprogteknologiske værktøjer Open source policy Nye og kommende projekter

Islandsk sprogteknologi for ti år siden Islandsk sprogteknologi eksisterede ikke år 2000 Vi havde Et godt stavekontrolsystem En primitiv talesyntese Vi havde ikke Universitetsprogrammer eller kurser i sprogteknologi Akademisk forskning i islandsk sprogteknologi Software firmaer som arbejdede med sprogteknologi

Sprogteknologiudvalget Et specielt sprogteknologiudvalg Oprettet i 1998 af ministeren for undervisning og forskning Opgaver: At undersøge situationen i islandsk sprogteknologi At komme med forslag for at styrke sprogteknologien i Island

Foreslåede aktiviteter Sproglige resurser skulle udvikles og opbygges til andvendelse for fimaer som ville udvikle sprogteknologiske værktøjer og andre produkter Praktisk forskning indenfor sprogteknologi skulle støttes Firmaer skulle støttes til at udvikle sprogteknologiske produkter Universitetsprogrammer og kurser i sprogteknologi skulle oprettes

Sprogteknologiprogrammets produkter En morfologisk database med 258.000 ord Et balanceret tagget korpus med 25 million ord En statistisk PoS tagger Islandsk talesyntese Islandsk talgenkender Et forbedret stavekontrolsystem

Islandsk frekvensordbog 100 forskellige tekster fra 5 genrer Islandske romaner Romaner i oversættelse Historie og biografier Børnelitteratur Faglitteratur 519.000 ord 31.876 lemmaer

Fra Islandsk frekvensordbog

Fra basen til Islandsk frekvensordbog f p k e n hann han s f g 3 e þ átti ejede n h e o afmæli fødselsdag a o í i n k e o dag dag c og og n k e n g hvolpurinn hvalpen n k e n - m Vaskur Vask s f g 3 e þ var var n v e n afmælisgjöf fødselsdagsgave

Morfologisk database Morfologisk database for islandsk sprog Beygingarlýsing íslensks nútímamáls, BÍN Et projekt der blev påbegyndt i 2002 ved Leksikografisk Institut finanisieret af sprogteknologiprojektet projektleder Kristín Bjarnadóttir Indeholder nu paradigmer for 258.000 ord flere end 5,6 millioner ordformer

Hensigten med databasen Til hvilken brug blev databasen oprettet? For brug indenfor sprogteknologi For opslag på instituttets webside Har hidtil været brugt i søgemaskiner (embla på mbl.is) i telefonbogen i læremateriale (Icelandic Online) som hjælp ved tagging og lemmatisering

Hvad indeholder databasen? Ordklasse Lemmaer Ordformer Klasser Substantiver 220.768 2.692.435 351 Verber 7.522 592.739 49 Adjektiver 25.779 2.339.466 31 Adverbier 1.979 2.239 29 Talord 78 1.845 2 Pronomener 42 820 Artikel 1 24

Paradigmer i BÍN-databasen Paradigmer for nogle ord hestur subst.mask. hest hvítur adj. hvid bera vb. bære inni adv. inde þessi pron. denne einn num. én

Omstrukturering af databasen Databasen er nylig blevet omstruktureret filene lagt ind i en MySQL database Målet med omstruktureringen er at gøre det nemmere at vedligeholde databasen og at gøre søgning i den hurtigere Et excerperingsprogram er blevet lavet i forbindelse med omstruktureringen

Balanceret korpus Balanceret tagget korpus Projektleder Sigrún Helgadóttir 25 million ord Mange forskellige teksttyper PoS-tagget Samme tagsæt som i Islandsk frekvensordbog XML-markup TEI-kompatibel format

Vigtigste teksttyper Avistekst Trykte bøger (romaner o.fl.) Blog Forskellige tidsskrifter Tekst fra Videnskabswebben Webtekster fra institutter, firmaer, etc. Love og andre tekster fra Altinget Talesprog

Ordliste med lydskrift Liste med 56.000 frekvente ordformer Oprindelig lavet for Hjal-projektet To typer af lydskrift IPA og SAMPA Er allerede blevet brugt til talgenkendelse talesyntese

Fra den fonetiske ordliste

Liste over verber med argumentstruktur

PoS taggere

IceParser

Lemmatisere

IceNLP IceTagger IceParser Lemmald http://nlp.cs.ru.is Online værktøjer værktøjerne kan bruges ét ad gangen eller alle samtidig

Open source Sprogteknologiprojektets produkter skulle være tilgængelige for alle til en rimelig pris men det har vist sig at selv en lav pris fører til at produkterne ikke bliver brugt Det er vigtigt at alle sprogteknologiske resurser for islandsk bliver open source IceNLP er blevet open source http://sourceforge.net/projects/icenlp/ licenceret under GNU LGPL

Et nyt projekt Vi har nu startet et nyt treårigt projekt for at opbygge resurser for islandsk sprogteknologi Viable Language Technology beyond English Icelandic as a test case Tre delprojekter En database af semantiske relationer Shallow transfer maskinoversættelse En træbank (syntaktisk analyseret korpus)

Konklusion Vi har fået en del sprogteknologiske resurser for islandsk i det sidste årti Nogen af dem vil også være vigtige for leksikografisk arbejde Vi mangler endnu en sprogteknologisk orddatabase med morfologi, syntax og semantik Men vi har mange slags materiale som kunne kobles sammen til en sådan orddatabase

eirikur@hi.is