Språkteknologisk infrastruktur i Norden



Relaterede dokumenter
Spørgsmål om ophavsret den islandske erfaring

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Kan dit projekt løse fælles udfordringer i Danmark, Sverige og Norge?

Sprogteknologiske resourcer for islandsk leksikografi

Ordbogssamarbejde i Norden

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Nordisk publiceringsnævn for humanistiske og samfundsvidenskabelige tidsskrifter Nordic Board for Periodicals in the Humanities and Social Sciences

Fremstilling af digitalt undervisningsmateriale

Center for Sprogteknologi 25 år

Tal nordisk det nytter! Hvordan vi undgår at tale engelsk i nordisk sammenhæng

Larm Case Data Management Plan

Guide til reglerne for kopiering af tekster og noder på grundskoler

Notat om billeder på internettet

Benchmark af turismen Titel i Danmark med Europa og Skandinavien

Registrering af forskningsprojekter

Jeg synes egentlig, jeg har godt styr på det med at søge - jeg vil bare gerne vide, om jeg har fået det hele med!

Open source-licens fra Den Europæiske Union v.1.1

DJs ophavsretsstrategi

Islandsk i officiel teori og individuel praksis

DK CLARIN: METADATA FOR WP4 RESSOURCER

Matematik, maskiner og metadata

Open access. Open Access på Aarhus Universitet. Gør dine publikationer mere synlige og tilgængelige på nettet

IKKE DET RENE KOPIP!

LÆR AT SØGE EFFEKTIVT!

Publikationskategorier og definitioner

Forskning med brug af tekster og tekstværktøjer

Regionernes internationale samarbejde skaber vækst i hele Danmark

Afslag, og hvad så? Det er detaljen, der tæller Budget og bilag Budget Budgetposter Bilag Eksempel på CV...

SÖ 2000: (SÖ

Hvordan søger du kulturstøtte? Spørgsmål og svar fra Kulturkontakt Nord & Nordisk Kulturfond

CLARIN en europæisk forskningsinfrastruktur

CSR syd en dag om ansvarstagande för en hållbar utveckling

ZA4454. Flash Eurobarometer 189b White Paper on Communication - Decision Maker. Country Specific Questionnaire Denmark

Charles Chaplin. Mikael Højris: Den Nye Musikbranche 2.0

Bilag om dansk forskeruddannelse 1

Vær med i årets Scanstar Den nordiske emballagekonkurrence, der kombinerer kreativitet, teknik og materialer

FORENINGSGUIDEN Center for Socialt Ansvar

Sundhedsstyrelsens Råd vedrørende alternativ behandling Den 4. juni 2010 J.nr /1/ghb REFERAT

Sprog og sprogteknologi i Danmark. Sabine Kirchmeier sabine@dsn.dk

Beskrivelse af forløb:

rpm Tilbud 10-ÅRS JUBILÆUM 2014 Tilbuddet gælder til og med september 2014.

DANMARKS FORSKNINGSUDGIFTER I INTERNATIONAL SAMMENLIGNING

Høringssvar om ikke-kommercielt lokal-tv på MUX 1

Udstilling med spånkurve. Per-Olof Johansson, DK og lokal indsamling Svenska Vävstolsmuseum, Glimåkra 2012

redaktionellt redaktionellt

KU benchmark med udvalgte institutioner FORSKNING OG INNOVATION


Miljø- og Planlægningsudvalget MPU alm. del Bilag 606 Offentligt. Foretræde for Folketingets Miljø- og Planlægningsudvalg 26.

Maritimt Brancheudviklingscenter

Undervisningsplan for engelsk

Retsudvalget REU Alm.del endeligt svar på spørgsmål 1105 Offentligt

i Århus november 2012

vägledning / vejledning / veiledning Rutmönstrad merinoull Merino-uld i tern/rutemønstret merinoull

Udvalget for Videnskab og Teknologi (2. samling) UVT alm. del - Bilag 134 Offentligt

Retningslinjer for manuskripter til Dansk Tidsskrift for Teologi og Kirke

Informationssøgning metoder og scenarier

redaksjonelt redaksjonelt

Projekt - Valgfrit Tema

Program. Projektet Moderne Importord i Norden - Præsentation


Europaudvalget EUU Alm.del EU Note 14 Offentligt

DGI Potentielle læsere Marts 2014

Forord. Legatsøgning. Her får du svar på alle dine spørgsmål:

Scanstar 2014 Student

Dagens præsentation. Udfordringerne ESSnet projektet Measuring Global Value Chains Det fremtidige arbejde med globalisering

Landbrug & Fødevarer, Kvæg Forskningssekretariatet

Tale til Åbningen af Tænketanksprojektet Fremtidens Biblioteker d

Hvad må man, og hvad må man ikke? Og hvad skal man gøre, hvis man alligevel gerne vil have lov?

Sprogteknologi I Undervisningsplan Forårssemester 2008

(Udtalelser) ADMINISTRATIVE PROCEDURER KOMMISSIONEN

Comeback til kriseramte virksomheder

Influencer Marketing

Sociolingvistisk studiekreds 15. marts 2005.

Partnerskaber: Formål og problemer

Oversigt trin 2 alle hovedområder

Bekendtgørelse af lov om ophavsret 1)2)

MUSIKFORLAGSAFTALE. Ved værker forstås ethvert musikværk, herunder men ikke begrænset til musik, noder, tekst, oversættelse og/eller arrangementer.

Uddannelses- og Forskningsudvalget UFU Alm.del Bilag 77 Offentligt

Digitale indgange til musikken. Martin Verner Hansen, Gladsaxe Bibliotekerne

Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa

PDF/A. PDF/A for AFP-Brugergruppen. den 11. maj 2011 Sørup Herregård

Kammerater i alle lande foren jer. Det må vist være en meget passende indledning for et internationalt erhverv.

TV 2/DANMARK A/S Rugårdsvej Odense C. København den 21. juni 2004

Att: Katrine Tarp 13. januar 2003

Spørgeskema: Gæstemåling, dansk (engelsk) Forfatter: Mette Vestergård. Publiceret: :46:54. Påbegyndt: 2830.

Skole- Kulturudvalget Aalborg Kommune Godthåbsgade Nørresundby. Att.: Lis Rom Andersen

Du skal inden for emnet IT En ny kunstnerisk virkelighed? udarbejde en synopsis på max. 3 sider, der kan danne udgangspunkt for den mundtlige prøve.

E K S A M E N. Emnekode: NO-213 Emnenamn: Emnestudium i nordisk språk Nordiske språk og grannespråk. Dato: 10. desember 2014 Lengde:

FIRST LEGO League. Fyn Carl Rau Gutt 10 år 0 kirstine pedersen Jente 11 år 0 esther poulsen Jente 11 år 0 Lise Jørgensen Jente 11 år 0

INTERNATIONAL LØNSTATISTIK 4. KVARTAL 2015

MobileStatus Software licens aftale

Spørgeskema: Gæstemåling, dansk (engelsk) Forfatter: Mette Vestergård. Publiceret: :46:54. Påbegyndt: 3257.

Velkommen som DIS-Danmark medlem

Når du udstiller dine data

RÅDET OG PARLAMENTET NÅR TIL ENIGHED OM NYT DIREKTIV OM FJERNSYN UDEN GRÆNSER

Spørgeskema: Gæstemåling, dansk (engelsk) Forfatter: Mette Vestergård. Publiceret: :46:54. Påbegyndt: 28.

FLOWcenter Danmark. Små, mindre og µflow og de særlige udfordringer. Indlæg på seminar om: - Lars Poder, FORCE Technology

HALLO NORDEN NORDISKE GRÆNSEHINDRINGER

Europaudvalget EUU alm. del - Bilag 116 Offentligt

Social kapital og arbejdsmiljøet

Transkript:

Språkteknologisk infrastruktur i Norden Bilaga med bilder från presentationerna Seminarium om språkteknologisk infrastruktur i Norden Konferenscentrum Wallenberg, Göteborg 26 oktober 2006 Arbetsgruppen för språkvård och språkteknologi i Norden Nordens språkråd 16 februari 2007

INNEHÅLL Sprogteknologisk infrastruktur i Norden og Europa ett overblik. Bente Maegaard. SNK och Blark. Lars Borin. Språkteknologisk infrastruktur i Norden. Peter Erik Petersen. Resourcebehov i informationssøgning. Hjálmar Gisláson. Finansiering av forskningens infrastruktur. Eva Strangert. Tvärslå och tvärsök. Hercules Dalianis. Spørgsmål om ophavsret den islandske erfaring. Sigrún Helgadóttir.

Sprogteknologisk infrastruktur i Europa og Norden et overblik Bente Maegaard Københavns Universitet, Center for Sprogteknologi bente@cst.dk Sprogteknologisk infrastruktur Infrastruktur Sprogressourcer (LR) Metoder til at deles om ressourcerne Sprogressourcer Dataressourcer: Korpusser (talt og skrevet) Teknologiske ressourcer (bearbejdede) Tale: difondatabaser, trifondatabaser, udtaleordbog Tale og skrift: orddatabaser, almene, domænespecifikke, termdatabaser, træbanker, grammatikker,... Basale teknologier Tagger, lemmatiser, parser, konvertering lyd->bogstav,... Bente Maegaard, 26. oktober 2006 2 1

Korpusser Tale eller tekst Opmærket eller uopmærket Ensproget eller flersproget Multimodale, multimediale En tekst er ikke et korpus En tekstsamling er ikke nødvendigvis et korpus Et korpus er en tekst- (eller tale-) samling der er sammensat efter et bestemt princip Bente Maegaard, 26. oktober 2006 3 Hvad er problemet? Hvorfor har vi ikke bare de LR vi har behov for? Der er tre hovedproblemer Eksistens de skal normalt kompileres Rettigheder til de tekster (tale) der skal indgå Privacy-problemer (gælder fx breve, talte dialoger, mv) Rettighedsproblemet er afgørende Privacy-problemet kan gøre visse teksttyper vanskeligt tilgængelige Bente Maegaard, 26. oktober 2006 4 2

Lidt historik Tidlige anvendelser af computere fx Brown Corpus 1967 (Kucera & Francis) Computational Analysis Kierkegaards Samlede værker 1965 (McKinnon) NuSvensk Frekvensordbok 1970-71 (Sture Allén) Index Thomisticus (Pater Busa) fra 1946 (sponsoreret af IBM fra 1949). I 1979 56 trykte bind, i 1986 CD, osv. Forskning Svært at deles om ressourcerne rettigheder, tekniske problemer, ingen til at tage sig af det Bente Maegaard, 26. oktober 2006 5 Behovet for sprogressourcer De første korpussamlinger blev brugt til at undersøge sproget, ikke til at skabe sprogteknologi Men LR er nødvendige for at bygge sprogteknologi, og vi må deles om dem Standarder Udvikling af LR, metoder, værktøjer Distribution Internationalt samarbejde Antonio Zampolli: en række projekter (NERC, RELATOR (1993-1995),..) ELRA blev dannet i 1995 Identifikation, indsamling, distribution, validering af tale, tekst, terminologi og værktøjer. LDC (UPenn) blev dannet i 1992 Bente Maegaard, 26. oktober 2006 6 3

En række LR-initiativer I Europa bliver udviklingen af sprogressourcer støttet dels nationalt, dels af EU Det er vigtigt at udvikle sprogressourcer efter samme princip så man bedst muligt sikrer at de kan spille sammen (interoperability) Man taler også om at sprogressourcer bør være uafhængige af bestemte teorier, men det er næppe muligt. Der bør følges en standard, så kan man konvertere. EU har haft en række sprogressourceprojekter, fx Onomastica (pronunciation of names) SpeechDat (spoken dialogues and single words) PAROLE (corpora, lexica) SIMPLE (semantics for the PAROLE lexica) EU har gjort fx debatterne fra Europa-Parlamentet tilgængelige, ca. 28 mio ord på alle sprog. Bente Maegaard, 26. oktober 2006 7 Acquis Communautaire EU s regelværk, produceret i forbindelse med udvidelsen Language No of Texts Total No Words Cs 7983 6.000.751 Da 7939 6.556.131 De 7913 6.481.949 El 7782 7.267.113 For 20 sprog, knap 8000 tekster, ca 6 mio ord. Parallelt http://wt.jrc.it/lt/acquis/index.html Can be given to research partners for non-commercial use Bente Maegaard, 26. oktober 2006 8 4

LR i ELRA-kataloger Frankrig (ELRA: 392, Universal catalogue: 73) Holland/Belgien (ELRA: 35, Universal catalogue: 24) Tyskland (ELRA: 419, Universal catalogue: 50) UK: (ELRA: 410, Universal catalogue: 242) Bente Maegaard, 26. oktober 2006 9 Nordiske LR i ELRA-kataloger Norge (ELRA: 3, Universal catalogue: 5) Sverige (ELRA: 29, Universal catalogue: 22) Finland (ELRA: 7, Universal catalogue: 5) Danmark (ELRA: 17, Universal catalogue: 24) Island (ELRA: 0, Universal catalogue: 0) Bente Maegaard, 26. oktober 2006 10 5

Nationale initiativer og projekter Frankrig Holland/Belgien Norge Bente Maegaard, 26. oktober 2006 11 Frankrig Technolangue-programmet, netop udløbet En række aktiviteter, særligt fokus på Sprogressourcer og værktøjer Evaluering af sprogteknologi, udvikling af ressourcer hertil Normer og standarder Dokumentationscenter Bente Maegaard, 26. oktober 2006 12 6

Holland/Belgien Nederlandse Taalunie, etableret i 1980 Surinam blev associeret i 2004 STEVIN-programmet fra 2004, løber 5 år (Het stimuleren van de taal- en spraaktechnologische sector in Vlaanderen en Nederland door het financieren van strategisch onderzoek) Het realiseren van een adequate digitale taalinfrastructuur voor het Nederlands zodat de positie van het Nederlands in de moderne informatie- en communicatiewereld kan worden versterkt. 11,5 mio EUR Foreløbig er ca. 10 LR-projekter sat i gang. BLARK er først skabt af NTU (Basic LAnguage Resource Kit) Bente Maegaard, 26. oktober 2006 13 Norge Forslag om at starte en norsk sprogbank Endnu ikke fået finansiering NST indsamlede meget store mængder af tekst og tale Bente Maegaard, 26. oktober 2006 14 7

ELRA European Language Resources Association Hovedopgaven er at distribuere ressourcer Hvor findes hvilke ressourcer? (ELRA Universal catalogue ) Aftale distribution med leverandør, skrive kontrakt Rettigheder Distribution, - katalog Kvalitetssikring, validering Standarder Sprogressourcer til evalueringsformål ELRA er en forening, startede med EU-tilskud, men modtager ikke længere offentlige tilskud. LDC har på mange måder samme formål som ELRA. LDC modtager hvert år penge til at udvikle LR. Der er altså en offentlig amerikansk interesse i at udvikle LR for en række sprog, ikke bare engelsk. En forskel på europæisk og amerikansk holdning til vigtigheden af sprogressourcer. Bente Maegaard, 26. oktober 2006 15 CLARIN-initiativet Common Language Resources and Technology Infrastructure Sprogressourcer for Humaniora og samfundsvidenskaber bredt ESFRI Et projekt der muligvis kan igangsættes, finansieret dels af EU, dels nationalt Bente Maegaard, 26. oktober 2006 16 8

EU og de enkelte lande EU er flersproget (21 officielle sprog) Hvem har ansvaret for sprogene? De mindste lande kan ikke klare den opgave alene, - det koster det samme for alle sprog EU bør have en ordning så alle sprog hjælpes op på en passende dækning med LR og sprogteknologi Agentur? Jf. Benchmarking language technology in Europe 2003. Bente Maegaard, 26. oktober 2006 17 Hvad er det vigtigste lige nu? Rettigheder kan loven ændres? Samle korpusser Berige dem med opmærkning Udvikle fælles metoder og værktøjer til hurtig produktion af opmærkede korpusser og afledede LR Bente Maegaard, 26. oktober 2006 18 9

SNK och Blark Lars Borin Språkdata/Språkbanken Institutionen för svenska språket Göteborgs universitet Språkteknologisk infrastruktur i Norden Nordiskt seminarium 26 oktober 2006 1 bakgrund Vetenskapsrådets Kommitté för forskningens infrastrukturer (KFI) utlyste våren 2006 infrastrukturprojektplaneringsbidrag 2

SNK och Blark två upprinneligen separata initiativ - en svensk Blark (basic language resource kit) Svensk nationell korpus (SNK) - förenade i en gemensam planeringsansökan 3 sökande Göteborgs universitet KTH Linköpings universitet Lunds universitet Sveriges språkråd Uppsala universitet indirekt hela GSLT 4

Blark grunduppsättning resurser och verktyg för språkteknologi-f&u: (annoterade) korpusar och taldatabaser (en- och flerspråkiga) lexikonresurser (en- och flerspråkiga) terminologiresurser, ontologier grammatikresurser referensresurser ( rikslikare ) grundläggande språkteknologisk verktygslåda grundformat för data, annoteringar och metadata samt API:er för verktygen 5 SNK stor balanserad referenskorpus (minst 100 miljoner ord), för empirisk språkvetenskaplig forskning och för språkteknologi: många skriftgenrer långa texter rejäl talspråksandel lingvistiskt annoterad rik uppsättning textmetadata (kanske multimodal?) (kanske flerspråkig?) 6

fast priset blir rejält ändå några grova uppskattningar: lexikon med 50.000 lemman: 1 MSEK ordnät (>50.000 lexem): 3 MSEK taldatabas (1000 timmar): 25 MSEK trädbank (10 milj ord): 15 MSEK parallellkorpus (5 milj ord): 8-10 MSEK SNK: 50-75 MSEK 8

planeringsfasen definition (resurstyp, önskad täckning) resursinventering beräkning av arbetsinsats och bättre kostnadsberäkning (kanske vi kan hitta sponsorer [jfr. ANC]) 9

RASKESTE VEI FRA TALE TIL TEKST! Språkteknologisk infrastruktur i Norden Gøteborg, 26. oktober 2006 15.02.2007 Tema RASKESTE VEI FRA TALE TIL TEKST! Kommersielle aktørers behov for språkressurser til utvikling av språkteknologiske applikasjoner 15.02.2007 1

Ulike typer ressurser RASKESTE VEI FRA TALE TIL TEKST! Språk(u)avhengige verktøy inflektor, morf./synt. analysator, G2P, AM/LMverktøy, etc. Leksika ulike domene, uttale, transkribert, manuellsjekket, etc. Talekorpus Validert, annotert, etc. Tekstkorpus renset, annotert, etc. 15.02.2007 To tilnærminger RASKESTE VEI FRA TALE TIL TEKST! Akademisk Lite rom for unøyaktigheter Kommersiell Det perfekte må ikke bli det godes fiende Rough and ready! Eksempel adbomen/abdomen, pyleo-/pyelo Bakers cyste, benign m.fl. 15.02.2007 2

Max Manus AS RASKESTE VEI FRA TALE TIL TEKST! Talegjenkjenning/ diktering Samarbeider med internasjonal aktør som ivaretar: verktøy ordlister MMs direkte behov: akustiske data leksikalske data 15.02.2007 Grunndata RASKESTE VEI FRA TALE TIL TEKST! De akustiske og leksikalske korpora som utgjør grunndataene for systemet er det altså Max Manus AS som samler inn lokalt. Herigjennom sikrer vi at det ikke hefter opphavsrettslige problemer ved materialet som kunne ødelegge for kommersialiseringen, og alle data blir i henhold til spesifikasjon. 15.02.2007 3

Tid og kostnad RASKESTE VEI FRA TALE TIL TEKST! Eget materiale innsamling anonymisering i henhold til egne spesifikasjoner Innkjøpt materiale tilgjengelighet opphavsrettslige problem konvertering tagging, annotering 15.02.2007 Akustiske data RASKESTE VEI FRA TALE TIL TEKST! Grunnlaget for SpeechMagic 500 timer lydopptak 200 informanter Fordelt på dialekt, alder og kjønn Utført lokalt av Max Manus AS Low threshold approach Militærleir, slekt og venner, vanlig språk, enkel kompensasjon, raskt og rimelig. 15.02.2007 4

Leksikalske data RASKESTE VEI FRA TALE TIL TEKST! SpeechMagic for radiologi Over 100 millioner ord fra ulike røntgenavdelinger ved større norske sykehus SpeechMagic Multimed Over 400 millioner ord fra ulike avdelinger ved ulike sykehus 15.02.2007 Danmark RASKESTE VEI FRA TALE TIL TEKST! SpeechMagic medisin Som for Norge SpeechMagic med generiske språkmodeller (Forbrukerversjon, TV, Folketinget, etc) Om lag 500 mill ord 15.02.2007 5

Leksika RASKESTE VEI FRA TALE TIL TEKST! Røntgen: 54 000 ord Multimed: 64 000 ord Forbrukerversjon (DK): 64 000 ord TV/Folketinget: 150 000 ord Alle ord har (flere!) automatisk genererte transkripsjoner som er manuelt sjekket (N). Bakgrunnsleksika har automatisk genererte transkripsjoner som ikke er manuelt sjekket. 15.02.2007 Nye segmenter RASKESTE VEI FRA TALE TIL TEKST! Nye segmenter nye behov Leketøy andre informanter annet vokabular bakgrunnsstøy 15.02.2007 6

Spørsmål? RASKESTE VEI FRA TALE TIL TEKST! Peter Erik Petersen Produktsjef Mob: 97 56 96 26 pep@maxmanus.no 15.02.2007 7

Resourcebehov i informationssøgning Hjalmar Gislason Ja.is Min Dansk 1

Hvem er Hjalmar? Mit eget firma Lavede Embla: Islandsk søgemaskine Opkøbt til sommer af Já Já Islands krak.dk Datterselskap af Iceland Telecom) Nu Chef for produktudvikling hos Iceland Telecom Taler her på Já's vegne Embla forstår islandsk De fleste søgnings løsninger kommer fra engelsk talende lande Engelsk enkelt til tekstsøgning Få og forudsigelige bøjninger Har ikke sammensatte artikler Har ikke sammensatte ord Ingen af de store kendte søgemaskiner kan handle disse ting Har ikke engang stavningsrettelser for islandsk 2

Koncepter i Informationssøgning Stemming Genkald Præcision Eksempel: 1 million dokumenter 20 om llama landbrug Din søg finder 16 dokumenter Af disse 16 er 10 relevante 50% genkald og 62.5% præcision Flere koncepter Relevance Svær at måle Hjælper ikke meget hvis du får dokumenter du behøver nede pa bunden af en liste af 5 million dokumenter 3

Hjælper det? KTH studie Brugning af stemming (for svensk): Præcsion 15% bedre Genkald 18% bedre Relevance derudover forbedret Sikkert endnu bedre for islandsk Embla: Bøjninger Beygingarlýsing Íslensks Nútímamáls (BÍN) Kristín Bjarnadóttir, Orðabók Háskólans En database med islandske ordbøjninger Alle ordformer for over 300.000 ord! Embla bruger ikke stemming, men bøjningsekspansion. Færre fejl = Bedre præcision 4

Behov #1 Database af bøjninger...eller en rigtig god stemming-algoritme Embla: Stavning 1 ud af 8 søgninger forkert stavet! Også i Google Gode stavnings forslag = bedre søg Vores algoritme: Edit distance 1+, BÍN og en frekvens database 1/3 rigtig, 1/3 forkert, 1/3 ingen forslag 5

Behov #2 Stavningsalgoritme Database af ordformer Frekvens database Database af stavningsfejler? Embla: Sammensatte ord Intressant problem Ikke i engelsk Du leder efter gave Du vil gerne finde julegave, fødselsdagsgave, o. s. v. Ingen søgemaskine kan klare denne opgave i dag, heller ikke Embla Vil forbedre genkald væsentlig. 6

Behov #3 En algoritme der kan finde og splitte sammensatte ord til deres grundformer Resourcebehov i informationssøgning 1. For bøjning: Bøjnings databaser eller stemming algoritme 2. For stavning: Staverettelsesalgoritme (databaser af ordformer, ordfrekvens, ) 3. For sammensatte ord: Algoritme til at finde of splitte dem Já kunne vinde over enhver anden søgemaskine med disse værktøjer! 7

Tak! Hjalmar Gislason Iceland Telecom hjalmarg@siminn.is 8

Finansiering av forskningens infrastruktur Eva Strangert, DISC Språkteknologisk infrastruktur i Norden Göteborg 26 oktober 2006 Database Infra-Structure Committee (DISC) Databaser Kommittén för forskningens infrastrukturer (KFI) Bredare ansvarsområde (forskningsanläggningar mm) 2 1

Vetenskapsrådet (VR) DISC 3 Ledamöter DISC Jan O Jonsson, sociologi (SOFI), SU, ordförande Per-Anders Edin, nationalekonomi, UU Björn Henrichsen, Norsk Samfunnsvitenskapelig Datatjenste, Bergen och ordf ESFRI SSH Nancy Pedersen, medicinsk epidemiologi och biostatistik, KI Tore Risch, informationsteknologi, UU Annika Rosengren, akut och kardiovaskulär medicin, GU Sven Stafström, representant för SNIC, datorinfrastruktur, LiU Eva Strangert, litteraturvetenskap och nordiska språk, UmU 4 2

Uppdrag och mål för DISC ansvarar för övergripande policyfrågor angående forskningsdatabaser som infrastruktur utvecklar en enhetlig rullande planering avseende teknik och mjukvara, med utgångspunkt från existerande lösningar hos nationella och internationella aktörer utlyser och fördelar resurser till uppbyggnad, underhåll och arkivering av forskningsdatabaser, samt till teknikutveckling, support och utbildning har en samordningsfunktion mellan forskarsamfundet och statistikförande myndigheter samt mellan olika forskargrupper, lagstiftande myndigheter och etiknämnder i frågor som avser forskningsdatabaser som infrastruktur övervakar att forskningsdatabaser som erhållit infrastrukturstöd görs tillgängliga för forskarsamfundet kommunicerar med media och allmänhet kring sekretess och integritetsfrågor ur ett forskningsinfrastrukturperspektiv främjar internationellt utbyte och samordning i infrastrukturfrågor. 5 Stora databaser Samverkan Nationellt Nordiskt Europeiskt Fokus i DISC Internationellt Tillgänglighet och öppenhet 6 3

Hur ska resurserna göras tillgängliga? Standardisering och dokumentation SSD i Göteborg > SND i? Jfr Norsk Samfunnsvitenskapelig Datatjenste i Bergen 7 Tidigare Historia Kommittén för longitudinella databaser Registerdata (Samhällsvetenskap och viss medicin) Samverkan och beroende av SCB Nu DISC Stora databaser (+ Humaniora) 8 4

DISC Budget, totalt 2006 2007 33 msek (delar redan intecknade) 38 msek 2009 59 msek? Direkta bidrag efter anslagssökning Utvecklingsarbete, ex SCB Övrigt 9 Hur få del av pengarna? Kartläggning initierad av DISC Synliggörande av språkteknologin Vetenskapsrådets guide till infrastrukturen, KFI Årlig uppdatering Utredning av språkteknologi rekommenderad Offensivt agerande från språkteknologins företrädare 10 5

EU-medel ESFRI Annat finansiellt stöd CLARIN EROHS Gärna tillsammans med nationella resurser 11 Vad vill man satsa på? T ex forskningsanläggningar, databaser, biobanker, samarbetsorganisationer eller omfattande datanät som: har ett brett nationellt intresse ger förutsättningar för världsledande forskning har flera användare med kvalificerade forskningsprojekt (gärna samarbete inom Norden VISMANRAPPPORTEN) - och EU) är för omfattande för enskilda grupper har en långsiktig plan för vetenskap, finansiering och utnyttjande är öppet och enkelt tillgängliga för forskare 12 6

Språkteknologins mål och de infrastrukturella resurserna Tillfredsställa behov och lösa problem som kan karaktäriseras som Inomvetenskapliga Tvärvetenskapliga Samhälleliga 13 7

TvärSlå och TvärSök Hercules Dalianis DSV-SU-KTH e-mail:hercules@kth.se 070-568 13 59 / 08-674 75 47 Hercules Dalianis 1 TvärSlå Finansierat av Nordiskt språkråd, Nordiska ministerrådet CST Center for Sprogteknologi, Köpenhamns universitet, CSC-KTH och DSV KTH-Stockholms universitet Algoritmica HB Universitet i Bergen Helsingfors universitet Islands universitet http://ordbok.nada.kth.se/ Hercules Dalianis 2 1

TvärSlå Skandinavisk ordbok med svenska som källspråk (3509 uppslagsord) danska som källspråk (2931 uppslagsord) norska som källspråk (3565 uppslagsord) Lexin svensk-finsk ordbok (30014 uppslagsord) svensk-engelsk ordbok (32542 uppslagsord) engelsk-svensk ordbok (48397 uppslagsord) dansk-svensk ordbok (4137 uppslagsord, från Jürgen) Folkets synonymlexikon (43504 uppslagsord) DSVs manuella skandinaviska termlista (115 uppslagsord) Hercules Dalianis 3 CST dansk-engelska termlista (1498 uppslagsord, från Jürgen) dansk-engelska adjektivlista (251 uppslagsord, från Jürgen) dansk-engelska substantivlista (1235 uppslagsord, från Jürgen) Ordböcker kodade av andra i projektet Lexin norsk-engelsk-svensk ordbok (19963 uppslagsord, från Gisle) isländsk-engelsk-svensk ordbok (15304 uppslagsord, från Eiríkur och Gisle) Nordisk skattetermlista (139 uppslagsord, från Eiríkur) Scandinavian meeting terms (240 uppslagsord, från Eiríkur) public administration terms (2338 uppslagsord, från Eiríkur) Automatframtagna tvåspråkiga termlistor från ScanLex SUMMA 177 000 ordpar Hercules Dalianis 4 2

Rättigheter lexikon Lexikonägare är ofta kommersiella (Norstedts) Statliga lexikonägare är inte kommersiella men får inte konkurrera med kommersiella intressen. Myndigheten för skolutveckling som äger Lexin har gett bokrättigheterna till Liber. Vår användning av Lexin konkurrerar inte med bokförlag Hercules Dalianis 5 TvärSök TvärSök är ett delprojekt till TvärSlå, Euroling AB deltar med sökmotorn SiteSeeker TvärSlå + SiteSeeker = TvärSök Domänen är innehållet i nyheter och press releaser på Nordiska ministerrådets webbplats Skandinaviska är tre språk som betraktas som ett språk Hercules Dalianis 6 3

Parallell korpus + manuell ordlista EN-SV en: 1554 nyhetstexter (255 646 ord) sv: 1554 nyhetstexter (225 996 ord) EN-DA en: 1371 nyhetstexter (241 188 ord) da: 1371 nyhetstexter (220 265 ord) EN-NO en: 987 nyhetstexter (181 030 ord) no: 987 nyhetstexter (166 304 ord) Hercules Dalianis 7 Uplug word alignment tool Exekverade Uplug under 6 timmar Producerar 1 000 tripletter, frekvens > 3 20 procent av orden är riktiga vänner -> Samma stavning samma betydelse Biprodukt är synonymer på ett språk. Hercules Dalianis 8 4

Demo http://norden.siteseeker.se/ Hercules Dalianis 9 5

Spørgsmål om ophavsret den islandske erfaring Sigrún Helgadóttir Árni Magnússon instituttet for islandske studier Leksikografisk afdeling Spåkteknologisk infrastruktur Nordiskt seminarium vid Wallenberg center i Göteborg 26. oktober 2006 Nordens språkråd 26.10.2006 Ophavsret/SH 1 Oversigt gå i gennem lov om ophavsret 5 forskellige korpusser oversigt over det som man allerede har gjort med hensyn til at sikre licens til brug af tekster i det islandske korpus. 26.10.2006 Ophavsret/SH 2 1

BLARK (Basic Language Resource Kit) Tekstkorpusser Et tekstkorpus er en struktureret samling af tekstprøver i elektronisk form der dokumenterer et sprog sådan som det skrives i en bestemt tid. Adgang til tekster i elektronisk form kan ikke lægge ophavsretsværnet materiale ud på internettet uden ophavsmandens samtykke. Metoder til at fremskaffe licens fra indehavere af ophavsretten... 26.10.2006 Ophavsret/SH 3 Lov om ophavsret i de nordiske lande (dansk lov brugt som eksempel) Ophavsret 1. Den, som frembringer et litterært eller kunstnerisk værk, har ophavsret til værket, hvad enten dette fremtræder som en i skrift eller tale udtrykt skønlitterær eller faglitterær fremstilling, som... 2.Ophavsretten medfører, med de i denne lov angivne indskrænkninger, eneret til at råde over værket ved at fremstille eksemplarer af det og ved at gøre det tilgængeligt for almenheden i oprindelig eller ændret skikkelse, i.. 26.10.2006 Ophavsret/SH 4 2

Lov om ophavsret i de nordiske lande (dansk lov brugt som eksempel) Hvem er ophavsmanden? 7.Som ophavsmand anses, når ikke andet er oplyst, den, hvis navn eller alment kendte pseudonym eller mærke på sædvanlig måde er påført eksemplarer af værket eller opgives, når det gøres tilgængeligt for almenheden. Stk. 2. Er et værk udgivet, uden at ophavsmanden er angivet i overensstemmelse med stk. 1, kan udgiveren, hvis denne er nævnt, og ellers forlæggeren handle på ophavsmandens vegne, indtil denne bliver angivet på et nyt oplag. 26.10.2006 Ophavsret/SH 5 Lov om ophavsret i de nordiske lande (dansk lov brugt som eksempel) Andre paragraffer som har betydning Oversættelser 4. Den, som oversætter, omarbejder eller på anden måde bearbejder et værk, herunder overfører det til en anden litteratureller kunstart, har ophavsret til værket i denne skikkelse, men kan ikke råde over det på en måde, som strider mod ophavsretten til det oprindelige værk. Offentlige aktstykker 9. Love, administrative forskrifter, retsafgørelser og lignende offentlige aktstykker er ikke genstand for ophavsret. 26.10.2006 Ophavsret/SH 6 3

Rettighedshaverorganisationer som tager sig af aftalelicenser om fotokopiering. Bonus Presskopia COPY-DAN Fjölís Fjølrit Kopinor Kopiosto Samikopiija 26.10.2006 Ophavsret/SH 7 Korpusser i forskellige lande Hvordan man har fået licens til at bruge tekster i korpusser fra ophavsrettens indehavere BNC (British National Corpus) (engelsk) ANC (Americ National Corpus) (amerikansk engelsk) Korpus 2000 (dansk) Oslo korpuset av taggede norske tekster (norsk) SUC (Stockholm Umeå Corpus) (svensk). 26.10.2006 Ophavsret/SH 8 4

BNC (British National Corpus) 3000 tekster 100 millioner ord. skrive til ophavsrettens indehavere aldrig hele tekster som er værnet af ophavsret søgbar i konkordansform på projektets hjemmeside købe brugerlicens og få hele korpusset på disketter eller købe subscription service og få adgang gennem internettet man betaler kun behandlingsomkostninger 26.10.2006 Ophavsret/SH 9 ANC (Americ National Corpus) under opbygning anden udgave har nu 22 millioner ord lægge ind tekster gennem projektetes webside (upload) ophavsmanden sender e-post til projektlederen med standardiseret tekst som giver projektet licens til at bruge teksten for the purposes of linguistic education, research, and development. 26.10.2006 Ophavsret/SH 10 5

Korpus 2000 (dansk) 28 millioner ord fra ca. 110.000 forskellige tekster skrevet i perioden 1998-2002 Korpus 2000 er et citatkorpus som defineres på websiden således: Etcitatkorpus er et tekstkorpus, som først er splittet op i enkelte sætninger, som herefter er blandet i tilfældig rækkefølge. Det indeholder altså præcist det samme sproglige materiale, som det oprindelige tekstkorpus, men sætningerne kommer blot i vilkårlig rækkefølge, så det ikke længere er muligt at rekonstruere de oprindelige tekster. Denne fremgangsmåde er nødvendig af ophavsretlige grunde 26.10.2006 Ophavsret/SH 11 Oslo korpuset av taggede norske tekster bokmålsdelen, indeholder omtrent 18,5 millioner ord nynorskdelen indeholder omtrent 3,8 millioner ord teksten til korpusset blev hentet fra tekster som allerede var tilgængelige for internal brug inden for universitetet i Oslo når korpusset skulle blive åbnet for søgning på webben har man skrivet til alle institutter som havde bidraget med tekster i brevet har man sagt at hvis man ikke fik svar skulle det betragtes som samtykke adgang er med brugernavn og password 26.10.2006 Ophavsret/SH 12 6

SUC (Stockholm Umeå Corpus) udviklet 1990 1996 første version indeholder 500 filer med omtrent 2065 ord hver fil version 2 er søgbar på internettet gratis i konkordansform der findes ikke ret meget skrevet om hvordan licens for brug af tekster i SUC er blivet fremskaffet undtagen at legal agreements har været optegnet og at man måtte udelade nogle tekster på grund af at man ikke fik licens til at bruge dem. 26.10.2006 Ophavsret/SH 13 Islandsk korpus 25 millioner ord, hvert ord tagget med morfosyntaktisk tag og lemma tekster skrevet 2000 og senere tekster hentet fra Ordbogens tekstsamling komplettere Ordbogens tekster med tekster fra forskellige genrer søge licens til brug af tekster fra rettighedshavere 26.10.2006 Ophavsret/SH 14 7

Hvordan søger man licens til at bruge en tekst? Alle tekster er værnet af opahavsret uanset man ved hvem ophavsmanden er Blogs begrænse valget til blogs hvor ophavsmand er kendt, sende e-post Blogs man giver licens hvis det ikke koster for megen umage Postlister subskribere med samtykke fra postlistens webmaster Taler som findes i tekstform på internet sende e-post Webpladser offentlige institutter og firmaer har ophavsret til tekst som offentliggøres på deres webplads uden forfatterens navn 26.10.2006 Ophavsret/SH 15 Hvordan søger man licens til at bruge en tekst? Nyheder i tv og radio chefredaktøren for den statslige radio- og tv-stations nyhedsbureau har fået tilladelse fra reporterene til at aflevere teksterne til brug i ordbogens tekstsamlinger Aviser lave kotrakter med avisernes redaktioner, redaktionerne har i de fleste tilfælde sikret ophavsret til alle tekster som publiceres i aviserne Bøger og tidsskrifter sende forafatteren brev eller e-post 26.10.2006 Ophavsret/SH 16 8

Konklusion I Rettighedshavere er positive over for selve projektet Man er imod den idé at give offentlige institutter licens til at bruge tekst uden betaling uanset værdien af de enkelte projekter imens det offentlige ikke vil lave en aftale om generel brug af digitaliserede tekster. 26.10.2006 Ophavsret/SH 17 Konklusion II Rettighedshavere behøver detaljerede og klare oplysninger om projektet hvordan skal teksten bruges, hvordan er adgang til tekstsamlingen og korpusset man inkluderer aldrig hele ophavsretligt værnede tekster i korpusset tekster kan ikke rekonstrueres fra korpusset. Det må være enkelt at sende erklæringen om samtykke per e-post, fax, adresseret og frankeret konvolut 26.10.2006 Ophavsret/SH 18 9