Korpus 2010 DK-CLARIN

Relaterede dokumenter
Korpus 2010 & epos. Det almensproglige korpus i DK-CLARIN. Jørg Asmussen Det Danske Sprog- og Litteraturselskab

Intro til design og brug af korpora

Forskning med brug af tekster og tekstværktøjer

En rundvisning i ordnet.dk

DK CLARIN: METADATA FOR WP4 RESSOURCER

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

MUDS okt Hanne Ruus. Fri og bunden forskning om CLARIN-DK WP 2.3 Knowledge for everyman. Institut for Nordiske Studier og Sprogvidenskab

Spørgsmål om ophavsret den islandske erfaring

DeIC Nationale Kulturarvscluster, Statsbiblioteket

Korpusbaseret lemmaselektion og opdatering

Statsbibliotekets. Politik for digital bevaring

adfgvrga Open Access Hvor og Hvordan Steen Ammentorp

Automatisk indhentning af oplysninger om statslige myndigheders digitale publikationer - projektafslutning

Some usage sceanrios (Tidligere titler: Brugsscenarier og funktionaliteter, Arbejde med korpora, Korpus-workflow) Resumé

CLARIN en europæisk forskningsinfrastruktur

Undersøgelse af det danske webdomæne

The DOT standard format header

29. juli 2014 Vedr. afrapportering af projektet Fremfinding og tildeling af PID er fra Netarkivet til statslige digitale udgivelser.

Studenterportalen. Registrering og upload af bacheloropgaver og andre afgangsprojekter. Professionshøjskolen Metropol, marts 2011

sproget.dk en internetportal for det danske sprog

Open access. Open Access på Aarhus Universitet. Gør dine publikationer mere synlige og tilgængelige på nettet

Dagens program. Domæner. change log- screen shots hver gang I har arbejdet med themet. Arkitekturen bag en wp blog. Hvad er widgets.

Avisdigitalisering. Fjernlånsmøde 12. november Tonny Skovgård Jensen Tonny Skovgård Jensen

DIGITAL KULTURARV. Jens Henrik Leonhard Jensen, Storagemanager Statsbiblioteket

Streaming video på højere uddannelsesinstitutioner

Klargøring af tekstresurser til deponering i CLARIN-DK

Open Science, open access, open data - Rigsarkivet som aktør indenfor e-science

Fremstilling af digitalt undervisningsmateriale

Guide til reglerne for kopiering af tekster og noder på grundskoler

Digital Bevaring. En ekspertgruppe organiseret som en afdeling på Det Kongelige Bibliotek Sommer 2010

It-støttet excerpering og registrering af nye ord og ordforbindelser

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Folkebibliotekernes adgang til Kulturarven på Det Kgl. Bibliotek. juni 2018

Da beskrivelserne i danzig Profile Specification ikke er fuldt færdige, foreslås:

TILLÆG TIL MANUAL Excel-indlæsning i Vvskatalogets administrationssystem

Det digitale bibliotek

Politik for adgang til de digitale samlinger

Sprogteknologiske resourcer for islandsk leksikografi

Kulturudvalget (Omtryk Fejl i folder) KUU Alm.del Bilag 49 Offentligt

Grøn Open Access i Praksis

Det Naturvidenskabelige Fakultet. Introduktion til Blackboard (Øvelser) Naturvidenskabeligt Projekt 2006 Prøv at forske

IBM Network Station Manager. esuite 1.5 / NSM Integration. IBM Network Computer Division. tdc - 02/08/99 lotusnsm.prz Page 1

Oversigt over vigtige felter i en kildeangivelse.

Webside score cite4me.org

Det erhvervsrelaterede projekt 7. semester. Projekt plan

NORDISKE STUDIER I LEKSIKOGRAFI

Kulturministeriets forskningsudvalg (KFU)

Kulturarv i Petabytes

CV FORM MÅLGRUPPE KOMMENTARER

Bringe taksonomier i spil

Forskning med brug af audiovisuelt materiale især radio

PDFmaps på smartphones

Oversigt over vigtige felter i en kildeangivelse.

DANMARKS NATIONALBANK WORKING PAPERS

TeamShare 2.1 Versionsnoter Oktober 2009

Forventer du at afslutte uddannelsen/har du afsluttet/ denne sommer?

Bortset fra disse ting, så ser vi frem til at få jeres feedback, rapporter om fejl og ideer.

PDF/A. PDF/A for AFP-Brugergruppen. den 11. maj 2011 Sørup Herregård

Kravspecifikation. for. Indholdskanalen 2.0

Kulturministeriets it-arkitekturpolitik

PDFmaps på smartphones

Hvidbog om dansk forskningsformidling. Viden giver velstand

IPv6 Application Trial Services. 2003/08/07 Tomohide Nagashima Japan Telecom Co., Ltd.

Mere digitalt større synlighed bedre navigation

Kædesøgning via citationer (Cited Reference Search) Web of Science er et citationsindex, som gør artiklernes referencelister er søgbare.

AFTALE OM KOPIERING AF OPHAVSRETLIGT BESKYTTET MATERIALE

Digital Eksamen Når du er logget ind i Digital Eksamen, bliver du mødt med en oversigt som vist nedenfor:

Larm Case Data Management Plan

SKS til TEI data management plan

EndNote. Berit Elisabeth Alving

Vejledning om videregivelse. af personoplysninger til brug for forskning og statistik

Opgaveteknisk vejledning Word Tornbjerg Gymnasium 10. december 2015

Word. Strukturering, henvisninger m.m.

InfoGalleri Interaktiv formidling og kommunikation i det offentlige rum

BESTEMMELSE FOR FAK FORSKNINGSPUBLIKATION. Revideret maj 2016.

Aarhus University Library - snitflader til Statsbiblioteket

DIGITALISERING AF 32 MIO. AVISSIDER PÅ 3 ÅR

Ansøgningsvejledning til ph.d.-opslag 2015

Mendeley: IMPORT AF REFERENCER

CLARIN-DK Status. info.clarin.dk. Bente Maegaard. National Coordinator Vice Executive Director

EndNote. Berit Elisabeth Alving

Som forskningsinstitution forsker Statsbiblioteket i information og medier.

Guide til reglerne for kopiering af tekster og noder Mellemlange videre gående uddannelser

Forventer du at afslutte uddannelsen/har du afsluttet/ denne sommer?

Opgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015

Sa dan udfylder du ansøgningen om optagelse pa en deltidsuddannelse i det digitale ansøgningssystem DANS

Evaluering på AAU HVAD EVALUERES? Semester Kursus. Underviser Vejleder- og projektforløb

Uddannelses- og Forskningsudvalget UFU Alm.del Bilag 77 Offentligt

Implementering af bips A104 hos DTU

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

Open Access med Pure

Digitale Videnssystemer: Notater

Nye forskningsresultater om den skriftlige sprogbrug i uddannelsessektoren

På nettet via bibliotek.dk

Låner i et elektronisk spil kegler: Hvad sker der, når bøgerne bliver elektroniske? Heidi Holst Madsen

Historiana brugervejledning

09/ Version 1.4 Side 1 af 37

Web of Science Core Collection

Transkript:

Emne Korpus 2010 DK-CLARIN Fortæller Jørg Asmussen Det Danske Sprog- og Litteraturselskab Tid & Sted Torsdag, 24. maj 2012 NoSSinK, Dansk Sprognævn Mere Denne præsentation findes under http://korpus.dsl.dk/staff/ja/pres/nossink.pdf 1

Intro: DK-CLARIN WP2.1 Reference corpus of general language Some corpora for Danish do exist, but there is a need for intensifying the compilation of corpus material both in terms of quantity and with respect to continuity in order to secure the diachronic aspect. The project will collect at least 15 million words of Danish text per year. Material will mainly be taken from newspapers and periodicals. Some basic methods and tools for automatically collecting, structuring and annotating text will be developed, using KB's records of the entire.dk domain, harvested 4 times per year. Material will be collected taking the copyright into consideration and all the collected text will be made available to the research community without restrictions in so far as copyrights permit, cf. WP1. Deltagere: Jørg Asmussen, DSL Jakob Halskov, DSN Liisa Theilgaard, DSL 1 million kroner: DSL 700.000 DSN 300.000 DSN 0,67 årsværk DSL 1,25 årsværk Flere oplysninger: http://clarin.dsl.dk Arbejdsopgaver... 2

Arbejdsopgaver = Program 1. Indsamling 2. Metadata og formater Korpus 2010 3. Teksthåndtering 6. Adgang 4. Ordklasseopmærkning 5. Det færdige korpus Indsamling... 3

1. Indsamling Tapning fra KB s arkiv over dk-domænet Løbende Infomedia-indsamling DSL siden 2005 DSN siden 2008 Frit materiale (DSN): Folketinget Wikipedia CLARIN-aftale (DSN): Bo Bedre, Smag & Behag, Se & Hør, Irma, Liberalt Overblik, Socialdemokraten, UNG, Idényt, Vi Unge, Tjeck, Samvirke, Ud & Se Fælles-aftale: Via Infomedia (DSL): Helse, Magasinet Ejendom, Juristen, djøfbladet, Hus Forbi, Ældre Sagen, Højskolebladet, Folkeskolen, Samfundsøkonomen, penge.dk Via webbet (DSN): blogsbjerg.com, skauogco.blogspot.com, jarlcordua.dk, Lifli, Bentes Blog, blogbogstaver.dk, selvhenter.org, Mangamania, clioonline.dk dk-domænet... 4

1. Indsamling: tappe dk-domænet? netarkivet.dkindsamler og bevarer den danske del af internettet Adgang til Netarkivet Netarkivet kan kun benyttes til videnskabelige formål. Det skyldes, at Netarkivet også indeholder følsomme personoplysninger. Følgende kan få adgang: Forskere og ph.d.-studerende kan få online adgang til arkivet. Andre vil på et senere tidspunkt kunne benytte arkivet på Det Kongelige Bibliotek og Statsbiblioteket, såfremt formålet med benyttelsen er videnskabelige studier. Herudover kan du få adgang til dit eget websted, for så vidt det ikke indeholder oplysninger om andre personer. Sådan får du adgang Adgang til Netarkivet gives kun efter ansøgning. Se retningslinjer her. Du skal udfylde denne ansøgererklæring og sende den med post til: Eva Fønss-Jørgensen Victor Albecks Vej 1 Statsbiblioteket 8000 Aarhus C Lad os se på en fordeling... 5

1. Indsamling: CLARIN-aftale O W Vedr. tekster til DK-CLARIN-projektet DSB giver hermed tilladelse til at tekstindholdet af udvalgte numre af bladet Ud & Se optages i en samling elektroniske tekster under opbygning i projektet DK-CLARIN, der som mål har at skabe en dansk itinfrastruktur som skal rumme skrevne og talte tekster og visuelle data i et sammenhængende og systematisk digitalt lager som gøres tilgængeligt for forskning. Tekstmaterialet stilles til rådighed for DK-CLARIN og vil udelukkende blive tilgængelige for forskere ved universiteter og andre forskningsinstitutioner samt udvalgte studerende som deltager i relevant undervisning. Tekstmaterialet vil udelukkende blive anvendt til ikkekommercielle formål, og adgang til tekstmaterialet vil blive begrænset til forskere og studerende ved hjælp af et password-beskyttet internetlogin. Desuden gives der tilladelse til at teksterne kan vises for offentligheden, på følgende vilkår: Brugerne får ikke adgang til teksterne i deres helhed, men kun til begrænsede tekstuddrag (op til ca. 100 ord på hver side af det søgte ord), der kun kan give oplysning om sprogbrugen. Denne tilladelse gives under forudsætning af at ovenstående principper overholdes. 9. marts 2010 SYDDANSK UNIVERSITET AARHUS WfVEKSreT Co*i*filMg!<sn Étø*i«e*S Se be;,! M', i :; ^ : ; * [JfJoST KONGEMGf BIBLIOTEK NATIONALMUSEET Med venlig hilsen Dansk Sprognævn DSL/DSN-fællesaftale... 6

1. Indsamling: DSL/DSN-fællesaftale Mellem [navn] [adresse] [CVR-nr.] (herefter kaldet Tekstleverandøren) og Det Danske Sprog- og Litteraturselskab Christians Brygge 1 DK-1219 København K CVR-nr. 59188917 og Dansk Sprognævn H.C. Andersens Boulevard 2 1553 København V CVR-nr. 59190628 (herefter samlet kaldet DSL/DSN) er der dags dato indgået følgende aftale om at stille tekstmateriale (herefter kaldet Tekstmaterialet) til rådighed til brug for DSL/DSN's digitale tekstsamlinger. Tekstmaterialet er specificeret i Bilag 1 nedenfor. Konklusionen blev... 7

1. Indsamling Tapning fra KB s arkiv over dk-domænet Måtte opgives Løbende Infomedia-indsamling DSL siden 2005 DSN siden 2008 Overvejende komplementære Frit materiale (DSN): Folketinget Wikipedia Aftale-status uvis Infomedia CLARIN-aftale (DSN): Bo Bedre, Smag & Behag, Se & Hør, Irma, Liberalt Overblik, Socialdemokraten, UNG, Idényt, Vi Unge, Tjeck, Samvirke, Ud & Se Fælles-aftale: Via Infomedia (DSL): Helse, Magasinet Ejendom, Juristen, djøfbladet, Hus Forbi, Ældre Sagen, Højskolebladet, Folkeskolen, Samfundsøkonomen, penge.dk Via webbet (DSN): blogsbjerg.com, skauogco.blogspot.com, jarlcordua.dk, Lifli, Bentes Blog, blogbogstaver.dk, selvhenter.org, Mangamania, clioonline.dk Lad os se på en fordeling... 8

1. Indsamling: Tekstmængde fordelt på aftaler CLARIN-aftale Frit materiale Lbd. Infomedia Fælles-aftale 2 leverandører Folketinget Wikipedia 14% 5% 49% 32% Ikke CLARIN-clearet Weekendavisen Ekstra Bladet Information Jyllands-Posten Politiken Universitetsavisen Kommunalbladet 7 leverandører Næste punkt: Metadata og formater... 9

2. Metadata og formater: Kildebeskrivelsen Kildebeskrivelsen Teksttitel Forfatter Oversætter Værktitel Udgiver Forlag Lokalisering URL Filnavn TEI P5 <SourceDesc> Videre med tekstprofilen... 10

2. Metadata og formater: Tekstprofilen Tekstprofilen Tilblivelsesår Sprogtype Kanal Forfatning Afledning Domæne Faktualitet Interaktion: Rolle Interaktion: Alder Forberedelse Formål Klassifikation Se den fulde headerbeskrivelse under: http://korpus.dsl.dk/clarin/corpus-doc/ text-header.pdf Videre med tekstprofilen... 11

2. Metadata og formater: Tekstenhed Hierarkisk format: XML TEI P5 Tekstenhed Header Kildeinfo Tekstprofil Tekst <p><f>ny DUFT.</f> Den er sødlig. Eksotisk. Så forførende, at den lokker til romantisk eventyr.</p> <p>gracious! Din nye Impulse. Med duften, som er in lige nu hos de fineste parfumehuse i verden.</p> <p>og den milde deovirkning, der holder dig frisk og dejlig.</p> <p>hele dagen.</p> <p><f>gracious.</f></p> <p>deodorant og parfume. Altid en duft for dig.</p> <p><f>impulse</f></p> <p>perfumed deodorant</p> <p>gracious</p> Intern db-repræsentation? Acceptabelt tekstformat? Videre med tekstformat... 12

2. Metadata og formater: Tekstformat Eksempel fra PAROLE-korpusset Ej TEI P5 Annoteringer og tekst filtret ind i hinanden Interpunktion fortolket som ord Vanskeligt at tilføje yderligere annoteringslag Tokenreferencer ikke mulige Annoteringer kan ikke adskilles fra teksten Alternative annoteringer af samme tekst kræver ny version Pga. disse problemer vælger vi en anden løsning... 13

2. Metadata og formater: Tekstformat DK-CLARIN tekstrepræsentation Se den fulde tekstformatbeskrivelse under: http://korpus.dsl.dk/clarin/corpus-doc/ text-format.pdf Næste punkt: Teksthåndtering 14

3. Teksthåndtering Tekstkonvertering Indsamlede tekster udstyres med metadata Tekster med metadata konverteres til internt format Tekstenheder gemmes på et lager, i en tekstbank Tekstbanken Opbevarer tekster i ensartet struktur Giver adgang til forskellige operationer, fx ordklasseopmærkning Grupper af tekster (korpora) udtrækkes herfra Tekniske detaljer er beskrevet her: http://korpus.dsl.dk/clarin/corpus-doc/ text-processing.pdf Hvor står vi nu? 15

Her står vi nu 1. Indsamling 2. Metadata og formater Korpus 2010 3. Teksthåndtering 6. Adgang 4. Ordklasseopmærkning Infrastruktur 5. Det færdige korpus Lad os se nærmere på infrastrukturen... 16

3. Teksthåndtering: Intro til korpusfabrikken Teksthåndtering Tekstbanken er det centrale lager Tekster, annoteringer og metadata holdes adskilt Leverandøroplysninger Indsamlede tekster importeres vha. særlige konverteringsprogrammer Metadata bør kunnes redigeres Annoteringer tilføjes via CPU en Hertil bruges sproglige data afledt af forskellige resurser Der kan læses mere her: http://korpus.dsl.dk/clarin/corpus-doc/ concepts.pdf Adgang? Næste punkt: Ordklasseopmærkning 17

4. Ordklasseopmærkning: Valg af metode Kriterier Åbenhed: Programmel & sprogviden Tilgængelighed Skal kunne lemmatisere Udbredt programmeringssprog, helst Java Skal kunne tilpasses forskellige behov Veldokumenteret Løbende vedligeholdelse Læs evalueringsrapporten: http://korpus.dsl.dk/clarin/corpus-doc/ pos-survey.pdf Evaluering og konklusion 12 taggere, heraf 2 til dansk Feltforsøg med Sujit Pals HMM Tagger Træningsgrundlag: PAROLE v.2 Fuldformsleksikon: DSL Flexion, DDO, PAROLE Læs om taggeren: http://korpus.dsl.dk/clarin/corpus-doc/ pos-design.pdf Hvorfor ordklasseopmærkning? 18

4. Ordklasseopmærkning: Hvorfor? Find form af verbet arbejde efterfulgt af præposition efterfulgt af et substantiv Formel søgning [lemma= arbejde & pos= V ] [pos= PRP ] [pos= N ] Eller som konkordans... 19

4. Ordklasseopmærkning: Konkordans Og så prøver vi det samme i Google... Eller Infomedia... Næste punkt: Det færdige korpus... 20

5. Det færdige korpus 45 mio. ord Fordeling på teksttyper 2008-2011 avis blad blog folketing forum web wikipedia 48% 13% 2% 16% 3% 2% 16% Lager på >300 mio. Sidste punkt: Adgang... 21

6. Adgang Korpus findes som XML TEI P5-filer POS-tagget & lemmatiseret Uploades p.t. til DK-CLARIN repositoriet Gøres p.t. søgbart i særlig web-grænseflade Hvad der DK-CLARIN-repositoriet? 22

6. Adgang: CLARIN-repositoriet TAK! 23