Forskning med brug af tekster og tekstværktøjer Lene Offersgaard, Center for Sprogteknologi, NFI, KU leneo@hum.ku.dk KU, 20. april 2015
DIGHUMLAB har tre søjler: Language-based materials and tools Research infrastructure for the study of internet materials Interaction and Design Studies Partnere i denne søjle: Det Kongelige Bibliotek CST, NFI på KU 20. april 2015
CLARIN ERIC Conference 2012 DIGHUMLAB Clarin.dk
CLARIN.DK s mission: Facilitere brug, deling og bevaring af sprogbaserede digitale forskningsdata Tilgængeliggøre værktøjer og udvikle nye services i samarbejde med forskere Fremme digitale metoder i humanistisk forskning gennem møder, workshops, helpdesk mv. Drive et datacenter, hvor forskningsdata kan bruges, deles og bevares. 20. april 2015
CLARIN.DK en forskningsinfrastruktur Forankret på Københavns Universitet, men skal servicere forskere fra hele Danmark Fortsættelse af det nationale projekt DK-CLARIN 2008-2011, som samlede sprogresurser af forskellige typer DK-CLARIN var et samarbejde mellem Det Kongelige Bibliotek, Det Danske Sprognævn, Det Danske Litteraturselskab, Johannes V. Jensen Centret, AU, Nationalmuseet, samt INSS og CST på KUA. De tre søjler i CLARIN.DK: Datacenter Knowledge sharing Værktøjer og applikationer 20. april 2015
Resurser i repositoriet: Tekstsamlinger: 14 stk af forskellige typer, de fleste med annoteringer, i alt 40.000 tekster Heraf fremhæve: Billedsamlingen Danmark i Nyere Tid : 6800 fotos fra Nationalmuseet med beskrivende tekst (DNT) Ældre danske fagtekster fra perioden 1500 til 1750 for det almindelige publikum, 86 tekster (everyman) Lyd- og videosamlinger, samt annotationer af lyd og video Leksika 20. april 2015 Data: andre typer af data
Udvikle metadata for assyriske lertavler Lertavlerne dateres ca 1950-1700 f.kr. Tavlerne er fra det gamle Mesopotamien De er skrevet med kileskrift Ca 6.000 er blevet digitaliseret Teksterne er 10-1000 ord lange, gennemsnitslængde er ca.100 ord per tekst Samarbejde m. Thomas Hertel, ToRS om at skabe TEI-metadata for disse tekster, og gøre transkriptionen af kileskriften søgbar 20. april 2015
Søgning efter resurser vha. metadata Metadata beskriver resursen Metadata bruges i søgning DIGHUMLAB Clarin.dk Alle resurser har tilknyttet metadata, fx. titel, forfatter, årstal, beskrivelse, emne Nogle metadata deles af alle resurser, fx. Titel, beskrivelse, format En del metadata er resurse-specifikke: Information om den trykte bog, tekstens afsender/modtager Metadata er baseret på standarder: TEI, CMDI, IMDI, OLAC/Dublin Core Resurser valideres ved import for at sikre format og metadata kan håndteres af repositoriet 20. april 2015
20. april 2015 DIGHUMLAB Clarin.dk
6. feb.2015 DIGHUMLAB Clarin.dk
6. feb.2015 DIGHUMLAB Clarin.dk
Korpus-søgning i folkeviser Folkeviser fra 1553-1700 Både med den originale skrivemåde fra renæssancen og med transkription på moderne dansk, se mere på duds.nordisk.ku.dk 6. feb.2015
20. april.2015 DIGHUMLAB Clarin.dk
Kurv til download og til annotering af resurser Læg først resurser i kurven fra en søgning... Så kan du vælge Download eller Værktøjskasse 6. feb.2015
Annotere resurser Vælg hvilken annotation, der skal udføres Systemet foreslår måske flere workflows, baseret på de tilgængelige værktøjer Du vælger evt. mellem alternative workflows Du modtager de annoterede data i din mailbox når processen er færdig med (nogle) metadata... 6. feb.2015
Deponering af data Har du data du gerne vil dele med andre? Vil du gerne kunne referere til dine data online uden at linket en dag dør? Lad os hjælpe dig med at deponere dem i repositoriet! Har andre data, som du gerne vil bruge? Spørg om de vil deponere dem i clarin.dk? Deponering i gang nu: Johannes V. Jensen: 43 værker fra Jensen Online 20. april 2015
Knowledge Sharing & Helpdesk Helpdesken har tre fokusområder: Dansk sprogteknologi Multimodal kommunikation Anvendelse af CLARIN-DK platformen Tag kontakt og henvis gerne dine studerende til helpdesken! Knowledge Sharing Centre under opbygning: Fremme digitale metoder i humanistisk forskning Inddrage sprogteknologi til at støtte kvalitative undersøgerser mixed-methods, visualisering 20. april 2015 Nyt korpussøgeværktøj på vej:
Workshops Arrangeres ca 3 gange pr. semester Er der et område indenfor digital humaniora som du synes er interessant og hvor andre forskere måske også gerne vil være med? Vi vil gerne facilitere! Næste arrangementer: Primo maj: TEI-workshop om annotering i tekst af tekst, bl.a. noter, henvisninger Juni: annotering af tekst og den nye begrebsordbog 20. april 2015
CLARIN.EU 6. feb.2015
Europæisk samarbejde: nu 16 centre snart 18, 13 lande.. CAC2014 - Soesterberg, NL - 25 October 2014
Clarin.dk teamet: Bart Jongejan Bente Maegaard Claus Povlsen Costanza Navarretta Dorte Haltrup Hansen Hanne Fersøe Lina Henriksen Lene Offersgaard Mitchell Seaton Sussi Olsen Information: info.clarin.dk Kontakt os: info@clarin.dk 20. april 2015