Fra bog til base - om implementering af nye edb-programmer ved Ømålsordbogen

Relaterede dokumenter
Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Encyclopædica Brittanica;

LexicoNordica. Nyt fra bestyrelsen for Nordisk Forening for Leksikografi. Kilde: LexicoNordica 21, 2014, s

ordbøgerne og internettet

ordnet.dk ordbøger og korpus på internettet

sproget.dk en internetportal for det danske sprog

En rundvisning i ordnet.dk

Fra spørgsmål til arkivalier

Intro til design og brug af korpora

Sprogteknologiske resourcer for islandsk leksikografi

PLAN OG UDVIKLING GIS-STRATEGI

Hvad ved vi nu. om danske talesprog? Redigeret af Frans Gregersen og Tore Kristiansen SPROGFORANDRINGSCENTRET

elib Aleph, ver.18 Introduktion til GUI FUJITSU SERVICES A/S

IT-progressionsplan 2014

En svensk version af dette dokument kan hentes her: people/hagerman/riktlinjer.pdf (500 kb)

PDF/A. PDF/A for AFP-Brugergruppen. den 11. maj 2011 Sørup Herregård

LexicoNordica. Sproglige varieteter i nordiske ordbogsresurser. Henrik Lorentzen & Emma Sköldberg. Kilde: LexicoNordica 22, 2015, s.

PDF/A DokumentBrokeren

Kursusbeskrivelser Arkibas og IT-kurser

Digitaliseringen af den store danske ordbog et kapitel i historien om ODS på nettet

Hvad er Input Management?

NORDISKE STUDIER I LEKSIKOGRAFI

Historiske ordbøger. Henning Bergenholtz & Sven-Göran Malmgren

Effektiv digital kommunikation. IT-Branchen 10/

Kulturudvalget (Omtryk Fejl i folder) KUU Alm.del Bilag 49 Offentligt

SÅDAN OMBRYDER JEG ET LÆKKERT MØBELKATALOG.

arkiver, biblioteker og museer på internettet

Betjeningsvejledning. for. UniRace

INSPIRE og Geodata-info

Kursusbeskrivelse Microsoft Excel Grundkursus

Encoding:...1 Et tegn sæt (character set):...1 UTF-8 og UTF-16 (Unicode):...2

Skabelonfilen er udarbejdet i Word til Windows (Office 2010) og er også afprøvet i Word til Mac.

Kort om CoinDB (Mønt- og seddelsamling):

Datatransport Import & Eksport af data Generelt Import/eksport Felter i Import og Eksport... 5

Revideret projektplan til 1. marts bliver formentlig i stikord, men her følger opsatte milepæle:

Hvor kan man læse mere?

It-håndbogen. Uddrag af artikel trykt i It-håndbogen. Gengivelse af denne artikel eller dele heraf er ikke tilladt ifølge dansk lov om ophavsret.

2 Foreningens formål er å arbeide for å utvikle praktisk og vitenskapelig ordboksarbeid i Norden, og å fremme nordisk samarbeid om leksikografi.

Opgaveteknisk vejledning Word 2011 til Mac. Tornbjerg Gymnasium 10. december 2015

2 Foreningens formål er å arbeide for å utvikle praktisk og vitenskapelig ordboksarbeid i Norden, og å fremme nordisk samarbeid om leksikografi.

Åbn Paint, som er et lille tegne- og billedbehandlingsprogram der findes under Programmer i mappen Tilbehør. Åbn også Word.

System & Metode ApS præsenterer. En effektiv dokumentportal

Politik for adgang til de digitale samlinger

Opgaveteknisk vejledning Word Tornbjerg Gymnasium 10. december 2015

Sociale medier. Novicell Præsenteret af Martin Skøtt

TeamShare 2.1 Versionsnoter Oktober 2009

Indholdsfortegnelse. Introduktion... 5 Historien om Adobe Bridge 5 Photoshop CS 6 Photoshop CS6... 6

Det kommunale intranet. Præsentation Onsdag den 26. marts

Partnerskaber: Formål og problemer

Gratis reservationssystem på Internettet

PROJEKTBESKRIVELSE DIGITALE TILBUDSLISTER

Sådan bruger du Den Danske Regnskabsordbog

Avisdigitalisering. Fjernlånsmøde 12. november Tonny Skovgård Jensen Tonny Skovgård Jensen

Microsoft Dynamics. Fall. 16 AX Scanfak

GRAFISK WORKFLOW. Bog af Ib Møller På Vej.

NORDISKE STUDIER I LEKSIKOGRAFI

Spiseliv redesign 2013 Endelig kravspecifikation

Opgaveteknisk vejledning Word 2016 til Mac. Tornbjerg Gymnasium 10. december 2015

Langtved Data A/S Nyhedsbrev

NORDISKE STUDIER I LEKSIKOGRAFI

Strategi for kommunikation om EPJ

LOGIN CONTENT STATION

Årsafslutning for Skat Nova professionel brugere

BESTEMMELSE FOR FAK FORSKNINGSPUBLIKATION. Revideret maj 2016.

Grafisk pro duktion & workflow. Portfolio for Kasper Rasmussen

KOM GODT I GANG MED. Desktop Mendeley Menuen er simpel og intuitiv. I Menuen Tools finder du web importer og MS Word plugin

stavning bøjning udtale oprindelse betydning brug Baggrund og omfang

Regneark hvorfor nu det?

Resumé NSI har udviklet en funktionel prototype med en visuel brugergrænseflade, der giver ikke-teknikere mulighed for at tilgå adviseringsservicen.

Baggrund Funktionsområder

Snitfladebeskrivelse for Snitfladebeskrivelse STD-8 KMD Boligstøtte Version 1.0.0,

Bilag 3 FODS 8.2, Fuldt Digital Lokalplaner Kravspecifikation.

Skema til høringssvar anmeldelse af forskningsdata

Vurderingskriterier i forbindelse med valg af læremidler til distributionssamlingerne på Centre for undervisningsmidler

Notat. vedr. informationssystem til understøttelse af samarbejdet mellem sygehusene, kommunerne og almen praksis i Region Syddanmark

fra DGOP til den G-GOP MedCom kommunikationsstandard digital understøttelse

Adobe Acrobat Professional 11. ISBN nr.:

- sådan undgår du fejl i din tryksag

F111b. Tilbudslistens XML-struktur. Opmålingsregler 2008, bilag b, Arbejdsmetode byggeri. informationsteknologi. produktivitet.

Åben indsigt på

Tilgængelighed. Fælles bevidsthed Fælles indsats Fælles udbytte

AGS/Plot Vejledning til Brugere

Document Distributor 1. Fordele. Document Distributor

INDHOLDSFORTEGNELSE. INDLEDNING... 7 Kristian Langborg-Hansen. KAPITEL ET... 9 I gang med App Inventor. KAPITEL TO...

TeamShare 3.0 Forbedringer til TeamShare Outlook

Fælles retningslinjer for REST webservices

WebGIS. Adresseopslag, og andre opslag (MR Stationer, stik m.m.) er ikke ændret. Dog kan du ikke

Den bedste løsning er den som bliver anvendt

IT-CENTRET. Stedet, hvor du kan lære IT i dit eget tempo AMU

BYGGEPLADSLOGISTIK - på en ny måde. Af Morten M. Sørensen, NIRAS

DBA Digital Tinglysning maj juni 2008 v/ Henrik Høpner

Microsoft Dynamics AX Scanfak. Fall

Digital Kommuneplan. Hvad er en digital kommuneplan? Oplæg til fælles definition af begrebet. landinspektør Martin Høgh

Bilag A 50. danzig-møde

ISLEX. Islandsk-skandinavisk webordbog. Stofnun Árna Magnússonar í íslenskum fræðum Árni Magnússon-instituttet for islandske studier. 1.

NORDISKE STUDIER I LEKSIKOGRAFI

Økonomiudvalget godkendte på mødet den 17. marts 2015 Digitaliseringsstrategi

Initialmåling for deltager

Hvordan starter man ActivBoard op og tilslutter PC mv... 3 Hvordan tilslutter jeg min bærbare PC til ActivBoard?... 4

Nationale Kliniske Retningslinjer

Transkript:

Fra bog til base - om implementering af nye edb-programmer ved Ømålsordbogen Henrik Hovmark Ømålsordbogen Afdeling for Dialektforskning Nordisk Forskningsinstitut Njalsgade 136 2300 København S +45 35 32 84 97 hovmark@hum.ku.dk Dias 1

Ømålsordbogen En sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer - kerneperiode: 1850-1920 (1750-1945) - traditionelle dialekter (dvs. talesprog) - 1992, p.t. lu- (1909-) - en af de store nationale videnskabelige dokumentationsordbøger (jf. fx Ordbog over det danske Sprog, Ordbok över Finlands svenska folkmål, SAOB, osv.) - sprogbeskrivelser i ordbogsform: detaljerede beskrivelser af udtale, bøjning, syntaks, betydning og brug - omfattende oplysninger af etnologisk-encyklopædisk art, dvs. ældre bonde- og fiskerkultur og livsform ( -saglig ) - målgrupper: sprogforskere, etnologer, museumsfolk, ; ikke-professionelle brugere med interesse for dialekter, (lokal)historie, landbokultur, ;??? Dias 2

PS: dette er en trykt bog Dias 3

base Dias 4

slutningen af 1980 erne, 1. bind 1992 redigeringsprogram: T3 inkl. mulighed for at designe egen dania-font MEN NU FORÆLDET: - DOS-program, ikke opdateret, fungerer p.t. på Windows XP - bogen trykkes på basis af scanning af udprintede sider, p.t. én printer - dataformatet har i en længere årrække ikke været læsbart af andre programmer - tekstbehandling, ikke database korpusværktøj: WordCruncher komplekse søgninger og statistik samt udskrift til seddelformat MEN NU FORÆLDET: - DOS-program, ikke opdateret, fungerede kun på Windows 98 - ikke mulighed for at lagre større tekstmængder i samme fil, dvs. gentagne søgninger i op til 10-15 filer Dias 5

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. Udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab). 3. Konvertering af eksisterende ordbogsdata. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 6

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. Konvertering af eksisterende ordbogsdata. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 7

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) etc. 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 8

carlsbergfondet.dk Dias 9

dania-font: signographie.de (Andreas Stötzner) Dias 10

korpusværktøj: dsl.dk (Jørg Asmussen) Dias 11

konvertering og redigeringsværktøj: emp.dk (Jens Erlandsen, Hans Buchwald) Dias 12

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 13

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 14

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 15

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 16

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 17

daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 18

brugergrupper - ønsker - interesser - behov konvertering daniafont redaktion redigeringsværktøj (base) publiceringsformer (bog, web, app ) søge- og visningsmuligheder korpusværktøj seddelsamling Dias 19

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 20

- Dania-font - eksisterende font på markedet ikke tilstrækkelig - ØMOs font ikke læsbar - ingen fonte p.t. Unicode - Andreas Stötzner signographie.de (via Den Arnamagnæanske Samling, Nordisk Forskningsinstitut: Florian Grammel, Alex Speed Kjeldsen) - MUFI (Medieval Unicode Font Initiative) (jf. Odd Einar Haugen, Bergen) - ikke kun codepoints, men også standardiseret tegnbeskrivelse (med henblik på evt. senere optagelse i ægte Unicode) - LINCUA-DA (område reserveret i Unicode, Private Use Area) - i alt ca. 170 tegn - heraf ca. 40 nytegnede basis-glyffer og ca. 70 prækombinerede glyffer - både Open Type-kodning og prækombinerede tegn - to fonte: - Latin Modern Dania (en del af LaTeX-familien, jf. fx http://www.gust.org.pl/projects/e-foundry/latin-modern - open source) - Andron (Andreas egen font) Dias 21

Dias 22 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 23 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 24 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 25 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 26 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 27 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 28

- WordCruncher - i alt ca. 200 lydoptagelser/interviews (1934-) (ca. 1.3 mio. ord) - komplekse søgninger og statistik samt udskrift til seddelformat - ca. 1/3 af teksterne taggede (ordklasse) - redaktionsinternt arbejdsredskab - CorDiale: http://cordiale.dyndns.org/ (2003-) - 170 optagelser - bred brugergruppe ( offentligheden ) - p.t. lukket korpus, ikke mulighed for udskrift, tagging fjernet - omfattende metadata: fx lokalitet, emne, persondata - status: - konvertering og ensretning af de eksisterende data (cqp-format) - nye/opdaterede headere (metadata) - filtre: lokalitet, emne, persondata, optagelse - + statistik, annotering, eksport - bygger videre på både WordCruncher og CorDiale, dvs. revitalisering af korpus, både som internt værktøj og på www Dias 29

Dias 30 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 31 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 32 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 33

Dias 34 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 35 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

Dias 36 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

eksempel 1: artiklen kukker I Dias 37

- rubrikafsnit - i rim: - i formel: - i ordspr: - i folketro: - i leveregel: - - hensyn/spørgsmål: - produktivitet: overskuelig skabelon (80 linjer med rubrikafsnit!) - søgning ( rim, folketro ) - struktur: citat eller forbindelse? - også frie rubriktekster: i formel der siges Dias 38

- rubrikafsnit - i rim: - i formel: - i ordspr: - i folketro: - i leveregel: - - hensyn/spørgsmål: - struktur: citat eller forbindelse = et sprogligt udtryk der gengives og behandles - i visse rubrikafsnit også mulighed for friere redaktionel tekst, dvs. IKKE sprogligt opslag: når kukkeren har set tre (syv) høstakke m.fl. Dias 39

eksempel 2: artiklen krans Dias 40

Enc: - sagligt afsnit (ØMO = en sproglig-saglig ordbog) - etnologiske/kulturhistoriske oplysninger - encyklopædisk afsnit - står altid til sidst i et betydningsafsnit eller en artikel (redaktionel beslutning, 2011) - flere løsninger i tidligere bind - ingen indleder/markør (fx Enc e.l.) - parsing? - markør i kommende bind? Dias 41

afslutning/diskussion Dias 42

Vedrørende digitaliseringen (database) af Danmarks Stednavne: Når man skal digitalisere et materiale, skal man meget nøje overveje de fremtidige anvendelsesmuligheder for materialet. Først må man opregne, hvad man kan anvende materialet til - i sin helhed eller i udvalg - også anvendelser, der eventuelt ligger uden for de rammer, der er udstukket af det projekt, hvorigennem materialet digitaliseres. Ganske vist kan man ikke på forhånd kende alle fremtidige anvendelsesmuligheder, men ved at gøre sig tanker om kendte mulige anvendelser kan man få kortlagt, hvilke begrænsninger i digitaliseringen man for alt i verden skal undgå. (Gammeltoft 2011:207) Dias 43

brugergrupper - ønsker - interesser - behov konvertering daniafont redaktion redigeringsværktøj (base) publiceringsformer (bog, web, app ) søge- og visningsmuligheder korpusværktøj seddelsamling Dias 44

produktivitet????? brugergrupper redaktionskonsekvens redaktion visning vidensdeling mm (intern) søgning data: format og principper Dias 45

tak! Dias 46

før: seddelsamling og excerpering nu: tekstkorpus og database Grønvik 2006: 135 Dias 47

før: seddelsamling og excerpering nu: tekstkorpus og database Grønvik 2006: 140 Dias 48

Ømålsordbogen En sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer - Kerneperiode: 1850-1920 (1750-1945) - Traditionelle dialekter (dvs. talesprog) - 1992, p.t. lu- (1909-) - En af de store nationale videnskabelige dokumentationsordbøger (jf. fx Ordbog over det danske Sprog, Ordbok över Finlands svenska folkmål, SAOB, osv.) - Sprogbeskrivelser i ordbogsform: detaljerede beskrivelser af udtale, bøjning, syntaks, betydning og brug - Omfattende oplysninger af etnologisk-encyklopædisk art, dvs. ældre bonde- og fiskerkultur og livsform - Målgrupper: sprogforskere, etnologer, museumsfolk, ; ikke-professionelle brugere med interesse for dialekter, (lokal)historie, landbokultur, ;??? Dias 49

konvertering = retrodigitalisering hvilke informationer? hvordan er de organiseret? hvordan skal de organiseres? dvs. indholdet!!! hvilke værdifulde informationer har vi? hvad er det vi fortæller i ordbogen? hvad er det vi ved er vigtigt i ordbogen? (jf. at redaktøren måske er den der formodes at vide hvad der er vigtigt redaktørens job er ikke kun intuitiv induktiv materialefremlæggelse, men skulle også gerne bygge på en form for faglighed, hint til manien med kildepublicering, det er en kompleks kildearbejde der ligger til grund for udarbejdelsen af en artikel til ØMO) (jf. fx Ore 2011) + hvem skal bruge oplysningerne? hvad skal de bruges til? (søgning, visning, udveksling af data, links) + overvejelser over internt brug som base og ekstern(e) brug: primært elektronisk udnyttelse, dvs. søgemuligheder men også visningsmuligheder, men i første omgang ikke netudgave Dias 50

1. Udarbejdelse af ny font til lydskriften Dania: Den eneste eksisterende font dækker ikke Ømålsordbogens behov og er ikke registreret som Unicode-standard. Den nye font er del af Unicode (Private Use Area). 2. Konvertering af eksisterende ordbogsdata, fra T3-format til xml. 3. Udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord): Dette arbejde omfatter dels konvertering og ensretning af de eksisterende data, dels udarbejdelse af særlige faciliteter for at kunne tilgodese specielle behov i redaktionsarbejdet (fx søgning på dialektområder og muligheden for udskrift af tekstuddrag i passende længde i samme fysiske format som de øvrige sedler i ordbogens seddelsamling). Arbejdet udføres i samarbejde med Det Danske Sprog- og Litteraturselskab og forventes færdigt sommeren 2013. I skrivende stund er data konverteret (cqp-format), og arbejdet med metadata og funktionalitet/brugergrænseflade er i gang. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex): Arbejdet med en database stiller krav om definition af entydige oplysningstyper og konsekvente regler for ordbogsartiklernes struktur. Dette arbejde er blevet påbegyndt i foråret 2013. Forskellige hensyn og ønsker bringes på bane i dette arbejde: Hvor detaljeret en opmærkning skal der være i den kommende struktur? Hvordan kan man udnytte ordbogsprogrammets muligheder for struktureret korrektur o.l. (forkortelser, faste inventarer)? I hvor høj grad kan eller skal man tage hensyn til forældede eller løse strukturer i eksisterende bind? Fx kan der i Ømålsordbogens artikler indsættes særlige encyklopædiske afsnit, såkaldte saglige afsnit, hvor der gives kulturhistoriske oplysninger om den ældre bonde- og fiskerkultur (beskrivelser af arbejdsgange (høst, hør), beklædningsgenstande (korsklæde) og højtider (begravelse). I den meget tidlige redaktionsfase, var man desværre ikke fremsynet nok til at forsyne disse afsnit med en fast indleder (fx Enc), og reglerne for afsnittenes mulige placering i artikelstrukturen blev heller ikke fastlagt præcist. I forbindelse med omlægningen af redaktionspraksis skal disse forhold afklares, herunder om man i fremtidige bind evt. skal indføre markøren Enc. Dias 51

udgår vist!!! Dias 52

Dias 53 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning

der var engang Dias 54

der var engang IT EDB databaser korpus statistik Dias 55

Andersen 1932: 207, 209 Dias 56

Forskningen ved Institut for Cellulær og Molekylær Medicin belyser basale cellulære og molekylærbiologiske processer, deres regulering og deres betydning for cellernes funktion, interaktion og organisation i væv. Dias 57