Fra bog til base - om implementering af nye edb-programmer ved Ømålsordbogen Henrik Hovmark Ømålsordbogen Afdeling for Dialektforskning Nordisk Forskningsinstitut Njalsgade 136 2300 København S +45 35 32 84 97 hovmark@hum.ku.dk Dias 1
Ømålsordbogen En sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer - kerneperiode: 1850-1920 (1750-1945) - traditionelle dialekter (dvs. talesprog) - 1992, p.t. lu- (1909-) - en af de store nationale videnskabelige dokumentationsordbøger (jf. fx Ordbog over det danske Sprog, Ordbok över Finlands svenska folkmål, SAOB, osv.) - sprogbeskrivelser i ordbogsform: detaljerede beskrivelser af udtale, bøjning, syntaks, betydning og brug - omfattende oplysninger af etnologisk-encyklopædisk art, dvs. ældre bonde- og fiskerkultur og livsform ( -saglig ) - målgrupper: sprogforskere, etnologer, museumsfolk, ; ikke-professionelle brugere med interesse for dialekter, (lokal)historie, landbokultur, ;??? Dias 2
PS: dette er en trykt bog Dias 3
base Dias 4
slutningen af 1980 erne, 1. bind 1992 redigeringsprogram: T3 inkl. mulighed for at designe egen dania-font MEN NU FORÆLDET: - DOS-program, ikke opdateret, fungerer p.t. på Windows XP - bogen trykkes på basis af scanning af udprintede sider, p.t. én printer - dataformatet har i en længere årrække ikke været læsbart af andre programmer - tekstbehandling, ikke database korpusværktøj: WordCruncher komplekse søgninger og statistik samt udskrift til seddelformat MEN NU FORÆLDET: - DOS-program, ikke opdateret, fungerede kun på Windows 98 - ikke mulighed for at lagre større tekstmængder i samme fil, dvs. gentagne søgninger i op til 10-15 filer Dias 5
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. Udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab). 3. Konvertering af eksisterende ordbogsdata. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 6
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. Konvertering af eksisterende ordbogsdata. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 7
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) etc. 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 8
carlsbergfondet.dk Dias 9
dania-font: signographie.de (Andreas Stötzner) Dias 10
korpusværktøj: dsl.dk (Jørg Asmussen) Dias 11
konvertering og redigeringsværktøj: emp.dk (Jens Erlandsen, Hans Buchwald) Dias 12
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 13
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 14
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 15
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 16
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 17
daniafont konvertering redaktion redigeringsværktøj (base) korpusværktøj seddelsamling Dias 18
brugergrupper - ønsker - interesser - behov konvertering daniafont redaktion redigeringsværktøj (base) publiceringsformer (bog, web, app ) søge- og visningsmuligheder korpusværktøj seddelsamling Dias 19
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 20
- Dania-font - eksisterende font på markedet ikke tilstrækkelig - ØMOs font ikke læsbar - ingen fonte p.t. Unicode - Andreas Stötzner signographie.de (via Den Arnamagnæanske Samling, Nordisk Forskningsinstitut: Florian Grammel, Alex Speed Kjeldsen) - MUFI (Medieval Unicode Font Initiative) (jf. Odd Einar Haugen, Bergen) - ikke kun codepoints, men også standardiseret tegnbeskrivelse (med henblik på evt. senere optagelse i ægte Unicode) - LINCUA-DA (område reserveret i Unicode, Private Use Area) - i alt ca. 170 tegn - heraf ca. 40 nytegnede basis-glyffer og ca. 70 prækombinerede glyffer - både Open Type-kodning og prækombinerede tegn - to fonte: - Latin Modern Dania (en del af LaTeX-familien, jf. fx http://www.gust.org.pl/projects/e-foundry/latin-modern - open source) - Andron (Andreas egen font) Dias 21
Dias 22 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 23 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 24 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 25 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 26 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 27 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 28
- WordCruncher - i alt ca. 200 lydoptagelser/interviews (1934-) (ca. 1.3 mio. ord) - komplekse søgninger og statistik samt udskrift til seddelformat - ca. 1/3 af teksterne taggede (ordklasse) - redaktionsinternt arbejdsredskab - CorDiale: http://cordiale.dyndns.org/ (2003-) - 170 optagelser - bred brugergruppe ( offentligheden ) - p.t. lukket korpus, ikke mulighed for udskrift, tagging fjernet - omfattende metadata: fx lokalitet, emne, persondata - status: - konvertering og ensretning af de eksisterende data (cqp-format) - nye/opdaterede headere (metadata) - filtre: lokalitet, emne, persondata, optagelse - + statistik, annotering, eksport - bygger videre på både WordCruncher og CorDiale, dvs. revitalisering af korpus, både som internt værktøj og på www Dias 29
Dias 30 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 31 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 32 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
1. udarbejdelse af ny font til lydskriften Dania (Unicode - Private Use Area) 2. udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord) (i samarbejde med Det Danske Sprog- og Litteraturselskab) 3. konvertering af eksisterende ordbogsdata 4. indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex) Dias 33
Dias 34 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 35 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
Dias 36 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
eksempel 1: artiklen kukker I Dias 37
- rubrikafsnit - i rim: - i formel: - i ordspr: - i folketro: - i leveregel: - - hensyn/spørgsmål: - produktivitet: overskuelig skabelon (80 linjer med rubrikafsnit!) - søgning ( rim, folketro ) - struktur: citat eller forbindelse? - også frie rubriktekster: i formel der siges Dias 38
- rubrikafsnit - i rim: - i formel: - i ordspr: - i folketro: - i leveregel: - - hensyn/spørgsmål: - struktur: citat eller forbindelse = et sprogligt udtryk der gengives og behandles - i visse rubrikafsnit også mulighed for friere redaktionel tekst, dvs. IKKE sprogligt opslag: når kukkeren har set tre (syv) høstakke m.fl. Dias 39
eksempel 2: artiklen krans Dias 40
Enc: - sagligt afsnit (ØMO = en sproglig-saglig ordbog) - etnologiske/kulturhistoriske oplysninger - encyklopædisk afsnit - står altid til sidst i et betydningsafsnit eller en artikel (redaktionel beslutning, 2011) - flere løsninger i tidligere bind - ingen indleder/markør (fx Enc e.l.) - parsing? - markør i kommende bind? Dias 41
afslutning/diskussion Dias 42
Vedrørende digitaliseringen (database) af Danmarks Stednavne: Når man skal digitalisere et materiale, skal man meget nøje overveje de fremtidige anvendelsesmuligheder for materialet. Først må man opregne, hvad man kan anvende materialet til - i sin helhed eller i udvalg - også anvendelser, der eventuelt ligger uden for de rammer, der er udstukket af det projekt, hvorigennem materialet digitaliseres. Ganske vist kan man ikke på forhånd kende alle fremtidige anvendelsesmuligheder, men ved at gøre sig tanker om kendte mulige anvendelser kan man få kortlagt, hvilke begrænsninger i digitaliseringen man for alt i verden skal undgå. (Gammeltoft 2011:207) Dias 43
brugergrupper - ønsker - interesser - behov konvertering daniafont redaktion redigeringsværktøj (base) publiceringsformer (bog, web, app ) søge- og visningsmuligheder korpusværktøj seddelsamling Dias 44
produktivitet????? brugergrupper redaktionskonsekvens redaktion visning vidensdeling mm (intern) søgning data: format og principper Dias 45
tak! Dias 46
før: seddelsamling og excerpering nu: tekstkorpus og database Grønvik 2006: 135 Dias 47
før: seddelsamling og excerpering nu: tekstkorpus og database Grønvik 2006: 140 Dias 48
Ømålsordbogen En sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer - Kerneperiode: 1850-1920 (1750-1945) - Traditionelle dialekter (dvs. talesprog) - 1992, p.t. lu- (1909-) - En af de store nationale videnskabelige dokumentationsordbøger (jf. fx Ordbog over det danske Sprog, Ordbok över Finlands svenska folkmål, SAOB, osv.) - Sprogbeskrivelser i ordbogsform: detaljerede beskrivelser af udtale, bøjning, syntaks, betydning og brug - Omfattende oplysninger af etnologisk-encyklopædisk art, dvs. ældre bonde- og fiskerkultur og livsform - Målgrupper: sprogforskere, etnologer, museumsfolk, ; ikke-professionelle brugere med interesse for dialekter, (lokal)historie, landbokultur, ;??? Dias 49
konvertering = retrodigitalisering hvilke informationer? hvordan er de organiseret? hvordan skal de organiseres? dvs. indholdet!!! hvilke værdifulde informationer har vi? hvad er det vi fortæller i ordbogen? hvad er det vi ved er vigtigt i ordbogen? (jf. at redaktøren måske er den der formodes at vide hvad der er vigtigt redaktørens job er ikke kun intuitiv induktiv materialefremlæggelse, men skulle også gerne bygge på en form for faglighed, hint til manien med kildepublicering, det er en kompleks kildearbejde der ligger til grund for udarbejdelsen af en artikel til ØMO) (jf. fx Ore 2011) + hvem skal bruge oplysningerne? hvad skal de bruges til? (søgning, visning, udveksling af data, links) + overvejelser over internt brug som base og ekstern(e) brug: primært elektronisk udnyttelse, dvs. søgemuligheder men også visningsmuligheder, men i første omgang ikke netudgave Dias 50
1. Udarbejdelse af ny font til lydskriften Dania: Den eneste eksisterende font dækker ikke Ømålsordbogens behov og er ikke registreret som Unicode-standard. Den nye font er del af Unicode (Private Use Area). 2. Konvertering af eksisterende ordbogsdata, fra T3-format til xml. 3. Udarbejdelse af nyt korpusværktøj til brug for arbejdet med ordbogens korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord): Dette arbejde omfatter dels konvertering og ensretning af de eksisterende data, dels udarbejdelse af særlige faciliteter for at kunne tilgodese specielle behov i redaktionsarbejdet (fx søgning på dialektområder og muligheden for udskrift af tekstuddrag i passende længde i samme fysiske format som de øvrige sedler i ordbogens seddelsamling). Arbejdet udføres i samarbejde med Det Danske Sprog- og Litteraturselskab og forventes færdigt sommeren 2013. I skrivende stund er data konverteret (cqp-format), og arbejdet med metadata og funktionalitet/brugergrænseflade er i gang. 4. Indkøb og implementering af nyt databasebaseret ordbogsredigeringsprogram (ilex): Arbejdet med en database stiller krav om definition af entydige oplysningstyper og konsekvente regler for ordbogsartiklernes struktur. Dette arbejde er blevet påbegyndt i foråret 2013. Forskellige hensyn og ønsker bringes på bane i dette arbejde: Hvor detaljeret en opmærkning skal der være i den kommende struktur? Hvordan kan man udnytte ordbogsprogrammets muligheder for struktureret korrektur o.l. (forkortelser, faste inventarer)? I hvor høj grad kan eller skal man tage hensyn til forældede eller løse strukturer i eksisterende bind? Fx kan der i Ømålsordbogens artikler indsættes særlige encyklopædiske afsnit, såkaldte saglige afsnit, hvor der gives kulturhistoriske oplysninger om den ældre bonde- og fiskerkultur (beskrivelser af arbejdsgange (høst, hør), beklædningsgenstande (korsklæde) og højtider (begravelse). I den meget tidlige redaktionsfase, var man desværre ikke fremsynet nok til at forsyne disse afsnit med en fast indleder (fx Enc), og reglerne for afsnittenes mulige placering i artikelstrukturen blev heller ikke fastlagt præcist. I forbindelse med omlægningen af redaktionspraksis skal disse forhold afklares, herunder om man i fremtidige bind evt. skal indføre markøren Enc. Dias 51
udgår vist!!! Dias 52
Dias 53 Ømålsordbogen - Nordisk Forskningsinstitut - Afdeling for Dialektforskning
der var engang Dias 54
der var engang IT EDB databaser korpus statistik Dias 55
Andersen 1932: 207, 209 Dias 56
Forskningen ved Institut for Cellulær og Molekylær Medicin belyser basale cellulære og molekylærbiologiske processer, deres regulering og deres betydning for cellernes funktion, interaktion og organisation i væv. Dias 57