Fra begreb til bog om Den Danske Begrebsordbog Sanni Nimb Thomas Troelsgård Henrik Lorentzen Det Danske Sprog- og Litteraturselskab København 1/27
Oversigt Genren begrebsordbøger Den Danske Begrebsordbog (DDB) Det praktiske arbejde Den trykte bog udtræk, sortering, opmærkning layout, typografi, indeks Fremtiden udnyttelse på ordnet.dk 2/27
Begrebsordbøger DDO: begrebsordbog = tesaurus: særlig ordbog eller ordliste hvor ordene er ordnet efter betydning (og altså ikke alfabetisk) Prototypisk ordbog er alfabetisk Sagligt ordnede ordlister kendes fra oldtid, middelalder, renæssance 1800-tallet: ny type hvor ord med både konkrete og abstrakte betydninger ikke blot listes under et emne, men yderligere grupperes ud fra betydning 3/27
Begrebsordbøger Engelsk 1852, Roget: Thesaurus, 15.000 ord, 1.000 emnegrupper Tysk 1934 (8. udgave 2004), Dornseiff: Der deutsche Wortschatz nach Sachgruppen, lidt anden emneinddeling, 906 grupper Dansk 1945, Andersen: Dansk Begrebsordbog, 892 grupper forbillede Dornseiff hvis Inddeling under nummererede Grupper næsten helt er fulgt 4/27
Begrebsordbøger Roget s Thesaurus 32 mio. eksemplarer nyeste udgave (2002): > 300.000 ord og udtryk sproglig inspiration: finde det helt rigtige ord eks.: Adj. forgotten, clean f., beyond recall; well forgotten, not missed; unremembered, left in limbo, neglected, disremembered, misremembered; almost remembered, on the tip of one s tongue; in the recesses of one s mind, gone out of one s head, passed out of recollection; burried, suppressed 5/27
Den Danske Begrebsordbog (DDB) Ny dansk begrebsordbog udgivet af DSL Bevilling fra Carlsbergfondet, trykt ordbog 3 år (2010-13) udkommer sidst i 2013 Sanni Nimb, Thomas Troelsgård, Lars TrapJensen, Henrik Lorentzen, Liisa Theilgaard BEGREBS- 6/27
Den Danske Begrebsordbog (DDB) Vores ønsker fremtidssikring af data: trykt ordbog er blot ét udtræk anvendelse af begrebsordbogens data i vores andre ordbøger senere onlineversion på ordnet.dk Omfang ideal: alle ord og udtryk i Den Danske Ordbog (DDO) suppleret med nye ord estimeret at vi når: 80 % af DDO s materiale 180.000 ord og udtryk (inkl. gengangere) 100.000 forskellige ord og udtryk 5.000 nye ord og udtryk 7/27
Forudsætninger Forlængelse af DSL s seneste ordbogsarbejde for moderne dansk: DDO og det danske wordnet DanNet Udnyttelse af disse data DDO: 117.000 betydninger (fra 110.000 ord og faste udtryk) DanNet (med CST/KU): dansk wordnet til sprogteknologi ca. ½ af DDO s betydninger organiseret i over-under-begrebshierarkier 8/27
DDO: Oplysninger om synonymi eller beslægtede ord DanNet: DDO s betydninger grupperet ud fra overbegreb (www.andreord.dk) 9/27
Til sammenligning: Den Danske Begrebsordbog vigtig i afsnit 5.10 Væsentlighed, ca. 250 ord og udtryk sammen med andre grupper: essens, sagens kerne,... spille en rolle, gøre sig gældende,... hovedperson, nøglefigur,... vægte, prioritere,... (osv.) 10/27
Sammenligning Ca. 3 gange større end forgængeren Dansk Begrebsordbog (Andersen 1945, ca. 33.500 ord) Væsentligt større end Norsk tesaurus (Rosbach 2001, ca. 7.000 ord) Større end Dornseiff (2004, ca. 90.000 ord inkl. gengangere) Mindre end Roget s Thesaurus (2002, 300.000 ord inkl. gengangere) 11/27
I forhold til Andersen 1945 Korpusbaseret via DDO introspektiv Flere forholdsvis specifikke begreber (mange sammensætninger) Store faglige grupper: dyr, planter.. Ingen tabuområder: sex, racisme.. Grupperet ud fra betydning til laveste niveau Andersen alfabetisk 12/27
Fremgangsmåde afsnit Overordnet inddeling i ca. 900 afsnit (efter Dornseiff) Afsnitsoverskrifter oversættes og tilrettes 22 kapitler inddelt i fra 21 til 83 afsnit Kapitel 1: Natur og omverden Afsnit 1.1 Kosmos Afsnit 1.2 Stjernehimlen Afsnit 1.3 Jorden Afsnit 1.4 Klima, klimaforandring Afsnit 1.5 Vejrlig, luftforhold Afsnit 1.6 Klart vejr Afsnit 1.7 Vind... Afsnit 1.25 Affald Kapitel 2: Liv Kapitel 3: Steder Kapitel 4: Størrelser mm. Kapitel 5: Væsen, forhold mm. Kapitel 6: Tid Kapitel 7: Lys, farver, lyd Kapitel 8: Sted og bevægelser Kapitel 9: Vilje og handling Kapitel 10: Følelser... Kapitel 22: Religion 13/27
Fremgangsmåde afsnit Løbende tilpasning af afsnit til danske forhold Sprogligt/kulturelt betinget tysk Spiele dansk: Spil og nyt afsnit Leg Vandvej, Bilindustri nedlægges Modernisering Agtelse, Lydig, Kryberi, Servilitet, Skabagtighed, Soning, Ildsted, Ondsindet, Vogter, Barbari, Befaling, Tvang nedlægges dækkes af andre afsnit, fx Soning af både Dårlig samvittighed og Afsoning; Ondsindet af både Had og Fjendskab 14/27
Nye afsnit indplaceres Andersen 1945: Uvirksomhed Den Danske Begrebsordbog 20.13 Arbejdsløshed (ca. 150 ord) Stillingsbetegnelser Lønarbejde Ansættelse, afskedigelse Informationssamfund Internet Eksamen Børneinstitution Astrologi 15/27
Fremgangsmåde ordstof Ord og udtryk i DDO der associeres med afsnitsbetegnelserne Ord fremsøges og kopieres ind fra særudtræk af DDO Nye ord tilføjes Andersen 1945 Schultz Synonymordbog Introspektion 16/27
Opmærkning og sortering Hvert afsnit består af en række grupper Hver gruppe er defineret ved en formel relation der beskriver forholdet mellem ordene i gruppen og et eller flere nøglebegreber, fx: genstande der har et fælles overbegreb egenskaber hos personer der vedrører et bestemt fænomen handlinger der vedrører et bestemt fænomen steder hvor en bestemt handling udføres Ord og udtryk undergrupperes 17/27
Formelle relationer: Begravelse 18/27
Den trykte bog Udtræk af data udtrykkene i hvert afsnit grupperes efter ordklasse grænser mellem grupperne i kildedata gengives ved separatorer (bullets) dubletter af udtryk der kommer til at stå i samme gruppe, fjernes Slutredigering de nye afsnit gennemses med henblik på omplacering eller sletning af udtryk der kommer til at stå uhensigtsmæssigt 19/27
Den trykte bog 20/27
Den trykte bog Indeks alle enkeltord alle faste flerordsudtryk (sublemmaer) fra DDO henvisning til afsnitsnummer, ordklassegruppe og nærmeste foregående nøgleord 21/27
Den trykte bog indeks 22/27
Fremtiden DDB-data i andre resurser forbedring af DDO berigelse af DanNet semantisk opmærkning af korpusser 23/27
Fremtiden DDB på ordnet.dk Forbedring af Beslægtede ord DDB som selvstændig resurse røg Luftform, fordampning em, os, dunst, uddunstning,.. Ild os, røgsøjle, røgmasse, røgslør, aske, sod,.. Uigennemsigtig tåge, damp, em, sky,.. Let støv, luft, æter,.. Tobak røgtåger, røgsky, tobaksrøg, piberøg, røgring, nikotin, tjære, kondensat,.. 24/27
Fremtiden? 25/27
Fremtiden? 26/27
Tak! Spørgsmål? 27/27