It-støttet excerpering og registrering af nye ord og ordforbindelser

Størrelse: px
Starte visningen fra side:

Download "It-støttet excerpering og registrering af nye ord og ordforbindelser"

Transkript

1 It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn

2 Disposition 1. Vidensdeling på Dansk Sprognævn 2. Sproglige nydannelser på mange niveauer 3. Ordtrawlerens opbygning Eksempel: Retskrivningsordbogens søgelog Eksempel: Søgeloggen for Nye Ord i Dansk Eksempel: Brugerindberetning af nye ord Eksempel: Søgning (på internettet) med nyordsmarkører Baggrund: Dansk Sprognævns interne monitorkorpus Eksempel: Excerpering af medicinsk terminologi med underlige verber Eksempel: Kollokationsanalyse i monitorkorpusset (demo) 4. Foreløbige konklusioner og perspektiver

3 Vidensdelingens tre faser

4 Indsamling, strukturering og deling

5 Nydannelser på mange niveauer I forhold til domæne 1. Fagsprog 2. Almensprog Standardsprog Dialekt, sociolekt osv. I forhold til sprogligt niveau 1. Semantiske Semantisk udvidelse af eksisterende udtryks indhold Nyt udtryk, ny betydning (* lettere at identificere datamatisk) Syntaktiske/fraseologiske (fx kalkering af engelske konstruktioner på dansk) Morfologiske (fx tilpasning af danske bøjningsparadigmer til engelsk) Ortografiske Fonetiske

6 Ordtrawlerens opbygning Valgfri filtrering: a) statistiske associationsmål (fx weirdness ) b) lister over eksisterende opslagsord (fx Retskrivningsordbogen)

7 Eksempel 1: Retskrivningsordbogens søgelog Alle søgninger i Retskrivningsordbogen online på strenge som begynder med [aa] (uge 39) Eksempel: adresse er stavet korrekt, men den engelske stavning (address) får muligvis danske sprogbrugere til at komme i tvivl.

8 Fra konkordans til metadata Nydannelser kan registreres i databasen sammen med et belæg og en række metadata (kilde, dato, forfatter osv.).

9 Eksempel 2: Søgeloggen for Nye Ord i Dansk Alle søgestrenge i Nye Ord i Dansk på nettet, uge 43 (ingen filtrering)

10 Eksempel 3: Brugerindberetning af nye ord

11 Eksempel 4: Søgning (på internettet) med nyordsmarkører Nyordsmarkører (kilde: introspektion) såkaldt(e) [kandidat] [kandidat] som det {hedder kaldes} på n[yu]dansk [kandidat] som man siger på n[yu]dansk Udfordring: Eksplicitte nyordsmarkører kan være ret sjældne og fordrer derfor store mængder tekst. Løsning: Søg på internettet (fx Altavista)! NB: Ingen ordklasseopmærkning, lemmatisering eller syntaktisk analyse i øjeblikket. Ordformen umiddelbart til højre/venstre for markøren excerperes.

12 Eksempel fra internettet: flere markører Støj: fx terminologi (dobson-enheder), lejlighedsdannelser (gymnasiefremmede?), kometord (Jarvad, 1995), fragmenter af fraser (tør, big), trykfejl etc.

13 Dansk Sprognævns interne monitorkorpus Udvalgte tekstkilder fra Infomedia Ca nyhedsartikler fra 45 forskellige dag- og fagblade. Dog kun 2-3 egentlige fagblade (fx Ugeskrift for Læger). Diakroni: oktober nu Omfang (ultimo oktober 2008): ca. 96 millioner løbende ord Månedlig tilvækst: ca. 10 millioner løbende ord Opmærkning: 1) dokumentmetadata (dato, forfatter etc.), 2) ordklasser (lemmatiseres snart) Indeksering: Corpus Workbench (CWB) Søgning: Browserbaseret grænseflade til Corpus Query Processor (CQP)

14 Eksempel fra monitorkorpusset: såkaldte * (styrke: log-odds) Første halvdel af monitorkorpusset som muligt filter

15 Eksempel fra monitorkorpusset: såkaldte * (styrke: log-likelihood) Mønstret er ikke 100% pålideligt (kan fx markere ironisk distance eller introducere veletablerede fagudtryk). Ordsamlingsfiltret skal opdateres ( visitationszone er ikke med) og foldes ud til alle bøjningsformer ( slyngelstater er med, men ikke i pluralis).

16 Associationsmål: weirdness og kollokationsstyrke

17 Eksempel 5: Excerpering af medicinsk terminologi med underlige verber Inspirationskilder: Ahmad (1993), Weilgaard (2002), Halskov & Barrière (2008) Mål for weirdness : log-odds og log-likelihood Referencekorpus (RK): Korpus 2000 (ca. 50 mio. løbende ord) Analysekorpus (AK): Lægevidenskabligt tidsskrift ( Ugeskrift for læger ), , 1,7 mio. løbende ord Filter: Fjern verber med en hyppighed i et engelsk korpus > 10 Fjern verber med en AK-hyppighed < 10 Fjern fejlopmærkede verber (fx substantiver) NB: Korpusset lemmatiseres ikke (kun ordklasseopmærkning)

18 Log-odds: verber

19 Log-likelihood: verber

20 Metodologi (algoritme) Udtræk de 100 mest underlige verber fra AK med log-odds eller loglikelihood For hvert underligt verbum (ordform) dan to korpusforespørgsler (aktiv + passiv konstruktion): $underligt_vb DET? ADJ? N+ $sb_kerne within s $sb_kerne []{0,2} $underligt_vb within s For hver $sb_kerne tæl antallet af samforekomster med underlige verber For hver $sb_kerne som forekommer sammen med mindst ét underligt verbum beregn log-odds eller log-likelihood vha. den totale samforekomst med underlige verber (ikke kandidatens korpusfrekvens) og sortér efter faldende score Ignorer kandidater som forekommer > 500 gange i et ældre engelsk korpus (BNC)

21 Log-odds: sammenligning af output

22 Log-odds: Sammenligning af præcision Øverste 100 termkandidater (log-odds) 1,000 0,800 præcision 0,600 0,400 0,200 Øverste 100 termkandidater (underlige verber + logodds) 0,000-0,200 1, ,000 kandidatnummer præcision 0,950 0,900 0,850 0, kandidatnummer

23 Log-likelihood: sammenligning af output

24 Log-likelihood: Sammenligning af præcision Øverste 100 termkandidater (log-like) præcision 1,200 1,000 0,800 0,600 0,400 0,200 0, , kandidatnummer 1,000 præcision 0,800 0,600 0,400 0,200 0,000 Øverste 100 termkandidater (underlige verber + loglike) kandidatnummer

25 Observationer Log-odds excerperer udtryk med en markant højere frekvens i AK end i RK. Frekvensen i AK behøver imidlertid ikke være særligt høj i sig selv. Log-likelihood excerperer også udtryk der har en markant højere frekvens i AK end i RK. Dog foretrækkes udtryk som samtidig har en relativt høj AK-frekvens. Præcisionen af begge associationsmål, men især log-odds, forbedres markant ved at fordre samforekomst med underlige (domænespecifikke) verber. De to mål kan med fordel anvendes i kombination. Log-likelihood kan excerpere termer som repræsenterer mere overordnede domænespecifikke begreber, mens log-odds kan anvendes til mere specialiserede begreber længere nede i ontologien. Svaghed: Mønsterbaseret excerpering fordrer større mængder data (internettet er ideelt, se Halskov & Barrière, 2008) NB: Output kunne med fordel lemmatiseres.

26 Eksempel 6: Kollokationsanalyse i monitorkorpusset Kollokationsanalyse: Kræver store mængder tekst (selv 100 mio. løbende ord kan være for lidt) Lettere på et sprog som engelsk hvor komposita særskrives (dog voksende tendens til særskrivning også på dansk). Præpositionsverber er fx et område hvor der sker kraftige bevægelser. Eksempel: kollokationer med adressere (efter kollokationsstyrke) Signifikant fravær af breve! NB: 3 forekomster i KorpusDK, 45 i monitorkorpusset

27 Konklusioner og perspektiver Svært at excerpere andet end nye udtryk automatisk (primært unigrammer) Meget støj ved rent statistiske tilgange Dog lovende at vende et stort korpus mod sig selv som filter Mindre støj ved mønsterbaserede tilgange (fx såkaldt(e) ) Fagsproglige verber er et effektivt middel til excerpering af terminologi Fremtidigt arbejde: - Lukke monitorkorpusset ( ) og anvende det som nyt sammenligningsgrundlag - Manuel evaluering af systemets præcision (og silence ) Forbedring af excerperingsteknikker på grundlag heraf - Lede målrettet efter anglicismer (fx se om et antal hyppige engelske præpositionsverber kalkeres) - Analysere kilder til mere uformelt sprogbrug (fx blogs og webfora) Indsamling undervejs i CLARIN-projektet (fx - Implementere mere sofistikeret kollokationsanalyse (fx skipgrams )

28 Litteratur Ahmad, Khurshid (1993) Pragmatics of Specialist Terms: The Acquisition and Representation of Terminology In: Proceedings of EAMT 1993 workshop, pp , 1993 Everitt, Brian S. (1977) The analysis of contingency tables New York: Halsted Press Halskov, J.; C. Barrière (2008) Web-based extraction of semantic relation instances for terminology work In: Terminology 14:1, pp , John Benjamins, 2008 Jarvad, Pia (1995) Nye ord hvorfor og hvordan? Gyldendal, 1995 Weilgaard, Lotte (2002) Danish Verbs as Knowledge Probes in Corpus-Based Terminology Work In: LSP and Professional Communication, vol. 2, no. 2, 2002

At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk

At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk Jørg Asmussen Det Danske Sprog- og Litteraturselskab www.dsl.dk Bidrag til Bente Maegaard-festskrift KLADDE-VERSION

Læs mere

Ontologibaseret teksthåndtering med sprogteknologi

Ontologibaseret teksthåndtering med sprogteknologi Ontologibaseret teksthåndtering med sprogteknologi Bolette S. Pedersen, Costanza Navarretta & Dorte Haltrup Hansen VID-rapport nr. 6 Center for Sprogteknologi Marts 2005 Center for Sprogteknologi 2003

Læs mere

LEDA-Nyt nr. 45 Marts 2008 ISSN 1603-7006 Redigeret af Inger Schoonderbeek Hansen, Henrik Lorentzen og Liisa Theilgaard

LEDA-Nyt nr. 45 Marts 2008 ISSN 1603-7006 Redigeret af Inger Schoonderbeek Hansen, Henrik Lorentzen og Liisa Theilgaard LEDA-Nyt nr. 45 Marts 2008 ISSN 1603-7006 Redigeret af Inger Schoonderbeek Hansen, Henrik Lorentzen og Liisa Theilgaard Indhold L E DA L E K S I K O G R A F E R I D A N M A R K Meddelelser fra bestyrelsen

Læs mere

Praktikrapport: Gyldendals ordbogsafdeling

Praktikrapport: Gyldendals ordbogsafdeling Praktikrapport: Gyldendals ordbogsafdeling 1. Indledning I perioden primo september til ultimo december 2005 var jeg i ulønnet praktik ved Gyldendals ordbogsafdeling. I disse fire måneder kom jeg fast

Læs mere

Til indholdsfortegnelsen. Af Laurids Kristian Fahl, Anne Kjærgaard, Ida Elisabeth Mørch og Marianne Rathje

Til indholdsfortegnelsen. Af Laurids Kristian Fahl, Anne Kjærgaard, Ida Elisabeth Mørch og Marianne Rathje Nyt fra Sprognævnet 2007/3 september Indhold Artikler Sproget.dk Ja, jo eller nej? Meddelelser Sprog i Norden 2007 70 år og... still going strong! Spørgsmål og svar Open source Danskmarokkaner eller marokkanskdansker?

Læs mere

AmeriDansk? Helene Hye Christensen: En analyse af amerikansk-engelsk påvirkning af dansk i perioden 1945-1975

AmeriDansk? Helene Hye Christensen: En analyse af amerikansk-engelsk påvirkning af dansk i perioden 1945-1975 Amerikansk på Dansk Arbejdspapir nr. 6 Sommer 2011 Helene Hye Christensen: AmeriDansk? En analyse af amerikansk-engelsk påvirkning af dansk i perioden 1945-1975 1 AmeriDansk? 1. Indledning... 3 1.1. Forskningsstand...

Læs mere

Kontrolleret sprog. Indledende analyse af virksomhedernes regelsæt og sammenligning med eksisterende regelsæt

Kontrolleret sprog. Indledende analyse af virksomhedernes regelsæt og sammenligning med eksisterende regelsæt Kontrolleret sprog Indledende analyse af virksomhedernes regelsæt og sammenligning med eksisterende regelsæt Lina Henriksen, Bart Jongejan, Bente Maegaard VID-rapport nr. 1 Center for Sprogteknologi September

Læs mere

LEDA-Nyt nr. 40 Okt. 2005 Redigeret af Inger Schoonderbeek Hansen og Liisa Theilgaard

LEDA-Nyt nr. 40 Okt. 2005 Redigeret af Inger Schoonderbeek Hansen og Liisa Theilgaard L E DA LEKSIKOGRAFER I D A N M A R K LEDA-Nyt nr. 40 Okt. 2005 ISSN 0908-355 Redigeret af Inger Schoonderbeek Hansen og Liisa Theilgaard Indhold Indkaldelse til medlemsmøde s. 3 NorNa begrebsindeks og

Læs mere

Pia Jarvad: Nye ord 203

Pia Jarvad: Nye ord 203 Pia Jarvad: Nye ord 203 Pia Jarvad: Nye Ord. Ordbog over nye ord i dansk 1955-1998. Gyldendal, København 1999. 1084 s. Indb. 395 kr. Nye ord fascinerer os fordi de handler om os selv og vor tid. Der er

Læs mere

Sådan bruger du Den Engelske Regnskabsordbog

Sådan bruger du Den Engelske Regnskabsordbog Sådan bruger du Den Engelske Regnskabsordbog Visning Når du får et søgeresultat, kan du gøre skriften større eller mindre ved at klikke på knapperne yderst til højre på skærmen: større, mindre, nulstil.

Læs mere

Modul 2 projekt Marie Højlt & Anne Rosenstand Hansen D.19.12.06

Modul 2 projekt Marie Højlt & Anne Rosenstand Hansen D.19.12.06 Indholdsfortegnelse 1 Indledning og problemfelt... 4 1.1 Problemfelt... 4 1.1.1 Problemformulering... 7 2 Metode... 8 2.1 Motivation... 8 2.2 Begrebsafklaring... 8 2.3 Valg af teori...10 2.4 Empiri...11

Læs mere

Vigdis Jensen CLM-speciale 2011

Vigdis Jensen CLM-speciale 2011 Undersøgelse af et sammenligneligt, bilingvalt ad hockorpus som fagsprogligt og fagspecifikt hjælpemiddel ved oversættelser inden for et nyt fagområde: Design og indsamling af et repræsentativt specialkorpus

Læs mere

ISSN: 1602-9259 LYKEION 11 LYKEION

ISSN: 1602-9259 LYKEION 11 LYKEION ISSN: 1602-9259 LYKEION nyt 11 LYKEION DANTERMcentret, Bernhard Bangs Allé 17 A, DK-2000 Frederiksberg T: 38153371, Fax: 38153820 Juli 2003, redaktion: Mogens Ehrich Dette nummer indeholder bl.a. materiale

Læs mere

Crash test. Engelsk i dansk og risikoen for domænetab. med fokus på det teknisk-naturvidenskabelige domæne

Crash test. Engelsk i dansk og risikoen for domænetab. med fokus på det teknisk-naturvidenskabelige domæne Engelsk i dansk og risikoen for domænetab med fokus på det teknisk-naturvidenskabelige domæne Crash test Kandidatspeciale af Christina Svane februar 2010 Cand.ling.merc (engelsk translatør & tolk) Vejleder:

Læs mere

Center for Medicinsk Fagsprog. Center for Medicinsk Fagsprog

Center for Medicinsk Fagsprog. Center for Medicinsk Fagsprog Center for Medicinsk Fagsprog Januar 2006 Tanja Hansen 2 INDHOLD Hvem er vi? 4 TermBlomsten 5 TermShare 12 TekstKorpus 16 VidenBanken 21 OpgaveKomponenten 24 SingleLogin 28 Konceptbaggrund 30 3 Hvem er

Læs mere

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution Sprogteknologiske komponenter i ontologi og søgning Bolette Sandford Pedersen, Costanza Navarretta, Dorte Haltrup Hansen, Bart Jongejan Center for Sprogteknologi, KU VID-projektets mission at foretage

Læs mere

THE DANISH LANGUAGE IN THE DIGITAL AGE DET DANSKE SPROG I DEN DIGITALE TIDSALDER

THE DANISH LANGUAGE IN THE DIGITAL AGE DET DANSKE SPROG I DEN DIGITALE TIDSALDER White Paper Series Hvidbogsserie THE DANISH LANGUAGE IN THE DIGITAL AGE DET DANSKE SPROG I DEN DIGITALE TIDSALDER Bolette Sandford Pedersen Jürgen Wedekind Steen Bøhm-Andersen Peter Juel Henrichsen Sanne

Læs mere

Sven Tarp* Retskrivningsordbog mellem to stole

Sven Tarp* Retskrivningsordbog mellem to stole 127 Sven Tarp* Retskrivningsordbog mellem to stole Abstract In November 2012, the fourth edition of the official Danish orthographic dictionary, Retskrivningsordbogen, was published by the Danish Language

Læs mere

En evaluering af internetværktøjer i forbindelse med oversættelse af en teknisk tekst. Niels Verner Larsen

En evaluering af internetværktøjer i forbindelse med oversættelse af en teknisk tekst. Niels Verner Larsen En evaluering af internetværktøjer i forbindelse med oversættelse af en teknisk tekst Skrevet af: Annette Dinesen Horsbøl Niels Verner Larsen Vejleder: Birthe Mousten Cand.ling.merc. speciale Engelsk Institut

Læs mere

Terminologiske og leksikografiske udfordringer hos e-conomic international a/s en undersøgelse af tilgange til oprettelse af en termbase i MultiTerm

Terminologiske og leksikografiske udfordringer hos e-conomic international a/s en undersøgelse af tilgange til oprettelse af en termbase i MultiTerm Cand.ling.merc, engelsk, TT CBS December 2011 Terminologiske og leksikografiske udfordringer hos e-conomic international a/s en undersøgelse af tilgange til oprettelse af en termbase i MultiTerm Specialeskriver:

Læs mere

TEAM, HOLD, LAG. Vt 2008. Soňa Vančová Karlsrogatan 83 B 752 39 Uppsala sonavancova@yahoo.dk

TEAM, HOLD, LAG. Vt 2008. Soňa Vančová Karlsrogatan 83 B 752 39 Uppsala sonavancova@yahoo.dk UPPSALA UNIVERSITET Institutionen för nordiska språk C-uppsats Svenska språket/nordiska språk C Vt 2008 Soňa Vančová Karlsrogatan 83 B 752 39 Uppsala sonavancova@yahoo.dk TEAM, HOLD, LAG. Sammenlignende

Læs mere

Engelsk indflydelse i norske, danske og svenske blogsider

Engelsk indflydelse i norske, danske og svenske blogsider Islands Universitet Ord i nord Efterår 2010 Engelsk indflydelse i norske, danske og svenske blogsider Alma Sigurðardóttir almas@hi.is Indholdsfortegnelse 1. Indledning 1.1 Baggrund 1.2 Formål 1.3 Disposition

Læs mere

Dansk Strategi for registrering og formidling af Internetressourcer

Dansk Strategi for registrering og formidling af Internetressourcer Dansk Strategi for registrering og formidling af Internetressourcer Rapport udarbejdet for Nationalbibliografisk Udvalg Af en arbejdsgruppe bestående af Birte Christensen-Dalsgaard (Statsbiblioteket),

Læs mere

Thomas Holme Hansen Marie Lund Klujeff Henrik Kaare Nielsen VEJLEDNING I AKADEMISK OPGAVE- SKRIVNING VED INSTITUT FOR ÆSTETISKE FAG AARHUS UNIVERSITET

Thomas Holme Hansen Marie Lund Klujeff Henrik Kaare Nielsen VEJLEDNING I AKADEMISK OPGAVE- SKRIVNING VED INSTITUT FOR ÆSTETISKE FAG AARHUS UNIVERSITET Thomas Holme Hansen Marie Lund Klujeff Henrik Kaare Nielsen VEJLEDNING I AKADEMISK OPGAVE- SKRIVNING VED INSTITUT FOR ÆSTETISKE FAG AARHUS UNIVERSITET 2. udgave 2009 THOMAS HOLME HANSEN, MARIE LUND KLUJEFF,

Læs mere

SÆT MÅL OG STYR EFTER DEM

SÆT MÅL OG STYR EFTER DEM SÆT MÅL OG STYR EFTER DEM - OM RESULTATBASERET STYRING I JOBCENTRE > AUGUST 2011 BESKÆFTIGELSESREGION SYDDANMARK 2 DET ER RELATIVT ENKELT AT MÅLE PÅ DE ARBEJDSMARKEDSPARATE HVOR HURTIGT DE KOMMER I JOB,

Læs mere

- en it-baseret stavekontrol

- en it-baseret stavekontrol Rapport om projekt - en it-baseret stavekontrol Udviklet af Mikro Værkstedet A/S GrammarSoft Aps Dansk Videnscenter for Ordblindhed 1 Rapport om OrdRet - en it-baseret stavekontrol Konsortiet OrdRet, 2005

Læs mere

Fonetisk reduktion i dansk

Fonetisk reduktion i dansk copenhagen business school handelshøjskolen solbjerg plads 3 dk-2000 frederiksberg danmark www.cbs.dk Fonetisk reduktion i dansk Fonetisk reduktion i dansk Ruben Schachtenhaufen ISSN 0906-6934 Print ISBN:

Læs mere

Litteratursøgning og evidensvurdering - en kort vejledning

Litteratursøgning og evidensvurdering - en kort vejledning Litteratursøgning og evidensvurdering - en kort vejledning Jørgen Folkersen MTV-enheden, Hvidovre Hospital Side 1 Litteratursøgning og evidensvurdering - en kort vejledning Af Jørgen Folkersen Copyright

Læs mere

Ontologier og metadata i relation til søgning i tekster

Ontologier og metadata i relation til søgning i tekster Ontologier og metadata i relation til søgning i tekster Bolette S. Pedersen, Costanza Navarretta, Dorte Haltrup Hansen VID-rapport nr. 2 Center for Sprogteknologi Oktober 2003 Center for Sprogteknologi

Læs mere

Nogle årsager til jobskift blandt pædagoger

Nogle årsager til jobskift blandt pædagoger Nogle årsager til jobskift blandt pædagoger af Anders Holm Torben Pilegaard Jensen Angelo Andersen AKF Forlaget Juni 2000 1 2 Forord Denne rapport er den anden og sidste rapport, som AKF har udarbejdet

Læs mere