Korpusbaseret lemmaselektion og opdatering



Relaterede dokumenter
En rundvisning i ordnet.dk

Intro til design og brug af korpora

At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk

Kulturudvalget (Omtryk Fejl i folder) KUU Alm.del Bilag 49 Offentligt

sproget.dk en internetportal for det danske sprog

NORDISKE STUDIER I LEKSIKOGRAFI

Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

Informationssøgning metoder og scenarier

Matematik, maskiner og metadata

Sådan sætter du TraceTool op til tælleugerne

Skriftlig eksamen i samfundsfag

ordnet.dk ordbøger og korpus på internettet

Hovedresultater fra TIMSS og lidt bevægelser fra TIMSS 1995

NORDISKE STUDIER I LEKSIKOGRAFI

MANUAL. Præsentation af Temperaturloggerdata. Version 2.0

Kvantitative metoder inden for korpuslingvistiske projekter

Gennemgang af medietyper

Dette notat indeholder en oversigt over hovedresultater fra PISA Etnisk Notatet består af følgende

Fra begreb til bog om Den Danske Begrebsordbog

Hovedresultater fra PISA Etnisk 2015

ordbøgerne og internettet

Magnus:Årsafslutning

Skolevægring. Resultater fra en spørgeskemaundersøgelse blandt skoleledere på danske folkeskoler og specialskoler

LUDUS Web DokumentArkiv Installationsvejledning

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Finanstilsynets indberetningssystem. FAQ Ofte stillede spørgsmål

Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47

Metoder og produktion af data

Kære Naboer i nummer «Username»

det offentlige Hilsner fra sådan vil danskerne tiltales BJERG KOMMUNIKATION FLÆSKETORVET 68, KØBENHAVN V T: KONTAKT@BJERGK.

Boligejernes forståelse af boliglån Bidragssats, rentetillæg, afdragsfrihed

Ministeren bedes endvidere oplyse om det efter regeringens opfattelse er nødvendigt at indføre prøveperioder for nye systemer.

Indholdsfortegnelse. LUDUS WebDokumentArkiv Installationsvejledning

Vejledning Rapportbanken

Ressourceområdet Møbler og beklædning Februar 2013 Analyse og effektmåling

Underretninger om børn, der mistrives

Sundhedsdatastyrelsens Elektroniske Indberetningssystem (SEI)

E-sundhed i almen praksis anno 2018

Kursuskalender (oversigt) IT-KURSER. Kursusbeskrivelse: Målgruppe: Begyndere. Lay-out Formål: (MS Publisher) xx/xx 200x kl. xx.xx

Installation på netværksdrev

VEJLEDNING ITS365. Gratis tilbud til alle kursister på Randers HF & VUC

Øvelse 6. Modeller Oprettelse af og arbejde med modeller Videre øvelser Øvelser i eget projekt 87

Undervisningsbeskrivelse

Resumé NSI har udviklet en funktionel prototype med en visuel brugergrænseflade, der giver ikke-teknikere mulighed for at tilgå adviseringsservicen.

Vejledning til SmartSignatur Proof Of Concept

Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober Jonas Christiansen Voss

Netprøver.dk. Brugervejledning til Digital Prøvevagts-ansvarlig. 21. februar 2019

ÅRSPLAN MATEMATIK 8. KL SKOLEÅRET 2017/2018

Formandsberetning for Psykologisk Selskab for Forskningsmetodologi 2009

Arbejdsmiljø blandt FOAs privatansatte medlemmer

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

Billedvideo med Photo Story

Tlf Fax

Danskerne skal møde ét samlet, trygt og moderne digitalt Danmark

Unik Bolig 4 Opdateringskontrol 4.2.0

Indhold Installation... 1 Første gang du åbner Skype... 2 Opkald i Skype... 3 Problemer... 4

Kom i gang med Scopus

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Behandling af kvantitative data

Praktiserende Landinspektørers Forening. Fremtidens matrikulære sagsgang. minimaks og MIA

Flere unge fra kontanthjælp tilgår og fastholdes i uddannelse

It-støttet excerpering og registrering af nye ord og ordforbindelser

16 Huslejeudviklingen

Sandsynlighedsregning

Spørgsmål & svar vedr. den nye tillægsforsikring Tryg Backup til Softwareforsikringen

Nye eksamensformer - mulige scenarier

FotoDok. Brugervenlig it-løsning til nem og hurtig fotodokumentation, tilsynsnotater og kvalitetssikring

Lagervisning. Dina Friis, og Niels Boldt,

To kurser i analyse og kodning af kvalitative data

AppWriter Cloud Manual

MATEMATIK 7. KLASSE. Web 3

3. DATA OG METODE. arbejdsmarkedet er forløbet afhængig af den enkeltes uddannelsesbaggrund.

Vejledning til lærere ved de nationale test

Sådan aktiveres LMU (Lifetime Map Update)

LEFT MARGIN

Vejledning til Teknisk opsætning

Politik vedrørende cookies og andre lignende teknologier. 1. Hvad dækker denne politik?

Leksikon over ordbøger og leksika

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

FleeDa (DBK Fleetmap Database) Installationsvejledning til installation af VPN og FleeDa klient på egen PC (Juli 2017)

FODFORM & DIGITALT BIOTHESIOMETER MANUAL DANSK (BRUGER MANUAL)

OM STATISTIKBANKEN. 2002:6 December Om Statistikbanken nr. 6. Indhold i nr. 6:

Flertal for offentliggørelse af skoletests men størst skepsis blandt offentligt ansatte

For Center for Myndighed, Socialpsykiatri og Udsatte Voksne 2014

Information til nye kunder

Artikel om... Digital signatur. OpenOffice.org

Tilfredshedsundersøgelse blandt borgere. Familiecentret Socialforvaltningen, Aarhus Kommune

2) foretage beregninger i sammenhæng med det naturfaglige arbejde, 4) arbejde sikkerhedsmæssigt korrekt med udstyr og kemikalier,

FairSSL Fair priser fair support

Vejledning i upload af serier til Danske tegneseriskaberes app.

Oprette Aktiviteter, Møder, Tilbud, Produkter, Tilbud og Leverancer fra en import.

SÅDAN BRUGER DU REGNEARK INTRODUKTION

POLITIETS TRYGHEDSINDEKS

BRUGERTILFREDSHED FORÆLDRE TIL ELEVER I FOLKESKOLER (INKL. SPECIALSKOLER) LANDSDÆKKENDE BASELINEMÅLING 2017

Oversigt over service og support

Brugervejledning til udskriften ReproAnalyse

KLYNGEANALYSE. Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere. Viden og Analyse / CCFC

Danskernes daglige økonomi

Transkript:

Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Hvad er DSL?

Hvad er DSL? Det Danske Sprog- og Litteraturselskab:

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger Bibliografier

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger Bibliografier Ordbøger og sprogteknologi

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Hvad er ordnet.dk?

Hvad er ordnet.dk? ordnet.dk kombinerer og udvider

Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS

Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO

Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000

Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Det bliver tilgængeligt på webbet

Resurse 1: ODS Type: Ekscerptbaseret ordbog Periode: 1700 1950 Målgruppe: Den dannede læser Udarbejdet: 1915 1956 Digitalt format: typografisk opmærket Web: ods.ordnet.dk

Resurse 2: DDO Type: Korpusbaseret ordbog Periode: 1950 i dag Målgruppe: sproginteresserede Udarbejdet: 1991 2005 Digitalt format: detaljeret XML Web: dev.ordnet.dk/dk/ (eksperimentel)

Resurse 3: Korpus 2000 Type: Referencekorpus, 2 28 mio. tekstord Periode: 1983 92 (Korpus 90), 1998 2002 (Korpus 2000) Målgruppe: sproginteresserede Udarbejdet: 2000 2002 Digitalt format: variabelt Web: korpus2000.dk

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nye ord og betydninger

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nyt tekstmateriale Nye ord og betydninger

ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nyt tekstmateriale Nye ord og betydninger

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Lemmakilder for DDO DDO s korpus, 40 mio. tekstord, 1983 92 Retskrivningsordbogen Blinkenberg & Høybye: Dansk-fransk ordbog Vinterberg & Bodelsen: Dansk-engelsk ordbog Dansk Sprognævns register

Lemmaselektion i DDO

Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%)

Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%)

Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%) 3. Computersimulering af (1) og (2)

Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%) 3. Computersimulering af (1) og (2) 4. Automatisk udvælgelse af resten

Selektionskriterier

Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster

Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med

Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med Tillægskriterium: Repræsentation i mindst 3 af de 4 ordbøger

Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med Tillægskriterium: Repræsentation i mindst 3 af de 4 ordbøger Vi endte med ca. 30 kriterier

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Nye ord hvorfra? Især avismateriale via www.infomedia.dk

Nye ord hvorfra? Især avismateriale via www.infomedia.dk

Nye ord hvorfra? Især avismateriale via www.infomedia.dk Nyt tekstmateriale Nye ord og betydninger

Opdateringsprocessen

Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk:

Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne

Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne 2. Påfaldende ord udtrækkes fra teksten

Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne 2. Påfaldende ord udtrækkes fra teksten 3. Disse ord er kandidater til optagelse

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Forudsætninger

Forudsætninger 1. En brugbar domæneklassifikation

Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner?

Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner? b) indhold: afgrænsning af et domæne?

Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner? b) indhold: afgrænsning af et domæne? Decimalklassifikationssystemet DK5

Forudsætninger

Forudsætninger 2. En klassifikationsprocedure

Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk

Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus

Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner

Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner 89% af teksterne er klassificeret

Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner 89% af teksterne er klassificeret 66 domænespecifikke vokabularer

Domænevokabularer

Domænevokabularer Sådan laves domænespecifikke vokabularer:

Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora

Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler

Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler

Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler

Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler for hele korpus og for hvert af de 66 subkorpora

Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler for hele korpus og for hvert af de 66 subkorpora hvert af de 66 frekvensprofiler sammenlignes med profilen for hele korpus. Signifikanstest: log likelighood (p 0,99)

Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft platon kierkegaards tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia

Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup korpusset aristoteles indeholder filosofi overvejende tekster fra fornuft 1980 erne platon kierkegaards tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia

Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft platon kierkegaards tim den menneskets filosof kr X,X frekvente pct ord fra én procent tekst kan snige kroner sig ind rente offentlige økonomiske bank X økonomi vil mia

Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kr kierkegaard X,X moral pct løgstrup procent aristoteles kroner tal (cifre) filosofi rente generaliseres fornuft offentlige platon økonomiske kierkegaards bank tim X den økonomi menneskets vil filosof mia

Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft generelt højfrekvente platon ord kommer kierkegaards delvis også med tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia

Metodiske problemer

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang Domæne Antal typer Folklore 1957 Sport 16022 SNIT 7256

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang 3. Højfrekvente ord optræder som signifikante

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang 3. Højfrekvente ord optræder som signifikante indvirker på domænetilordningen

Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært Type indvirker på domænevokabularets omfang kan Typisk 2. Domænekorporaene er forskelligt store den Edb Filosofi indvirker på vil domænevokabularets Økonomi omfang 3. Højfrekvente ord optræder som signifikante indvirker på domænetilordningen

Tekstklassifikationen

Tekstklassifikationen Grund-idé:

Tekstklassifikationen Grund-idé: Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres

Tekstklassifikationen Grund-idé: Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres Mere formelt: Find den største fællesmængde D T

Tekstklassifikationen Grund-idé: Vokabular-overlapning Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres Mere formelt: Find den største fællesmængde D T

Tekstklassifikationen Største vokabular-overensstemmelse?

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten Løsning Tæl i stedet overensstemmelser mellem tekst-tokens og typer i domænevokabularerne

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten Type eller token? Løsning Tæl i stedet overensstemmelser mellem tekst-tokens og typer i domænevokabularerne

Tekstklassifikationen Største vokabular-overensstemmelse?

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt Løsning Tag højde for antallet af domænevokabularer som et givet token matcher

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt Unikhed Løsning Tag højde for antallet af domænevokabularer som et givet token matcher

Tekstklassifikationen Største vokabular-overensstemmelse?

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt Løsning Tag højde for størrelsen af de enkelte domænespecifikke vokabularer

Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt Løsning Tag højde for størrelsen af de enkelte domænespecifikke vokabularer Domænestørrelse

Beregning af score Vokabular-overlapning + Type eller token? S D

Beregning af score Vokabular-overlapning + Type eller token? Lad hvert token t fra teksten W som matcher en type i domænevokabularet D addere en bestemt værdi w til scoren S D

Beregning af score Vokabular-overlapning + Type eller token? Lad hvert token t fra teksten W som matcher en type i domænevokabularet D addere en bestemt værdi w til scoren S D

Beregning af score Unikhed S D

Beregning af score Unikhed Værdien w skal være omvendt proportional til antallet af domæner d i hvis vokabularer tekst-tokenet optræder S D

Beregning af score Unikhed Værdien w skal være omvendt proportional til antallet af domæner d i hvis vokabularer tekst-tokenet optræder S D

Beregning af score Domænestørrelse S D

Beregning af score Domænestørrelse Beregn en vægt v for den samlede score der skal være omvendt proportional til omtrent størrelsen af domænevokabularet D S D

Beregning af score Domænestørrelse Beregn en vægt v for den samlede score der skal være omvendt proportional til omtrent størrelsen af domænevokabularet D S D hvor

Beregning af score Eksperimentel forbedring: Kendthed S D

Beregning af score Eksperimentel forbedring: Kendthed Beregn en vægt for den samlede score som tager højde for forholdet mellem de tekst-tokens som optræder i et domænevokabular, og dem som ikke gør S D

Beregning af score Eksperimentel forbedring: Kendthed Beregn en vægt for den samlede score som tager højde for forholdet mellem de tekst-tokens som optræder i et domænevokabular, og dem som ikke gør S D

Beregning af score Relativering af scoren S D

Beregning af score Relativering af scoren Gør scoren relativ til tekstlængden i antal tokens S D

Beregning af score Relativering af scoren Gør scoren relativ til tekstlængden i antal tokens S D

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Bestemmelse af nye ord

Bestemmelse af nye ord 1. Sammenlign frekvensprofiler vha. en statistisk test (log likelihood) nyt domænespecifikt materiale DDO's korpus

Bestemmelse af nye ord 1. Sammenlign frekvensprofiler vha. en statistisk test (log likelihood) nyt domænespecifikt materiale DDO's korpus 2. Fremtrædende ord i det nye materiale er kandidater til optagelse i ordbogen

Eksempel: tekst Du skal bruge en diskette til installationen. På et tidspunkt bliver du spurgt om du vil lave en bootdiskette. Erfaringen siger at det godt kan betale sig at formatere en diskette i forvejen med tjek for dårlige sektorer. Før du installerer Linux, skal der være en partition til rådighed, der er stor nok til at rumme det hele (samt en swap-partition). I løbet af Linuxinstallationen vil der blive lejlighed til at repartitionere så meget, du har behov for, inden for den plads, der nu er blevet til rådighed.

Eksempel: procedure

Eksempel: procedure 1. Klassifikation

Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst

Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning

Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger

Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger List tekstens fremtrædende ord

Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger List tekstens fremtrædende ord Tilføj DDO-domænekoder til listen

Nye ord? Type f i DDOC f i teksten DDO-fag diskette 78 2 edb bootdiskette 0 1 artikel mangler formatere 0 1 edb linux 0 1 artikel mangler linux-installationen 0 1 artikel mangler partition 0 1 artikel mangler repartitionere 0 1 artikel mangler swap-partition 0 1 artikel mangler

Nye ord? Type f i DDOC f i teksten DDO-fag diskette 78 2 edb bootdiskette 0 1 artikel mangler formatere 0 1 edb linux 0 1 artikel mangler linux-installationen 0 1 artikel mangler partition 0 1 artikel mangler repartitionere 0 1 artikel mangler swap-partition 0 1 artikel mangler

Nye betydninger? Type f i DDOC f i teksten DDO-fag rådighed 1730 2 alment installerer 16 1 alment teknik du 143798 5 alment installationen 34 1 teknik kunst militær tjek 100 1 alment sektorer 112 1 samfund politik matematik

Nye betydninger? Type f i DDOC f i teksten DDO-fag rådighed 1730 2 alment installerer 16 1 alment teknik du 143798 5 alment installationen 34 1 teknik kunst militær tjek 100 1 alment sektorer 112 1 samfund politik matematik

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Diskussion af metoden

Diskussion af metoden Opgave: Bestem nye domæne-ord til leksikografisk beskrivelse

Diskussion af metoden Opgave: Bestem nye domæne-ord til leksikografisk beskrivelse Fremgangsmåde: 1. Korpus domæne-vokabularer 2. Domæne-vokabularer tekstklassifikation 3. Klassificeret materiale korpus 4. Fremtrædende ord nye ord/betydninger

Beslutninger

Beslutninger 1. DDO-korpussets domæneklassifikation 2. Signifikanstest 3. Klassifikationsproceduren

1. Domæneklassifikation

1. Domæneklassifikation Stort antal domæner (66!)

1. Domæneklassifikation Stort antal domæner (66!) Færre domæner?

1. Domæneklassifikation Stort antal domæner (66!) Færre domæner? Stor forskel på mængden af tekstmateriale for hvert domæne (fra 1957 til 16022 ord)

1. Domæneklassifikation Stort antal domæner (66!) Færre domæner? Stor forskel på mængden af tekstmateriale for hvert domæne (fra 1957 til 16022 ord) Mindre mængdeforskel?

2. Signifikanstest

2. Signifikanstest Log likelihood

2. Signifikanstest Log likelihood Arbitrært valg

2. Signifikanstest Log likelihood Arbitrært valg Bedre egnede tests?

2. Signifikanstest Log likelihood Arbitrært valg Bedre egnede tests? Hvordan forholder de sig til fænomenet?

3. Procedure

3. Procedure Bør afspejle egenskaber ved teksten Token-overlapning Vokabularstørrelse Unikhed Domænestørrelse Kendthed

3. Procedure Bør afspejle egenskaber ved teksten Token-overlapning Vokabularstørrelse Unikhed Domænestørrelse Kendthed Andre egenskaber? Intutive karakteristika! Passende kvantificering?

Testning

Testning Komplekse gensidige afhængigheder Test af forskellige alternerende parametre

Testning Komplekse gensidige afhængigheder Mulig test: Test af forskellige alternerende parametre 1. Del DDOC op i 2 dele med samme relative andel tekst fra hvert domæne 2. Del 1 domænevokabularer 3. Del 2 testning

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Konklusion

Godt: Konklusion

Konklusion Godt: Metoden er brugbar til opgaven

Konklusion Godt: Metoden er brugbar til opgaven Skidt:

Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på...

Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på... Hvad gør et ord eller en tekst domænespecifik?

Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på... Hvad gør et ord eller en tekst domænespecifik? Hvad gør et ord til et nyt ord?

Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion

Tak for jeres interesse!