Korpusbaseret lemmaselektion og opdatering
|
|
|
- Nora Ingelise Bagge
- 10 år siden
- Visninger:
Transkript
1 Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab
2 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
3 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
4 Hvad er DSL?
5 Hvad er DSL? Det Danske Sprog- og Litteraturselskab:
6 Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser
7 Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger
8 Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger Bibliografier
9 Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger Bibliografier Ordbøger og sprogteknologi
10 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
11 Hvad er ordnet.dk?
12 Hvad er ordnet.dk? ordnet.dk kombinerer og udvider
13 Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS
14 Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO
15 Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000
16 Hvad er ordnet.dk? ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Det bliver tilgængeligt på webbet
17 Resurse 1: ODS Type: Ekscerptbaseret ordbog Periode: Målgruppe: Den dannede læser Udarbejdet: Digitalt format: typografisk opmærket Web: ods.ordnet.dk
18 Resurse 2: DDO Type: Korpusbaseret ordbog Periode: 1950 i dag Målgruppe: sproginteresserede Udarbejdet: Digitalt format: detaljeret XML Web: dev.ordnet.dk/dk/ (eksperimentel)
19 Resurse 3: Korpus 2000 Type: Referencekorpus, 2 28 mio. tekstord Periode: (Korpus 90), (Korpus 2000) Målgruppe: sproginteresserede Udarbejdet: Digitalt format: variabelt Web: korpus2000.dk
20 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000
21 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000
22 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000
23 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nye ord og betydninger
24 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nyt tekstmateriale Nye ord og betydninger
25 ordnet.dk endnu engang! ordnet.dk kombinerer og udvider 1. Ordbog over det danske Sprog, ODS 2. Den Danske Ordbog, DDO 3. Korpus 2000 Nyt tekstmateriale Nye ord og betydninger
26 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
27 Lemmakilder for DDO DDO s korpus, 40 mio. tekstord, Retskrivningsordbogen Blinkenberg & Høybye: Dansk-fransk ordbog Vinterberg & Bodelsen: Dansk-engelsk ordbog Dansk Sprognævns register
28 Lemmaselektion i DDO
29 Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%)
30 Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%)
31 Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%) 3. Computersimulering af (1) og (2)
32 Lemmaselektion i DDO 1. Manuel korpusbaseret: gal greb (2%) 2. Manuel ordbogsbaseret: bogstav A (5%) 3. Computersimulering af (1) og (2) 4. Automatisk udvælgelse af resten
33 Selektionskriterier
34 Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster
35 Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med
36 Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med Tillægskriterium: Repræsentation i mindst 3 af de 4 ordbøger
37 Selektionskriterier Hovedkriteriet: Mindst 5 korpusforekomster Konsekvens: adjunktur, afhentningspris, amnesi kommer ikke med Tillægskriterium: Repræsentation i mindst 3 af de 4 ordbøger Vi endte med ca. 30 kriterier
38 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
39 Nye ord hvorfra? Især avismateriale via
40 Nye ord hvorfra? Især avismateriale via
41 Nye ord hvorfra? Især avismateriale via Nyt tekstmateriale Nye ord og betydninger
42 Opdateringsprocessen
43 Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk:
44 Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne
45 Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne 2. Påfaldende ord udtrækkes fra teksten
46 Opdateringsprocessen Nye ord opdeles i emnegrupper (domæner), før de beskrives i ordnet.dk: 1. Hver tekst tilordnes et domæne 2. Påfaldende ord udtrækkes fra teksten 3. Disse ord er kandidater til optagelse
47 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
48 Forudsætninger
49 Forudsætninger 1. En brugbar domæneklassifikation
50 Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner?
51 Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner? b) indhold: afgrænsning af et domæne?
52 Forudsætninger 1. En brugbar domæneklassifikation a) granularitet: antal domæner? b) indhold: afgrænsning af et domæne? Decimalklassifikationssystemet DK5
53 Forudsætninger
54 Forudsætninger 2. En klassifikationsprocedure
55 Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk
56 Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus
57 Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner
58 Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner 89% af teksterne er klassificeret
59 Forudsætninger 2. En klassifikationsprocedure Kvantitativ og heuristisk Baseret på DDO s korpus DK-klassifikation med 66 domæner 89% af teksterne er klassificeret 66 domænespecifikke vokabularer
60 Domænevokabularer
61 Domænevokabularer Sådan laves domænespecifikke vokabularer:
62 Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora
63 Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler
64 Domænevokabularer Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler
65 Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler
66 Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler for hele korpus og for hvert af de 66 subkorpora
67 Domænevokabularer 66 forskellige domænekoder i korpus Sådan laves domænespecifikke vokabularer: 1. Opbygning af domænespecifikke subkorpora 2. Opstilling af frekvensprofiler 3. Sammenligning af frekvensprofiler for hele korpus og for hvert af de 66 subkorpora hvert af de 66 frekvensprofiler sammenlignes med profilen for hele korpus. Signifikanstest: log likelighood (p 0,99)
68 Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft platon kierkegaards tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia
69 Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup korpusset aristoteles indeholder filosofi overvejende tekster fra fornuft 1980 erne platon kierkegaards tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia
70 Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft platon kierkegaards tim den menneskets filosof kr X,X frekvente pct ord fra én procent tekst kan snige kroner sig ind rente offentlige økonomiske bank X økonomi vil mia
71 Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kr kierkegaard X,X moral pct løgstrup procent aristoteles kroner tal (cifre) filosofi rente generaliseres fornuft offentlige platon økonomiske kierkegaards bank tim X den økonomi menneskets vil filosof mia
72 Tre domænevokabularer Edb Filosofi Økonomi data programmer computer computeren edb computere ibm pc kan mb apple amiga commodore mennesket kierkegaard moral løgstrup aristoteles filosofi fornuft generelt højfrekvente platon ord kommer kierkegaards delvis også med tim den menneskets filosof kr X,X pct procent kroner rente offentlige økonomiske bank X økonomi vil mia
73 Metodiske problemer
74 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært
75 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang
76 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store
77 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang
78 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang Domæne Antal typer Folklore 1957 Sport SNIT 7256
79 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang 3. Højfrekvente ord optræder som signifikante
80 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært indvirker på domænevokabularets omfang 2. Domænekorporaene er forskelligt store indvirker på domænevokabularets omfang 3. Højfrekvente ord optræder som signifikante indvirker på domænetilordningen
81 Metodiske problemer 1. Signifikansniveauet (p 0,99) er arbitrært Type indvirker på domænevokabularets omfang kan Typisk 2. Domænekorporaene er forskelligt store den Edb Filosofi indvirker på vil domænevokabularets Økonomi omfang 3. Højfrekvente ord optræder som signifikante indvirker på domænetilordningen
82 Tekstklassifikationen
83 Tekstklassifikationen Grund-idé:
84 Tekstklassifikationen Grund-idé: Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres
85 Tekstklassifikationen Grund-idé: Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres Mere formelt: Find den største fællesmængde D T
86 Tekstklassifikationen Grund-idé: Vokabular-overlapning Største antal type-overensstemmelser mellem et domænevokabular D og vokabularet T i den tekst der skal klassificeres Mere formelt: Find den største fællesmængde D T
87 Tekstklassifikationen Største vokabular-overensstemmelse?
88 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten
89 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten Løsning Tæl i stedet overensstemmelser mellem tekst-tokens og typer i domænevokabularerne
90 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 1 En typeoverensstemelse mellem tekst og domænevokabular tæller altid kun én selvom den er højfrekvent i teksten Type eller token? Løsning Tæl i stedet overensstemmelser mellem tekst-tokens og typer i domænevokabularerne
91 Tekstklassifikationen Største vokabular-overensstemmelse?
92 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt
93 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt Løsning Tag højde for antallet af domænevokabularer som et givet token matcher
94 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 2 Funktionsord kan få for høj vægt Unikhed Løsning Tag højde for antallet af domænevokabularer som et givet token matcher
95 Tekstklassifikationen Største vokabular-overensstemmelse?
96 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt
97 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt Løsning Tag højde for størrelsen af de enkelte domænespecifikke vokabularer
98 Tekstklassifikationen Største vokabular-overensstemmelse? Problem 3 Domæner med store vokabularer vil have lettere ved at score højt Løsning Tag højde for størrelsen af de enkelte domænespecifikke vokabularer Domænestørrelse
99 Beregning af score Vokabular-overlapning + Type eller token? S D
100 Beregning af score Vokabular-overlapning + Type eller token? Lad hvert token t fra teksten W som matcher en type i domænevokabularet D addere en bestemt værdi w til scoren S D
101 Beregning af score Vokabular-overlapning + Type eller token? Lad hvert token t fra teksten W som matcher en type i domænevokabularet D addere en bestemt værdi w til scoren S D
102 Beregning af score Unikhed S D
103 Beregning af score Unikhed Værdien w skal være omvendt proportional til antallet af domæner d i hvis vokabularer tekst-tokenet optræder S D
104 Beregning af score Unikhed Værdien w skal være omvendt proportional til antallet af domæner d i hvis vokabularer tekst-tokenet optræder S D
105 Beregning af score Domænestørrelse S D
106 Beregning af score Domænestørrelse Beregn en vægt v for den samlede score der skal være omvendt proportional til omtrent størrelsen af domænevokabularet D S D
107 Beregning af score Domænestørrelse Beregn en vægt v for den samlede score der skal være omvendt proportional til omtrent størrelsen af domænevokabularet D S D hvor
108 Beregning af score Eksperimentel forbedring: Kendthed S D
109 Beregning af score Eksperimentel forbedring: Kendthed Beregn en vægt for den samlede score som tager højde for forholdet mellem de tekst-tokens som optræder i et domænevokabular, og dem som ikke gør S D
110 Beregning af score Eksperimentel forbedring: Kendthed Beregn en vægt for den samlede score som tager højde for forholdet mellem de tekst-tokens som optræder i et domænevokabular, og dem som ikke gør S D
111 Beregning af score Relativering af scoren S D
112 Beregning af score Relativering af scoren Gør scoren relativ til tekstlængden i antal tokens S D
113 Beregning af score Relativering af scoren Gør scoren relativ til tekstlængden i antal tokens S D
114 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
115 Bestemmelse af nye ord
116 Bestemmelse af nye ord 1. Sammenlign frekvensprofiler vha. en statistisk test (log likelihood) nyt domænespecifikt materiale DDO's korpus
117 Bestemmelse af nye ord 1. Sammenlign frekvensprofiler vha. en statistisk test (log likelihood) nyt domænespecifikt materiale DDO's korpus 2. Fremtrædende ord i det nye materiale er kandidater til optagelse i ordbogen
118 Eksempel: tekst Du skal bruge en diskette til installationen. På et tidspunkt bliver du spurgt om du vil lave en bootdiskette. Erfaringen siger at det godt kan betale sig at formatere en diskette i forvejen med tjek for dårlige sektorer. Før du installerer Linux, skal der være en partition til rådighed, der er stor nok til at rumme det hele (samt en swap-partition). I løbet af Linuxinstallationen vil der blive lejlighed til at repartitionere så meget, du har behov for, inden for den plads, der nu er blevet til rådighed.
119 Eksempel: procedure
120 Eksempel: procedure 1. Klassifikation
121 Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst
122 Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning
123 Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger
124 Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger List tekstens fremtrædende ord
125 Eksempel: procedure 1. Klassifikation Teksten klassificeres som edb-tekst 2. Sammenligning Tekstens beskedne størrelse forvrænger List tekstens fremtrædende ord Tilføj DDO-domænekoder til listen
126 Nye ord? Type f i DDOC f i teksten DDO-fag diskette 78 2 edb bootdiskette 0 1 artikel mangler formatere 0 1 edb linux 0 1 artikel mangler linux-installationen 0 1 artikel mangler partition 0 1 artikel mangler repartitionere 0 1 artikel mangler swap-partition 0 1 artikel mangler
127 Nye ord? Type f i DDOC f i teksten DDO-fag diskette 78 2 edb bootdiskette 0 1 artikel mangler formatere 0 1 edb linux 0 1 artikel mangler linux-installationen 0 1 artikel mangler partition 0 1 artikel mangler repartitionere 0 1 artikel mangler swap-partition 0 1 artikel mangler
128 Nye betydninger? Type f i DDOC f i teksten DDO-fag rådighed alment installerer 16 1 alment teknik du alment installationen 34 1 teknik kunst militær tjek alment sektorer samfund politik matematik
129 Nye betydninger? Type f i DDOC f i teksten DDO-fag rådighed alment installerer 16 1 alment teknik du alment installationen 34 1 teknik kunst militær tjek alment sektorer samfund politik matematik
130 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
131 Diskussion af metoden
132 Diskussion af metoden Opgave: Bestem nye domæne-ord til leksikografisk beskrivelse
133 Diskussion af metoden Opgave: Bestem nye domæne-ord til leksikografisk beskrivelse Fremgangsmåde: 1. Korpus domæne-vokabularer 2. Domæne-vokabularer tekstklassifikation 3. Klassificeret materiale korpus 4. Fremtrædende ord nye ord/betydninger
134 Beslutninger
135 Beslutninger 1. DDO-korpussets domæneklassifikation 2. Signifikanstest 3. Klassifikationsproceduren
136 1. Domæneklassifikation
137 1. Domæneklassifikation Stort antal domæner (66!)
138 1. Domæneklassifikation Stort antal domæner (66!) Færre domæner?
139 1. Domæneklassifikation Stort antal domæner (66!) Færre domæner? Stor forskel på mængden af tekstmateriale for hvert domæne (fra 1957 til ord)
140 1. Domæneklassifikation Stort antal domæner (66!) Færre domæner? Stor forskel på mængden af tekstmateriale for hvert domæne (fra 1957 til ord) Mindre mængdeforskel?
141 2. Signifikanstest
142 2. Signifikanstest Log likelihood
143 2. Signifikanstest Log likelihood Arbitrært valg
144 2. Signifikanstest Log likelihood Arbitrært valg Bedre egnede tests?
145 2. Signifikanstest Log likelihood Arbitrært valg Bedre egnede tests? Hvordan forholder de sig til fænomenet?
146 3. Procedure
147 3. Procedure Bør afspejle egenskaber ved teksten Token-overlapning Vokabularstørrelse Unikhed Domænestørrelse Kendthed
148 3. Procedure Bør afspejle egenskaber ved teksten Token-overlapning Vokabularstørrelse Unikhed Domænestørrelse Kendthed Andre egenskaber? Intutive karakteristika! Passende kvantificering?
149 Testning
150 Testning Komplekse gensidige afhængigheder Test af forskellige alternerende parametre
151 Testning Komplekse gensidige afhængigheder Mulig test: Test af forskellige alternerende parametre 1. Del DDOC op i 2 dele med samme relative andel tekst fra hvert domæne 2. Del 1 domænevokabularer 3. Del 2 testning
152 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
153 Konklusion
154 Godt: Konklusion
155 Konklusion Godt: Metoden er brugbar til opgaven
156 Konklusion Godt: Metoden er brugbar til opgaven Skidt:
157 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på...
158 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på... Hvad gør et ord eller en tekst domænespecifik?
159 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Metoden giver ingen svar på... Hvad gør et ord eller en tekst domænespecifik? Hvad gør et ord til et nyt ord?
160 Program 1. Introduktion til DSL 2. Introduktion til projektet ordnet.dk 3. Lemmaselektion i DDO 4. Lemmaopdatering i ordnet.dk a. Tekstklassifikation b. Bestemmelse af nye ord c. Diskussion af metoden d. Konklusion
161 Tak for jeres interesse!
Intro til design og brug af korpora
Intro til design og brug af korpora Jørg Asmussen [email protected] Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen [email protected] Det Danske Sprog-
At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk
At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk Jørg Asmussen Det Danske Sprog- og Litteraturselskab www.dsl.dk Bidrag til Bente Maegaard-festskrift KLADDE-VERSION
sproget.dk en internetportal for det danske sprog
sproget.dk en internetportal for det danske sprog Ida Elisabeth Mørch, Dansk Sprognævn Lars Trap-Jensen, Det Danske Sprog- og Litteratuselskab 1 Baggrunden 2003 Sprog på spil 2005 Ekstrabevilling 2006
24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S
24-03-2009 Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S Problemstilling ved DBK integration i BIM Software Domæner og aspekter Det domæne, der primært
Informationssøgning metoder og scenarier
Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet [email protected] Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean
Sådan sætter du TraceTool op til tælleugerne
Sådan sætter du TraceTool op til tælleugerne TraceTool er det værktøj, som medarbejderne i din kommune skal anvende til at registrere henvendelser manuelt i tælleugerne. Denne vejledning beskriver, hvordan
Skriftlig eksamen i samfundsfag
OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger
ordnet.dk ordbøger og korpus på internettet
ordnet.dk ordbøger og korpus på internettet Af Henrik Lorentzen og Lars Trap-Jensen, Det Danske Sprog- og Litteraturselskab Ordnet.dk er et websted der giver samtidig adgang til to ordbøger og et tekstkorpus.
MANUAL. Præsentation af Temperaturloggerdata. Version 2.0
MANUAL Præsentation af Temperaturloggerdata Version 2.0 Indholdsfortegnelse FORORD...3 INTRODUKTION...3 KRAV OG FORUDSÆTNINGER...3 INSTALLATION...4 OPSÆTNING...8 PROGRAMOVERBLIK...10 PROGRAMKØRSEL...11
Kvantitative metoder inden for korpuslingvistiske projekter
Kvantitative metoder inden for korpuslingvistiske projekter Illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90 Jørg Asmussen Det Danske Sprog- og Litteraturselskab, DSL [email protected]
Dette notat indeholder en oversigt over hovedresultater fra PISA Etnisk 2012. Notatet består af følgende
PISA Etnisk 2012: Kort opsummering af de væsentligste resultater Dette notat indeholder en oversigt over hovedresultater fra PISA Etnisk 2012. Notatet består af følgende afsnit: Fem hovedresultater Overordnede
Fra begreb til bog om Den Danske Begrebsordbog
Fra begreb til bog om Den Danske Begrebsordbog Sanni Nimb Thomas Troelsgård Henrik Lorentzen Det Danske Sprog- og Litteraturselskab København 1/27 Oversigt Genren begrebsordbøger Den Danske Begrebsordbog
Hovedresultater fra PISA Etnisk 2015
Hovedresultater fra PISA Etnisk 2015 Baggrund I PISA-undersøgelserne fra 2009, 2012 og 2015 er der i forbindelse med den ordinære PISA-undersøgelse foretaget en oversampling af elever med anden etnisk
Skolevægring. Resultater fra en spørgeskemaundersøgelse blandt skoleledere på danske folkeskoler og specialskoler
Skolevægring Resultater fra en spørgeskemaundersøgelse blandt skoleledere på danske folkeskoler og specialskoler Udarbejdet af Analyse & Tal for Institut for Menneskerettigheder juli 017 Indledning Udsendelse
Finanstilsynets indberetningssystem. FAQ Ofte stillede spørgsmål
Finanstilsynets indberetningssystem FAQ Ofte stillede spørgsmål Finanstilsynet - 1. udgave oktober 2009 Indholdsfortegnelse 1 HVAD ER FINANSTILSYNETS INDBERETNINGSSYSTEM?... 2 2 HVORDAN FÅR JEG DANNET
Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47
Korpus 2000 mfl Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL 24 april 2006 Korpus 2000 1 / 47 Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Det Danske Sprog- og Litteraturselskab:
Metoder og produktion af data
Metoder og produktion af data Kvalitative metoder Kvantitative metoder Ikke-empiriske metoder Data er fortolkninger og erfaringer indblik i behov og holdninger Feltundersøgelser Fokusgrupper Det kontrollerede
det offentlige Hilsner fra sådan vil danskerne tiltales BJERG KOMMUNIKATION FLÆSKETORVET 68, 1 1711 KØBENHAVN V T: +45 33 25 33 27 KONTAKT@BJERGK.
Hilsner fra det offentlige sådan vil danskerne tiltales BJERG KOMMUNIKATION FLÆSKETORVET 68, 1 1711 KØBENHAVN V T: +45 33 25 33 27 [email protected] INDHOLD RESULTATERNE KORT...3 Hvordan skal et digitalt
Vejledning Rapportbanken
Vejledning Rapportbanken Version 1.2 (opdateret 18. november 2013) Support KL yder kun begrænset support på anvendelse af Rapportbanken. Brug derfor gruppen KOMHEN 2.0 på Dialogportalen (http://dialog.kl.dk)
Ressourceområdet Møbler og beklædning Februar 2013 Analyse og effektmåling
Resume Den faldende beskæftigelse på landsplan inden for Møbler og beklædning i perioden 2000-2010 har især ramt de små og mellemstore virksomheder, der i perioden har tabt mere end 33 procent af alle
Sundhedsdatastyrelsens Elektroniske Indberetningssystem (SEI)
Sundhedsdatastyrelsens Elektroniske Indberetningssystem (SEI) Vejledning til indberetning via Citrix-løsning Inden det er muligt at bruge SEI indberetningsklienten gennem den ny Citrix løsning. Skal Citrix
Installation på netværksdrev
Installation på netværksdrev Installation på netværksdrev SEI kan med fordel installeres som en netværksbaseret installation. I et netværksscenarie kan brugerne dele og fordele arbejdet med at udfylde
VEJLEDNING ITS365. Gratis tilbud til alle kursister på Randers HF & VUC
VEJLEDNING ITS365 Gratis tilbud til alle kursister på Randers HF & VUC Randers HF & VUC 2014 INDLEDNING Randers HF & VUC tilbyder alle kursister tilknyttet skolen en Office 365 løsning kaldet ITS365. Her
Øvelse 6. Modeller 81 6.1 Oprettelse af og arbejde med modeller 82 6.2 Videre øvelser 87 6.3 Øvelser i eget projekt 87
Indhold Indledning 7 Øvelse 1. Introduktion til NVivo 11 1.1 NVivos skærmbillede og funktioner 12 1.2 Sources 13 1.3 Nodes 15 1.4 Classifications 17 1.5 Queries 18 1.6 Models 19 1.7 Videre øvelser 19 Øvelse
Undervisningsbeskrivelse
Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj/juni 2015 Institution Herning HF og VUC (657248) Uddannelse Fag og niveau Lærer(e) Hold Hf Matematik C,
Vejledning til SmartSignatur Proof Of Concept
Vejledning til SmartSignatur Proof Of Concept Version 0.9.1 15. marts 2013 Indhold Vejledning til SmartSignatur Proof Of Concept... 1 Hvad er en medarbejdersignatur... 3 Juridiske aspekter ved brug af
Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober 2003. Jonas Christiansen Voss
Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober 2003 Jonas Christiansen Voss 2. marts 2004 Indhold 1 CD ere 2 1.1 Brænde dokumenter til CD....................... 2 1.2 Disk Copy.................................
Netprøver.dk. Brugervejledning til Digital Prøvevagts-ansvarlig. 21. februar 2019
Netprøver.dk Brugervejledning til Digital Prøvevagts-ansvarlig 21. februar 2019 1 Indhold 1 Introduktion... 3 2 Status på Den Digitale Prøvevagt... 4 2.1 Sådan tjekker du om eleverne kører Den Digitale
ÅRSPLAN MATEMATIK 8. KL SKOLEÅRET 2017/2018
ÅRSPLAN MATEMATIK 8. KL SKOLEÅRET 2017/2018 Der tages udgangspunkt i forenklede fællesmål fra UVM for matematik på 7-9. Klasse. Ved denne plan skal der tages højde for, at ændringer kan forekomme i løbet
Arbejdsmiljø blandt FOAs privatansatte medlemmer
11. januar 2016 Arbejdsmiljø blandt FOAs privatansatte medlemmer 68 procent af FOAs privatansatte medlemmer er helt eller delvist enige i, at arbejdsmiljøet generelt er godt på deres arbejdsplads. Det
Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1
Ingeniør- og naturvidenskabelig metodelære Dette kursusmateriale er udviklet af: Jesper H. Larsen Institut for Produktion Aalborg Universitet Kursusholder: Lars Peter Jensen Formål & Mål Formål: At støtte
Billedvideo med Photo Story
Billedvideo med Photo Story Programmer: Microsoft Photo Story 3 Microsoft Windows XP Microsoft Internet Explorer Anvendelse: Edb informatik - Almen Voksenuddannelse September 2006 Billedvideo med Photo
Unik Bolig 4 Opdateringskontrol 4.2.0
NEMT OG EFFEKTIVT - Ejendomsadministration Unik Bolig 4 Opdateringskontrol 4.2.0 BOULEVARDEN 19E 7100 VEJLE LERSØ PARKALLE 101 2100 KØBENHAVN Ø TLF. 76 42 11 00 WWW.UNIK.DK Indholdsfortegnelse Indholdsfortegnelse...
Indhold Installation... 1 Første gang du åbner Skype... 2 Opkald i Skype... 3 Problemer... 4
Skype For at kunne gennemføre videoopkald i Skype kræver det, at hver mødedeltager har Skype installeret på sin computer, og at computeren er forsynet med kamera, mikrofon og højttaler/høretelefoner. Mange
Kom i gang med Scopus
Scopus er en allround base, der giver henvisninger til områder indenfor naturvidenskab, medicin, teknik, samfundsvidenskab, kunst og humaniora. Der henvises til mere end 22.000 peer-reviewed tidsskrifter
Behandling af kvantitative data 19.11.2012
Behandling af kvantitative data 19.11.2012 I dag skal vi snakke om Kvantitativ metode i kort form Hvordan man kan kode og indtaste data Data på forskellig måleniveau Hvilke muligheder, der er for at analysere
Praktiserende Landinspektørers Forening. Fremtidens matrikulære sagsgang. minimaks og MIA
Praktiserende Landinspektørers Forening Fremtidens matrikulære sagsgang minimaks og MIA 02 Fremtidens matrikulære sagsgang minimaks og MIA Om minimaks og MIA minimaks er Kort & Matrikelstyrelsens nye matrikulære
Flere unge fra kontanthjælp tilgår og fastholdes i uddannelse
Flere unge fra kontanthjælp tilgår og fastholdes i uddannelse KVANTITATIV ANALYSE 09. maj 2016 Viden og Analyse/NNI og CHF Sammenfatning Analysens hovedkonklusioner: Flere af unge mellem 25 og 29 år forlader
16 Huslejeudviklingen
147 16 Huslejeudviklingen 16.1 Grundlæggende information om indekset 16.1.1 Navn Huslejeudviklingen. 16.1.2 Formål Formålet er at belyse huslejeudviklingen for udlejede boliger før hhv. efter boligstøtte.
Sandsynlighedsregning
Sandsynlighedsregning Udfaldsrum og hændelser Udfald e:resultatetafetforsøg. Udfaldsrum S: Mængden af de mulige udfald af forsøget. Hændelse A: En delmængde af udfaldsrummet. Tilfældigt fænomen S e (eks.)
Spørgsmål & svar vedr. den nye tillægsforsikring Tryg Backup til Softwareforsikringen
Spørgsmål & svar vedr. den nye tillægsforsikring Tryg Backup til Softwareforsikringen 1. Hvorfor har vi valgt at tilbyde Tryg Backup til vores erhvervskunder med en Softwareforsikring? Det understøtter
Nye eksamensformer - mulige scenarier
Nye eksamensformer - mulige scenarier Matematik på hf Marts 2015 Bodil Bruun, fagkonsulent i matematik stx/hf Nye eksamensformer?? Problemer, der skal løses: Internet er et vilkår mundtligt og skriftligt
FotoDok. Brugervenlig it-løsning til nem og hurtig fotodokumentation, tilsynsnotater og kvalitetssikring
FotoDok Brugervenlig it-løsning til nem og hurtig fotodokumentation, tilsynsnotater og kvalitetssikring Kursets indhold Opstart Velkomst ved Erik Ploug Sørensen Kort overordnet præsentation af FotoDok
To kurser i analyse og kodning af kvalitative data
To kurser i analyse og kodning af kvalitative data Kursus 1. Displayværksted v/ professor Peter Dahler-Larsen, Syddansk Universitet (2. juni 2008, kl. 9-12) Læsere af kvalitative forskningsrapporter føler
AppWriter Cloud Manual
AppWriter Cloud Manual Installation AppWriter Cloud installeres i en Google Chrome-browser. Værktøjet giver læse- og skrivestøtte, når du arbejder i Google Docs og i Chrome-browseren. Hvis AppWriter ikke
MATEMATIK 7. KLASSE. Web 3
MATEMATIK 7. KLASSE Web 3 INDHOLDSFORTEGNELSE 1. Forløbsbeskrivelse... 3 1.1 Resumé: WEB 3.0... 3 1.2 Rammer og praktiske forhold... 4 2. Mål og faglige begreber... 5 3. Forløbsnær del... 7 3.1 Introfase:
Vejledning til lærere ved de nationale test
Uddannelsesudvalget UDU alm. del - Bilag 322 Offentligt Vejledning til lærere ved de nationale test Målgruppe Tidsramme Indledning Før testen starter Til læreren under testen Efter testen Målgruppe Denne
Sådan aktiveres LMU (Lifetime Map Update)
Sådan aktiveres LMU (Lifetime Map Update) Følg denne guide for at aktivere dit LMU (Llifetime Map Update) til din Garmin. Det er vigtigt, at du har en my.garmin.com-brugerkonto, og at din Garmin GPS er
Vejledning til Teknisk opsætning
Vejledning til Teknisk opsætning v. 1.0 Adm4you, 2010. Indhold Kort om denne vejledning... 3 Generelt om easyourtime... 3 Installation af databasen... 3 Sikkerhed og rettigheder... 4 SQL Login... 4 Rettigheder
Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere
DET ØKONOMISKE RÅD S E K R E T A R I A T E T d. 20. maj 2005 SG Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere Baggrundsnotat vedr. Dansk Økonomi, forår 2005, kapitel
FleeDa (DBK Fleetmap Database) Installationsvejledning til installation af VPN og FleeDa klient på egen PC (Juli 2017)
FleeDa (DBK Fleetmap Database) Installationsvejledning til installation af VPN og FleeDa klient på egen PC (Juli 2017) Page 1 of 12 Indhold 1 Adgang til FleeDa... 3 1.1 HW og SW forudsætninger... 3 1.2
FODFORM & DIGITALT BIOTHESIOMETER MANUAL DANSK (BRUGER MANUAL)
FODFORM & DIGITALT BIOTHESIOMETER MANUAL DANSK (BRUGER MANUAL) G&G MediCare ApS Vejlevej 48 DK-7000 Fredericia Tel: +45 76 20 00 01 email:[email protected] www.gg-medicare.dk Introduktion Benytter du
For Center for Myndighed, Socialpsykiatri og Udsatte Voksne 2014
Brugertilfredshedsundersøgelse For Center for Myndighed, Socialpsykiatri og Udsatte Voksne 2014 UDGIVER Socialforvaltningen Center for Socialfaglig Udvikling Værkmestergade 15 8000 Aarhus C KONTAKT Birthe
Information til nye kunder
Indhold I denne mini- guide finder du svarene på de spørgsmål, vi oftest bliver stillet, når pleje.net skal implementeres. Guiden er inddelt i seks afsnit, som indeholder: 1. Oprettelse af brugere og brugergrupper
Artikel om... Digital signatur. OpenOffice.org
Artikel om... Digital signatur OpenOffice.org Rettigheder Dette dokument er beskyttet af Copyright 2005 til bidragsyderne, som er oplistet i afsnittet Forfattere. Du kan distribuere og/eller ændre det
Tilfredshedsundersøgelse blandt borgere. Familiecentret Socialforvaltningen, Aarhus Kommune
Tilfredshedsundersøgelse blandt borgere Familiecentret 2016 Socialforvaltningen, Aarhus Kommune UDGIVER Socialforvaltningen, Aarhus Kommune Værkmestergade 15 8000 Aarhus C KONTAKT Christina Vang Jakobsen,
2) foretage beregninger i sammenhæng med det naturfaglige arbejde, 4) arbejde sikkerhedsmæssigt korrekt med udstyr og kemikalier,
Formål Faget skal give eleverne indsigt i det naturfaglige grundlag for teknik, teknologi og sundhed, som relaterer sig til et erhvervsuddannelsesområde. For niveau E gælder endvidere, at faget skal bidrage
FairSSL Fair priser fair support
Microsoft IIS 6 Certifikat administration Følgende vejledning beskriver hvordan man installere et certifikat på en IIS 6 For support og hjælp til anvendelsen af denne vejledning kan du kontakte FairSSL
SÅDAN BRUGER DU REGNEARK INTRODUKTION
SÅDAN BRUGER DU REGNEARK INTRODUKTION I vejledningen bruger vi det gratis program Calc fra OpenOffice som eksempel til at vise, hvordan man bruger nogle helt grundlæggende funktioner i regneark. De øvrige
POLITIETS TRYGHEDSINDEKS
POLITIETS TRYGHEDSINDEKS EN MÅLING AF TRYGHEDEN I: DE SÆRLIGT UDSATTE BOLIGOMRÅDER DE FEM STØRSTE BYER I DANMARK DE 12 POLITIKREDSE I DANMARK HELE DANMARK DECEMBER 2015 1. INDHOLD 2. INDLEDNING... 3 3.
Oversigt over service og support
Oversigt over service og support QuickRestore Compaq gør det muligt til hver en tid at gendanne systemet med QuickRestore. Der er fem gendannelsesfunktioner i QuickRestore. Disse beskrives i nedenstående
Brugervejledning til udskriften ReproAnalyse
Brugervejledning til udskriften ReproAnalyse Tilgængelighed Udskriften ReproAnalyse er tilgængelig i Dairy Management System (DMS) under fanebladet Analyse og lister > Analyseudskrifter. Husk at vælge
KLYNGEANALYSE. Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere. Viden og Analyse / CCFC
Grupper af fastholdelsesfleksjobbere før og efter reformen 2013 KLYNGEANALYSE Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere 13. oktober 2017 Viden og Analyse / CCFC 1. Indledning I forbindelse
