Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47

Relaterede dokumenter
Kvantitative metoder inden for korpuslingvistiske projekter

En rundvisning i ordnet.dk

Korpusbaseret lemmaselektion og opdatering

Intro til design og brug af korpora

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser

sproget.dk en internetportal for det danske sprog

It-støttet excerpering og registrering af nye ord og ordforbindelser

Kulturudvalget (Omtryk Fejl i folder) KUU Alm.del Bilag 49 Offentligt

ordnet.dk ordbøger og korpus på internettet

Hvad sker der med sin i moderne dansk og hvorfor sker det? Af Torben Juel Jensen

Introduktion til korpusværktøjet CoREST

ordbøgerne og internettet

Vejledning til Politikens Retskrivnings- og Betydningsordbog

Censorvejledning for censorer i skriftlig fransk begyndersprog og fortsættersprog A, hhx. Analog prøve

LEKSIKOGRAFISK TRADITION OG FORNYELSE: Digital revolution eller organisk reformisme? Lars Trap-Jensen NFL, Oslo 2013

FOR BETTER UNDERSTANDING. WordFinder. Professional 10. Kvikguide

Spørgsmål om ophavsret den islandske erfaring

Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90.

Plan for dansk klasse Det talte sprog

Sådan bruger du Den Engelske Regnskabsordbog

Manual til CD-ORD. Randers Realskole

Some usage sceanrios (Tidligere titler: Brugsscenarier og funktionaliteter, Arbejde med korpora, Korpus-workflow) Resumé

Hjemmesider i ElevIntra

Digitaliseringen af den store danske ordbog et kapitel i historien om ODS på nettet

Faglige delmål og slutmål i faget Dansk. Trin 1

Sådan bruger du Den Danske Regnskabsordbog

6. Forenkling af bedømmelse af ansøgere til videnskabelige stillinger

Fagplan for dansk Delmål 2 (efter 3. klassetrin) Det talte sprog:

NyS. NyS og artiklens forfatter

Sprogteknologi I Undervisningsplan Forårssemester 2009

Teknisk bilag til Aftale om servicemål for kommunal erhvervsrettet sagsbehandling

Læringsmål på NIF. Dansk. for yngste-, mellemste- og ældste trinnet 2014/15

Side 1 af 9. Hvordan er resultatrapporten bygget op? Hvordan følger vi op på vores undersøgelse? 1. Simple tabeller. Besvarelser i alt.

MANUAL - Joomla! Version 1

Fra begreb til bog om Den Danske Begrebsordbog

stavning bøjning udtale oprindelse betydning brug Baggrund og omfang

Digital stemme hjælp. Mikro Værkstedet A/S

Korpusværktøjet CoREST Manual. Version 2017

Hvad ved vi nu. om danske talesprog? Redigeret af Frans Gregersen og Tore Kristiansen SPROGFORANDRINGSCENTRET

CLARIN en europæisk forskningsinfrastruktur

Vejledning for censorer i skriftlig fransk begyndersprog A, hhx. Gl-Fransk digital

Delma l for Danish. Det talte sprog. Måltaksonomi: Beginners Middlegroup Advanced Efter Y4 Forstå enkle ord og vendinger knyttet til dagligdagen

12: Morfars far. 4: Farfar 5: Farmor 6: Morfar 7: Mormor

Dialog om tidlig indsats Udveksling af oplysninger i det tværfaglige SSD-samarbejde og fagpersoners underretningspligt

IT-arkitektur. IT-arkitektur Arkitektur på forskellige niveauer. Efter denne lektion skal du:

Skriv med CD-ORD 8. Ordbogen.com

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

TeamShare 2.1 Versionsnoter Oktober 2009

Den Danske Ordbog - set i bakspejlet

Informationssøgning metoder og scenarier

ET TAL FOR ET BOGSTAV

Fuldstændig fantastisk?

Sådan bruger du Den Engelsk-Danske Regnskabsordbog

CD-ORD 9.0. Kom godt i gang

Gruppe 1, Audiologi René Gyldenlund Pedersen, Ivan Hemmingsen, Louise Thygesen Smidt og Mette Toft Hansen Skriftlig gruppeaflevering Morfologi

CD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet

Sådan bruger du Den Dansk-Engelske Regnskabsordbog

Sprogteknologiske resourcer for islandsk leksikografi

Årsplan for 5.klasse skoleåret 2011/2012

ET TAL FOR ET BOGSTAV

Evalueringsresultatet af danskfaget på Ahi Internationale Skole. ( ) Det talte sprog.

Tal nordisk det nytter! Hvordan vi undgår at tale engelsk i nordisk sammenhæng

KEMIguiden Vejledning. Rev. udgave april 2010

UC Syddanmark

Fordele fælder og finurligheder. Kirsten Sanders

Årsplan for 3.klasse i dansk

Vejledning til opbygning af hjemmesider

Anvendt videnskabsteori

Ordsprog og talemåder

CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora

Når vi forbereder et nyt emne eller område vælger vi de metoder, materialer og evalueringsformer, der egner sig bedst til forløbet.

Manual Søg & erstat. Søg efter tekst

Danske tegnsprogsordbøger En oversigt over eksisterende ordbøger over dansk tegnsprog, sammenholdt med projektet Ordbog over Dansk Tegnsprog.

Vejledning for censorer i skriftlig spansk begyndersprog A, stx. Gl-Spansk digital

Sprogteknologi I Undervisningsplan Forårssemester 2008

Eksamensvejledning. Diplomuddannelsen i ledelse

Årsplan for 4. klasse (dansk)

Kulturministeriets it-arkitekturpolitik

Diskursrelationer

Skal vi. SMS e. IT-Gruppen, Københavns Amtskreds

Sprogteknologi på Færøerne

Læs med CD-ORD Gem en lydfil. 5. Download af CD-ORD, Billedlæser, Skan Read og ekstra stemmer.

Korpusværktøjet CoREST Manual. Version 2016

Sproglige problemstillinger ved informationssøgning

Studenterportalen. Registrering og upload af bacheloropgaver og andre afgangsprojekter. Professionshøjskolen Metropol, marts 2011

Prosodi i ledsætninger

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

En svensk version af dette dokument kan hentes her: people/hagerman/riktlinjer.pdf (500 kb)

Bent Haller Af Louise Molbæk

Google Site Search Google-websitesøgning til din organisation

EKSTREMT DEMOKRATISK RUNDVISNING I PROCESSEN

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

Korpusværktøjet CoREST Manual. Version 2017

Google Translate. i undervisningen i praksis. emu.dk/modul/undervis-i-maskinovers%c3%a6ttelse

Evaluering af dansk på Ahi Internationale Skole. ( ) Det talte sprog. Indskoling.

Nye prøveformater stx B og A 2017 læreplaner

SKRIFTLIG EKSAMEN OG VEJEN DERHEN. 12/11/15 Side 1

Eksamensvejledning. Diplomuddannelsen i ledelse

Transkript:

Korpus 2000 mfl Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL 24 april 2006 Korpus 2000 1 / 47

Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Det Danske Sprog- og Litteraturselskab: Ordbøger, korpora og meget andet Korpus 2000 2 / 47

Det Danske Sprog- og Litteraturselskab, DSL Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Det Danske Sprog- og Litteraturselskab: Udgiverselskab, grundlagt 1911 Institution under Kulturministeriet Delvis offentligt, delvis privat finansieret (fonde) Ca 45 medarbejdere Korpus 2000 3 / 47

Det Danske Sprog- og Litteraturselskab, DSL Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Det Danske Sprog- og Litteraturselskab: Udgiverselskab, grundlagt 1911 Institution under Kulturministeriet Delvis offentligt, delvis privat finansieret (fonde) Ca 45 medarbejdere Opgaver: Tekstudgivelser Bibliografier Sproghistoriske fremstillinger Ordbøger og sprogteknologi Korpus 2000 3 / 47

Ordbog over det danske Sprog Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: ekscerptbaseret ordbog over dansk i perioden 1700 1950 Målgruppe: den dannede læser Udarbejdet: 1915 1956 Digitalt format: typografisk opmærket Korpus 2000 4 / 47

Ordbog over det danske Sprog Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: ekscerptbaseret ordbog over dansk i perioden 1700 1950 Målgruppe: den dannede læser Udarbejdet: 1915 1956 Digitalt format: typografisk opmærket Offentlig web-version: Korpus 2000 4 / 47

Den Danske Ordbog Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: ordbog over dansk i perioden 1950 til i dag Målgruppe: sproginteresserede læsere Udarbejdet: 1991 2005 Digitalt format: detaljeret XML Korpus 2000 5 / 47

Den Danske Ordbog Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: ordbog over dansk i perioden 1950 til i dag Målgruppe: sproginteresserede læsere Udarbejdet: 1991 2005 Digitalt format: detaljeret XML Eksperimentel web-prototype: Korpus 2000 5 / 47

Korpus 2000 Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: web-tilgængeligt referencekorpus over dansk sprog 1983 1992 (Korpus 90) og 1998 2002 (Korpus 2000) på 56 mio lbd ord i alt Målgruppe: sproginteresserede Udarbejdet: 2000 2002 Digitalt format: variabelt Korpus 2000 6 / 47

Korpus 2000 Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Produkt: web-tilgængeligt referencekorpus over dansk sprog 1983 1992 (Korpus 90) og 1998 2002 (Korpus 2000) på 56 mio lbd ord i alt Målgruppe: sproginteresserede Udarbejdet: 2000 2002 Digitalt format: variabelt Offentlig web-adgang: Korpus 2000 6 / 47

Flere korpora Overblik ODS Den Danske Ordbog Korpus 2000 Den Danske Ordbogs Korpus: 40 mio tekstord fra perioden 1983 1992, annoteret med tekstoplysninger Søgeværktøj: Semaskop Flere korpora Søgeværktøjer Korpus 2000 7 / 47

Flere korpora Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Den Danske Ordbogs Korpus: 40 mio tekstord fra perioden 1983 1992, annoteret med tekstoplysninger Søgeværktøj: Semaskop Korpus 90: 28 mio tekstord fra perioden 1983 1992, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade Korpus 2000 7 / 47

Flere korpora Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Den Danske Ordbogs Korpus: 40 mio tekstord fra perioden 1983 1992, annoteret med tekstoplysninger Søgeværktøj: Semaskop Korpus 90: 28 mio tekstord fra perioden 1983 1992, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade Korpus 2000: 28 mio tekstord fra perioden 1998-2002, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade Korpus 2000 7 / 47

Flere korpora Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Den Danske Ordbogs Korpus: 40 mio tekstord fra perioden 1983 1992, annoteret med tekstoplysninger Søgeværktøj: Semaskop Korpus 90: 28 mio tekstord fra perioden 1983 1992, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade Korpus 2000: 28 mio tekstord fra perioden 1998-2002, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade DK87 90: 4 mio tekstord fra perioden 1987 1990, annoteret med tekstoplysninger Søgeværktøj: Semaskop Korpus 2000 7 / 47

Flere korpora Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Den Danske Ordbogs Korpus: 40 mio tekstord fra perioden 1983 1992, annoteret med tekstoplysninger Søgeværktøj: Semaskop Korpus 90: 28 mio tekstord fra perioden 1983 1992, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade Korpus 2000: 28 mio tekstord fra perioden 1998-2002, annoteret med morfologiske og syntaktiske oplysninger Søgeværktøj: CQP + webgrænseflade DK87 90: 4 mio tekstord fra perioden 1987 1990, annoteret med tekstoplysninger Søgeværktøj: Semaskop Parole: 250000 tekstord fra 1990 erne, annoteret med tekstoplysninger og morfologiske oplysninger Søgeværktøj: Semaskop Korpus 2000 7 / 47

Søgeværktøjer Overblik ODS Den Danske Ordbog Korpus 2000 Semaskop: Windows-baseret konkordansværktøj, som kan hentes fra DSL s hjemmeside sammen en indekseret version af DDO s korpus Flere korpora Søgeværktøjer Korpus 2000 8 / 47

Søgeværktøjer Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Semaskop: Windows-baseret konkordansværktøj, som kan hentes fra DSL s hjemmeside sammen en indekseret version af DDO s korpus IMS Corpus Work Bench, CWB: Institut für maschinelle Sprachverarbeitung, IMS, Univ Stuttgart 1993 2005, open source 2006 (Stefan Evert mfl), Unix/Linux Korpus 2000 8 / 47

Søgeværktøjer Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Semaskop: Windows-baseret konkordansværktøj, som kan hentes fra DSL s hjemmeside sammen en indekseret version af DDO s korpus IMS Corpus Work Bench, CWB: Institut für maschinelle Sprachverarbeitung, IMS, Univ Stuttgart 1993 2005, open source 2006 (Stefan Evert mfl), Unix/Linux Corpus Query Processor, CQP: selve korpussøgemaskinen, kommandolinjeorienteret, søgesprog til komplekse søgninger, ekstremt hurtig Korpus 2000 8 / 47

Søgeværktøjer Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Semaskop: Windows-baseret konkordansværktøj, som kan hentes fra DSL s hjemmeside sammen en indekseret version af DDO s korpus IMS Corpus Work Bench, CWB: Institut für maschinelle Sprachverarbeitung, IMS, Univ Stuttgart 1993 2005, open source 2006 (Stefan Evert mfl), Unix/Linux Corpus Query Processor, CQP: selve korpussøgemaskinen, kommandolinjeorienteret, søgesprog til komplekse søgninger, ekstremt hurtig Brugere: DSL (Korpus 2000 almindeligt interface og ekspertinterface); Syddansk Universitet; CBS; Tekstlaboratoriet, universitetet i Oslo; Språkbanken, universitetet i Göteborg; Korpus 2000 8 / 47

Afgrænsning Empirisme Introspektion? Introduktion til arbejdet med korpora Korpus 2000 9 / 47

Afgrænsning Afgrænsning Empirisme korpus Introspektion? samling tekst Korpus 2000 10 / 47

Afgrænsning Afgrænsning Empirisme korpus Introspektion? samling tekst digitaliseret sammenhængende og autentisk (ned)skrevet objektsprog Korpus 2000 10 / 47

Afgrænsning Afgrænsning Empirisme korpus Introspektion? eksplicit struktureret samling sprogvidenskab uoverskuelig stor tekst digitaliseret sammenhængende og autentisk (ned)skrevet objektsprog Korpus 2000 10 / 47

Afgrænsning Afgrænsning Empirisme Introspektion? ordbog stak aviser??? korpus eksplicit struktureret ordseddelsamling?? samling sprogvidenskab udskrevet jobsamtale uoverskuelig stor båndoptaget radioudsendelse tekst digitaliseret sammenhængende og autentisk (ned)skrevet objektsprog Korpus 2000 10 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Genstanden for beskrivelse Materialegrundlaget Metode Beskrivelse af sproglig regelmæssighed Empirisme Rationalisme Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget Metode Beskrivelse af sproglig regelmæssighed Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode Beskrivelse af sproglig regelmæssighed Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Altså er I live in New York mere grammatisk end I live in Dayton, Ohio Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Altså er I live in New York mere grammatisk end I live in Dayton, Ohio One doesn t study all of botany by making artificial flowers Korpus 2000 11 / 47

Empirisme vs rationalisme Afgrænsning Inden for sprogbeskrivelsen er den empiriske tilgang over for den rationalistiske bla karakteriseret ved Empirisme Introspektion? Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Grundantagelsen her: målet er at beskrive og måske forklare sprogets regelmæssigheder Ingen teoretisk ramme eller metode klarer dette fuldkomment, men belyser forskellige sproglige aspekter fra forskellige vinkler Ingen er per se bedre end de andre, men alle kan supplere hinanden Korpus 2000 11 / 47

Prøv: introspektion Afgrænsning Empirisme Introspektion? Giv en ordbogsagtig beskrivelse af betydningerne af de følgende ord uden at bruge andre hjælpemidler end den viden, I har om dansk: bivirkning, sideeffekt Er der en forskel på betydningen af det engelske side effect og det danske sideeffekt? Hvilken? Korpus 2000 12 / 47

Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Undersøgelse af enkeltord Genitiver! Flere undersøgelser? Korpus 2000 13 / 47

Sådan gør man 1 Indtast ord: Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 14 / 47

Sådan gør man 2 Præciser opslagsord: Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 14 / 47

Sådan gør man 3 Oversigt med hyppigheder: Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 14 / 47

Sådan gør man 4 Konkordans: Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 14 / 47

Morfosyntaktisk opmærkning Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 15 / 47!" #$% #&' ( ) ( * ) +, - " /0 1 2 /- % /- % 3 4 ", ( /! 5 ( 6 ( ", ( /! 5 7 89: ; <= >9?@ A3 B / " C 5 D!, " 2 E 6 B / " C 5 D!, " 2 E 7 ; <= >9?@ A < ; : 3 F, " 6 F,G 7 0 G 3 H JI 8 4 A > @ H 6! 7 8J 4! * I 9 > A3,0 0 6,0 0 7 9 4! *!?@ A3 0 K 5 6 0 K 5 7 ; =I >9?@ A 8 + + LNM 0! 6 0! 7 O /QP, O O 3 + A +? 0 K 6 0 K ( ( 7,R ) 3 H JI 8 4 A > 8 ; S 2 "R D 6 2 "R D 7 0 G 3 H = > 8 4 A = +T P 8 ; S 0 ( / " 6 0 ( / 7 ; J4 =I >9?@ A 8 + + LNM " 6 " 7 " 53 = 9 I! *!?@ A < ; : 3 " 6 G C" 7 0 G 3! - P O 5 / 3 H JI 8 4 A > < P 0 " 6 0 D ( 7,U R,! ( 3 89 H +?@ A3 8 ( V " C G! 6 ( V " C G! 7 89:! *!! 9?@ A < + LNM / D 6 / D 7 O /QP B! 3 + A +? /0 6 /0 7 " 53 = 9 I! *! A < ; : 3 / B ( 6 / B ( 7 (, 0-3 89 H A 89 TH 3 D W " 6 D W " 7 0 G 3! - P O 5 / 3 H JI 8 4 A > < P ( 6! 7 I J < ; X < 8 + + A > P 8 + + G C" ( 6 G C" 7 89: ; <= >9?@ A? + 5 5 " 6 5 5 " 7 O /QP / O 3 + A +? R 0 R 5 D ( 6 R 0 R 5 D 7 89: ; <= >9?@ A? +, ( 6, ( 7 = > @ A = > @ /G " V " 6 /G " V " 7 0 G 3 H = > 8 4 A = +T P 8, " ( 2, " " " "! 6, " ( Y 2, " " " 7 O /0 - /R! 3 ; J4 I 9 >?@ A 8 + + LNZ[ \ 3

Løsning: introspektion Eksemplerne fra Korpus 90 Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 16 / 47

Løsning: introspektion Eksemplerne fra Korpus 2000 Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 16 / 47

Prøv: sammenligning af ord-hyppigheder Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Ords hyppigheder Find frem til hyppigheden af følgende ord i Korpus 90 og Korpus 2000: mobiltelefon, fastnettelefon, kambrium, benchmarking Hvad kan man konkludere på baggrund af resultaterne? Og hvad bør man ikke konkludere? Grammatiske formers hyppigheder Find frem til genitivformerne af lemmaet bil i Korpus 90 og Korpus 2000 Hvad kan man konkludere på baggrund af resultatet? Og hvad bør man ikke konkludere? Korpus 2000 17 / 47

Løsning: sammenligning af ord-hyppigheder Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Konklusioner: For mobiltelefon, biltelefon, benchmarking: forventelige resultater, korpus afspejler formentlig forandringerne i sprogbrugen i samfundet som helhed For kambrium: Genitiver! Flere undersøgelser? inden for visse rammer er sammenligninger upålidelige; springet fra 0 til 4 forekomster er åbenbart ikke statistisk sikkert; inden for visse marginer giver det åbenbart ingen mening at foretage sammenligninger: en tilfældig fagbog i det ene korpus kan forvrænge resultaterne Korpus 2000 18 / 47

Prøv: genitivformers hyppigheder Find frem til genitivformerne af lemmaerne bil, cykel, mand Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? i Korpus 90 og Korpus 2000 Hvad kan man konkludere på baggrund af resultatet? Hvad bør man ikke konkludere? Genitiver! Flere undersøgelser? Korpus 2000 19 / 47

Løsning: genitivformers hyppigheder Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Antal forekomster af nogle genitiver Genitiv af Korpus 2000 Korpus 90 bil 393 586 cykel 23 35 mand 1606 1936 Genitiver? Genitiver! Flere undersøgelser? Umiddelbare konklusioner på baggrund af tallene? Metodiske fælder? Korpus 2000 20 / 47

Løsning: genitivformers hyppigheder Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Sådan bør udbredelsen af genitivformerne beregnes bil i K2000 8354, heraf 21+286+24+62=393 genitivformer (4,7%) bil i K90 10360, heraf 36+412+41+97=586 genitivformer (5,7%) Kommentarer? Genitiver? Genitiver! Flere undersøgelser? Korpus 2000 20 / 47

Løsning: genitivformers hyppigheder Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Relativt antal forekomster af nogle genitiver Genitiv af Korpus 2000 Korpus 90 bil 4,7% 5,7% cykel 1,7% 2,0% mand 6,5% 6,5% Genitiver? Genitiver! Flere undersøgelser? Kommentarer? Korpus 2000 20 / 47

Prøv: flere ord-undersøgelser Udfør undersøgelser på de følgende ord og kommenter resultaterne: Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? tale dyr kompleks vs kompliceret internet vs web glasnost hånd nikkedukke bmi kvindagtig kysseri Korpus 2000 21 / 47

Prøv: flere ord-undersøgelser Sådan gør man Opmærkning Introspektion! Hyppigheder? Hyppigheder! Genitiver? Genitiver! Flere undersøgelser? Udfør undersøgelser på de følgende ord og kommenter resultaterne: tale homograf, højfrekvent, faste vendinger dyr homograf, højfrekvent, faste vendinger kompleks vs kompliceret homograf, adskilte søgninger internet vs web kun i Korpus 2000, adskilte søgninger glasnost kun i Korpus 90 hånd højfrekvent, faste vendinger nikkedukke få eksempler bmi søgning mislykkes kvindagtig få eksempler kysseri søgning kun på indtastet form Korpus 2000 21 / 47

Sådan gør man Sammenligning? Flere undersøgelser? Fremfinding af kollokater Korpus 2000 22 / 47

Sådan gør man 1 Indtast ord, som du vil finde kollokater til Sådan gør man Sammenligning? Flere undersøgelser? Korpus 2000 23 / 47

Sådan gør man 2 Præciser din ord-søgning Sådan gør man Sammenligning? Flere undersøgelser? Korpus 2000 23 / 47

Sådan gør man 3 Du får vist en oversigt over hyppigheder Sådan gør man Sammenligning? Flere undersøgelser? Klik herefter på knappen Nabo-ord Korpus 2000 23 / 47

Sådan gør man 4 Du får vist en oversigt over fremtrædende kollokater Sådan gør man Sammenligning? Flere undersøgelser? Hvad kan man konkludere på baggrund af denne oversigt? Korpus 2000 23 / 47

Prøv: sammenlignende kollokationsundersøgelser Sådan gør man Eksempel: terrorist Hvad kan man konkludere på baggrund af nedenstående kollokationsundersøgelse? Sammenligning? Flere undersøgelser? Korpus 2000 24 / 47

Prøv: sammenlignende kollokationsundersøgelser Sådan gør man Eksempel: jul Hvad kan man konkludere på baggrund af nedenstående kollokationsundersøgelse? Sammenligning? Flere undersøgelser? Korpus 2000 24 / 47

Prøv: sammenlignende kollokationsundersøgelser Sådan gør man Eksempel: juletræ Hvad kan man konkludere på baggrund af nedenstående kollokationsundersøgelse? Sammenligning? Flere undersøgelser? Korpus 2000 24 / 47

Prøv: flere kollokationsundersøgelser Lav kollokationsundersøgelser for de flg ord og kommenter: Sådan gør man Sammenligning? Flere undersøgelser? tale dyr kompleks vs kompliceret internet vs web hånd sluge tysk dansk tjekkisk Korpus 2000 25 / 47

Prøv: flere kollokationsundersøgelser Lav kollokationsundersøgelser for de flg ord og kommenter: Sådan gør man Sammenligning? Flere undersøgelser? tale komme på tale, i daglig tale; mildest/bogstavelig(t) talt dyr vilde/truede dyr; i dyre domme, et dyrt bekendtskab kompleks vs kompliceret uhyre/yderst/særdeles kompliceret, meget kompleks; kompliceret benbrud/system, komplekst system internet vs web opkobling til internettet, surfe på internettet via internet(et); web er for lavfrekvent hånd (give en) hjælpende hånd, fremstrakt hånd, udstrakt hånd (kun K2000?); have hånd i hanke med, som hånd i handske, sluge sluge (nogle) kameler (K2000); sluge kamelen (K90); (det er) en bitter pille at sluge tysk K90: genforening, bundesbank, besættelsesmagt, krigstjeneste, forbundskansler; K2000: bundesliga, ugemagasin, genforening, bundesbank, besættelsesmagt dansk K90: fodbolds, særordning, retskrivning, erhvervslivs, særaftale; K2000: statsobligation, EU-forbehold, filmbranche, busvognmænd, kvindelandshold tjekkisk K90: republik, jøder; K2000: teleselskab, hovedstad, øl, tv, politik Korpus 2000 25 / 47

Pause til 10:05 Korpus 2000 26 / 47

Sådan gør man Undersøgelse af ordgrupper Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning Korpus 2000 27 / 47

Sådan gør man 1 Indtast ordgruppe: Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning Korpus 2000 28 / 47

Sådan gør man 2 Modificer ordgruppen: Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning Korpus 2000 28 / 47

Sådan gør man 3 Konkordans: Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning Hvad kan man konkludere på baggrund af konkordansen? Korpus 2000 28 / 47

Flere eksempler Uproblematiske søgninger Sådan gør man Flere eksempler data mining bogstavelig talt kvalitets underholdning udstrakt hånd vs fremstrakt hånd i K2000 og K90 ikke i ledsætninger? ikke i ledsætninger! Særskrevne ord Med opmærkning i dag, inden for, ad hoc Korpus 2000 29 / 47

Flere eksempler Sådan gør man Uproblematiske søgninger data mining kun i Korpus 2000 bogstavelig talt kvalitets underholdning uofficiel særskrivning udstrakt hånd vs fremstrakt hånd i K2000 og K90 Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Særskrevne ord Med opmærkning i dag, inden for, ad hoc behandles som ét ord Korpus 2000 29 / 47

Prøv: position af ikke i ledsætninger Position af ikke i hovedsætninger: finit negation Peter drikker ikke te Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Standardposition af ikke i ledsætninger: negation finit Anne serverer kaffe fordi Peter ikke drikker te Med opmærkning Substandardposition af ikke i ledsætninger: finit negation Anne serverer kaffe fordi Peter drikker ikke te Korpus 2000 30 / 47

Prøv: position af ikke i ledsætninger Position af ikke i hovedsætninger: finit negation Peter drikker ikke te Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Standardposition af ikke i ledsætninger: negation finit Anne serverer kaffe fordi Peter ikke drikker te Med opmærkning Substandardposition af ikke i ledsætninger: finit negation Anne serverer kaffe fordi Peter drikker ikke te Formuler en søgning i Korpus 2000, som gør det muligt at finde eksempler på substandardpostionen af ikke i ledsætninger Korpus 2000 30 / 47

Løsning: position af ikke i ledsætninger Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning I Korpus 90 er der 387 eksempler konklusioner? Korpus 2000 31 / 47

Brug af den morfosyntaktiske opmærkning Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning blod på [sb] tysker[sb] være[vb] [adj] holde[vb] [præp] [sb] spise[vb] [sb] æde[vb] [sb] finde[vb] [adv] sted den [adj] problemstilling Korpus 2000 32 / 47

Brug af den morfosyntaktiske opmærkning Sådan gør man Flere eksempler ikke i ledsætninger? ikke i ledsætninger! Med opmærkning blod på [sb] tanden, fingrene, hænderne, tysker[sb] være[vb] [adj] slemme, kolde, bedre, bevidste, dårligere, enige, kede, stolte, hurtigere, konservative, søde holde[vb] [præp] [sb] holdes til ilden, holdt som gidsler, holde på hat (stok og briller), holde i kø, holdes uden for arbejdsmarkedet spise[vb] [sb] æg, druesukker, brød, kød, brunch, mad, pillerne, æbler, aftensmad, æde[vb] [sb] manden, plankton, græs, halm, ananas, ordene, skattefordelen, arbejdspladser, kaninen, finde[vb] [adv] sted ikke, imidlertid, sædvanligvis, først, stadig, således også, i øvrigt, i høj grad, altid, den [adj] problemstilling praktiske, konkrete, metodiske, Korpus 2000 32 / 47

Jokertegn Avancerede undersøgelser i Korpus 2000 Regulære udtryk Eksempler Søgning Orddannelse Korpus 2000 33 / 47

Jokertegn Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Princippet? matcher ét vilkårligt tegn m??ing matcher making, maling, mening, mesing, mining, moving og måling * matcher nul eller flere vilkårlige tegn bet*ing matcher bla betaling, betalingsordning, betjening, betontænkning, betrædning Korpus 2000 34 / 47

Jokertegn Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Princippet? matcher ét vilkårligt tegn m??ing matcher making, maling, mening, mesing, mining, moving og måling * matcher nul eller flere vilkårlige tegn bet*ing matcher bla betaling, betalingsordning, betjening, betontænkning, betrædning Problemer Det er ikke muligt at formulere avancerede søgeudtryk, fx et, der finder forekomster af både fabrikken og fabriken på en gang I listerne optræder der sommetider fejl, fx for mesing, som hverken findes i Korpus 2000 eller Korpus 90 Korpus 2000 34 / 47

Regulære udtryk Egenskaber Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Et mere avanceret jokertegnsystem Bliver standard i fremtidig Korpus 2000-grænseflade Med et lille kneb kan man allerede søge med regulære udtryk i den eksisterende grænseflade Korpus 2000 35 / 47

Regulære udtryk Egenskaber Jokertegn Et mere avanceret jokertegnsystem Bliver standard i fremtidig Korpus 2000-grænseflade Med et lille kneb kan man allerede søge med regulære udtryk i den eksisterende grænseflade Regulære udtryk Eksempler Søgning Orddannelse Princippet matcher ét vilkårligt tegn aryl matcher akryl og acryl i Korpus 90 cing matcher catering, centring, chaffing, charming, cleaning, clearing, coaching, coatning, counting, citering, clubbing, cracking og cruising Korpus 2000 35 / 47

Regulære udtryk 1 Indtast søgeord med regulære udtryk efterfulgt af mellemrum og asterisk: Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Korpus 2000 35 / 47

Regulære udtryk 2 Modificer søgeudtrykket: Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Korpus 2000 35 / 47

Regulære udtryk 3 Se konkordans: Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Korpus 2000 35 / 47

] ^ _ c c e d c d Regulære udtryk Gentagelsessymboler Jokertegn Regulære udtryk Eksempler Søgning Orddannelse symbol `ba ` a `ba betydning nul eller én forekomst af forudgående tegn eller sekvens nul eller flere forekomster af forudgående tegn eller sekvens én eller flere forekomster af forudgående tegn eller sekvens NB! Virker ikke i K2000-interfacet! præcis n forekomster af forudgående tegn eller sekvens mellem n og m forekomster af forudgående tegn eller sekvens mindst n forekomster af forudgående tegn eller sekvens Korpus 2000 35 / 47

gf ih j k l Regulære udtryk Andre symboler Jokertegn Regulære udtryk Eksempler Søgning Orddannelse symbol betydning grupperer tegn (eller sekvenser) til en sekvens, der skal opfattes som en enhed definerer en mængde af tegn, hvoraf ét skal matche eller fra til det efterfølgende tegn, som normalt har en særlig betydning i regulære udtryk, skal opfattes bogstaveligt Korpus 2000 35 / 47

nm o p } { q q x no p } o { w w Eksempler med regulære udtryk Eksempler 1 eksempel p n qsr p n xzy tvu w tvu resultat centeret og centret ha, haha, hahaha osv Parenteserne Jokertegn Regulære udtryk Eksempler Søgning Orddannelse p r o }v~ p r o }v~ x ƒ t n ~ o w n o ~ r n r n omgiver den sekvens, der her kan forekomme nul eller flere gange ord, der ender på konstruktion (men ikke selve ordet konstruktion) samme som ovenfor, men dennegang matches også alle bøjningsformerne af konstruktion forekomsterne af hejhej x tvu ˆ forekomsterne af haha og hahaha Korpus 2000 36 / 47

Š y { } m x r ~ r u w r ~ x r u r ~ w Eksempler med regulære udtryk Eksempler 2 eksempel ˆ t resultat forekomsterne af åh, stavet med mindst 2 å er og mindst 3 h er, fx ååhhh og åååhhh Jokertegn Regulære udtryk Š Ž Œ ~ u n y { ord med en sekvens på mindst 4 vokaler (med små bogstaver), fx bureauer, Eksempler layout, niveauet, paranoiaen, ferieøen, Søgning Orddannelse biiiip, boiiing, yoyoen Š Ž Œ ~ u n ord på mindst to bogstaver, der alle skal være vokaler, fx you, eau, au, ae, ƒ u ~ Nicolai, Nikolai, Nicolaj, Nikolaj morfar, mormor morfar, mormor, farfar, farmor tal (skrevet med cifre) Korpus 2000 36 / 47

Š w Š Ž x { Ÿ ž œ w š {{matcher et punktum, mens Eksempler med regulære udtryk Eksempler 3 eksempel resultat Jokertegn Regulære udtryk Eksempler Søgning Orddannelse u x r u u ord, der begynder med ét eller flere bogstaver mellem a og z og æ, ø og å (sådan undgås navne, der staves med stort), og som ender på gård hhv gaard, fx andegård, fødegård, kirkegård, kirkegaard, skolegård, herregaard, banegård ord, som begynder med mindst ét stort bogstav efterfulgt af punktum; en sådan sekvens skal forekomme mindst 4 gange (NB! matcher et vilkårligt bogstav!); eksempler: SOAP, LOVE, Korpus 2000 TEAM, DONG, SWIFT 36 / 47

Søgning vha regulære udtryk Prøv de følgende søgninger i Korpus 2000 og Korpus 90 Jokertegn Regulære udtryk Eksempler Søgning Orddannelse dansk* EU-forbehold bogstaveligt? talt *igt? talt *ets [sb] diamen?tral* korrespond[ea]nce a*apla*ing Korpus 2000 37 / 47

Jokertegn og orddannelse Jokertegn Regulære udtryk Eksempler Søgning Orddannelse Jokertegn kan også bruges til at søge på bestemmte afledningsaffikser med, fx -eri -agtig Type: substantiv afledt af infinitiv Søgning med jokertegn: *eri Søgning med regulære udtryk: *eri Type: adjektiv afledt af substantiv Søgning med jokertegn: *agtig Søgning med regulære udtryk: *agtig Hvilke fordele og ulemper er ved de to måder at søge på? Hvad kan der konkluderes ud fra resultaterne? Korpus 2000 38 / 47

Semaskop og Den Danske Ordbogs korpus Hvad er Semaskop? Eksempel Korpus 2000 39 / 47

Hvad er Semaskop? Hurtige søgninger i store korpora: Med Semaskop kan man»slå op«i et korpus og finde ud af, hvordan ord og vendinger bliver brugt i sproget Semaskop kan downloades frit fra Hvad er Semaskop? Eksempel Korpus 2000 40 / 47

Hvad er Semaskop? Hurtige søgninger i store korpora: Med Semaskop kan man»slå op«i et korpus og finde ud af, hvordan ord og vendinger bliver brugt i sproget Semaskop kan downloades frit fra Kun til Semaskop-korpora: Semaskop fungerer kun sammen med særlige Semaskop-korpora, som kan downloades fra DSL s site Hvad er Semaskop? Eksempel Korpus 2000 40 / 47

Hvad er Semaskop? Hvad er Semaskop? Eksempel Hurtige søgninger i store korpora: Med Semaskop kan man»slå op«i et korpus og finde ud af, hvordan ord og vendinger bliver brugt i sproget Semaskop kan downloades frit fra Kun til Semaskop-korpora: Semaskop fungerer kun sammen med særlige Semaskop-korpora, som kan downloades fra DSL s site Før download: Inden man kan downloade Semaskop, skal man tilmelde sig som bruger af DSL s sprogmaterialer på Korpus 2000 40 / 47

Hvad er Semaskop? Hvad er Semaskop? Eksempel Hurtige søgninger i store korpora: Med Semaskop kan man»slå op«i et korpus og finde ud af, hvordan ord og vendinger bliver brugt i sproget Semaskop kan downloades frit fra Kun til Semaskop-korpora: Semaskop fungerer kun sammen med særlige Semaskop-korpora, som kan downloades fra DSL s site Før download: Inden man kan downloade Semaskop, skal man tilmelde sig som bruger af DSL s sprogmaterialer på Brug Semaskop sammen med DDO s korpus: består i Semaskop-versionen af Korpus 90 (28 mio ords tekst) samt ca 8 mio ords talesprog Korpus 2000 40 / 47

Hvad er Semaskop? Hvad er Semaskop? Eksempel Hurtige søgninger i store korpora: Med Semaskop kan man»slå op«i et korpus og finde ud af, hvordan ord og vendinger bliver brugt i sproget Semaskop kan downloades frit fra Kun til Semaskop-korpora: Semaskop fungerer kun sammen med særlige Semaskop-korpora, som kan downloades fra DSL s site Før download: Inden man kan downloade Semaskop, skal man tilmelde sig som bruger af DSL s sprogmaterialer på Brug Semaskop sammen med DDO s korpus: består i Semaskop-versionen af Korpus 90 (28 mio ords tekst) samt ca 8 mio ords talesprog Manual til Semaskop kan ses under Korpus 2000 40 / 47

Eksempel Hvad er Semaskop? Eksempel Korpus 2000 41 / 47

DSL s online-ordbøger Projektet ordnetdk ODS ODS digital Korpus 2000 42 / 47

Projektet ordnetdk Målsætning: Integrere DSL s ordbøger og korpora i et web-baseret system Projektet ordnetdk ODS ODS digital Korpus 2000 43 / 47

Projektet ordnetdk Målsætning: Integrere DSL s ordbøger og korpora i et web-baseret system Delprojekter: Ordbog over det danske Sprog i en web-version Videreudvikling af DDO til en digital ordbog Projektet ordnetdk ODS ODS digital Underprojekt: DanNet et WordNet for dansk Videreudvikling og integration af korpus-resurserne Korpus 2000 43 / 47

Projektet ordnetdk Målsætning: Integrere DSL s ordbøger og korpora i et web-baseret system Delprojekter: Ordbog over det danske Sprog i en web-version Videreudvikling af DDO til en digital ordbog Projektet ordnetdk ODS Underprojekt: DanNet et WordNet for dansk Videreudvikling og integration af korpus-resurserne ODS digital Udviklingsarbejde: Koncept for digitale Ordbøger: generalisering, multifunktionalitet Korpuslingvistiske metoder Korpus 2000 43 / 47

Ordbog over det danske Sprog Projektet ordnetdk ODS Produkt: ekscerptbaseret ordbog over dansk i perioden 1700 1950 Målgruppe: den dannede læser Udarbejdet: 1915 1956 Digitalt format: typografisk opmærket ODS digital Korpus 2000 44 / 47

Ordbog over det danske Sprog Projektet ordnetdk ODS Produkt: ekscerptbaseret ordbog over dansk i perioden 1700 1950 Målgruppe: den dannede læser Udarbejdet: 1915 1956 Digitalt format: typografisk opmærket ODS digital Offentlig web-version: Korpus 2000 44 / 47

Ordbog over det danske Sprog digital Projektet ordnetdk ODS ODS digital Korpus 2000 45 / 47

Afslutning Mere information Korpus 2000 46 / 47

ª Mere information Forskellige artikler om Korpus 2000 og andet korpus- og ordbogsarbejde findes på min hjemmeside Send endelig en mail til mig, hvis I har yderligere spørgsmål; mail-adressen fremgår af min hjemmeside Denne præsentation vil blive lagt ud på hjemmesiden Mere information Korpus 2000 47 / 47