Intro til design og brug af korpora

Relaterede dokumenter
En rundvisning i ordnet.dk

Korpusbaseret lemmaselektion og opdatering

Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90.

Sprogteknologiske resourcer for islandsk leksikografi

sproget.dk en internetportal for det danske sprog

Korpus 2010 DK-CLARIN

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Kvantitative metoder inden for korpuslingvistiske projekter

NORDISKE STUDIER I LEKSIKOGRAFI

Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47

Sprogteknologi I Undervisningsplan Forårssemester 2009

LEKSIKOGRAFISK TRADITION OG FORNYELSE: Digital revolution eller organisk reformisme? Lars Trap-Jensen NFL, Oslo 2013

It-støttet excerpering og registrering af nye ord og ordforbindelser

Korpuslingvistik. Birthe Mousten M.Engl. Ph.D. 10. oktober 2014

Formula 1. Hvis du vil udfordre dine elever, kan du bede dem slå gloserne fra, når de læser teksten.

Sprogteknologi I Undervisningsplan Forårssemester 2008

Fra begreb til bog om Den Danske Begrebsordbog

At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk

Corpus Linguistics Used to Explore New Fields. Birthe Mousten

Fagstudieordning Bachelordelen af sidefaget i tysk sprog og kultur 2019

ordnet.dk ordbøger og korpus på internettet

Informationssøgning metoder og scenarier

DiaSketching og afterminologisering hvornår er en term en term? Nordterm juni 2005 Reykjavik, Island

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

Indholdsfortegnelse. Websites om sprog 4. Bedragede eller bedrog? 6. Konfiskering eller konfiskation? 8. Dobbelt- eller enkeltkonsonant første del 10

Nyt fra fagkonsulenten august 2018

NyS. NyS og artiklens forfatter

Eckhard Bick Institut for Sprog og Kommunikation, SDU Odense Universitet

Kulturudvalget (Omtryk Fejl i folder) KUU Alm.del Bilag 49 Offentligt

Lyngallup om seksuel forførelse. Dato: december 2010

Systematisk oversigt. Sprogbeskrivelse:

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

Teoretisk og Anvendt Sprogvidenskab I Logopædi & (Pædagogisk) Audiologi Efterår 2016 Skriftlig aflevering med peer-feedback Syntaks

DK CLARIN: METADATA FOR WP4 RESSOURCER

Undervisningsbeskrivelse

Semantikopgave Ved Tobias Scavenius

The Joanna Briggs Institute EBP Database Vejledning

CorpusEye - Et brugervenligt web-interface for grammatisk opmærkede korpora

Om så og der som genoptagere for ekstraponerede tidog stedsadverbialer

Anglo-American culture and literature + Mythbusters (grundforløb)

Hans-Peder Kromann. Base b11: FAGSPROGSBIBLIOGRAFIEN. Sprogbiblioteket, HERMES on-line katalog, Handelshøjskolen

Sådan bruger du Den Engelske Regnskabsordbog

Morfologi og syntaks

Web of Science Vejledning

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Klassifikation af korpustekster, og kvantitative mål for sammensætningen af et almensprogligt korpus

Evaluering af dansk efter 9 kl på Ahi Internationale Skole Det talte sprog. Fælles Mål. Ahi Internationale Skole.

Sådan bruger du Den Danske Regnskabsordbog

Du skal lære. o o o o o. Om filmen. Filmen er en animationsfilm. Animation betyder at gøre noget levende.

Spørgsmål om ophavsret den islandske erfaring

Introduktion til korpusværktøjet CoREST

LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER WALK AND TALK WALK AND TALK WALK AND TALK WALK AND TALK WALK AND TALK

Danmarks Biblioteksskole

Censorvejledning Engelsk A, STX Engelsk B, STX 2017-læreplan Maj Line Flintholm, fagkonsulent

stavning bøjning udtale oprindelse betydning brug Baggrund og omfang

Hvad ved vi nu. om danske talesprog? Redigeret af Frans Gregersen og Tore Kristiansen SPROGFORANDRINGSCENTRET

Læringsmål på NIF. Dansk. for yngste-, mellemste- og ældste trinnet 2014/15

Diskursrelationer

Bilag 5. Hvor er du blevet oplyst om frivilligt arbejde eller har du set et opslag for frivilligt arbejde?(gerne flere svar)

Skabelon for. Faculty of Humanities Curriculum for the Elective Studies in IT and Language The 2007 Curriculum. Justeret 2010

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

Google. SEO, AdWords og Analytics. Thomas T. Sloth -

Pensum- og uddybende prøvebestemmelser for. Balkanstudier INSTITUT FOR TVÆRKULTURELLE OG REGIONALE STUDIER

Fagformål for faget tysk

Fra bog til base - om implementering af nye edb-programmer ved Ømålsordbogen

DIGITAL HUMANIORA CAFE. 20. April 2015

Giver dialektforskningens by-land-dikotomi stadig mening?

Nye forskningsresultater om den skriftlige sprogbrug i uddannelsessektoren

Vejledning for censorer i skriftlig spansk begyndersprog A, stx. Gl-Spansk digital

Delma l for Danish. Det talte sprog. Måltaksonomi: Beginners Middlegroup Advanced Efter Y4 Forstå enkle ord og vendinger knyttet til dagligdagen

Undervisningsbeskrivelse

Årsplan 9.x. dansk TG. Uge Indhold Materialer, tekster, mm. FællesMål 33 Grammatik Sådansk Forberedelser til skolerejsen 36

Potensrækker. Morten Grud Rasmussen november Definition 1 (Potensrække). En potensrække er en uendelig række på formen

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

Pensum- og uddybende prøvebestemmelser. Russisk

Årsplan for 4. klasse (dansk)

På Friskolen Østerlund lægger vi i danskundervisningen særligt vægt på

Brugervejledning til testsystemet for de nationale test

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

Rettelserne er markeret med understregning. 13. Socialisations- og institutionsforståelser (Culturalization and Institutional Analysis)

Goanimate til fremmedsprogsundervisning. Danièle Eychenne

ETABLERINGSKONFERENCE

The Joanna Briggs Institute EBP Database Vejledning

Årsplan for 4. klasse (dansk)

Embase Vejledning. Avanceret søgning (Advanced Search)

De skriftlige eksamensgenrer i engelsk

Lyngallup. E-Bog. Lyngallup. TNS Dato: 11. oktober 2012 Projekt: 58783

NyS. NyS og artiklens forfatter

Dansk 4. klasse. Periode Emne Mål Evaluering Uge. Eleverne skal i 33. makkerpar lave OL OL London Lytte aktivt til andre og

DanNet Fra ordbog til et leksikalsk-semantisk WordNet for dansk

CD-ORD. Værktøjet til læsning og skrivning. mikro Værkstedet

Automatiske metoder til excerpering af nye ord

Repræsentationer af handlinger og sproghandlinger

Lyngallup til BT om sex

DANNET ET LEKSIKALSK-SEMANTISK WORDNET FOR DANSK

ordbøgerne og internettet

Sprogteknologi på Færøerne

HACK4DK 2016: Analyse af kvalitative data 1 Case: "Dem drages jeg imod"

IF SKIP_INTROSide = 0 IntroSide Coverscreen-guiden fører dig igennem de nødvendige trin til at opdatere de oplysninger, vi har om en husstand.

Transkript:

Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk

Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk

Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk et reklameindslag...

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Sproghistoriske fremstillinger Bibliografier Ordbøger og sprogteknologi

Hvad er DSL? Det Danske Sprog- og Litteraturselskab: Tekstudgivelser Bibliografier Ordbøger og sprogteknologi www.dsl.dk Sproghistoriske fremstillinger

Program 1. Tekstkorpora og referencekorpora 2. Korpussammensætning 3. Korpusopmærkning 4. Korpusundersøgelser 5. Fremtiden

Korpuslingvistik 1. Sprogbeskrivelse på baggrund af korpora 2. Teori og praksis for hensigtsmæssig opbygning og udnyttelse af korpora

Hvad er et korpus?

Hvad er et korpus? In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998

Hvad er et korpus? In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998 almensprog el. særsprog

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998 almensprog el. særsprog

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998 almensprog el. særsprog stort og balanceret

Hvad er et korpus? i digital form In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Kennedy 1998 almensprog el. særsprog stort og balanceret

Hvad er et korpus? i digital form Referencekorpus: In the language sciences a corpus is a body of written antaget text or transcribed repræsentativ speech which can serve as a basis for linguistic analysis and description. stikprøve Kennedy af 1998 sproget almensprog el. særsprog stort og balanceret

Referencekorpora Korpus Tekster Ord DDO 43.000 40 mio. Korpus 90 28 mio. Korpus 2000 28 mio.

Referencekorpora Korpus Tekster Ord DDO 43.000 40 mio. Korpus 90 28 mio. Korpus 2000 28 mio.

Referencekorpora Korpus Tekster Ord DDO 43.000 40 mio. Korpus 90 28 mio. Korpus 2000 28 mio.

Referencekorpora Korpus Tekster Ord DDO 43.000 40 mio. Korpus 90 28 mio. Korpus 2000 28 mio. Korpussammensætning eksemplificeres ved DDO s korpus

Program 1. Tekstkorpora og referencekorpora 2. Korpussammensætning 3. Korpusopmærkning 4. Korpusundersøgelser 5. Fremtiden

Korpussammensætning Tekstinfo

Korpussammensætning Tekstinfo Domæne 66 hhv. 12 forskellige værdier, fx geografi, musik, filosofi

Korpussammensætning Tekstinfo Domæne Genre 66 hhv. 12 forskellige værdier, fx geografi, musik, filosofi 131 hhv. 17 forskellige værdier, fx roman, interview, essay

Korpussammensætning Tekstinfo Domæne Genre Medium 66 hhv. 12 forskellige værdier, fx geografi, musik, 131 filosofi hhv. 17 forskellige værdier, fx roman, interview, 13 essay forskellige værdier, fx bog, avis, dagbog

Korpussammensætning Tekstinfo Domæne Genre Medium Sprogtype 66 hhv. 12 forskellige værdier, fx geografi, musik, 131 filosofi hhv. 17 forskellige værdier, fx roman, interview, 13 essay forskellige værdier, fx bog, avis, almensprog dagbog eller fagligt sprog

Korpussammensætning Tekstinfo Domæne Genre Medium Sprogtype Udtryk 66 hhv. 12 forskellige værdier, fx geografi, musik, 131 filosofi hhv. 17 forskellige værdier, fx roman, interview, 13 essay forskellige værdier, fx bog, avis, almensprog dagbog eller fagligt sprog talesprog eller skriftsprog

Korpussammensætning Tekstinfo Domæne Genre Medium Sprogtype Udtryk Aspekt 66 hhv. 12 forskellige værdier, fx geografi, musik, 131 filosofi hhv. 17 forskellige værdier, fx roman, interview, 13 essay forskellige værdier, fx bog, avis, almensprog dagbog eller fagligt sprog talesprog eller skriftsprog reception eller produktion

Korpussammensætning Tekstinfo Domæne Genre Medium Sprogtype Udtryk Aspekt Produktionsår 66 hhv. 12 forskellige værdier, fx geografi, musik, 131 filosofi hhv. 17 forskellige værdier, fx roman, interview, 13 essay forskellige værdier, fx bog, avis, almensprog dagbog eller fagligt sprog talesprog eller skriftsprog 1983 1992 reception eller produktion

Korpussammensætning Sprogbrugerinfo

Korpussammensætning Sprogbrugerinfo Køn mand, kvinde, ukendt

Korpussammensætning Sprogbrugerinfo Køn Fødselsår mand, kvinde, ukendt 1880 1990

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested mand, kvinde, ukendt 1880 1990 frit stednavn

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde mand, kvinde, ukendt 1880 1990 frit stednavn 11 regioner

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde Udannelse mand, kvinde, ukendt 1880 1990 frit stednavn 11 regioner fri betegnelse

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde Udannelse Erhverv mand, kvinde, ukendt 1880 1990 frit stednavn 11 regioner fri betegnelse fri betegnelse

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde Udannelse Erhverv Rolle mand, kvinde, ukendt 1880 1990 frit stednavn 11 regioner fri betegnelse fx lærer, elev fri betegnelse

Korpussammensætning Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde Udannelse Erhverv Rolle

Korpussammensætning Header Tekstinfo Domæne Genre Medium Sprogtype Udtryk Aspekt Produktionsår Sprogbrugerinfo Køn Fødselsår Fødested Dialektområde Udannelse Erhverv Rolle

Korpussammensætning Header Tekstinfo Sprogbruger

Korpussammensætning Korpusenhed Header Tekstinfo Sprogbruger Tekst <p><f>ny DUFT.</f> Den er sødlig. Eksotisk. Så forførende, at den lokker til romantisk eventyr.</p> <p>gracious! Din nye Impulse. Med duften, som er in lige nu hos de fineste parfumehuse i verden.</p> <p>og den milde deovirkning, der holder dig frisk og dejlig.</p> <p>hele dagen.</p> <p><f>gracious.</f></p> <p>deodorant og parfume. Altid en duft for dig.</p> <p><f>impulse</f></p> <p>perfumed deodorant</p> <p>gracious</p>

Korpussammensætning <Korpusenhed> <Header> <TxtOpl> <Id>RTng</Id><Restr><Ano>-</Ano><DDO>-</DDO></Restr><Ttit>-</Ttit><Vtit>Vi Unge</ Vtit><Forl>Specialbladsforlaget</Forl><Dat><Dg>-</Dg><Md>3</Md><År>88</År><Si>-</Si></Dat><Lo>3:</ Lo><AlFa>a</AlFa><SkTa>s</SkTa><RePr>r</RePr><Arel>vu</Arel><Medi>bl</Medi> <Genr>rekl</Genr><GnTy>ann</GnTy><Emne>65</Emne><Grp>ViUnge-rekl1KK</Grp><Num>1</ Num><Fil>VIUNREKL</Fil><Omf>715</Omf> </TxtOpl> <SpbOpl> <EfN>?</EfN><FoN>?</FoN><Køn>?</Køn><FøÅr><År>?</År><Si>-</Si></FøÅr><FøS>?</FøS><Bop>?</ Bop><Reg>?</Reg><Udd>?</Udd><Erh>?</Erh><SpV>i</SpV><Rol>?</Rol> </SpbOpl> </Header> <Tekst ID=RTng> <p><f>du HAR ALDRIG SET HAM FØR</f></p><p><f>PLUDSELIG GI'R HAN DIG BLOMSTER</f></ p><p><f>impulse</f></p><p><f>ny DUFT.</f> Den er sødlig. Eksotisk. Så forførende, at den lokker til romantisk eventyr.</p><p>gracious! Din nye Impulse. Med duften, som er in lige nu hos de fineste parfumehuse i verden.</p><p>og den milde deovirkning, der holder dig frisk og dejlig.</p> <p>hele dagen.</p><p><f>gracious.</f></p><p>deodorant og parfume. Altid en duft for dig.</ p><p><f>impulse</f></p><p>perfumed deodorant</p><p>gracious</p> </Tekst> </Korpusenhed>

Korpussammensætning <Korpusenhed> <Header> <TxtOpl> <Id>RTng</Id><Restr><Ano>-</Ano><DDO>-</DDO></Restr><Ttit>-</Ttit><Vtit>Vi Unge</ Vtit><Forl>Specialbladsforlaget</Forl><Dat><Dg>-</Dg><Md>3</Md><År>88</År><Si>-</Si></Dat><Lo>3:</ Lo><AlFa>a</AlFa><SkTa>s</SkTa><RePr>r</RePr><Arel>vu</Arel><Medi>bl</Medi> <Genr>rekl</Genr><GnTy>ann</GnTy><Emne>65</Emne><Grp>ViUnge-rekl1KK</Grp><Num>1</ Num><Fil>VIUNREKL</Fil><Omf>715</Omf> </TxtOpl> <SpbOpl> <EfN>?</EfN><FoN>?</FoN><Køn>?</Køn><FøÅr><År>?</År><Si>-</Si></FøÅr><FøS>?</FøS><Bop>?</ Bop><Reg>?</Reg><Udd>?</Udd><Erh>?</Erh><SpV>i</SpV><Rol>?</Rol> </SpbOpl> Tekstinfo Sprogbrugerinfo </Header> Domæne Køn <Tekst ID=RTng> Genre Fødselsår <p><f>du HAR ALDRIG SET HAM FØR</f></p><p><f>PLUDSELIG GI'R HAN DIG BLOMSTER</f></ p><p><f>impulse</f></p><p><f>ny DUFT.</f> Medium Den er sødlig. Fødested Eksotisk. Så forførende, at den lokker til romantisk eventyr.</p><p>gracious! Din nye Impulse. Med duften, som er in lige nu hos de Sprogtype Dialektområde fineste parfumehuse i verden.</p><p>og den milde deovirkning, der holder dig frisk og dejlig.</p> <p>hele dagen.</p><p><f>gracious.</f></p><p>deodorant Udtryk Udannelse og parfume. Altid en duft for dig.</ p><p><f>impulse</f></p><p>perfumed deodorant</p><p>gracious</p> </Tekst> Aspekt Erhverv </Korpusenhed> Produktionsår Rolle

Korpussammensætning Korpusenhed Header Tekstinfo Sprogbruger Tekst <p><f>ny DUFT.</f> Den er sødlig. Eksotisk. Så forførende, at den lokker til romantisk eventyr.</p> <p>gracious! Din nye Impulse. Med duften, som er in lige nu hos de fineste parfumehuse i verden.</p> <p>og den milde deovirkning, der holder dig frisk og dejlig.</p> <p>hele dagen.</p> <p><f>gracious.</f></p> <p>deodorant og parfume. Altid en duft for dig.</p> <p><f>impulse</f></p> <p>perfumed deodorant</p> <p>gracious</p>

Korpussammensætning 43.000 korpusenheder sammensat på en balanceret måde

Korpussammensætning 43.000 korpusenheder sammensat på en balanceret måde Referencekorpus over 1980 ernes dansk på 40 mio. ord

Program 1. Tekstkorpora og referencekorpora 2. Korpussammensætning 3. Korpusopmærkning 4. Korpusundersøgelser 5. Fremtiden

Korpusopmærkning På tekstniveau På ordniveau På andre niveauer: sætning, morfem etc.

Korpusopmærkning Behandlet ifm. med headerne På tekstniveau På ordniveau På andre niveauer: sætning, morfem etc.

Korpusopmærkning Behandlet ifm. med headerne På tekstniveau På ordniveau På andre niveauer: sætning, morfem etc. Kommer vi ikke ind på

Korpusopmærkning Behandlet ifm. med headerne På tekstniveau På ordniveau Eksemplificeres ved Korpus 2000 På andre niveauer: sætning, morfem etc. Kommer vi ikke ind på

Abstraktionsniveauer Udgangspunkt: løbende tekst Token- og sætningsopdeling Lemmatisering Ordklassetagging Syntaktisk parsning Semantisk opmærkning

Abstraktionsniveauer Udgangspunkt: løbende tekst Token- og sætningsopdeling Lemmatisering Ordklassetagging Syntaktisk parsning Semantisk opmærkning Disse 3 niveauer ser vi nærmere på

Tokenopdeling Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride arts barriererne.

Tokenopdeling Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride arts barriererne.

Tokenopdeling Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride arts barriererne.

Tokenopdeling Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er mere tidskrævende Tokens,,, Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride arts barriererne. Tokenadskillere

Lemmatisering Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er mere tidskrævende,,,

Lemmatisering Traditionelt forædlingsarbejde har de traditionel forædlingsarbejde have den Lemmaformer (grundformer) samme mål, samme mål men må men måtte bruge metoder, bruge metode der er der være mere tidskrævende, meget tidkrævende

Lemmatisering Traditionelt forædlingsarbejde har de traditionel forædlingsarbejde have den Lemmaformer (grundformer) samme mål, samme mål men må men måtte bruge metoder, bruge metode der er der være mere tidskrævende, meget tidkrævende

Lemmatisering Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er mere tidskrævende,,, traditionel forædlingsarbejde have den samme mål men måtte bruge metode der være meget tidkrævende Lemmaformer (grundformer) Lemmatisering forudsætter et fuldformsleksikon og en disambigueringsrutine

Ordklassetagging Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er mere tidskrævende,,, traditionel forædlingsarbejde have den samme mål men måtte bruge metode der være meget tidskrævende

Ordklassetagging Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er mere tidskrævende Ordklassetagging have forudsætter den et fuldformsleksikon samme og en disambigueringsrutine, mål,, traditionel forædlingsarbejde men måtte bruge metode der være meget tidskrævende ADJ N V ART DET N KC V V N INDP V ADV ADJ NEU S IDF NOM NEU S IDF NOM PR AKT ng P DEF ng nn NOM NEU P IDF NOM PR AKT INF AKT UTR P IDF NOM ng nn NOM PR AKT COM ng nn nd NOM Ordklassetags Bøjningstags

Tekstformat Traditionelt forædlingsarbejde traditionel forædlingsarbejde ADJ N NEU S IDF NOM NEU S IDF NOM har de have den V ART PR AKT ng P DEF samme mål, samme mål DET N ng nn NOM NEU P IDF NOM men må men måtte KC V PR AKT bruge metoder, bruge metode V N INF AKT UTR P IDF NOM der er der være INDP V ng nn NOM PR AKT mere tidskrævende, meget tidskrævende ADV ADJ COM ng nn nd NOM

Tekstformat Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er Tokens mere tidskrævende,,, traditionel forædlingsarbejde have den samme mål men måtte bruge metode der være meget tidskrævende ADJ N V ART DET N KC V V N INDP V ADV ADJ NEU S IDF NOM NEU S IDF NOM PR AKT ng P DEF ng nn NOM NEU P IDF NOM PR AKT INF AKT UTR P IDF NOM ng nn NOM PR AKT COM ng nn nd NOM

Tekstformat Traditionelt forædlingsarbejde har de samme mål men må bruge metoder der er Tokens mere tidskrævende,,, traditionel forædlingsarbejde have den samme mål men måtte bruge metode der være meget tidskrævende ADJ N V ART DET N Attributter KC V PR AKT V INF AKT N UTR P IDF NOM INDP V ADV ADJ NEU S IDF NOM NEU S IDF NOM PR AKT ng P DEF ng nn NOM NEU P IDF NOM ng nn NOM PR AKT COM ng nn nd NOM

Program 1. Tekstkorpora og referencekorpora 2. Korpussammensætning 3. Korpusopmærkning 4. Korpusundersøgelser 5. Fremtiden

Søgning i korpus En hvilken som helst kombination af tokens og tokenattributter Headeroplysninger kan inddrages

Søgning i Korpus 2000 En hvilken som helst kombination af tokens og tokenattributter Headeroplysninger kan inddrages

Søgning i Korpus 2000 Visse begrænsninger pga. brugervenlighed En hvilken som helst kombination af tokens og tokenattributter Headeroplysninger kan inddrages Ikke muligt

Hvad er Korpus 2000? Referencekorpus over dansk sprog omkring år 2000 Omfang på 28 mio. tokens Sammenlignende undersøgelser med DDO s korpus (Korpus 90)

Hvad er Korpus 2000? Referencekorpus over dansk sprog omkring år 2000 Omfang på 28 mio. tokens Sammenlignende undersøgelser med DDO s korpus (Korpus 90) www.korpus2000.dk

Søgning på lemma

Søgning på lemma Gå ind på www.korpus2000.dk og indtast et ord Klik her

Søgning på lemma

Søgning på lemma Det indtastede regn kan både være en form af regn, sb. eller regne, vb. Vælg ønsket lemma... Klik her

Søgning på lemma

Søgning på lemma Klik her for at se en konkordans over formen regnen, sb. i Korpus 2000 Klik her for at se alle former af lemmaet regn, sb.

Søgning på lemma

Resultatet er en KWICkonkordans, sorteret Søgning på lemma KWIC = keyword in context

Sætningskløvning

Sætningskløvning Indtast en gruppe af ord. N og V er pladsholdere. Den lodrette streg betyder eller. Klik her

Sætningskløvning

Sætningskløvning Klik her Ret til vha. rullemenuerne: er være, vb. N sb. V vb.

Sætningskløvning

Sætningskløvning OBS! Vær kritisk over for resultatet! Resulterende KWIC-konkordans

Mere om søgning På www.korpus2000.dk kan man også Søge med regulære udtryk Se ordlister Lave kollokationsundersøgelser Se mere på korpus.dsl.dk/staff/ja/papers/ prag2006/presuniprag.pdf

Program 1. Tekstkorpora og referencekorpora 2. Korpussammensætning 3. Korpusopmærkning 4. Korpusundersøgelser 5. Fremtiden

Hvad er ordnet.dk?

Hvad er ordnet.dk? Igangværende DSL-projekt

Hvad er ordnet.dk?

Fremtiden ordnet.dk etablerer en samlet tilgang til Korpus 2000 og Korpus 90 Den Danske Ordbog Ordbog over det danske Sprog Følg med på dsl.dk/ordboger-ogsprogteknologi/ordnet.dk