At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk

Transkript

1 At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk Jørg Asmussen Det Danske Sprog- og Litteraturselskab Bidrag til Bente Maegaard-festskrift KLADDE-VERSION Resumé Indledningsvis præsenteres Den Danske Ordbogs Korpus, Korpus 90 og Korpus 2000 som eksempler på referencekorpusser for dansk; samtidig skitseres de kompositoriske principper, som ligger til grund for dem. Herefter udføres et par simple stikprøveagtige sammenlignende vokabularundersøgelser på Korpus 2000 og Korpus 90 for at få et indtryk af, hvorvidt disse korpusser er sammenlignelige. Undersøgelsesresultaterne peger på, at der åbenbart er markante kompositoriske forskelle på korpusserne, og der gennemføres derfor en komplet, log-likelihood-baseret vokabularundersøgelse, der skal kaste mere lys over forskellighedernes omfang, som viser sig at være omfattende. Herefter undersøges, hvorvidt samme type vokabularundersøgelser kombineret med teknikker til tekstklassifikation kan bruges til bedre kompositorisk balancering af fremtidens referencekorpusser for dansk, som DSL arbejder på at udvikle. Referencekorpusser for dansk og deres opbygning Det Danske Sprog- og Litteraturselskab har siden begyndelsen af 1990 erne udarbejdet en række korpusser over dansk almensprog en udvikling, der i 2002 foreløbig kulminerede med lanceringen af Korpus 2000 på Forfatteren takker Nicolai Hartvig Sørensen for kritiske kommentarer til en tidligere version af dette bidrag. 1

2 Korpus 2000 (K2000) består af 28 millioner ords tekstmateriale med det dansk, der blev skrevet omkring årtusindskiftet. Parallelt med Korpus 2000 blev der opbygget et korpus med lidt ældre sprog, nemlig Korpus 90 (K90), også på 28 millioner ord. Tanken var at kunne stille to i princippet ensartede og fuldt morfosyntaktisk annoterede 1 korpusser offentligt til rådighed på webbet, både til online-søgning og download: ét med firsernes sprog og ét med sproget omkring år Alle sproginteresserede skulle hermed få mulighed for at kunne udføre direkte sammenlignende undersøgelser af nyere dansk. Men i begyndelsen, længe før Korpus 2000 og længe før webbet, som det kendes i dag, blev Den Danske Ordbogs Korpus (DDOK) til: et 40 millioner ords stort almensprogligt korpus, som blev udarbejdet i , på et tidspunkt, hvor korpuslingvistik i måske endnu højere grad end i dag var en skønsom blanding af forskellige sprogteknologiske teknikker snarere end en erkendelsesorienteret videnskabelig disciplin, og hvor brugen af store almensproglige tekstkorpusser først og fremmest havde slået an i leksikografiske kredse, her drevet af håbet om at kunne høste en håndværksmæssig rationaliseringsgevinst. Det første korpusbaserede ordbogsprojekt [COBUILD: Sinclair et al., 1987] blev søsat i 1980 som et samarbejde mellem University of Birmingham og forlaget Collins. Det første danske korpusbaserde ordbogsprojekt var Den Danske Ordbog [DDO: Hjorth et al., 2003], jf. [Lorentzen, 2004]. Det var derfor også i vid udstrækning ordbogsredaktioners behov, der afspejlede sig i de korpuskompositoriske principper, man tilstræbte, således også for DDOK: Korpusset skulle gerne afspejle sproget som helhed med alle dets nuancer, det skulle være en repræsentativ stikprøve for sproget som sådant, det skulle derfor være balanceret og indeholde alle mulige typer tekst, både skrevne og talte, private og offentlige, almene og lettere faglige. Alle genrer skulle være repræsenteret og mange fagområder ligeledes. Rene fagtekster, hvori fagfolk henvender sig til deres lige, skulle derimod undgås. DDOK skulle være referencekorpusset over moderne dansk. For DDO s korpus blev der opstillet et komplekst beskrivelsesapparat for at få styr på teksternes forskellige karakteristika. Man var klar over, at helt objektive kriterier for, hvad der udgør et balanceret korpus, er umulige at opstille, så man valgte en pragmatisk tilgang i stedet. Man opstillede tre dikotomier over teksttyper, man mente skulle være repræsenteret, nemlig skriftsprog vs. talesprog, professionelt vs. privat sprog, og almensprog vs. lettere fagligt sprog. Med udgangspunkt heri kunne alt tekstmateriale opdeles i otte forskellige klasser. For hver af disse klasser blev det undersøgt, hvilke og hvor mange forskellige tekstkilder der var tilgængelige, og man stilede efter, at alle otte klasser skulle være velrepræsenteret i det samlede korpus. 1 Opmærkningen blev udført ved hjælp af DanPars-taggeren, jf. [Bick, 2003]. 2

3 Ud over disse tre grundlæggende dikotomier blev der til tekstbeskrivelsen anvendt ca. 25 yderligere oplysningstyper af bibliografisk, kommunikativ og sociolingvistisk relevans, som forudgår hver enkelt af de i alt tekststykker i korpus i form af en såkaldt header, jf. [Norling-Christensen and Asmussen, 1998] for en mere detaljeret beskrivelse. Meningen med alle disse oplysninger var dels, at man under opbygningen ville føre bog over, at korpusset blev så varieret og balanceret som muligt, dels at få realiseret et ønske om at kunne undersøge, hvilke forskelle der virkelig var fx på mænds og kvinders, gamles og unges, uddannedes og uuddannedes, vestjyders og sjællænderes sprogbrug hvis der da var nogen. Eller at finde frem til, hvad der var typisk for talesprog over for skriftsprog, romaner over for festsange, avishistorier over for skolestile. Også tanken om at kunne bruge headeroplysningerne som grundlag for udtrækning af specifikke korpusser fra det store korpus var nærliggende. Hensigten med de ønskede undersøgelsesmuligheder var, at resultaterne skulle kunne omsættes til deskriptive leksikalske beskrivelser af moderne dansk. Det, der endnu var rudimentært på daværende tidspunkt, og som stadig langt fra er fuldstændigt, er en egentlig metodologi for, hvordan man griber sådanne undersøgelser an: Hvordan udfører man kontrastive korpusundersøgelser? Hvordan finder man det typiske i en bestemt tekst eller teksttype? Besvarelsen af de to spørgsmål ville kunne udmøntes i et bud på operationelle metoder til, hvordan man i det hele taget deklarerer, hvad der er i et korpus og hvordan man bedst kategoriserer de tekster, der skal med i et korpus. Ifølge [Kilgarriff, 2001] er gængse korpusdeklarationer som oftest temmelig impressionistiske som fx aviskorpus, webkorpus, korpus over skolestile, private tekster osv. Metoder til korpusdeklaration kan muligvis føre til et bud på, hvordan man kan udtrykke tekstkorpussers repræsentativitet. Uden sådanne metoder er det vanskeligt at redegøre præcist for, hvad der fx er i DDOK, eller hvad der fx adskiller K90 fra K2000. Principper for, hvordan man bedst deklarerer tekster og korpusser, er ikke mindst nødvendige i takt med, at der bliver flere korpusser tilgængelige med mulighed for sammenlignende undersøgelser imellem dem. Hvis både K90 og K2000 virkelig er referencekorpusser, korpusser der påstås at kunne agere som stedfortrædere for sproget som sådant, så må det betyde, at det, der adskiller dem, alene er det, der er typisk for den tids sprog, de hver især er referencekorpus for. Sammenlignende vokabularundersøgelser Korpusbaseret sprogbeskrivelse kaldes gerne empirisk, hvilket vil sige, at den bør bero på objektive iagttagelser og reproducerbare eksperimenter. Hånd i hånd her- 3

4 med går en kvantitativ tilgang til det objekt, altså sproget, man ønsker at udsige noget om. At korpuslingvistik er blevet en overvejende kvantitativ disciplin, skyldes ikke mindst tekstkorpussers stadig stigende omfang: Det er umuligt at overskue dem med det blotte øje, det gælder både deres sammensætning og fremtrædende sproglige regelmæssigheder i dem. Umiddelbart falder de kvantitative metoder i to grupper: 1. Metoder til undersøgelse af en teksts eller et korpus beskaffenhed. Ønsket er at kunne gøre rede for, hvad der er i et korpus, hvilke teksttyper det er sammensat af, og at sammenligne korpusser og tekster med hinanden. Mere sofistikerede anvendelser af disse metoder er fx automatisk dokumentklassifikation eller indholdsresumering. 2. Metoder til fremfinding af bestemte sproglige strukturer. Ønsket er at finde både faste udtryk, fremtrædende samforekomster, syntaktiske strukturer m.v. En mere sofistikeret anvendelse af disse teknikker er fx sprogmodellering. Fælles for disse metoder er, at de ikke tager udgangspunkt i en kvalitativ fortolkning af materialet, inden de kommer til anvendelse: Med andre ord betragtes kun kvantificerbare enheder, der kan bestemmes entydigt, dvs. algoritmisk. Forholdsvis sikkert kan man segmentere tekstmaterialet i ord (tokens) og sætninger (dvs. perioder); her vil vi nøjes med udelukkende at se på unikke ordformer (types) i et korpus. Vi skal i det følgende se eksempler på, hvordan metoder fra den første gruppe kan anvendes til en besvarelse af de spørgsmål og problemstillinger, som blev fremsat i forudgående afsnit ved i princippet blot at gennemføre rene vokabularundersøgelser. I [Asmussen, 2004] blev der udført en række eksemplariske sammenlignende undersøgelser mellem K90 og K2000, herunder en række hyppighedssammenligninger for udvalgte ord. Det blev konstateret, at lemmaer som mobiltelefon eller benchmarking er betydeligt hyppigere i K2000 end i K90, mens fx biltelefon derimod er hyppigere i K90 forskelle, som intuitivt kan forklares ud fra en viden om verdens forandring fra 80 erne frem til omkring år 2000, og som derfor ikke undrer. Mere forunderligt var billedet derimod ved ord som kambrium, som er lavfrekvent i K90 og slet ikke forekommer i K2000, mens frekvente ord som bil, land eller Danmark viser ret markante hyppighedsforskelle i de to korpusser, hvor bil er hyppigere i K90, mens de to øvrige er hyppigere i K2000. På denne baggrund drøftedes spørgsmålet, hvilke metoder der er egnede ved sammenlignende kvantitative undersøgelser, og hvordan man kan sikre korpussers sammenlignelighed i det hele taget, således at de forskelle, man observerer for referencekorpusser fra to forskellige tidsperioder, faktisk er tidsbetingede og ikke resultatet af 4

5 tilfældig korpuskompositorisk støj. I [Asmussen, 2005b] introduceres invariante tekstuelle træk som betegnelse for en gruppe algoritmisk tællelige fænomener i en tekst; fænomener, der er karakteriseret ved, at de udviser ensartet udbredelse i tekster over længere tidsrum. Til denne gruppe antages at høre en række mellemfrekvente ordformer. Imidlertid gives der heri hverken kvantitative bud på, hvordan man statistisk underbygger sine umiddelbare sammenlignende iagttagelser af enkeltfænomener i to korpusser, eller hvordan man skaffer sig et overblik over to korpussers forskelle og ligheder i det hele taget. I det følgende skal der derfor udføres et par eksperimenter til illustration af, hvordan man kan anvende en statistisk signifikanstest til disse formål her udelukkende begrænset til teksters ordformer. Her anvendes log-likelihood-testen (G 2 ), som blev introduceret af [Dunning, 1994]. Han påviser, at andre udbredte statistiske test som χ 2 eller z-score ikke nødvendigvis egner sig, når man tæller ord (eller n-grammer) i korpusser, da de forvrænger resultaterne for lavfrekvente ord, som udgør den væsentligste del af det betydningsbærende vokabular. Loglikelihood-testen betragter det at tælle ord som en binær proces og følger derfor binomialfordelingen; hermed egner den sig bedre til at teste sjældne hændelser end de gængse normalfordelingsbaserede test. En beskrivelse af G 2 -testen skal ikke gives her, der henvises i stedet til [Dunning, 1994] for en teoretisk redegørelse og til [Garside and Rayson, 2000] for en mere anvendelsesorienteret. Testen er i øvrigt ligeledes velegnet til fremfinding af nye ord hhv. termekstraktion, jf. [Daille, 1995]. G 2 -testen er omend matematisk kompleks simpel at implementere, men har den skavank, at den ikke inddrager fænomenernes spredning i et større materiale (dispersion). Ifølge [Kilgarriff, 2001] skulle Mann-Whitney ranks test derfor være G 2 overlegen i hvert fald, sålænge korpusserne, der skal sammenlignes, er lige store til gengæld er den ret omstændelig at anvende. Vi skal først underkaste eksemplerne fra [Asmussen, 2004] G 2 -testen for at få et indtryk af, hvorvidt de konstaterede frekvensforskelle er statistisk signifikante. Resultaterne ses i tabel 1. Jo højere G 2 -værdi, desto mere statistisk signifikant er forskellen mellem de to forekomsttal. Det er fastlagt, at hvis G 2 3,8, så er der 95 procents sandsynlighed for, at hyppighedsforskellen på det givne ord i de to tekster ikke skyldes et tilfælde (p 0,95). Er G 2 6,6, er der endda 99 procents sandsynlighed herfor (p 0, 99). Oversigten i tabel 1 støtter delvis de intuitive fortolkninger i [Asmussen, 2004], nemlig at frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok: de skyldes med 99 procents sikkerhed ingen tilfældighed; dette er dog ikke ensbetydende med, at de kan fortolkes som tegn på sproglig forandring; umiddelbart kan de kun fortolkes som tegn på en forskel på 5

6 Lemma f K2000 f K90 G 2 Resultat overrepræsenteret (p 0, 99) mobiltelefon i K2000 benchmarking i K2000 biltelefon i K90 kambrium bil i K90 land i K2000 Danmark i K2000 cykel i K90 hus i K90 mand i K90 Tabel 1: G 2 -værdier for udvalgte ord i K2000 over for K90 K90 og K2000 at kambrium ikke med 99 procents sikkerhed (men dog med 95%) kan fortolkes som indikator på en forskel på K90 og K2000 og dermed vel heller ikke som tegn på en sproglig forandringsproces at hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, er statistisk signifikante. Hvis man antager, at almindelige ord som de sidstnævnte bør have en rimelig stabil udbredelse i sproget, også over lidt længere tidsrum, så indikerer den sandsynligvis ikke-tilfældige hyppighedsforskel en kompositorisk forskel på de to korpusser. En samlet vokabularundersøgelse Der er altså ikke blot intuitive, men også statistisk signifikante tegn på, at der er en forskel i sammensætningen af de to korpusser men hvor markant er den? For at få et indtryk heraf opstilles en komplet liste over samtlige ordformer, der i deres udbredelse i de to korpusser afviger så meget fra hinanden, at der næppe kan være tale om et tilfælde. Listen sorteres efter ikke-stigende G 2 -værdi. Tabel 2 viser toppen af denne liste 2, dvs. de statistisk mest fremtrædende vokabularforskelle 2 En mere omfattende liste er tilgængelig fra sprogtekbog/. 6

7 mellem de to korpusser. I kolonnerne +K90 og +K2000 er det markeret med et plus, i hvilket af de to korpusser pågældende ordform er overrepræsenteret. 7

8 Rang Ordform +K2000 +K90 G 2 1 EU du var hun mio at havde ham siger EF hende % han jeg NN mill Du dig danske pct direktør Hun har Internettet mig EUs Dansk_Folkeparti er procent gensplejsning Internet euroen Tabel 2: Ord, der mest signifikant adskiller K90 og K2000 fra hinanden 8

9 Resultatet viser umiddelbart to forhold: (1) at der er tidsbetingede forskelle på de to korpusser, og (2) at der må være påfaldende forskelle i sammensætningen af dem: 1. Ord som EU/EF, internett(et), Dansk_Folkeparti, euroen samt årstallene 1996, 1997, 1998, 2000, 2001 er entydigt tidsbestemte, og det overrasker derfor ikke, at de optræder blandt de ord, der mest signifikant adskiller de to korpusser fra hinanden. 2. Pronomener som du/dig, hun/hende, han/ham, jeg/mig, verber som siger, havde/har, var/er, subjunktionen/infinitivmarkøren at, adjektivet danske samt de fleste andre ord, som optræder i toppen af listen, og som ikke allerede er nævnt ovenfor under (1), burde intuitivt ikke optræde blandt de ord, der adskiller de to korpusser mest signifikant fra hinanden. Man burde kunne gå ud fra, at de under (2) anførte ordformer havde en ensartet udbredelse i to korpusser, der i deres sammensætning burde være rimelig identiske og derfor netop sammenlignelige. At de alligevel optræder med så høje G 2 - værdier, tyder stærkt på, at de to korpusser er sammensat mere forskelligt, end det måske ser ud til ved en ren overfladisk sammenlignende betragtning; og det viser ligeledes nødvendigheden af at udvikle statistiske metoder, der kan sikre en ensartet opbyging af to korpusser, der principielt kun må adskille sig i tidsdimensionen. Konkret betyder det, at der i toppen af en sådan sammenlignende G 2 -liste ikke må optræde ord som dem anført under punkt (2) ovenfor. Som det ses, kan log-likelihood-testen bruges til at lave mere tilforladelige sammenlignende undersøgelser af vokabularfrekvenser i korpusser, end man kan ved blot at sammenligne ordfrekvenser. Især ved enkelttekster eller homogent opbyggede korpusser er log-likelihood en meget enkel og velfungerende metode. Balancering af korpusser Resultaterne viser, at der er en markant kompositorisk forskel på K90 og K2000. Dette rejser spørgsmålet, hvorvidt det er muligt at bruge log-likelihood-testen ikke blot til afsløring af, om der er forskelle i sammensætningen af to korpusser, men også til bedre at styre sammensætningen af dem, at balancere et korpus, så det fx kommer til at ligne et allerede eksisterende. I første afsnit blev det beskrevet, hvordan headeroplysningerne i DDOK under selve udarbejdelsen af korpusset blev brugt til at holde styr på, hvor meget der var i korpusset af forskelligt materiale. Da headeroplysningerne er meget detaljerede og anvender begrænsede værdimængder for de fleste tekstbeskrivende kategorier, kan disse i kombination med log-likelihood-testen anvendes til at tilordne nyt tekstmateriale til disse kategorier. 9

10 Her skal der skitseres en mulig løsning på balanceproblemet, nemlig algoritmisk tekstklassifikation. For eksemplets skyld vil det her kun blive beskrevet, hvordan klassifikationen kan udføres med hensyn til tekstens domæne (headeroplysningen emne i DDOK). I det følgende introduceres først konceptet tekstspecifikke ord, der præciseres til specifikt vokabular, når der er fastlagt en signifikanstærskel. Dernæst demonstreres en heuristisk tilgang til tekstklassifikation, som herefter holdes op imod en alternativ tilgang. Tekstspecifikt vokabular Tekstspecifikke ord defineres som de ord, der er fremtrædende i en tekst, når man sammenligner den med en sproglig norm, fx et referencekorpus. Konceptet kan illustreres med et teksteksempel fra DDOK, der ifølge dens headeroplysninger stammer fra en fagsproglig monografi om emnet biologi. 3 Uddraget i DDOK omfatter ca ord; for at give et indtryk af teksten vises i figur 1 de indledende afsnit fra den. 4 Genteknologi betegner en samling teknikker, der er specielt beregnede til at ændre organismers arveegenskaber på målrettet måde. Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride artsbarriererne. De nye genteknologi-metoder tillader derimod overførsel af arveegenskaber mellem principielt alle organismer. Baggrunden for dette er, at alle levende organismer fra bakterier til mennesket indeholder arvemasse, der er opbygget på principielt samme måde. De arvelige egenskaber findes i lange, trådformede molekyler. Det kemiske navn for dette arvemateriale er DNA. I begyndelsen af 1970 erne fandt man ud af metoder til at klippe DNA-tråden over på bestemte steder og at klæbe stykkerne sammen igen på en ny måde. Denne rekombination af arvemateriale kan celler foretage naturligt, men det havde ikke tidligere kunnet gøres i laboratoriet. Rekombineret DNA betegnes også rdna. Teknikken betegnes undertiden rekombinant-dna-teknik eller gensplejsning. Den traditionelle forædlingsteknik benytter sig som sagt også af rekombination af arvemateriale. Når en kornart krydses med en vild, nærtbeslægtet plante, håber man netop på at opnå en gunstig rekombination. Den nye genteknologi tillader, at man i højere grad specifikt kan styre og kontrollere, hvad der sker. Og den tillader, at et arveanlæg fra en fremmed art indsættes i en organismes arvemasse. Figur 1: Tekst til illustration af G 2 -baseret bestemmelse af tekstspecifikke ord Et første indtryk af eksempeltekstens vokabular får man, hvis man opstiller en såkaldt frekvensprofil i sin mest primitive udgave blot en liste over samtlige 3 Kirsten Fink og Ole Terney: Sådan reguleres genteknologi. Praksis og erfaringer. Foreningen af Bioteknologiske Industrier i Danmark, Kapitel Hele korpusteksten er tilgængelig fra sprogtekbog/. 10

11 unikke ordformer (types) i en given tekstmængde sorteret efter ikke-stigende hyppighed. Toppen af en sådan frekvensprofil for eksempelteksten og for Korpus 90 som helhed er vist i tabel 3. 5 Rang Ordform i f absolut f pct Ordform i f absolut f pct eksemplet K90 1 at 175 3,18 og ,00 2 i 138 2,50 i ,76 3 er 125 2,27 at ,41 4 af 124 2,25 er ,90 5 for 97 1,76 en ,59 6 og 92 1,67 det ,59 7 til 91 1,65 til ,51 8 en 84 1,52 af ,44 9 der 79 1,43 på ,39 10 har 68 1,23 med ,21 Tabel 3: Ti hyppigste types i teksteksemplet og Korpus 90 Tabellen viser, at de mest udbredte ordformer i såvel eksempelteksten som K90 udelukkende er partikler og pronomener, et par former af hjælpeverberne (er på rang 3, har på rang 10). Betragter man hele frekvensprofilen, ser man, bortset fra verbalformen kan (rang 15), udelukkende partikler og pronomener på de 22 første pladser. Først på rang 23 optræder et ord med mere konkret indhold, nemlig mikroorganismer. Tabel 4 viser de mest signifikant overrepræsenterede ordformer i eksempelteksten efter en sammenligning af de komplette frekvensprofiler for eksempelteksten og K90 vha. log-likelihood-testen. 6 Signifikant overrepræsenterede ordformer over en bestemt G 2 -tærskel svarende til p 0, 99 (eller en højere p-værdi) defineres som tekstens specifikke vokabular. Et sådant vokabular vil typisk indeholde tekstens mest betydningskonstituerende ord, og på baggrund af en sådan oversigt falder en (faglig) kategorisering af teksten intuitivt let: Den handler sandsynligvis om biologi/genteknologi. Blandt mange andre headeroplysninger registrerer DDOK tekstens emne eller det domæne, den primært kan tilordnes, i den tilhørende header. Hvis der én gang er udarbejdet et korpus med konsekvente domæneoplysninger til teksterne, kan 5 De komplette profiler er tilgængelige fra sprogtekbog/. 6 Den komplette liste er tilgængelig fra sprogtekbog/, hvor man også kan uploade egne tekster og få opstillet frekvensprofiler og lister med teksternes specifikke ord. 11

12 Rang Type G 2 1 mikroorganismer 295,2 2 f.eks. 229,6 3 organismer 227, ,8 5 gensplejsede 197,2 6 udsætning 177,5 7 miljøstyrelse 132, ,7 9 EPA 98,8 10 Marcker 95,4 11 Bacillus 85,4 12 klasse 83,3 13 bakterie 77,4 14 K12-kolibakterien 71,5 15 genteknologi 70,4 Tabel 4: Tekstspecifikke ord i eksempelteksten dette muligvis bruges til automatisk at domæneklassificere nyt tekstmateriale på en helt tilsvarende måde, så domæneklassifikationen i det nye korpus svarer til den i det gamle. Hvis man herefter sørger for, at der er de samme mængder materiale i de forskellige domæner i det gamle og det nye korpus, skulle begge være sammenlignelige med hensyn til denne beskrivelseskategori. Domænespecifikke vokabularer Udgangspunktet for tekstklassifikationen efter domæne er altså DDOK, hvor 88,6 procent af de teksteksempler (overvejende ikke-fiktive tekster) er tilordnet ét af 66 mulige domæner. Domæneklassifikationssystemet, som ligger til grund for DDOK, er en simplificeret version af folkebibliotekernes decimalklassifikationssystem DK5, jf. fx [Friis-Hansen, 1978]: 66 domæner eller emneområder herfra blev udvalgt til beskrivelse af teksterne i DDOK. På baggrund af domænekoderne i headerne etableres 66 domænespecifikke subkorpusser. For hvert af dem opstilles en frekvensprofil; det samme gøres for hele DDOK, hvorefter vokabularerne for hvert af de domænespecifikke korpusser sammenlignes med hele DDOK under anvendelse af log-likelihood-testen. Mængden af ordformer, som er signifikant (p 0,99) overrepræsenterede i et domænespecifikt korpus sammenlignet med DDOK som helhed betragtes som domænespecifikke vokabularer. Deres indhold virker for samtlige vokabularer umiddelbart 12

13 karakteristisk for pågældende domæne, som tabel 5 giver et indtryk af, hvor de 15 mest fremtrædende ordformer for domænerne edb, filosofi og økonomi er opført. 7 Edb Filosofi Økonomi data mennesket kr. programmer kierkegaard X,X computer moral pct. computeren løgstrup procent edb aristoteles kroner computere filosofi rente ibm fornuft offentlige pc platon økonomiske kan kierkegaards bank mb den X apple menneskets økonomi amiga filosof vil commodore liv mia. windows sansning milliarder datamaskine fornuften indkomst Tabel 5: Mest fremtrædende ordformer i tre domænespecifikke vokabularer Selvom de således udvundne domænespecifikke vokabularer umiddelbart ser tilforladelige ud, er der knyttet et par uvisheder til dem. Den første uvished er det arbitrære signifikansniveau p 0, 99. Et andet niveau ville have medført et tilsvarende større eller mindre vokabular for hvert domæne. En yderligere usikkerhed, forbundet med signifikansniveauet, er, at de udvundne domænespecifikke vokabularer er forskelligt store. Således indeholder vokabularet for domænet folkloristik kun 1957 types, hvorimod domænet sport har types; gennemsnittet for de 66 domæner er En anden fremgangsmåde kunne have fokuseret på at få etableret lige store vokabularer for de enkelte domæner (dvs. med skiftende signifikansniveauer for de enkelte domæner), fx de 100 mest fremtrædende for hvert domæne, uanset størrelsen af det korpus, som ligger til grund herfor. Her betragtes statistisk signifikans dog som et mere pålideligt mål end lige store domænespecifikke vokabularer, idet størrelsen her må vælges i blinde uden et statistisk argument. Den varierende størrelse på de forskellige domænespecifikke vokabularer bør dog siden indgå i den heuristiske klassifikationsalgoritme, idet man ellers må frygte forvrængninger betinget af vokabularernes størrelse. 7 Den her anvendte tokeniser omsætter sekvenser af cifre til symbolet X og store bogstaver til små. De komplette domænespecifikke vokabularer for de tre domæner er tilgængelige fra http: //korpus.dsl.dk/staff/ja/papers/sprogtekbog/. 13

14 Den anden uvished er de frekvente funktionsord, som optræder højtplaceret på vores lister over domænespecifikke vokabluarer. Som det ses i tabel 5, så optræder både den og vil forholdsvis prominent placeret. Det samme gælder for et iøjnefaldende stort antal andre funktionsord, som forekommer inden for andre domænevokabularer eller med en lavere rang i de tre viste vokabularer. Dette fænomen harmonerer ikke med det umiddelbare indtryk, disse vokabularer ellers giver, nemlig at indeholde et centralt ordforråd for de enkelte domæner. Man kunne overveje at ekskludere funktionsordene fra domænevokabularerne; dette ville imidlertid kræve, at man også oprettede et leksikon over funktionsord, hvis indhold ville være afhængig af ens definition af, hvad et funktionsord er hermed ville der blive introduceret endnu en uvished. Desuden kan det ikke udelukkes, at funktionsordene indgår i domæne-typiske kollokationer. Derfor beholdes de i de domænespecifikke vokabularer. Heuristisk tekstklassifikation De 66 domænespecifikke vokabularer skal nu danne udgangspunkt for en heuristisk tilordning af en vilkårlig ukendt tekst til et af disse domæner. Til dette formål skal der i det følgende opstilles en heuristisk algoritme. Dens grundlæggende udgangspunkt er, at den sammenligner den ukendte teksts vokabular med hvert af de 66 domænespecifikke vokabularer og tilordner teksten det domæne, hvor der konstateres størst overensstemmelse. Graden af overensstemmelse mellem en ukendt tekst og et domænespecifikt vokabular udtrykkes vha. en score, som bestemmes således: 1. For hvert token t fra den ukendte tekst W, som også er indeholdt i domænets specifikke vokabular D, adderes en bestemt værdi w t : t D W w t. Ved at beregne scoren på baggrund af tokens snarere end types i teksten tages der højde for frekvensen af domænespecifikke ordformer i teksten: jo højere frekvens, desto højere score. 2. Der skal tages hensyn til, i hvor mange domænespecifikke vokabularer tokenet t forekommer. Forekommer det i mange vokabularer, er det måske i virkeligheden ikke så specifikt alligevel, jf. også diskussionen om funktionsord i forudgående afsnit. Forekommer tokenet i mange domæner, skal værdien sættes lavere og omvendt. Derfor sættes værdien w t til det omvendt proportionale af det antal domæner d, i hvis specifikke vokabularer D tekst-tokenet t forekommer, altså w t = 1 d, hvor d = i t D i. 3. Der skal også tages hensyn til det domænespecifikke vokabulars størrelse, som der sammenlinges med, for at mindske sandsynligheden for, at man for domæner med store vokabularer, fx sport, automatisk får en højere score 14

15 end for domæner med små vokabularer som fx folkloristik. Derfor modificeres scoren med en vægt v, som er omvendt proportional til en funktion kvadratrodsfunktionen har vist sig at virke hensigtsmæssig af domænets specifikke vokabulars D størrelse: v = 1. D 4. Endvidere skal der i beregningen også tages hensyn til, hvor mange af den ukendte teksts tokens der overhovedet er indeholdt i mindst ét af de domænespecifikke vokabularer. Indeholder en tekst mange ukendte tokens, altså ordformer, der ikke er registreret i noget domænespecifikt vokabular, er der måske tale om en tekst, der ikke har en så entydig domænetilknytning, og scoren bør følgelig vægtes lavere. Så der beregnes en yderligere vægt til modifikation af scoren, nemlig forholdet mellem antallet af tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: k u. 5. Endelig kan scoren gøres relativ til tekstlængden i antal tokens n ved at multiplicere den med 1 n. De enkelte led (1 5) i beregningen af scoren s D for et givet domæne D kombineres herefter til følgende udtryk: s D = 1 n k u v w t t D W Det domæne, der på baggrund af dette udtryk opnår den højeste score, vinder, og teksten bliver tilordnet dette domæne. 8 På denne måde bliver det i princippet muligt automatisk at tilordne nyt tekstmateriale til domæner, som de kommer til udtryk i det klassifikationssystem, der blev opbygget for DDOK og det vil være muligt at opbygge et korpus med et tilsvarende domæne-miks som DDOK s. Det, der karakteriserer denne heuristiske tilgang, er, at der laves forskellige antagelser om egenskaber ved det eksisterende korpus, de herfra ekstraherede domænespecifikke vokabularer og de nye tekster, der skal klassificeres; og antagelserne omsættes til et kvantitativt udtryk, der anvendes i klassifikationsalgoritmen. Ud over de ovenfor under punkt 1 5 nævnte kvantificerede egenskaber kan der tænkes andre, fx også G 2 -rangen, som en ordform har inden for et domænespecifikt vokabular. Den valgte fremgangsmåde leverer umiddelbart acceptable resultater, men det er ikke ensbetydende med, at den er acceptabel ud fra en lingvistisk betragtning. Man burde derfor undersøge, om den virkelig kvantificerer sproglige egenskaber hensigtsmæssigt. 8 En implementation af algoritmen er tilgængelig fra papers/sprogtekbog/, hvor man kan uploade egne tekster og få dem domæneklassificeret. 15

16 Alternative tekstklassifikationsmetoder Man kunne også have valgt andre, mere matematisk orienterede tilgange som IDF, decision trees eller k Nearest Neighbour-klassifikation, som er beskrevet i fx [Manning and Schütze, 1999]. Eller en variant af den rent geometriske tilgang i [Widdows, 2003], som første test antyder kunne være et interessant alternativ til den heuristiske metode. Grundtanken er at sammenligne enten frekvensprofiler, [Widdows, 2003, kap. 5] eller måske bedre: tekst- og domænespecifikke vokabularer med tilknyttede G 2 -værdier som vektorer i n-dimensionale rum og bestemme afstanden mellem dem ved hjælp af en generalisering af Pythagoras sætning c = a 2 + b 2. Balancen i fremtidens referencekorpusser Hvilken af de skitserede metoder den heuristiske eller den geometriske der er den mest præcise til domæneklassifikation, må en storstilet aftestning af dem vise. En sådan aftestning gennemføres, ved at DDOK deles op i to portioner: én til træningsformål, som vi kalder T på fx 3 2 af det samlede omfang, og én til evalueringsformål, E, på fx 1 3. Det undersøges, hvor stor en andel af teksterne i E der kan bestemmes korrekt på baggrund af T for hver af de to metoder og forskellige varianter af dem. Første forsøgsvise test tyder på, at begge metoder har en relativ høj præcision. Et interessant teoretisk spørgsmål er, hvori slægtskabet mellem de to tilgange består: Hvis de stort set yder det samme, men den ene er en kvantificering af antagelser om materialets kvalitative beskaffenhed, mens den anden gør brug af en geometrisk metafor, hvad skyldes det så, at de stort set yder det samme? Anvendelsen af kvantitative metoder, som de viste, skal sikre en mere eksplicit deklaration af DSL s fremtidige referencekorpusser og gøre det muligt at opbygge mere velafbalancerede korpusser, end det hidtil har været muligt med rent intuitive og andre pragmatiske fremgangsmåder. Dermed skulle det også blive muligt at udføre mere pålidelige sammenlignende undersøgelser mellem forskellige korpusser. De her skitserede metoder til balancering vedrører ganske vist kun domænetilordningen af tekstmateriale, men de vil blive udvidet til også at omfatte andre tekstuelle kategorier, som det næste teksternes genre. Målet bør være at kunne give en kvantitativ deklaration af et korpus, så brugeren ved, hvilke forskelle og ligheder der er mellem korpusser med hensyn til forskellige tekstuelle dimensioner. Men de skitserede metoder er også nyttige til andre formål end balancering af korpusser, nemlig ved opbygning af subkorpusser med bestemte specifikationer, fx et korpus med tekster fra et bestemt fagområde, fx økonomi 16

17 udtræk af fagspecifikke vokabularer, jf. [Asmussen, 2005a]. Hensigten om at gøre det bedre næste gang retter naturligvis ikke op på den skævhed, der kan konstateres for K2000 s vedkommende set i relation til K90, så der arbejdes på at finde en mulighed for at anvende tilsvarende metoder som korrektiv, når man laver sammenlignende undersøgelser på disse to korpusser. Korrektionen ville umiddelbart kunne bestå i virtuelt at nedskalere både K2000 og K90, dvs. at se bort fra det materiale i dem, som er overrepræsenteret i det ene eller det andet korpus. Herved introduceres der ganske vist et nyt problem, nemlig at de to virtuelle korpusser efter al sandsynlighed bliver af forskellige størrelse, hvilket gør absolutte frekvenssammenligninger mellem dem upålidelige. I stedet kan man ganske vist arbejde med relative, men heller ikke dette er pålideligt, som påvist af [Evert and Baroni, 2005]. At designe korpusser er med tiden blevet andet og meget mere end opportunistisk at indsamle det materiale, man kan komme i nærheden af og sætte det sammen efter pragmatiske principper og så ellers bare undersøge løs på det. Skal et referencekorpus virkelig fungere som en sproglig stikprøve, der vil kunne gøre krav på at være repræsentativ for sproget som sådant på et givet tidspunkt, så kræves en metodologi, der gør det muligt at måle og veje korpusser, så deres indhold kan deklareres entydigt. Dette bidrag skal ses som et lille skridt på vejen mod at få udarbejdet og implementeret en sådan metodologi til gavn for bedre almensproglige referencekorpusser for dansk. Litteratur [Asmussen, 2004] Asmussen, J. (2004). Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser. In Duncker, D., editor, Studier i Nordisk , København. Selskab for Nordisk Filologi. [Asmussen, 2005a] Asmussen, J. (2005a). Automatic detection of new domainspecific words, using document classification and frequency profiling. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Asmussen, 2005b] Asmussen, J. (2005b). Towards a methodology for corpusbased studies of linguistic change. Contrastive observations and their possible diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of Danish. In Archer, D., Rayson, P., and Wilson, editors, Corpus Linguistics Around the World. Rodopi, Amsterdam. [Bick, 2003] Bick, E. (2003). Morfosyntaktisk opmærkede corpora for dansk. In 9. Møde om Udforskningen af Dansk Sprog oktober 2002, Århus. Aarhus Universitet. 17

18 [COBUILD: Sinclair et al., 1987] COBUILD: Sinclair, J. et al., editors (1987). Collins COBUILD English Language Dictionary. Collins. [Daille, 1995] Daille, B. (1995). Combined approach for terminology extraction: lexical statistics and linguistic filtering. Technical Report 5, Lancaster. [DDO: Hjorth et al., 2003] DDO: Hjorth, E., Kristensen, K., Lorentzen, H., Trap- Jensen, L., Asmussen, J., et al., editors (2003). Den Danske Ordbog 1-6. DSL & Gyldendal, København/Copenhagen. [Dunning, 1994] Dunning, T. (1994). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, (19(1)): [Evert and Baroni, 2005] Evert, S. and Baroni, M. (2005). Testing the extrapolation quality of word frequency models. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Friis-Hansen, 1978] Friis-Hansen, J. B. (1978). Hjælpebog til DK5. [Garside and Rayson, 2000] Garside, R. and Rayson, P. (2000). Comparing corpora using frequency profiling. In Proceedings of the workshop on Comparing Corpora, held in conjunction with the 38th annual meeting of the Association for Computational Linguistics (ACL 2000), pages 1 6, Hong Kong. [Kilgarriff, 2001] Kilgarriff, A. (2001). Comparing Corpora. IJCL, 6(1): [Lorentzen, 2004] Lorentzen, H. (2004). The Danish Dictionary at large: presentation, problems and perspectives. In Proceedings of the 11th EURALEX International Congress, volume 1, pages , Lorient. Euralex. [Manning and Schütze, 1999] Manning, C. D. and Schütze, H. (1999). Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 2003 edition. [Norling-Christensen and Asmussen, 1998] Norling-Christensen, O. and Asmussen, J. (1998). The Corpus of The Danish Dictionary. Lexikos. Afrilex Series, 8: [Widdows, 2003] Widdows, D. (2003). Geometry and Meaning. Center for the Study of Language and Information Lecture Notes (CSLI-LN). The University of Chicago Press, Chicago. 18

Vis mere