At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk
|
|
- Børge Holmberg
- 8 år siden
- Visninger:
Transkript
1 At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk Jørg Asmussen Det Danske Sprog- og Litteraturselskab Bidrag til Bente Maegaard-festskrift KLADDE-VERSION Resumé Indledningsvis præsenteres Den Danske Ordbogs Korpus, Korpus 90 og Korpus 2000 som eksempler på referencekorpusser for dansk; samtidig skitseres de kompositoriske principper, som ligger til grund for dem. Herefter udføres et par simple stikprøveagtige sammenlignende vokabularundersøgelser på Korpus 2000 og Korpus 90 for at få et indtryk af, hvorvidt disse korpusser er sammenlignelige. Undersøgelsesresultaterne peger på, at der åbenbart er markante kompositoriske forskelle på korpusserne, og der gennemføres derfor en komplet, log-likelihood-baseret vokabularundersøgelse, der skal kaste mere lys over forskellighedernes omfang, som viser sig at være omfattende. Herefter undersøges, hvorvidt samme type vokabularundersøgelser kombineret med teknikker til tekstklassifikation kan bruges til bedre kompositorisk balancering af fremtidens referencekorpusser for dansk, som DSL arbejder på at udvikle. Referencekorpusser for dansk og deres opbygning Det Danske Sprog- og Litteraturselskab har siden begyndelsen af 1990 erne udarbejdet en række korpusser over dansk almensprog en udvikling, der i 2002 foreløbig kulminerede med lanceringen af Korpus 2000 på Forfatteren takker Nicolai Hartvig Sørensen for kritiske kommentarer til en tidligere version af dette bidrag. 1
2 Korpus 2000 (K2000) består af 28 millioner ords tekstmateriale med det dansk, der blev skrevet omkring årtusindskiftet. Parallelt med Korpus 2000 blev der opbygget et korpus med lidt ældre sprog, nemlig Korpus 90 (K90), også på 28 millioner ord. Tanken var at kunne stille to i princippet ensartede og fuldt morfosyntaktisk annoterede 1 korpusser offentligt til rådighed på webbet, både til online-søgning og download: ét med firsernes sprog og ét med sproget omkring år Alle sproginteresserede skulle hermed få mulighed for at kunne udføre direkte sammenlignende undersøgelser af nyere dansk. Men i begyndelsen, længe før Korpus 2000 og længe før webbet, som det kendes i dag, blev Den Danske Ordbogs Korpus (DDOK) til: et 40 millioner ords stort almensprogligt korpus, som blev udarbejdet i , på et tidspunkt, hvor korpuslingvistik i måske endnu højere grad end i dag var en skønsom blanding af forskellige sprogteknologiske teknikker snarere end en erkendelsesorienteret videnskabelig disciplin, og hvor brugen af store almensproglige tekstkorpusser først og fremmest havde slået an i leksikografiske kredse, her drevet af håbet om at kunne høste en håndværksmæssig rationaliseringsgevinst. Det første korpusbaserede ordbogsprojekt [COBUILD: Sinclair et al., 1987] blev søsat i 1980 som et samarbejde mellem University of Birmingham og forlaget Collins. Det første danske korpusbaserde ordbogsprojekt var Den Danske Ordbog [DDO: Hjorth et al., 2003], jf. [Lorentzen, 2004]. Det var derfor også i vid udstrækning ordbogsredaktioners behov, der afspejlede sig i de korpuskompositoriske principper, man tilstræbte, således også for DDOK: Korpusset skulle gerne afspejle sproget som helhed med alle dets nuancer, det skulle være en repræsentativ stikprøve for sproget som sådant, det skulle derfor være balanceret og indeholde alle mulige typer tekst, både skrevne og talte, private og offentlige, almene og lettere faglige. Alle genrer skulle være repræsenteret og mange fagområder ligeledes. Rene fagtekster, hvori fagfolk henvender sig til deres lige, skulle derimod undgås. DDOK skulle være referencekorpusset over moderne dansk. For DDO s korpus blev der opstillet et komplekst beskrivelsesapparat for at få styr på teksternes forskellige karakteristika. Man var klar over, at helt objektive kriterier for, hvad der udgør et balanceret korpus, er umulige at opstille, så man valgte en pragmatisk tilgang i stedet. Man opstillede tre dikotomier over teksttyper, man mente skulle være repræsenteret, nemlig skriftsprog vs. talesprog, professionelt vs. privat sprog, og almensprog vs. lettere fagligt sprog. Med udgangspunkt heri kunne alt tekstmateriale opdeles i otte forskellige klasser. For hver af disse klasser blev det undersøgt, hvilke og hvor mange forskellige tekstkilder der var tilgængelige, og man stilede efter, at alle otte klasser skulle være velrepræsenteret i det samlede korpus. 1 Opmærkningen blev udført ved hjælp af DanPars-taggeren, jf. [Bick, 2003]. 2
3 Ud over disse tre grundlæggende dikotomier blev der til tekstbeskrivelsen anvendt ca. 25 yderligere oplysningstyper af bibliografisk, kommunikativ og sociolingvistisk relevans, som forudgår hver enkelt af de i alt tekststykker i korpus i form af en såkaldt header, jf. [Norling-Christensen and Asmussen, 1998] for en mere detaljeret beskrivelse. Meningen med alle disse oplysninger var dels, at man under opbygningen ville føre bog over, at korpusset blev så varieret og balanceret som muligt, dels at få realiseret et ønske om at kunne undersøge, hvilke forskelle der virkelig var fx på mænds og kvinders, gamles og unges, uddannedes og uuddannedes, vestjyders og sjællænderes sprogbrug hvis der da var nogen. Eller at finde frem til, hvad der var typisk for talesprog over for skriftsprog, romaner over for festsange, avishistorier over for skolestile. Også tanken om at kunne bruge headeroplysningerne som grundlag for udtrækning af specifikke korpusser fra det store korpus var nærliggende. Hensigten med de ønskede undersøgelsesmuligheder var, at resultaterne skulle kunne omsættes til deskriptive leksikalske beskrivelser af moderne dansk. Det, der endnu var rudimentært på daværende tidspunkt, og som stadig langt fra er fuldstændigt, er en egentlig metodologi for, hvordan man griber sådanne undersøgelser an: Hvordan udfører man kontrastive korpusundersøgelser? Hvordan finder man det typiske i en bestemt tekst eller teksttype? Besvarelsen af de to spørgsmål ville kunne udmøntes i et bud på operationelle metoder til, hvordan man i det hele taget deklarerer, hvad der er i et korpus og hvordan man bedst kategoriserer de tekster, der skal med i et korpus. Ifølge [Kilgarriff, 2001] er gængse korpusdeklarationer som oftest temmelig impressionistiske som fx aviskorpus, webkorpus, korpus over skolestile, private tekster osv. Metoder til korpusdeklaration kan muligvis føre til et bud på, hvordan man kan udtrykke tekstkorpussers repræsentativitet. Uden sådanne metoder er det vanskeligt at redegøre præcist for, hvad der fx er i DDOK, eller hvad der fx adskiller K90 fra K2000. Principper for, hvordan man bedst deklarerer tekster og korpusser, er ikke mindst nødvendige i takt med, at der bliver flere korpusser tilgængelige med mulighed for sammenlignende undersøgelser imellem dem. Hvis både K90 og K2000 virkelig er referencekorpusser, korpusser der påstås at kunne agere som stedfortrædere for sproget som sådant, så må det betyde, at det, der adskiller dem, alene er det, der er typisk for den tids sprog, de hver især er referencekorpus for. Sammenlignende vokabularundersøgelser Korpusbaseret sprogbeskrivelse kaldes gerne empirisk, hvilket vil sige, at den bør bero på objektive iagttagelser og reproducerbare eksperimenter. Hånd i hånd her- 3
4 med går en kvantitativ tilgang til det objekt, altså sproget, man ønsker at udsige noget om. At korpuslingvistik er blevet en overvejende kvantitativ disciplin, skyldes ikke mindst tekstkorpussers stadig stigende omfang: Det er umuligt at overskue dem med det blotte øje, det gælder både deres sammensætning og fremtrædende sproglige regelmæssigheder i dem. Umiddelbart falder de kvantitative metoder i to grupper: 1. Metoder til undersøgelse af en teksts eller et korpus beskaffenhed. Ønsket er at kunne gøre rede for, hvad der er i et korpus, hvilke teksttyper det er sammensat af, og at sammenligne korpusser og tekster med hinanden. Mere sofistikerede anvendelser af disse metoder er fx automatisk dokumentklassifikation eller indholdsresumering. 2. Metoder til fremfinding af bestemte sproglige strukturer. Ønsket er at finde både faste udtryk, fremtrædende samforekomster, syntaktiske strukturer m.v. En mere sofistikeret anvendelse af disse teknikker er fx sprogmodellering. Fælles for disse metoder er, at de ikke tager udgangspunkt i en kvalitativ fortolkning af materialet, inden de kommer til anvendelse: Med andre ord betragtes kun kvantificerbare enheder, der kan bestemmes entydigt, dvs. algoritmisk. Forholdsvis sikkert kan man segmentere tekstmaterialet i ord (tokens) og sætninger (dvs. perioder); her vil vi nøjes med udelukkende at se på unikke ordformer (types) i et korpus. Vi skal i det følgende se eksempler på, hvordan metoder fra den første gruppe kan anvendes til en besvarelse af de spørgsmål og problemstillinger, som blev fremsat i forudgående afsnit ved i princippet blot at gennemføre rene vokabularundersøgelser. I [Asmussen, 2004] blev der udført en række eksemplariske sammenlignende undersøgelser mellem K90 og K2000, herunder en række hyppighedssammenligninger for udvalgte ord. Det blev konstateret, at lemmaer som mobiltelefon eller benchmarking er betydeligt hyppigere i K2000 end i K90, mens fx biltelefon derimod er hyppigere i K90 forskelle, som intuitivt kan forklares ud fra en viden om verdens forandring fra 80 erne frem til omkring år 2000, og som derfor ikke undrer. Mere forunderligt var billedet derimod ved ord som kambrium, som er lavfrekvent i K90 og slet ikke forekommer i K2000, mens frekvente ord som bil, land eller Danmark viser ret markante hyppighedsforskelle i de to korpusser, hvor bil er hyppigere i K90, mens de to øvrige er hyppigere i K2000. På denne baggrund drøftedes spørgsmålet, hvilke metoder der er egnede ved sammenlignende kvantitative undersøgelser, og hvordan man kan sikre korpussers sammenlignelighed i det hele taget, således at de forskelle, man observerer for referencekorpusser fra to forskellige tidsperioder, faktisk er tidsbetingede og ikke resultatet af 4
5 tilfældig korpuskompositorisk støj. I [Asmussen, 2005b] introduceres invariante tekstuelle træk som betegnelse for en gruppe algoritmisk tællelige fænomener i en tekst; fænomener, der er karakteriseret ved, at de udviser ensartet udbredelse i tekster over længere tidsrum. Til denne gruppe antages at høre en række mellemfrekvente ordformer. Imidlertid gives der heri hverken kvantitative bud på, hvordan man statistisk underbygger sine umiddelbare sammenlignende iagttagelser af enkeltfænomener i to korpusser, eller hvordan man skaffer sig et overblik over to korpussers forskelle og ligheder i det hele taget. I det følgende skal der derfor udføres et par eksperimenter til illustration af, hvordan man kan anvende en statistisk signifikanstest til disse formål her udelukkende begrænset til teksters ordformer. Her anvendes log-likelihood-testen (G 2 ), som blev introduceret af [Dunning, 1994]. Han påviser, at andre udbredte statistiske test som χ 2 eller z-score ikke nødvendigvis egner sig, når man tæller ord (eller n-grammer) i korpusser, da de forvrænger resultaterne for lavfrekvente ord, som udgør den væsentligste del af det betydningsbærende vokabular. Loglikelihood-testen betragter det at tælle ord som en binær proces og følger derfor binomialfordelingen; hermed egner den sig bedre til at teste sjældne hændelser end de gængse normalfordelingsbaserede test. En beskrivelse af G 2 -testen skal ikke gives her, der henvises i stedet til [Dunning, 1994] for en teoretisk redegørelse og til [Garside and Rayson, 2000] for en mere anvendelsesorienteret. Testen er i øvrigt ligeledes velegnet til fremfinding af nye ord hhv. termekstraktion, jf. [Daille, 1995]. G 2 -testen er omend matematisk kompleks simpel at implementere, men har den skavank, at den ikke inddrager fænomenernes spredning i et større materiale (dispersion). Ifølge [Kilgarriff, 2001] skulle Mann-Whitney ranks test derfor være G 2 overlegen i hvert fald, sålænge korpusserne, der skal sammenlignes, er lige store til gengæld er den ret omstændelig at anvende. Vi skal først underkaste eksemplerne fra [Asmussen, 2004] G 2 -testen for at få et indtryk af, hvorvidt de konstaterede frekvensforskelle er statistisk signifikante. Resultaterne ses i tabel 1. Jo højere G 2 -værdi, desto mere statistisk signifikant er forskellen mellem de to forekomsttal. Det er fastlagt, at hvis G 2 3,8, så er der 95 procents sandsynlighed for, at hyppighedsforskellen på det givne ord i de to tekster ikke skyldes et tilfælde (p 0,95). Er G 2 6,6, er der endda 99 procents sandsynlighed herfor (p 0, 99). Oversigten i tabel 1 støtter delvis de intuitive fortolkninger i [Asmussen, 2004], nemlig at frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok: de skyldes med 99 procents sikkerhed ingen tilfældighed; dette er dog ikke ensbetydende med, at de kan fortolkes som tegn på sproglig forandring; umiddelbart kan de kun fortolkes som tegn på en forskel på 5
6 Lemma f K2000 f K90 G 2 Resultat overrepræsenteret (p 0, 99) mobiltelefon i K2000 benchmarking i K2000 biltelefon i K90 kambrium bil i K90 land i K2000 Danmark i K2000 cykel i K90 hus i K90 mand i K90 Tabel 1: G 2 -værdier for udvalgte ord i K2000 over for K90 K90 og K2000 at kambrium ikke med 99 procents sikkerhed (men dog med 95%) kan fortolkes som indikator på en forskel på K90 og K2000 og dermed vel heller ikke som tegn på en sproglig forandringsproces at hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, er statistisk signifikante. Hvis man antager, at almindelige ord som de sidstnævnte bør have en rimelig stabil udbredelse i sproget, også over lidt længere tidsrum, så indikerer den sandsynligvis ikke-tilfældige hyppighedsforskel en kompositorisk forskel på de to korpusser. En samlet vokabularundersøgelse Der er altså ikke blot intuitive, men også statistisk signifikante tegn på, at der er en forskel i sammensætningen af de to korpusser men hvor markant er den? For at få et indtryk heraf opstilles en komplet liste over samtlige ordformer, der i deres udbredelse i de to korpusser afviger så meget fra hinanden, at der næppe kan være tale om et tilfælde. Listen sorteres efter ikke-stigende G 2 -værdi. Tabel 2 viser toppen af denne liste 2, dvs. de statistisk mest fremtrædende vokabularforskelle 2 En mere omfattende liste er tilgængelig fra sprogtekbog/. 6
7 mellem de to korpusser. I kolonnerne +K90 og +K2000 er det markeret med et plus, i hvilket af de to korpusser pågældende ordform er overrepræsenteret. 7
8 Rang Ordform +K2000 +K90 G 2 1 EU du var hun mio at havde ham siger EF hende % han jeg NN mill Du dig danske pct direktør Hun har Internettet mig EUs Dansk_Folkeparti er procent gensplejsning Internet euroen Tabel 2: Ord, der mest signifikant adskiller K90 og K2000 fra hinanden 8
9 Resultatet viser umiddelbart to forhold: (1) at der er tidsbetingede forskelle på de to korpusser, og (2) at der må være påfaldende forskelle i sammensætningen af dem: 1. Ord som EU/EF, internett(et), Dansk_Folkeparti, euroen samt årstallene 1996, 1997, 1998, 2000, 2001 er entydigt tidsbestemte, og det overrasker derfor ikke, at de optræder blandt de ord, der mest signifikant adskiller de to korpusser fra hinanden. 2. Pronomener som du/dig, hun/hende, han/ham, jeg/mig, verber som siger, havde/har, var/er, subjunktionen/infinitivmarkøren at, adjektivet danske samt de fleste andre ord, som optræder i toppen af listen, og som ikke allerede er nævnt ovenfor under (1), burde intuitivt ikke optræde blandt de ord, der adskiller de to korpusser mest signifikant fra hinanden. Man burde kunne gå ud fra, at de under (2) anførte ordformer havde en ensartet udbredelse i to korpusser, der i deres sammensætning burde være rimelig identiske og derfor netop sammenlignelige. At de alligevel optræder med så høje G 2 - værdier, tyder stærkt på, at de to korpusser er sammensat mere forskelligt, end det måske ser ud til ved en ren overfladisk sammenlignende betragtning; og det viser ligeledes nødvendigheden af at udvikle statistiske metoder, der kan sikre en ensartet opbyging af to korpusser, der principielt kun må adskille sig i tidsdimensionen. Konkret betyder det, at der i toppen af en sådan sammenlignende G 2 -liste ikke må optræde ord som dem anført under punkt (2) ovenfor. Som det ses, kan log-likelihood-testen bruges til at lave mere tilforladelige sammenlignende undersøgelser af vokabularfrekvenser i korpusser, end man kan ved blot at sammenligne ordfrekvenser. Især ved enkelttekster eller homogent opbyggede korpusser er log-likelihood en meget enkel og velfungerende metode. Balancering af korpusser Resultaterne viser, at der er en markant kompositorisk forskel på K90 og K2000. Dette rejser spørgsmålet, hvorvidt det er muligt at bruge log-likelihood-testen ikke blot til afsløring af, om der er forskelle i sammensætningen af to korpusser, men også til bedre at styre sammensætningen af dem, at balancere et korpus, så det fx kommer til at ligne et allerede eksisterende. I første afsnit blev det beskrevet, hvordan headeroplysningerne i DDOK under selve udarbejdelsen af korpusset blev brugt til at holde styr på, hvor meget der var i korpusset af forskelligt materiale. Da headeroplysningerne er meget detaljerede og anvender begrænsede værdimængder for de fleste tekstbeskrivende kategorier, kan disse i kombination med log-likelihood-testen anvendes til at tilordne nyt tekstmateriale til disse kategorier. 9
10 Her skal der skitseres en mulig løsning på balanceproblemet, nemlig algoritmisk tekstklassifikation. For eksemplets skyld vil det her kun blive beskrevet, hvordan klassifikationen kan udføres med hensyn til tekstens domæne (headeroplysningen emne i DDOK). I det følgende introduceres først konceptet tekstspecifikke ord, der præciseres til specifikt vokabular, når der er fastlagt en signifikanstærskel. Dernæst demonstreres en heuristisk tilgang til tekstklassifikation, som herefter holdes op imod en alternativ tilgang. Tekstspecifikt vokabular Tekstspecifikke ord defineres som de ord, der er fremtrædende i en tekst, når man sammenligner den med en sproglig norm, fx et referencekorpus. Konceptet kan illustreres med et teksteksempel fra DDOK, der ifølge dens headeroplysninger stammer fra en fagsproglig monografi om emnet biologi. 3 Uddraget i DDOK omfatter ca ord; for at give et indtryk af teksten vises i figur 1 de indledende afsnit fra den. 4 Genteknologi betegner en samling teknikker, der er specielt beregnede til at ændre organismers arveegenskaber på målrettet måde. Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride artsbarriererne. De nye genteknologi-metoder tillader derimod overførsel af arveegenskaber mellem principielt alle organismer. Baggrunden for dette er, at alle levende organismer fra bakterier til mennesket indeholder arvemasse, der er opbygget på principielt samme måde. De arvelige egenskaber findes i lange, trådformede molekyler. Det kemiske navn for dette arvemateriale er DNA. I begyndelsen af 1970 erne fandt man ud af metoder til at klippe DNA-tråden over på bestemte steder og at klæbe stykkerne sammen igen på en ny måde. Denne rekombination af arvemateriale kan celler foretage naturligt, men det havde ikke tidligere kunnet gøres i laboratoriet. Rekombineret DNA betegnes også rdna. Teknikken betegnes undertiden rekombinant-dna-teknik eller gensplejsning. Den traditionelle forædlingsteknik benytter sig som sagt også af rekombination af arvemateriale. Når en kornart krydses med en vild, nærtbeslægtet plante, håber man netop på at opnå en gunstig rekombination. Den nye genteknologi tillader, at man i højere grad specifikt kan styre og kontrollere, hvad der sker. Og den tillader, at et arveanlæg fra en fremmed art indsættes i en organismes arvemasse. Figur 1: Tekst til illustration af G 2 -baseret bestemmelse af tekstspecifikke ord Et første indtryk af eksempeltekstens vokabular får man, hvis man opstiller en såkaldt frekvensprofil i sin mest primitive udgave blot en liste over samtlige 3 Kirsten Fink og Ole Terney: Sådan reguleres genteknologi. Praksis og erfaringer. Foreningen af Bioteknologiske Industrier i Danmark, Kapitel Hele korpusteksten er tilgængelig fra sprogtekbog/. 10
11 unikke ordformer (types) i en given tekstmængde sorteret efter ikke-stigende hyppighed. Toppen af en sådan frekvensprofil for eksempelteksten og for Korpus 90 som helhed er vist i tabel 3. 5 Rang Ordform i f absolut f pct Ordform i f absolut f pct eksemplet K90 1 at 175 3,18 og ,00 2 i 138 2,50 i ,76 3 er 125 2,27 at ,41 4 af 124 2,25 er ,90 5 for 97 1,76 en ,59 6 og 92 1,67 det ,59 7 til 91 1,65 til ,51 8 en 84 1,52 af ,44 9 der 79 1,43 på ,39 10 har 68 1,23 med ,21 Tabel 3: Ti hyppigste types i teksteksemplet og Korpus 90 Tabellen viser, at de mest udbredte ordformer i såvel eksempelteksten som K90 udelukkende er partikler og pronomener, et par former af hjælpeverberne (er på rang 3, har på rang 10). Betragter man hele frekvensprofilen, ser man, bortset fra verbalformen kan (rang 15), udelukkende partikler og pronomener på de 22 første pladser. Først på rang 23 optræder et ord med mere konkret indhold, nemlig mikroorganismer. Tabel 4 viser de mest signifikant overrepræsenterede ordformer i eksempelteksten efter en sammenligning af de komplette frekvensprofiler for eksempelteksten og K90 vha. log-likelihood-testen. 6 Signifikant overrepræsenterede ordformer over en bestemt G 2 -tærskel svarende til p 0, 99 (eller en højere p-værdi) defineres som tekstens specifikke vokabular. Et sådant vokabular vil typisk indeholde tekstens mest betydningskonstituerende ord, og på baggrund af en sådan oversigt falder en (faglig) kategorisering af teksten intuitivt let: Den handler sandsynligvis om biologi/genteknologi. Blandt mange andre headeroplysninger registrerer DDOK tekstens emne eller det domæne, den primært kan tilordnes, i den tilhørende header. Hvis der én gang er udarbejdet et korpus med konsekvente domæneoplysninger til teksterne, kan 5 De komplette profiler er tilgængelige fra sprogtekbog/. 6 Den komplette liste er tilgængelig fra sprogtekbog/, hvor man også kan uploade egne tekster og få opstillet frekvensprofiler og lister med teksternes specifikke ord. 11
12 Rang Type G 2 1 mikroorganismer 295,2 2 f.eks. 229,6 3 organismer 227, ,8 5 gensplejsede 197,2 6 udsætning 177,5 7 miljøstyrelse 132, ,7 9 EPA 98,8 10 Marcker 95,4 11 Bacillus 85,4 12 klasse 83,3 13 bakterie 77,4 14 K12-kolibakterien 71,5 15 genteknologi 70,4 Tabel 4: Tekstspecifikke ord i eksempelteksten dette muligvis bruges til automatisk at domæneklassificere nyt tekstmateriale på en helt tilsvarende måde, så domæneklassifikationen i det nye korpus svarer til den i det gamle. Hvis man herefter sørger for, at der er de samme mængder materiale i de forskellige domæner i det gamle og det nye korpus, skulle begge være sammenlignelige med hensyn til denne beskrivelseskategori. Domænespecifikke vokabularer Udgangspunktet for tekstklassifikationen efter domæne er altså DDOK, hvor 88,6 procent af de teksteksempler (overvejende ikke-fiktive tekster) er tilordnet ét af 66 mulige domæner. Domæneklassifikationssystemet, som ligger til grund for DDOK, er en simplificeret version af folkebibliotekernes decimalklassifikationssystem DK5, jf. fx [Friis-Hansen, 1978]: 66 domæner eller emneområder herfra blev udvalgt til beskrivelse af teksterne i DDOK. På baggrund af domænekoderne i headerne etableres 66 domænespecifikke subkorpusser. For hvert af dem opstilles en frekvensprofil; det samme gøres for hele DDOK, hvorefter vokabularerne for hvert af de domænespecifikke korpusser sammenlignes med hele DDOK under anvendelse af log-likelihood-testen. Mængden af ordformer, som er signifikant (p 0,99) overrepræsenterede i et domænespecifikt korpus sammenlignet med DDOK som helhed betragtes som domænespecifikke vokabularer. Deres indhold virker for samtlige vokabularer umiddelbart 12
13 karakteristisk for pågældende domæne, som tabel 5 giver et indtryk af, hvor de 15 mest fremtrædende ordformer for domænerne edb, filosofi og økonomi er opført. 7 Edb Filosofi Økonomi data mennesket kr. programmer kierkegaard X,X computer moral pct. computeren løgstrup procent edb aristoteles kroner computere filosofi rente ibm fornuft offentlige pc platon økonomiske kan kierkegaards bank mb den X apple menneskets økonomi amiga filosof vil commodore liv mia. windows sansning milliarder datamaskine fornuften indkomst Tabel 5: Mest fremtrædende ordformer i tre domænespecifikke vokabularer Selvom de således udvundne domænespecifikke vokabularer umiddelbart ser tilforladelige ud, er der knyttet et par uvisheder til dem. Den første uvished er det arbitrære signifikansniveau p 0, 99. Et andet niveau ville have medført et tilsvarende større eller mindre vokabular for hvert domæne. En yderligere usikkerhed, forbundet med signifikansniveauet, er, at de udvundne domænespecifikke vokabularer er forskelligt store. Således indeholder vokabularet for domænet folkloristik kun 1957 types, hvorimod domænet sport har types; gennemsnittet for de 66 domæner er En anden fremgangsmåde kunne have fokuseret på at få etableret lige store vokabularer for de enkelte domæner (dvs. med skiftende signifikansniveauer for de enkelte domæner), fx de 100 mest fremtrædende for hvert domæne, uanset størrelsen af det korpus, som ligger til grund herfor. Her betragtes statistisk signifikans dog som et mere pålideligt mål end lige store domænespecifikke vokabularer, idet størrelsen her må vælges i blinde uden et statistisk argument. Den varierende størrelse på de forskellige domænespecifikke vokabularer bør dog siden indgå i den heuristiske klassifikationsalgoritme, idet man ellers må frygte forvrængninger betinget af vokabularernes størrelse. 7 Den her anvendte tokeniser omsætter sekvenser af cifre til symbolet X og store bogstaver til små. De komplette domænespecifikke vokabularer for de tre domæner er tilgængelige fra http: //korpus.dsl.dk/staff/ja/papers/sprogtekbog/. 13
14 Den anden uvished er de frekvente funktionsord, som optræder højtplaceret på vores lister over domænespecifikke vokabluarer. Som det ses i tabel 5, så optræder både den og vil forholdsvis prominent placeret. Det samme gælder for et iøjnefaldende stort antal andre funktionsord, som forekommer inden for andre domænevokabularer eller med en lavere rang i de tre viste vokabularer. Dette fænomen harmonerer ikke med det umiddelbare indtryk, disse vokabularer ellers giver, nemlig at indeholde et centralt ordforråd for de enkelte domæner. Man kunne overveje at ekskludere funktionsordene fra domænevokabularerne; dette ville imidlertid kræve, at man også oprettede et leksikon over funktionsord, hvis indhold ville være afhængig af ens definition af, hvad et funktionsord er hermed ville der blive introduceret endnu en uvished. Desuden kan det ikke udelukkes, at funktionsordene indgår i domæne-typiske kollokationer. Derfor beholdes de i de domænespecifikke vokabularer. Heuristisk tekstklassifikation De 66 domænespecifikke vokabularer skal nu danne udgangspunkt for en heuristisk tilordning af en vilkårlig ukendt tekst til et af disse domæner. Til dette formål skal der i det følgende opstilles en heuristisk algoritme. Dens grundlæggende udgangspunkt er, at den sammenligner den ukendte teksts vokabular med hvert af de 66 domænespecifikke vokabularer og tilordner teksten det domæne, hvor der konstateres størst overensstemmelse. Graden af overensstemmelse mellem en ukendt tekst og et domænespecifikt vokabular udtrykkes vha. en score, som bestemmes således: 1. For hvert token t fra den ukendte tekst W, som også er indeholdt i domænets specifikke vokabular D, adderes en bestemt værdi w t : t D W w t. Ved at beregne scoren på baggrund af tokens snarere end types i teksten tages der højde for frekvensen af domænespecifikke ordformer i teksten: jo højere frekvens, desto højere score. 2. Der skal tages hensyn til, i hvor mange domænespecifikke vokabularer tokenet t forekommer. Forekommer det i mange vokabularer, er det måske i virkeligheden ikke så specifikt alligevel, jf. også diskussionen om funktionsord i forudgående afsnit. Forekommer tokenet i mange domæner, skal værdien sættes lavere og omvendt. Derfor sættes værdien w t til det omvendt proportionale af det antal domæner d, i hvis specifikke vokabularer D tekst-tokenet t forekommer, altså w t = 1 d, hvor d = i t D i. 3. Der skal også tages hensyn til det domænespecifikke vokabulars størrelse, som der sammenlinges med, for at mindske sandsynligheden for, at man for domæner med store vokabularer, fx sport, automatisk får en højere score 14
15 end for domæner med små vokabularer som fx folkloristik. Derfor modificeres scoren med en vægt v, som er omvendt proportional til en funktion kvadratrodsfunktionen har vist sig at virke hensigtsmæssig af domænets specifikke vokabulars D størrelse: v = 1. D 4. Endvidere skal der i beregningen også tages hensyn til, hvor mange af den ukendte teksts tokens der overhovedet er indeholdt i mindst ét af de domænespecifikke vokabularer. Indeholder en tekst mange ukendte tokens, altså ordformer, der ikke er registreret i noget domænespecifikt vokabular, er der måske tale om en tekst, der ikke har en så entydig domænetilknytning, og scoren bør følgelig vægtes lavere. Så der beregnes en yderligere vægt til modifikation af scoren, nemlig forholdet mellem antallet af tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: k u. 5. Endelig kan scoren gøres relativ til tekstlængden i antal tokens n ved at multiplicere den med 1 n. De enkelte led (1 5) i beregningen af scoren s D for et givet domæne D kombineres herefter til følgende udtryk: s D = 1 n k u v w t t D W Det domæne, der på baggrund af dette udtryk opnår den højeste score, vinder, og teksten bliver tilordnet dette domæne. 8 På denne måde bliver det i princippet muligt automatisk at tilordne nyt tekstmateriale til domæner, som de kommer til udtryk i det klassifikationssystem, der blev opbygget for DDOK og det vil være muligt at opbygge et korpus med et tilsvarende domæne-miks som DDOK s. Det, der karakteriserer denne heuristiske tilgang, er, at der laves forskellige antagelser om egenskaber ved det eksisterende korpus, de herfra ekstraherede domænespecifikke vokabularer og de nye tekster, der skal klassificeres; og antagelserne omsættes til et kvantitativt udtryk, der anvendes i klassifikationsalgoritmen. Ud over de ovenfor under punkt 1 5 nævnte kvantificerede egenskaber kan der tænkes andre, fx også G 2 -rangen, som en ordform har inden for et domænespecifikt vokabular. Den valgte fremgangsmåde leverer umiddelbart acceptable resultater, men det er ikke ensbetydende med, at den er acceptabel ud fra en lingvistisk betragtning. Man burde derfor undersøge, om den virkelig kvantificerer sproglige egenskaber hensigtsmæssigt. 8 En implementation af algoritmen er tilgængelig fra papers/sprogtekbog/, hvor man kan uploade egne tekster og få dem domæneklassificeret. 15
16 Alternative tekstklassifikationsmetoder Man kunne også have valgt andre, mere matematisk orienterede tilgange som IDF, decision trees eller k Nearest Neighbour-klassifikation, som er beskrevet i fx [Manning and Schütze, 1999]. Eller en variant af den rent geometriske tilgang i [Widdows, 2003], som første test antyder kunne være et interessant alternativ til den heuristiske metode. Grundtanken er at sammenligne enten frekvensprofiler, [Widdows, 2003, kap. 5] eller måske bedre: tekst- og domænespecifikke vokabularer med tilknyttede G 2 -værdier som vektorer i n-dimensionale rum og bestemme afstanden mellem dem ved hjælp af en generalisering af Pythagoras sætning c = a 2 + b 2. Balancen i fremtidens referencekorpusser Hvilken af de skitserede metoder den heuristiske eller den geometriske der er den mest præcise til domæneklassifikation, må en storstilet aftestning af dem vise. En sådan aftestning gennemføres, ved at DDOK deles op i to portioner: én til træningsformål, som vi kalder T på fx 3 2 af det samlede omfang, og én til evalueringsformål, E, på fx 1 3. Det undersøges, hvor stor en andel af teksterne i E der kan bestemmes korrekt på baggrund af T for hver af de to metoder og forskellige varianter af dem. Første forsøgsvise test tyder på, at begge metoder har en relativ høj præcision. Et interessant teoretisk spørgsmål er, hvori slægtskabet mellem de to tilgange består: Hvis de stort set yder det samme, men den ene er en kvantificering af antagelser om materialets kvalitative beskaffenhed, mens den anden gør brug af en geometrisk metafor, hvad skyldes det så, at de stort set yder det samme? Anvendelsen af kvantitative metoder, som de viste, skal sikre en mere eksplicit deklaration af DSL s fremtidige referencekorpusser og gøre det muligt at opbygge mere velafbalancerede korpusser, end det hidtil har været muligt med rent intuitive og andre pragmatiske fremgangsmåder. Dermed skulle det også blive muligt at udføre mere pålidelige sammenlignende undersøgelser mellem forskellige korpusser. De her skitserede metoder til balancering vedrører ganske vist kun domænetilordningen af tekstmateriale, men de vil blive udvidet til også at omfatte andre tekstuelle kategorier, som det næste teksternes genre. Målet bør være at kunne give en kvantitativ deklaration af et korpus, så brugeren ved, hvilke forskelle og ligheder der er mellem korpusser med hensyn til forskellige tekstuelle dimensioner. Men de skitserede metoder er også nyttige til andre formål end balancering af korpusser, nemlig ved opbygning af subkorpusser med bestemte specifikationer, fx et korpus med tekster fra et bestemt fagområde, fx økonomi 16
17 udtræk af fagspecifikke vokabularer, jf. [Asmussen, 2005a]. Hensigten om at gøre det bedre næste gang retter naturligvis ikke op på den skævhed, der kan konstateres for K2000 s vedkommende set i relation til K90, så der arbejdes på at finde en mulighed for at anvende tilsvarende metoder som korrektiv, når man laver sammenlignende undersøgelser på disse to korpusser. Korrektionen ville umiddelbart kunne bestå i virtuelt at nedskalere både K2000 og K90, dvs. at se bort fra det materiale i dem, som er overrepræsenteret i det ene eller det andet korpus. Herved introduceres der ganske vist et nyt problem, nemlig at de to virtuelle korpusser efter al sandsynlighed bliver af forskellige størrelse, hvilket gør absolutte frekvenssammenligninger mellem dem upålidelige. I stedet kan man ganske vist arbejde med relative, men heller ikke dette er pålideligt, som påvist af [Evert and Baroni, 2005]. At designe korpusser er med tiden blevet andet og meget mere end opportunistisk at indsamle det materiale, man kan komme i nærheden af og sætte det sammen efter pragmatiske principper og så ellers bare undersøge løs på det. Skal et referencekorpus virkelig fungere som en sproglig stikprøve, der vil kunne gøre krav på at være repræsentativ for sproget som sådant på et givet tidspunkt, så kræves en metodologi, der gør det muligt at måle og veje korpusser, så deres indhold kan deklareres entydigt. Dette bidrag skal ses som et lille skridt på vejen mod at få udarbejdet og implementeret en sådan metodologi til gavn for bedre almensproglige referencekorpusser for dansk. Litteratur [Asmussen, 2004] Asmussen, J. (2004). Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser. In Duncker, D., editor, Studier i Nordisk , København. Selskab for Nordisk Filologi. [Asmussen, 2005a] Asmussen, J. (2005a). Automatic detection of new domainspecific words, using document classification and frequency profiling. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Asmussen, 2005b] Asmussen, J. (2005b). Towards a methodology for corpusbased studies of linguistic change. Contrastive observations and their possible diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of Danish. In Archer, D., Rayson, P., and Wilson, editors, Corpus Linguistics Around the World. Rodopi, Amsterdam. [Bick, 2003] Bick, E. (2003). Morfosyntaktisk opmærkede corpora for dansk. In 9. Møde om Udforskningen af Dansk Sprog oktober 2002, Århus. Aarhus Universitet. 17
18 [COBUILD: Sinclair et al., 1987] COBUILD: Sinclair, J. et al., editors (1987). Collins COBUILD English Language Dictionary. Collins. [Daille, 1995] Daille, B. (1995). Combined approach for terminology extraction: lexical statistics and linguistic filtering. Technical Report 5, Lancaster. [DDO: Hjorth et al., 2003] DDO: Hjorth, E., Kristensen, K., Lorentzen, H., Trap- Jensen, L., Asmussen, J., et al., editors (2003). Den Danske Ordbog 1-6. DSL & Gyldendal, København/Copenhagen. [Dunning, 1994] Dunning, T. (1994). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, (19(1)): [Evert and Baroni, 2005] Evert, S. and Baroni, M. (2005). Testing the extrapolation quality of word frequency models. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Friis-Hansen, 1978] Friis-Hansen, J. B. (1978). Hjælpebog til DK5. [Garside and Rayson, 2000] Garside, R. and Rayson, P. (2000). Comparing corpora using frequency profiling. In Proceedings of the workshop on Comparing Corpora, held in conjunction with the 38th annual meeting of the Association for Computational Linguistics (ACL 2000), pages 1 6, Hong Kong. [Kilgarriff, 2001] Kilgarriff, A. (2001). Comparing Corpora. IJCL, 6(1): [Lorentzen, 2004] Lorentzen, H. (2004). The Danish Dictionary at large: presentation, problems and perspectives. In Proceedings of the 11th EURALEX International Congress, volume 1, pages , Lorient. Euralex. [Manning and Schütze, 1999] Manning, C. D. and Schütze, H. (1999). Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 2003 edition. [Norling-Christensen and Asmussen, 1998] Norling-Christensen, O. and Asmussen, J. (1998). The Corpus of The Danish Dictionary. Lexikos. Afrilex Series, 8: [Widdows, 2003] Widdows, D. (2003). Geometry and Meaning. Center for the Study of Language and Information Lecture Notes (CSLI-LN). The University of Chicago Press, Chicago. 18
Korpusbaseret lemmaselektion og opdatering
Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk Program 1. Introduktion til DSL 2. Introduktion
Læs mereIntro til design og brug af korpora
Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-
Læs mereKvantitative metoder inden for korpuslingvistiske projekter
Kvantitative metoder inden for korpuslingvistiske projekter Illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90 Jørg Asmussen Det Danske Sprog- og Litteraturselskab, DSL ja@dsl.dk
Læs mereKvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90.
Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90. Jørg Asmussen Det Danske Sprog- og Litteraturselskab www.dsl.dk
Læs mereRita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side
Rita Lenstrup 109 Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side 127-136. 1. Indledning I Hermes nr. 5 præsenteredes en sammenlignende vurdering
Læs mereInformationssøgning metoder og scenarier
Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean
Læs mereAppendiks 6: Universet som en matematisk struktur
Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes
Læs mereKorpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser
Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser JØRG ASMUSSEN Korpus 2000 er et korpus over dansk skriftsprog omkring år 2000 udarbejdet med henblik på at give alle
Læs mereMetoder og struktur ved skriftligt arbejde i idræt.
Metoder og struktur ved skriftligt arbejde i idræt. Kort gennemgang omkring opgaver: Som udgangspunkt skal du når du skriver opgaver i idræt bygge den op med udgangspunkt i de taksonomiske niveauer. Dvs.
Læs merea. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?
En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger
Læs mereLars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.
Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt
Læs mereRESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL
RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL OVERSÆTTELSE AF SELSKABSRETLIG DOKUMENTATION. I den foreliggende
Læs mereEt oplæg til dokumentation og evaluering
Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6
Læs merePersonlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
Læs mereStatistik og beregningsudredning
Bilag 7 Statistik og beregningsudredning ved Overlæge Søren Paaske Johnsen, medlem af Ekspertgruppen Marts 2008 Bilag til Ekspertgruppens anbefalinger til videreudvikling af Sundhedskvalitet www.sundhedskvalitet.dk
Læs mereSolidaritet, risikovillighed og partnerskønhed
Rockwool Fondens Forskningsenhed Arbejdspapir 36 Solidaritet, risikovillighed og partnerskønhed Jens Bonke København 1 Solidaritet, risikovillighed og partnerskønhed Arbejdspapir 36 Udgivet af: Rockwool
Læs mereFig. 1 Billede af de 60 terninger på mit skrivebord
Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereOrdbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2
Fremstillingsformer Fremstillingsformer Vurdere Konkludere Fortolke/tolke Diskutere Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Udtrykke eller Vurder: bestemme På baggrund af biologisk
Læs mere3. klasse 6. klasse 9. klasse
Børne- og Undervisningsudvalget 2012-13 BUU Alm.del Bilag 326 Offentligt Elevplan 3. klasse 6. klasse 9. klasse Matematiske kompetencer Status tal og algebra sikker i, er usikker i de naturlige tals opbygning
Læs mereIt-støttet excerpering og registrering af nye ord og ordforbindelser
It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition
Læs mereEn statistikstuderendes bekendelser Søren Wengel Mogensen
Oplysning 23 En statistikstuderendes bekendelser Søren Wengel Mogensen Om at skrive BSc-opgave i anvendt statistik. Der findes matematikere (i hvert fald matematikstuderende), der mener, at den rene matematik
Læs mereLUP læsevejledning til regionsrapporter
Indhold Overblik... 2 Sammenligninger... 2 Hvad viser figuren?... 3 Hvad viser tabellerne?... 5 Eksempler på typiske spørgsmål til tabellerne... 6 Øvrigt materiale Baggrund og metode for LUP Fødende: Analysemetoderne,
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereUndersøgelse af den nordiske befolknings kendskab og holdning til Nordisk Råd og Nordisk Ministerråd og et særligt forstærket nordisk samarbejde
Undersøgelse af den nordiske befolknings kendskab og holdning til Nordisk Råd og Nordisk Ministerråd og et særligt forstærket nordisk samarbejde Oxford Research, oktober 2010 Opsummering Undersøgelsen
Læs mereHvad er formel logik?
Kapitel 1 Hvad er formel logik? Hvad er logik? I daglig tale betyder logisk tænkning den rationelt overbevisende tænkning. Og logik kan tilsvarende defineres som den rationelle tænknings videnskab. Betragt
Læs mereMATEMATIK. Formål for faget
MATEMATIK Formål for faget Formålet med undervisningen er, at eleverne udvikler matematiske kompetencer og opnår viden og kunnen således, at de bliver i stand til at begå sig hensigtsmæssigt i matematikrelaterede
Læs mereInterviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008
Interviewereffekter på spørgsmål om sort arbejde Rockwool Fondens Forskningsenhed Oktober 2008 Tak til Rockwool Fondens Forskningsenhed Danmarks Statistiks Interviewservice, specielt til Isak Isaksen,
Læs mereSproglig udvikling i Fælles Mål i alle fag Kl
Sproglig udvikling i Fælles Mål i alle fag Kl. 14.40-15.20 Dansk som andetsprog som dimension i fagene samt faglig læsning og skrivning er under overskriften Sproglig udvikling skrevet ind som tværgående
Læs mereVurdering af kvalitet en note af Tove Zöga Larsen
Vurdering af kvalitet en note af Tove Zöga Larsen Kvalitet... 2 Test... 2 Hvordan finder man testdata?... 2 Dokumentation af test... 3 Review... 3 Vurderingskriterier... 3 Gennemførelsen af et review...
Læs mere6 Medicinrådets kategorisering af den kliniske merværdi (Forslag til ny formulering af afsnit 6)
Høringsmateriale 2/2: Høring over forslag til ændring afsnit 6 vedrørende kategorisering af klinisk merværdi i Metodehåndbog for Medicinrådets arbejde med at udarbejde fælles regionale vurderinger af nye
Læs mereKarrierekvinder og -mænd
Rockwool Fondens Forskningsenhed Arbejdspapir 35 Karrierekvinder og -mænd Hvem er de? Og hvor travlt har de? Jens Bonke København 2015 Karrierekvinder og -mænd Hvem er de? Og hvor travlt har de? Arbejdspapir
Læs mereStatistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Læs mereDigitalt børne- og ungdomsliv anno 2009
Digitalt børne- og ungdomsliv anno 2009 MEDIERÅDET For Børn og Unge Februar 2009 Zapera A/S Robert Clausen, rc@zapera.com, 3022 4253. Side 1 af 53 Ideen og baggrunden for undersøgelsen. Medierådet for
Læs mereLæseundersøgelse blandt unge i målgruppe for forberedende grunduddannelse (FGU)
Læseundersøgelse blandt unge i målgruppe for forberedende grunduddannelse (FGU) Anna Steenberg Gellert og Carsten Elbro, Center for Læseforskning, Københavns Universitet Baggrund På den nyligt oprettede
Læs mereAnalyseinstitut for Forskning
Analyseinstitut for Forskning Folk og forskning Forskningsformidling - Danskernes kilder til viden om forskning Notat 2001/2 ISSN: 1399-8897 Analyseinstitut for Forskning/ The Danish Institute for Studies
Læs mereGuide til lektielæsning
Guide til lektielæsning Gefions lærere har udarbejdet denne guide om lektielæsning. Den henvender sig til alle Gefions elever og er relevant for alle fag. Faglig læsning (=lektielæsning) 5- trinsmodellen
Læs mereLæsevejledning til resultater på regions- og sygehusplan
Læsevejledning til resultater på regions- og sygehusplan Indhold 1. Overblik...2 2. Sammenligninger...2 3. Hvad viser figuren?...3 4. Hvad viser tabellerne?...6 6. Eksempler på typiske spørgsmål til tabellerne...9
Læs mereFormål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1
Ingeniør- og naturvidenskabelig metodelære Dette kursusmateriale er udviklet af: Jesper H. Larsen Institut for Produktion Aalborg Universitet Kursusholder: Lars Peter Jensen Formål & Mål Formål: At støtte
Læs mereSimulering af stokastiske fænomener med Excel
Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen
Læs mereDatabrud i Arbejdskraftundersøgelsen mellem 2016 og 2017
21. februar 2018 TCO, SWE Arbejdsmarked Databrud i Arbejdskraftundersøgelsen mellem 2016 og 2017 Resumé Der er brud i dataserien for Arbejdskraftundersøgelsen (AKU) mellem fjerde kvartal 2016 og første
Læs mereEn ny vej - Statusrapport juli 2013
En ny vej - Statusrapport juli 2013 Af Konsulent, cand.mag. Hanne Niemann Jensen HR-afdelingen, Fredericia Kommune I det følgende sammenfattes resultaterne af en undersøgelse af borgernes oplevelse af
Læs mereEvaluering af matematik undervisning
Evaluering af matematik undervisning Udarbejdet af Khaled Zaher, matematiklærer 6-9 klasse og Boushra Chami, matematiklærer 2-5 klasse Matematiske kompetencer. Fællesmål efter 3.klasse indgå i dialog om
Læs mereLæseplan for faget matematik. 1. 9. klassetrin
Læseplan for faget matematik 1. 9. klassetrin Matematikundervisningen bygger på elevernes mange forudsætninger, som de har med når de starter i skolen. Der bygges videre på elevernes forskellige faglige
Læs mereFremstillingsformer i historie
Fremstillingsformer i historie DET BESKRIVENDE NIVEAU Et referat er en kortfattet, neutral og loyal gengivelse af tekstens væsentligste indhold. Du skal vise, at du kan skelne væsentligt fra uvæsentligt
Læs mereKort gennemgang af Samfundsfaglig-, Naturvidenskabeligog
Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Humanistisk metode Vejledning på Kalundborg Gymnasium & HF Samfundsfaglig metode Indenfor det samfundsvidenskabelige område arbejdes der med mange
Læs mereTip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik
Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,
Læs mereBilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.
Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...
Læs mereKort sagt: succes med netdating.
Indledning I denne e- bog får du en guide til, hvordan du knækker netdating koden! Du finder alt hvad du skal bruge, for at komme igang med at møde søde piger på nettet. Få f.eks. besvaret følgende spørgsmål:
Læs mereMatematik. Matematiske kompetencer
Matematiske kompetencer skelne mellem definitioner og sætninger, mellem enkelttilfælde og generaliseringer og anvende denne indsigt til at udforske og indgå i dialog om forskellige matematiske begrebers
Læs mereProsodi i ledsætninger
Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger
Læs mereEffektmåling 1. Mere attraktive almene boliger?
Effektmåling 1 Mere attraktive almene boliger? Effektevaluering af Omprioriteringsloven 2000 Effektmålinger Formål med pjecerne Der er i dag et stigende fokus på effekterne af de offentlige indsatser,
Læs mereCMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM
CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller
Læs mereMatematik samlet evaluering for Ahi Internationale Skole
efter 3.klasse. e efter 6.klasse. e Skole efter 9.klasse. e indgå i dialog om spørgsmål og svar, som er karakteristiske i arbejdet med matematik (tankegangskompetence formulere sig skriftligt og mundtligt
Læs mereenige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne
3. ARBEJDSMILJØET OG ARBEJDSMILJØARBEJDET I dette afsnit beskrives arbejdsmiljøet og arbejdsmiljøarbejdet på de fem FTF-områder. Desuden beskrives resultaterne af arbejdsmiljøarbejdet, og det undersøges
Læs mereBedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog
Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december 2016 Dansk som andetsprog Information om prøven i skriftlig fremstilling D Prøven i skriftlig fremstilling D består af et teksthæfte,
Læs mereNye metoder til bestemmelse af KCl i halm
RESUME for Eltra PSO-F&U projekt nr. 3136 Juli 2002 Nye metoder til bestemmelse af KCl i halm Indhold af vandopløselige salte som kaliumchlorid (KCl) i halm kan give anledning til en række forskellige
Læs mereÅrsplan for 7. klasse, matematik
Årsplan for 7. klasse, matematik I matematik bruger vi bogsystemet Sigma som grundmateriale. I systemet er der, ud over grundbogen, også kopiark og tests tilknyttet de enkelte kapitler. Systemet er udarbejdet
Læs mereFuldstændig fantastisk?
Fuldstændig fantastisk? Holger Juul, lektor, ph.d., Center for Læseforskning, Københavns Universitet Enten-eller vs. både-og I marts-nummeret af Nyt om Ordblindhed tager Erik Arendal afstand fra det han
Læs mereAuto Illustrator Digital æstetik: Analyse Skriveøvelse 1
Auto Illustrator Digital æstetik: Analyse Skriveøvelse 1 Marie Louise Juul Søndergaard, DD2010 Studienr. 20104622 Anslag: 11.917 Indholdsfortegnelse INDLEDNING 2 AUTO ILLUSTRATOR 2 METAFORER OG METONYMIER
Læs mereMonitoreringen og effektvurderingen omfatter kun strukturfondsprojekter og medtager ikke andre projekter igangsat af Vækstforum Midtjylland.
Danmarks Statistik, regionerne, Bornholms regionskommune og Erhvervsstyrelsen har udviklet et værktøj, som gør det muligt at følge (monitorere) den faktiske udvikling i de virksomheder, der deltager i
Læs mereBaggrundsnotat: Søskendes uddannelsesvalg og indkomst
17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser
Læs mereDer er elementer i de nyateistiske aktiviteter, som man kan være taknemmelig for. Det gælder dog ikke retorikken. Må-
Introduktion Fra 2004 og nogle år frem udkom der flere bøger på engelsk, skrevet af ateister, som omhandlede Gud, religion og kristendom. Tilgangen var usædvanlig kritisk over for gudstro og kristendom.
Læs mere1. Hvad er det for en problemstilling eller et fænomen, du vil undersøge? 2. Undersøg, hvad der allerede findes af teori og andre undersøgelser.
Psykologiske feltundersøgelser kap. 28 (Kilde: Psykologiens veje ibog, Systime Ole Schultz Larsen) Når du skal i gang med at lave en undersøgelse, er der mange ting at tage stilling til. Det er indlysende,
Læs mereEvaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen
30. juni 2011 Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen 1. Indledning I perioden fra 7. juni til 21. juni 2011 fik de personer der har modtaget sygedagpenge hos Silkeborg Kommune
Læs mereAnalyseinstitut for Forskning
Analyseinstitut for Forskning Bioteknologi Opfattelser og holdninger blandt danskere, 1989-2000 Notat 2001/3 ISSN: 1399-8897 Analyseinstitut for Forskning/ The Danish Institute for Studies in Research
Læs mereIndivider er ikke selv ansvarlige for deres livsstilssygdomme
Individer er ikke selv ansvarlige for deres livsstilssygdomme Baggrunden Både i akademisk litteratur og i offentligheden bliver spørgsmål om eget ansvar for sundhed stadig mere diskuteret. I takt med,
Læs mereEleverne skal lære at:
PK: Årsplan 8.Ga. M, matematik Tid og fagligt område Aktivitet Læringsmål Uge 32 uge 50 Tal og algebra Eleverne skal arbejde med at: kende de reelle tal og anvende dem i praktiske og teoretiske sammenhænge
Læs mereLineære differentialligningers karakter og lineære 1. ordens differentialligninger
enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.
Læs mereBetydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere
DET ØKONOMISKE RÅD S E K R E T A R I A T E T d. 20. maj 2005 SG Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere Baggrundsnotat vedr. Dansk Økonomi, forår 2005, kapitel
Læs mereGruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.
Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,
Læs mereMATEMATIK. GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål
MATEMATIK GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål KOMMENTAR Vi har i det følgende foretaget en analyse og en sammenstilling af vore materialer til skriftlig
Læs mereBilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3
Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3 Indholdsfortegnelse Indledning Prisudvikling 2.1 Prisudviklingen fra 2014 til
Læs mereGuldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund.
Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund. Alle rettigheder forbeholdes. Mekanisk, fotografisk eller elektronisk gengivelse af denne bog eller dele heraf er uden forfatternes skriftlige
Læs mereJUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2017
JUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2017 UDVIKLINGEN I ANTAL ANMELDELSER OG I STRAFFENES ART OG LÆNGDE FOR VOLD, 2007-2016 På baggrund af Danmarks Statistiks tal vedrørende anmeldelser og strafferetlige
Læs mereVisiRegn: En e-bro mellem regning og algebra
Artikel i Matematik nr. 2 marts 2001 VisiRegn: En e-bro mellem regning og algebra Inge B. Larsen Siden midten af 80 erne har vi i INFA-projektet arbejdet med at udvikle regne(arks)programmer til skolens
Læs mereNaturstyrelsens Referencelaboratorium for Kemiske Miljømålinger NOTAT
Naturstyrelsens Referencelaboratorium for Kemiske Miljømålinger NOTAT Til: Brugere af Bekendtgørelse om kvalitetskrav til miljømålinger udført af akkrediterede laboratorier, certificerede personer mv.
Læs mereFaglige delmål og slutmål i faget Dansk. Trin 1
Faglige delmål og slutmål i faget Dansk. Trin 1 Undervisningen skal lede frem mod, at eleverne i 1. klasse har tilegnet sig kundskaber og Det talte sprog Undervisningen tager udgangspunkt i elevernes sproglige
Læs mereBilag 1a. Cpr.nr. Ikke. Samlet indstilling uddannelsesparat. uddannelsesparat
1 Bilag 1a Dansk: den obligatoriske optagelsesprøve Prøvegrundlag: en tekst af max 1 normalsides omfang. Teksttyperne kan være prosa, lyrik eller sagprosa. Læse sikkert og hurtigt med forståelse og indlevelse
Læs mereFraktaler Mandelbrots Mængde
Fraktaler Mandelbrots Mængde Foredragsnoter Af Jonas Lindstrøm Jensen Institut For Matematiske Fag Århus Universitet Indhold Indhold 1 1 Indledning 3 2 Komplekse tal 5 2.1 Definition.......................................
Læs mereSikre Beregninger. Kryptologi ved Datalogisk Institut, Aarhus Universitet
Sikre Beregninger Kryptologi ved Datalogisk Institut, Aarhus Universitet 1 Introduktion I denne note skal vi kigge på hvordan man kan regne på data med maksimal sikkerhed, dvs. uden at kigge på de tal
Læs merePå alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold.
Social arv 163 8. Social arv nes sociale forhold nedarves til deres børn Seks områder undersøges Der er en klar tendens til, at forældrenes sociale forhold "nedarves" til deres børn. Det betyder bl.a.,
Læs mereLUP Fødende læsevejledning til afdelingsrapporter
Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Uddybende forklaring af elementer i figurer og tabeller...
Læs mereSkriftlig eksamen i samfundsfag
OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger
Læs mereLUP læsevejledning til afdelingsrapporter
Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Oversigtsfigur for afsnit/underopdelinger... 8 Uddybende forklaring
Læs mere- erkendelsens begrænsning og en forenet kvanteteori for erkendelsen
Erkendelsesteori - erkendelsens begrænsning og en forenet kvanteteori for erkendelsen Carsten Ploug Olsen Indledning Gennem tiden har forskellige tænkere formuleret teorier om erkendelsen; Hvad er dens
Læs mereFå optimeret dit firmas website til mobilen og styrk dit image ud af til.
Få optimeret dit firmas website til mobilen og styrk dit image ud af til. Hvorfor? Vi danskere vil være på nettet overalt. Og det kan ses på mængden af datatrafik, vi henter og sender til og fra vores
Læs mereDiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island
DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island Jakob Halskov (jh.id@cbs.dk) Dept. of Computational Linguistics Copenhagen Business School
Læs mere24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S
24-03-2009 Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S Problemstilling ved DBK integration i BIM Software Domæner og aspekter Det domæne, der primært
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereAT og elementær videnskabsteori
AT og elementær videnskabsteori Hvilke metoder og teorier bruger du, når du søger ny viden? 7 begrebspar til at karakterisere viden og måden, du søger viden på! Indholdsoversigt s. 1: Faglige mål for AT
Læs mereAnvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Læs mereDatabrud i Arbejdskraftundersøgelsen i 1. kvt. 2017
24. maj 2017 TCO, SWE Arbejdsmarked Databrud i Arbejdskraftundersøgelsen i 1. kvt. 2017 Resumé Der er brud i dataserien for Arbejdskraftundersøgelsen (AKU) mellem fjerde kvartal 2016 og første kvartal
Læs mereNina Nielsen STANDARD RAPPORT. Adaptive General Reasoning Test
Adaptive General Reasoning Test STANDARD RAPPORT Dette er en fortrolig rapport, som udelukkende må anvendes af personer med en gyldig certificering i anvendelse af værktøjet AdaptGRT fra DISCnordic. VIGTIGT
Læs mereÅrsplan for 2.kl i Matematik
Årsplan for 2.kl i Matematik Vi følger matematiksystemet "Matematrix". Her skal vi i år arbejde med bøgerne 2A og 2B. Eleverne i 2. klasse skal i 2. klasse gennemgå de fire regningsarter. Specielt skal
Læs mereAt konstruere et socialt rum. Annick Prieur og Lennart Rosenlund
At konstruere et socialt rum Annick Prieur og Lennart Rosenlund Vort sigte Vise hvorledes vi er gået frem, når vi har konstrueret et socialt rum ud fra surveydata fra en dansk by Aalborg efter de samme
Læs mereSyv veje til kærligheden
Syv veje til kærligheden Pouline Middleton 1. udgave, 1. oplag 2014 Fiction Works Aps Omslagsfoto: Fotograf Steen Larsen ISBN 9788799662999 Alle rettigheder forbeholdes. Enhver form for kommerciel gengivelse
Læs mereBelønnes studieophold i udlandet på arbejdsmarkedet?
Belønnes studieophold i udlandet på arbejdsmarkedet? Emil Regin Brodersen 1. oktober 2017 Indledning Formålet med dette notat er, at undersøge om nyuddannede akademikere belønnes på arbejdsmarkedet for,
Læs mereLidt historisk om chancelære i grundskolen
Lidt historisk om chancelære i grundskolen 1976 1.-2.klassetrin Vejledende forslag til læseplan:.det tilstræbes endvidere at eleverne i et passende talmaterialer kan bestemme for eksempel det største tal,
Læs mereReferencelaboratoriet for måling af emissioner til luften
Referencelaboratoriet for måling af emissioner til luften Rapport nr.: 77 Titel Hvordan skal forekomsten af outliers på lugtmålinger vurderes? Undertitel - Forfatter(e) Arne Oxbøl Arbejdet udført, år 2015
Læs mere