At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk

Størrelse: px
Starte visningen fra side:

Download "At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk"

Transkript

1 At måle og veje korpusser et aspekt af arbejdet bag de store almensproglige korpusser for dansk Jørg Asmussen Det Danske Sprog- og Litteraturselskab Bidrag til Bente Maegaard-festskrift KLADDE-VERSION Resumé Indledningsvis præsenteres Den Danske Ordbogs Korpus, Korpus 90 og Korpus 2000 som eksempler på referencekorpusser for dansk; samtidig skitseres de kompositoriske principper, som ligger til grund for dem. Herefter udføres et par simple stikprøveagtige sammenlignende vokabularundersøgelser på Korpus 2000 og Korpus 90 for at få et indtryk af, hvorvidt disse korpusser er sammenlignelige. Undersøgelsesresultaterne peger på, at der åbenbart er markante kompositoriske forskelle på korpusserne, og der gennemføres derfor en komplet, log-likelihood-baseret vokabularundersøgelse, der skal kaste mere lys over forskellighedernes omfang, som viser sig at være omfattende. Herefter undersøges, hvorvidt samme type vokabularundersøgelser kombineret med teknikker til tekstklassifikation kan bruges til bedre kompositorisk balancering af fremtidens referencekorpusser for dansk, som DSL arbejder på at udvikle. Referencekorpusser for dansk og deres opbygning Det Danske Sprog- og Litteraturselskab har siden begyndelsen af 1990 erne udarbejdet en række korpusser over dansk almensprog en udvikling, der i 2002 foreløbig kulminerede med lanceringen af Korpus 2000 på Forfatteren takker Nicolai Hartvig Sørensen for kritiske kommentarer til en tidligere version af dette bidrag. 1

2 Korpus 2000 (K2000) består af 28 millioner ords tekstmateriale med det dansk, der blev skrevet omkring årtusindskiftet. Parallelt med Korpus 2000 blev der opbygget et korpus med lidt ældre sprog, nemlig Korpus 90 (K90), også på 28 millioner ord. Tanken var at kunne stille to i princippet ensartede og fuldt morfosyntaktisk annoterede 1 korpusser offentligt til rådighed på webbet, både til online-søgning og download: ét med firsernes sprog og ét med sproget omkring år Alle sproginteresserede skulle hermed få mulighed for at kunne udføre direkte sammenlignende undersøgelser af nyere dansk. Men i begyndelsen, længe før Korpus 2000 og længe før webbet, som det kendes i dag, blev Den Danske Ordbogs Korpus (DDOK) til: et 40 millioner ords stort almensprogligt korpus, som blev udarbejdet i , på et tidspunkt, hvor korpuslingvistik i måske endnu højere grad end i dag var en skønsom blanding af forskellige sprogteknologiske teknikker snarere end en erkendelsesorienteret videnskabelig disciplin, og hvor brugen af store almensproglige tekstkorpusser først og fremmest havde slået an i leksikografiske kredse, her drevet af håbet om at kunne høste en håndværksmæssig rationaliseringsgevinst. Det første korpusbaserede ordbogsprojekt [COBUILD: Sinclair et al., 1987] blev søsat i 1980 som et samarbejde mellem University of Birmingham og forlaget Collins. Det første danske korpusbaserde ordbogsprojekt var Den Danske Ordbog [DDO: Hjorth et al., 2003], jf. [Lorentzen, 2004]. Det var derfor også i vid udstrækning ordbogsredaktioners behov, der afspejlede sig i de korpuskompositoriske principper, man tilstræbte, således også for DDOK: Korpusset skulle gerne afspejle sproget som helhed med alle dets nuancer, det skulle være en repræsentativ stikprøve for sproget som sådant, det skulle derfor være balanceret og indeholde alle mulige typer tekst, både skrevne og talte, private og offentlige, almene og lettere faglige. Alle genrer skulle være repræsenteret og mange fagområder ligeledes. Rene fagtekster, hvori fagfolk henvender sig til deres lige, skulle derimod undgås. DDOK skulle være referencekorpusset over moderne dansk. For DDO s korpus blev der opstillet et komplekst beskrivelsesapparat for at få styr på teksternes forskellige karakteristika. Man var klar over, at helt objektive kriterier for, hvad der udgør et balanceret korpus, er umulige at opstille, så man valgte en pragmatisk tilgang i stedet. Man opstillede tre dikotomier over teksttyper, man mente skulle være repræsenteret, nemlig skriftsprog vs. talesprog, professionelt vs. privat sprog, og almensprog vs. lettere fagligt sprog. Med udgangspunkt heri kunne alt tekstmateriale opdeles i otte forskellige klasser. For hver af disse klasser blev det undersøgt, hvilke og hvor mange forskellige tekstkilder der var tilgængelige, og man stilede efter, at alle otte klasser skulle være velrepræsenteret i det samlede korpus. 1 Opmærkningen blev udført ved hjælp af DanPars-taggeren, jf. [Bick, 2003]. 2

3 Ud over disse tre grundlæggende dikotomier blev der til tekstbeskrivelsen anvendt ca. 25 yderligere oplysningstyper af bibliografisk, kommunikativ og sociolingvistisk relevans, som forudgår hver enkelt af de i alt tekststykker i korpus i form af en såkaldt header, jf. [Norling-Christensen and Asmussen, 1998] for en mere detaljeret beskrivelse. Meningen med alle disse oplysninger var dels, at man under opbygningen ville føre bog over, at korpusset blev så varieret og balanceret som muligt, dels at få realiseret et ønske om at kunne undersøge, hvilke forskelle der virkelig var fx på mænds og kvinders, gamles og unges, uddannedes og uuddannedes, vestjyders og sjællænderes sprogbrug hvis der da var nogen. Eller at finde frem til, hvad der var typisk for talesprog over for skriftsprog, romaner over for festsange, avishistorier over for skolestile. Også tanken om at kunne bruge headeroplysningerne som grundlag for udtrækning af specifikke korpusser fra det store korpus var nærliggende. Hensigten med de ønskede undersøgelsesmuligheder var, at resultaterne skulle kunne omsættes til deskriptive leksikalske beskrivelser af moderne dansk. Det, der endnu var rudimentært på daværende tidspunkt, og som stadig langt fra er fuldstændigt, er en egentlig metodologi for, hvordan man griber sådanne undersøgelser an: Hvordan udfører man kontrastive korpusundersøgelser? Hvordan finder man det typiske i en bestemt tekst eller teksttype? Besvarelsen af de to spørgsmål ville kunne udmøntes i et bud på operationelle metoder til, hvordan man i det hele taget deklarerer, hvad der er i et korpus og hvordan man bedst kategoriserer de tekster, der skal med i et korpus. Ifølge [Kilgarriff, 2001] er gængse korpusdeklarationer som oftest temmelig impressionistiske som fx aviskorpus, webkorpus, korpus over skolestile, private tekster osv. Metoder til korpusdeklaration kan muligvis føre til et bud på, hvordan man kan udtrykke tekstkorpussers repræsentativitet. Uden sådanne metoder er det vanskeligt at redegøre præcist for, hvad der fx er i DDOK, eller hvad der fx adskiller K90 fra K2000. Principper for, hvordan man bedst deklarerer tekster og korpusser, er ikke mindst nødvendige i takt med, at der bliver flere korpusser tilgængelige med mulighed for sammenlignende undersøgelser imellem dem. Hvis både K90 og K2000 virkelig er referencekorpusser, korpusser der påstås at kunne agere som stedfortrædere for sproget som sådant, så må det betyde, at det, der adskiller dem, alene er det, der er typisk for den tids sprog, de hver især er referencekorpus for. Sammenlignende vokabularundersøgelser Korpusbaseret sprogbeskrivelse kaldes gerne empirisk, hvilket vil sige, at den bør bero på objektive iagttagelser og reproducerbare eksperimenter. Hånd i hånd her- 3

4 med går en kvantitativ tilgang til det objekt, altså sproget, man ønsker at udsige noget om. At korpuslingvistik er blevet en overvejende kvantitativ disciplin, skyldes ikke mindst tekstkorpussers stadig stigende omfang: Det er umuligt at overskue dem med det blotte øje, det gælder både deres sammensætning og fremtrædende sproglige regelmæssigheder i dem. Umiddelbart falder de kvantitative metoder i to grupper: 1. Metoder til undersøgelse af en teksts eller et korpus beskaffenhed. Ønsket er at kunne gøre rede for, hvad der er i et korpus, hvilke teksttyper det er sammensat af, og at sammenligne korpusser og tekster med hinanden. Mere sofistikerede anvendelser af disse metoder er fx automatisk dokumentklassifikation eller indholdsresumering. 2. Metoder til fremfinding af bestemte sproglige strukturer. Ønsket er at finde både faste udtryk, fremtrædende samforekomster, syntaktiske strukturer m.v. En mere sofistikeret anvendelse af disse teknikker er fx sprogmodellering. Fælles for disse metoder er, at de ikke tager udgangspunkt i en kvalitativ fortolkning af materialet, inden de kommer til anvendelse: Med andre ord betragtes kun kvantificerbare enheder, der kan bestemmes entydigt, dvs. algoritmisk. Forholdsvis sikkert kan man segmentere tekstmaterialet i ord (tokens) og sætninger (dvs. perioder); her vil vi nøjes med udelukkende at se på unikke ordformer (types) i et korpus. Vi skal i det følgende se eksempler på, hvordan metoder fra den første gruppe kan anvendes til en besvarelse af de spørgsmål og problemstillinger, som blev fremsat i forudgående afsnit ved i princippet blot at gennemføre rene vokabularundersøgelser. I [Asmussen, 2004] blev der udført en række eksemplariske sammenlignende undersøgelser mellem K90 og K2000, herunder en række hyppighedssammenligninger for udvalgte ord. Det blev konstateret, at lemmaer som mobiltelefon eller benchmarking er betydeligt hyppigere i K2000 end i K90, mens fx biltelefon derimod er hyppigere i K90 forskelle, som intuitivt kan forklares ud fra en viden om verdens forandring fra 80 erne frem til omkring år 2000, og som derfor ikke undrer. Mere forunderligt var billedet derimod ved ord som kambrium, som er lavfrekvent i K90 og slet ikke forekommer i K2000, mens frekvente ord som bil, land eller Danmark viser ret markante hyppighedsforskelle i de to korpusser, hvor bil er hyppigere i K90, mens de to øvrige er hyppigere i K2000. På denne baggrund drøftedes spørgsmålet, hvilke metoder der er egnede ved sammenlignende kvantitative undersøgelser, og hvordan man kan sikre korpussers sammenlignelighed i det hele taget, således at de forskelle, man observerer for referencekorpusser fra to forskellige tidsperioder, faktisk er tidsbetingede og ikke resultatet af 4

5 tilfældig korpuskompositorisk støj. I [Asmussen, 2005b] introduceres invariante tekstuelle træk som betegnelse for en gruppe algoritmisk tællelige fænomener i en tekst; fænomener, der er karakteriseret ved, at de udviser ensartet udbredelse i tekster over længere tidsrum. Til denne gruppe antages at høre en række mellemfrekvente ordformer. Imidlertid gives der heri hverken kvantitative bud på, hvordan man statistisk underbygger sine umiddelbare sammenlignende iagttagelser af enkeltfænomener i to korpusser, eller hvordan man skaffer sig et overblik over to korpussers forskelle og ligheder i det hele taget. I det følgende skal der derfor udføres et par eksperimenter til illustration af, hvordan man kan anvende en statistisk signifikanstest til disse formål her udelukkende begrænset til teksters ordformer. Her anvendes log-likelihood-testen (G 2 ), som blev introduceret af [Dunning, 1994]. Han påviser, at andre udbredte statistiske test som χ 2 eller z-score ikke nødvendigvis egner sig, når man tæller ord (eller n-grammer) i korpusser, da de forvrænger resultaterne for lavfrekvente ord, som udgør den væsentligste del af det betydningsbærende vokabular. Loglikelihood-testen betragter det at tælle ord som en binær proces og følger derfor binomialfordelingen; hermed egner den sig bedre til at teste sjældne hændelser end de gængse normalfordelingsbaserede test. En beskrivelse af G 2 -testen skal ikke gives her, der henvises i stedet til [Dunning, 1994] for en teoretisk redegørelse og til [Garside and Rayson, 2000] for en mere anvendelsesorienteret. Testen er i øvrigt ligeledes velegnet til fremfinding af nye ord hhv. termekstraktion, jf. [Daille, 1995]. G 2 -testen er omend matematisk kompleks simpel at implementere, men har den skavank, at den ikke inddrager fænomenernes spredning i et større materiale (dispersion). Ifølge [Kilgarriff, 2001] skulle Mann-Whitney ranks test derfor være G 2 overlegen i hvert fald, sålænge korpusserne, der skal sammenlignes, er lige store til gengæld er den ret omstændelig at anvende. Vi skal først underkaste eksemplerne fra [Asmussen, 2004] G 2 -testen for at få et indtryk af, hvorvidt de konstaterede frekvensforskelle er statistisk signifikante. Resultaterne ses i tabel 1. Jo højere G 2 -værdi, desto mere statistisk signifikant er forskellen mellem de to forekomsttal. Det er fastlagt, at hvis G 2 3,8, så er der 95 procents sandsynlighed for, at hyppighedsforskellen på det givne ord i de to tekster ikke skyldes et tilfælde (p 0,95). Er G 2 6,6, er der endda 99 procents sandsynlighed herfor (p 0, 99). Oversigten i tabel 1 støtter delvis de intuitive fortolkninger i [Asmussen, 2004], nemlig at frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok: de skyldes med 99 procents sikkerhed ingen tilfældighed; dette er dog ikke ensbetydende med, at de kan fortolkes som tegn på sproglig forandring; umiddelbart kan de kun fortolkes som tegn på en forskel på 5

6 Lemma f K2000 f K90 G 2 Resultat overrepræsenteret (p 0, 99) mobiltelefon i K2000 benchmarking i K2000 biltelefon i K90 kambrium bil i K90 land i K2000 Danmark i K2000 cykel i K90 hus i K90 mand i K90 Tabel 1: G 2 -værdier for udvalgte ord i K2000 over for K90 K90 og K2000 at kambrium ikke med 99 procents sikkerhed (men dog med 95%) kan fortolkes som indikator på en forskel på K90 og K2000 og dermed vel heller ikke som tegn på en sproglig forandringsproces at hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, er statistisk signifikante. Hvis man antager, at almindelige ord som de sidstnævnte bør have en rimelig stabil udbredelse i sproget, også over lidt længere tidsrum, så indikerer den sandsynligvis ikke-tilfældige hyppighedsforskel en kompositorisk forskel på de to korpusser. En samlet vokabularundersøgelse Der er altså ikke blot intuitive, men også statistisk signifikante tegn på, at der er en forskel i sammensætningen af de to korpusser men hvor markant er den? For at få et indtryk heraf opstilles en komplet liste over samtlige ordformer, der i deres udbredelse i de to korpusser afviger så meget fra hinanden, at der næppe kan være tale om et tilfælde. Listen sorteres efter ikke-stigende G 2 -værdi. Tabel 2 viser toppen af denne liste 2, dvs. de statistisk mest fremtrædende vokabularforskelle 2 En mere omfattende liste er tilgængelig fra sprogtekbog/. 6

7 mellem de to korpusser. I kolonnerne +K90 og +K2000 er det markeret med et plus, i hvilket af de to korpusser pågældende ordform er overrepræsenteret. 7

8 Rang Ordform +K2000 +K90 G 2 1 EU du var hun mio at havde ham siger EF hende % han jeg NN mill Du dig danske pct direktør Hun har Internettet mig EUs Dansk_Folkeparti er procent gensplejsning Internet euroen Tabel 2: Ord, der mest signifikant adskiller K90 og K2000 fra hinanden 8

9 Resultatet viser umiddelbart to forhold: (1) at der er tidsbetingede forskelle på de to korpusser, og (2) at der må være påfaldende forskelle i sammensætningen af dem: 1. Ord som EU/EF, internett(et), Dansk_Folkeparti, euroen samt årstallene 1996, 1997, 1998, 2000, 2001 er entydigt tidsbestemte, og det overrasker derfor ikke, at de optræder blandt de ord, der mest signifikant adskiller de to korpusser fra hinanden. 2. Pronomener som du/dig, hun/hende, han/ham, jeg/mig, verber som siger, havde/har, var/er, subjunktionen/infinitivmarkøren at, adjektivet danske samt de fleste andre ord, som optræder i toppen af listen, og som ikke allerede er nævnt ovenfor under (1), burde intuitivt ikke optræde blandt de ord, der adskiller de to korpusser mest signifikant fra hinanden. Man burde kunne gå ud fra, at de under (2) anførte ordformer havde en ensartet udbredelse i to korpusser, der i deres sammensætning burde være rimelig identiske og derfor netop sammenlignelige. At de alligevel optræder med så høje G 2 - værdier, tyder stærkt på, at de to korpusser er sammensat mere forskelligt, end det måske ser ud til ved en ren overfladisk sammenlignende betragtning; og det viser ligeledes nødvendigheden af at udvikle statistiske metoder, der kan sikre en ensartet opbyging af to korpusser, der principielt kun må adskille sig i tidsdimensionen. Konkret betyder det, at der i toppen af en sådan sammenlignende G 2 -liste ikke må optræde ord som dem anført under punkt (2) ovenfor. Som det ses, kan log-likelihood-testen bruges til at lave mere tilforladelige sammenlignende undersøgelser af vokabularfrekvenser i korpusser, end man kan ved blot at sammenligne ordfrekvenser. Især ved enkelttekster eller homogent opbyggede korpusser er log-likelihood en meget enkel og velfungerende metode. Balancering af korpusser Resultaterne viser, at der er en markant kompositorisk forskel på K90 og K2000. Dette rejser spørgsmålet, hvorvidt det er muligt at bruge log-likelihood-testen ikke blot til afsløring af, om der er forskelle i sammensætningen af to korpusser, men også til bedre at styre sammensætningen af dem, at balancere et korpus, så det fx kommer til at ligne et allerede eksisterende. I første afsnit blev det beskrevet, hvordan headeroplysningerne i DDOK under selve udarbejdelsen af korpusset blev brugt til at holde styr på, hvor meget der var i korpusset af forskelligt materiale. Da headeroplysningerne er meget detaljerede og anvender begrænsede værdimængder for de fleste tekstbeskrivende kategorier, kan disse i kombination med log-likelihood-testen anvendes til at tilordne nyt tekstmateriale til disse kategorier. 9

10 Her skal der skitseres en mulig løsning på balanceproblemet, nemlig algoritmisk tekstklassifikation. For eksemplets skyld vil det her kun blive beskrevet, hvordan klassifikationen kan udføres med hensyn til tekstens domæne (headeroplysningen emne i DDOK). I det følgende introduceres først konceptet tekstspecifikke ord, der præciseres til specifikt vokabular, når der er fastlagt en signifikanstærskel. Dernæst demonstreres en heuristisk tilgang til tekstklassifikation, som herefter holdes op imod en alternativ tilgang. Tekstspecifikt vokabular Tekstspecifikke ord defineres som de ord, der er fremtrædende i en tekst, når man sammenligner den med en sproglig norm, fx et referencekorpus. Konceptet kan illustreres med et teksteksempel fra DDOK, der ifølge dens headeroplysninger stammer fra en fagsproglig monografi om emnet biologi. 3 Uddraget i DDOK omfatter ca ord; for at give et indtryk af teksten vises i figur 1 de indledende afsnit fra den. 4 Genteknologi betegner en samling teknikker, der er specielt beregnede til at ændre organismers arveegenskaber på målrettet måde. Traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride artsbarriererne. De nye genteknologi-metoder tillader derimod overførsel af arveegenskaber mellem principielt alle organismer. Baggrunden for dette er, at alle levende organismer fra bakterier til mennesket indeholder arvemasse, der er opbygget på principielt samme måde. De arvelige egenskaber findes i lange, trådformede molekyler. Det kemiske navn for dette arvemateriale er DNA. I begyndelsen af 1970 erne fandt man ud af metoder til at klippe DNA-tråden over på bestemte steder og at klæbe stykkerne sammen igen på en ny måde. Denne rekombination af arvemateriale kan celler foretage naturligt, men det havde ikke tidligere kunnet gøres i laboratoriet. Rekombineret DNA betegnes også rdna. Teknikken betegnes undertiden rekombinant-dna-teknik eller gensplejsning. Den traditionelle forædlingsteknik benytter sig som sagt også af rekombination af arvemateriale. Når en kornart krydses med en vild, nærtbeslægtet plante, håber man netop på at opnå en gunstig rekombination. Den nye genteknologi tillader, at man i højere grad specifikt kan styre og kontrollere, hvad der sker. Og den tillader, at et arveanlæg fra en fremmed art indsættes i en organismes arvemasse. Figur 1: Tekst til illustration af G 2 -baseret bestemmelse af tekstspecifikke ord Et første indtryk af eksempeltekstens vokabular får man, hvis man opstiller en såkaldt frekvensprofil i sin mest primitive udgave blot en liste over samtlige 3 Kirsten Fink og Ole Terney: Sådan reguleres genteknologi. Praksis og erfaringer. Foreningen af Bioteknologiske Industrier i Danmark, Kapitel Hele korpusteksten er tilgængelig fra sprogtekbog/. 10

11 unikke ordformer (types) i en given tekstmængde sorteret efter ikke-stigende hyppighed. Toppen af en sådan frekvensprofil for eksempelteksten og for Korpus 90 som helhed er vist i tabel 3. 5 Rang Ordform i f absolut f pct Ordform i f absolut f pct eksemplet K90 1 at 175 3,18 og ,00 2 i 138 2,50 i ,76 3 er 125 2,27 at ,41 4 af 124 2,25 er ,90 5 for 97 1,76 en ,59 6 og 92 1,67 det ,59 7 til 91 1,65 til ,51 8 en 84 1,52 af ,44 9 der 79 1,43 på ,39 10 har 68 1,23 med ,21 Tabel 3: Ti hyppigste types i teksteksemplet og Korpus 90 Tabellen viser, at de mest udbredte ordformer i såvel eksempelteksten som K90 udelukkende er partikler og pronomener, et par former af hjælpeverberne (er på rang 3, har på rang 10). Betragter man hele frekvensprofilen, ser man, bortset fra verbalformen kan (rang 15), udelukkende partikler og pronomener på de 22 første pladser. Først på rang 23 optræder et ord med mere konkret indhold, nemlig mikroorganismer. Tabel 4 viser de mest signifikant overrepræsenterede ordformer i eksempelteksten efter en sammenligning af de komplette frekvensprofiler for eksempelteksten og K90 vha. log-likelihood-testen. 6 Signifikant overrepræsenterede ordformer over en bestemt G 2 -tærskel svarende til p 0, 99 (eller en højere p-værdi) defineres som tekstens specifikke vokabular. Et sådant vokabular vil typisk indeholde tekstens mest betydningskonstituerende ord, og på baggrund af en sådan oversigt falder en (faglig) kategorisering af teksten intuitivt let: Den handler sandsynligvis om biologi/genteknologi. Blandt mange andre headeroplysninger registrerer DDOK tekstens emne eller det domæne, den primært kan tilordnes, i den tilhørende header. Hvis der én gang er udarbejdet et korpus med konsekvente domæneoplysninger til teksterne, kan 5 De komplette profiler er tilgængelige fra sprogtekbog/. 6 Den komplette liste er tilgængelig fra sprogtekbog/, hvor man også kan uploade egne tekster og få opstillet frekvensprofiler og lister med teksternes specifikke ord. 11

12 Rang Type G 2 1 mikroorganismer 295,2 2 f.eks. 229,6 3 organismer 227, ,8 5 gensplejsede 197,2 6 udsætning 177,5 7 miljøstyrelse 132, ,7 9 EPA 98,8 10 Marcker 95,4 11 Bacillus 85,4 12 klasse 83,3 13 bakterie 77,4 14 K12-kolibakterien 71,5 15 genteknologi 70,4 Tabel 4: Tekstspecifikke ord i eksempelteksten dette muligvis bruges til automatisk at domæneklassificere nyt tekstmateriale på en helt tilsvarende måde, så domæneklassifikationen i det nye korpus svarer til den i det gamle. Hvis man herefter sørger for, at der er de samme mængder materiale i de forskellige domæner i det gamle og det nye korpus, skulle begge være sammenlignelige med hensyn til denne beskrivelseskategori. Domænespecifikke vokabularer Udgangspunktet for tekstklassifikationen efter domæne er altså DDOK, hvor 88,6 procent af de teksteksempler (overvejende ikke-fiktive tekster) er tilordnet ét af 66 mulige domæner. Domæneklassifikationssystemet, som ligger til grund for DDOK, er en simplificeret version af folkebibliotekernes decimalklassifikationssystem DK5, jf. fx [Friis-Hansen, 1978]: 66 domæner eller emneområder herfra blev udvalgt til beskrivelse af teksterne i DDOK. På baggrund af domænekoderne i headerne etableres 66 domænespecifikke subkorpusser. For hvert af dem opstilles en frekvensprofil; det samme gøres for hele DDOK, hvorefter vokabularerne for hvert af de domænespecifikke korpusser sammenlignes med hele DDOK under anvendelse af log-likelihood-testen. Mængden af ordformer, som er signifikant (p 0,99) overrepræsenterede i et domænespecifikt korpus sammenlignet med DDOK som helhed betragtes som domænespecifikke vokabularer. Deres indhold virker for samtlige vokabularer umiddelbart 12

13 karakteristisk for pågældende domæne, som tabel 5 giver et indtryk af, hvor de 15 mest fremtrædende ordformer for domænerne edb, filosofi og økonomi er opført. 7 Edb Filosofi Økonomi data mennesket kr. programmer kierkegaard X,X computer moral pct. computeren løgstrup procent edb aristoteles kroner computere filosofi rente ibm fornuft offentlige pc platon økonomiske kan kierkegaards bank mb den X apple menneskets økonomi amiga filosof vil commodore liv mia. windows sansning milliarder datamaskine fornuften indkomst Tabel 5: Mest fremtrædende ordformer i tre domænespecifikke vokabularer Selvom de således udvundne domænespecifikke vokabularer umiddelbart ser tilforladelige ud, er der knyttet et par uvisheder til dem. Den første uvished er det arbitrære signifikansniveau p 0, 99. Et andet niveau ville have medført et tilsvarende større eller mindre vokabular for hvert domæne. En yderligere usikkerhed, forbundet med signifikansniveauet, er, at de udvundne domænespecifikke vokabularer er forskelligt store. Således indeholder vokabularet for domænet folkloristik kun 1957 types, hvorimod domænet sport har types; gennemsnittet for de 66 domæner er En anden fremgangsmåde kunne have fokuseret på at få etableret lige store vokabularer for de enkelte domæner (dvs. med skiftende signifikansniveauer for de enkelte domæner), fx de 100 mest fremtrædende for hvert domæne, uanset størrelsen af det korpus, som ligger til grund herfor. Her betragtes statistisk signifikans dog som et mere pålideligt mål end lige store domænespecifikke vokabularer, idet størrelsen her må vælges i blinde uden et statistisk argument. Den varierende størrelse på de forskellige domænespecifikke vokabularer bør dog siden indgå i den heuristiske klassifikationsalgoritme, idet man ellers må frygte forvrængninger betinget af vokabularernes størrelse. 7 Den her anvendte tokeniser omsætter sekvenser af cifre til symbolet X og store bogstaver til små. De komplette domænespecifikke vokabularer for de tre domæner er tilgængelige fra http: //korpus.dsl.dk/staff/ja/papers/sprogtekbog/. 13

14 Den anden uvished er de frekvente funktionsord, som optræder højtplaceret på vores lister over domænespecifikke vokabluarer. Som det ses i tabel 5, så optræder både den og vil forholdsvis prominent placeret. Det samme gælder for et iøjnefaldende stort antal andre funktionsord, som forekommer inden for andre domænevokabularer eller med en lavere rang i de tre viste vokabularer. Dette fænomen harmonerer ikke med det umiddelbare indtryk, disse vokabularer ellers giver, nemlig at indeholde et centralt ordforråd for de enkelte domæner. Man kunne overveje at ekskludere funktionsordene fra domænevokabularerne; dette ville imidlertid kræve, at man også oprettede et leksikon over funktionsord, hvis indhold ville være afhængig af ens definition af, hvad et funktionsord er hermed ville der blive introduceret endnu en uvished. Desuden kan det ikke udelukkes, at funktionsordene indgår i domæne-typiske kollokationer. Derfor beholdes de i de domænespecifikke vokabularer. Heuristisk tekstklassifikation De 66 domænespecifikke vokabularer skal nu danne udgangspunkt for en heuristisk tilordning af en vilkårlig ukendt tekst til et af disse domæner. Til dette formål skal der i det følgende opstilles en heuristisk algoritme. Dens grundlæggende udgangspunkt er, at den sammenligner den ukendte teksts vokabular med hvert af de 66 domænespecifikke vokabularer og tilordner teksten det domæne, hvor der konstateres størst overensstemmelse. Graden af overensstemmelse mellem en ukendt tekst og et domænespecifikt vokabular udtrykkes vha. en score, som bestemmes således: 1. For hvert token t fra den ukendte tekst W, som også er indeholdt i domænets specifikke vokabular D, adderes en bestemt værdi w t : t D W w t. Ved at beregne scoren på baggrund af tokens snarere end types i teksten tages der højde for frekvensen af domænespecifikke ordformer i teksten: jo højere frekvens, desto højere score. 2. Der skal tages hensyn til, i hvor mange domænespecifikke vokabularer tokenet t forekommer. Forekommer det i mange vokabularer, er det måske i virkeligheden ikke så specifikt alligevel, jf. også diskussionen om funktionsord i forudgående afsnit. Forekommer tokenet i mange domæner, skal værdien sættes lavere og omvendt. Derfor sættes værdien w t til det omvendt proportionale af det antal domæner d, i hvis specifikke vokabularer D tekst-tokenet t forekommer, altså w t = 1 d, hvor d = i t D i. 3. Der skal også tages hensyn til det domænespecifikke vokabulars størrelse, som der sammenlinges med, for at mindske sandsynligheden for, at man for domæner med store vokabularer, fx sport, automatisk får en højere score 14

15 end for domæner med små vokabularer som fx folkloristik. Derfor modificeres scoren med en vægt v, som er omvendt proportional til en funktion kvadratrodsfunktionen har vist sig at virke hensigtsmæssig af domænets specifikke vokabulars D størrelse: v = 1. D 4. Endvidere skal der i beregningen også tages hensyn til, hvor mange af den ukendte teksts tokens der overhovedet er indeholdt i mindst ét af de domænespecifikke vokabularer. Indeholder en tekst mange ukendte tokens, altså ordformer, der ikke er registreret i noget domænespecifikt vokabular, er der måske tale om en tekst, der ikke har en så entydig domænetilknytning, og scoren bør følgelig vægtes lavere. Så der beregnes en yderligere vægt til modifikation af scoren, nemlig forholdet mellem antallet af tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: k u. 5. Endelig kan scoren gøres relativ til tekstlængden i antal tokens n ved at multiplicere den med 1 n. De enkelte led (1 5) i beregningen af scoren s D for et givet domæne D kombineres herefter til følgende udtryk: s D = 1 n k u v w t t D W Det domæne, der på baggrund af dette udtryk opnår den højeste score, vinder, og teksten bliver tilordnet dette domæne. 8 På denne måde bliver det i princippet muligt automatisk at tilordne nyt tekstmateriale til domæner, som de kommer til udtryk i det klassifikationssystem, der blev opbygget for DDOK og det vil være muligt at opbygge et korpus med et tilsvarende domæne-miks som DDOK s. Det, der karakteriserer denne heuristiske tilgang, er, at der laves forskellige antagelser om egenskaber ved det eksisterende korpus, de herfra ekstraherede domænespecifikke vokabularer og de nye tekster, der skal klassificeres; og antagelserne omsættes til et kvantitativt udtryk, der anvendes i klassifikationsalgoritmen. Ud over de ovenfor under punkt 1 5 nævnte kvantificerede egenskaber kan der tænkes andre, fx også G 2 -rangen, som en ordform har inden for et domænespecifikt vokabular. Den valgte fremgangsmåde leverer umiddelbart acceptable resultater, men det er ikke ensbetydende med, at den er acceptabel ud fra en lingvistisk betragtning. Man burde derfor undersøge, om den virkelig kvantificerer sproglige egenskaber hensigtsmæssigt. 8 En implementation af algoritmen er tilgængelig fra papers/sprogtekbog/, hvor man kan uploade egne tekster og få dem domæneklassificeret. 15

16 Alternative tekstklassifikationsmetoder Man kunne også have valgt andre, mere matematisk orienterede tilgange som IDF, decision trees eller k Nearest Neighbour-klassifikation, som er beskrevet i fx [Manning and Schütze, 1999]. Eller en variant af den rent geometriske tilgang i [Widdows, 2003], som første test antyder kunne være et interessant alternativ til den heuristiske metode. Grundtanken er at sammenligne enten frekvensprofiler, [Widdows, 2003, kap. 5] eller måske bedre: tekst- og domænespecifikke vokabularer med tilknyttede G 2 -værdier som vektorer i n-dimensionale rum og bestemme afstanden mellem dem ved hjælp af en generalisering af Pythagoras sætning c = a 2 + b 2. Balancen i fremtidens referencekorpusser Hvilken af de skitserede metoder den heuristiske eller den geometriske der er den mest præcise til domæneklassifikation, må en storstilet aftestning af dem vise. En sådan aftestning gennemføres, ved at DDOK deles op i to portioner: én til træningsformål, som vi kalder T på fx 3 2 af det samlede omfang, og én til evalueringsformål, E, på fx 1 3. Det undersøges, hvor stor en andel af teksterne i E der kan bestemmes korrekt på baggrund af T for hver af de to metoder og forskellige varianter af dem. Første forsøgsvise test tyder på, at begge metoder har en relativ høj præcision. Et interessant teoretisk spørgsmål er, hvori slægtskabet mellem de to tilgange består: Hvis de stort set yder det samme, men den ene er en kvantificering af antagelser om materialets kvalitative beskaffenhed, mens den anden gør brug af en geometrisk metafor, hvad skyldes det så, at de stort set yder det samme? Anvendelsen af kvantitative metoder, som de viste, skal sikre en mere eksplicit deklaration af DSL s fremtidige referencekorpusser og gøre det muligt at opbygge mere velafbalancerede korpusser, end det hidtil har været muligt med rent intuitive og andre pragmatiske fremgangsmåder. Dermed skulle det også blive muligt at udføre mere pålidelige sammenlignende undersøgelser mellem forskellige korpusser. De her skitserede metoder til balancering vedrører ganske vist kun domænetilordningen af tekstmateriale, men de vil blive udvidet til også at omfatte andre tekstuelle kategorier, som det næste teksternes genre. Målet bør være at kunne give en kvantitativ deklaration af et korpus, så brugeren ved, hvilke forskelle og ligheder der er mellem korpusser med hensyn til forskellige tekstuelle dimensioner. Men de skitserede metoder er også nyttige til andre formål end balancering af korpusser, nemlig ved opbygning af subkorpusser med bestemte specifikationer, fx et korpus med tekster fra et bestemt fagområde, fx økonomi 16

17 udtræk af fagspecifikke vokabularer, jf. [Asmussen, 2005a]. Hensigten om at gøre det bedre næste gang retter naturligvis ikke op på den skævhed, der kan konstateres for K2000 s vedkommende set i relation til K90, så der arbejdes på at finde en mulighed for at anvende tilsvarende metoder som korrektiv, når man laver sammenlignende undersøgelser på disse to korpusser. Korrektionen ville umiddelbart kunne bestå i virtuelt at nedskalere både K2000 og K90, dvs. at se bort fra det materiale i dem, som er overrepræsenteret i det ene eller det andet korpus. Herved introduceres der ganske vist et nyt problem, nemlig at de to virtuelle korpusser efter al sandsynlighed bliver af forskellige størrelse, hvilket gør absolutte frekvenssammenligninger mellem dem upålidelige. I stedet kan man ganske vist arbejde med relative, men heller ikke dette er pålideligt, som påvist af [Evert and Baroni, 2005]. At designe korpusser er med tiden blevet andet og meget mere end opportunistisk at indsamle det materiale, man kan komme i nærheden af og sætte det sammen efter pragmatiske principper og så ellers bare undersøge løs på det. Skal et referencekorpus virkelig fungere som en sproglig stikprøve, der vil kunne gøre krav på at være repræsentativ for sproget som sådant på et givet tidspunkt, så kræves en metodologi, der gør det muligt at måle og veje korpusser, så deres indhold kan deklareres entydigt. Dette bidrag skal ses som et lille skridt på vejen mod at få udarbejdet og implementeret en sådan metodologi til gavn for bedre almensproglige referencekorpusser for dansk. Litteratur [Asmussen, 2004] Asmussen, J. (2004). Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser. In Duncker, D., editor, Studier i Nordisk , København. Selskab for Nordisk Filologi. [Asmussen, 2005a] Asmussen, J. (2005a). Automatic detection of new domainspecific words, using document classification and frequency profiling. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Asmussen, 2005b] Asmussen, J. (2005b). Towards a methodology for corpusbased studies of linguistic change. Contrastive observations and their possible diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of Danish. In Archer, D., Rayson, P., and Wilson, editors, Corpus Linguistics Around the World. Rodopi, Amsterdam. [Bick, 2003] Bick, E. (2003). Morfosyntaktisk opmærkede corpora for dansk. In 9. Møde om Udforskningen af Dansk Sprog oktober 2002, Århus. Aarhus Universitet. 17

18 [COBUILD: Sinclair et al., 1987] COBUILD: Sinclair, J. et al., editors (1987). Collins COBUILD English Language Dictionary. Collins. [Daille, 1995] Daille, B. (1995). Combined approach for terminology extraction: lexical statistics and linguistic filtering. Technical Report 5, Lancaster. [DDO: Hjorth et al., 2003] DDO: Hjorth, E., Kristensen, K., Lorentzen, H., Trap- Jensen, L., Asmussen, J., et al., editors (2003). Den Danske Ordbog 1-6. DSL & Gyldendal, København/Copenhagen. [Dunning, 1994] Dunning, T. (1994). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, (19(1)): [Evert and Baroni, 2005] Evert, S. and Baroni, M. (2005). Testing the extrapolation quality of word frequency models. In Proceedings of the Corpus Linguistics 2005 conference, Birmingham. [Friis-Hansen, 1978] Friis-Hansen, J. B. (1978). Hjælpebog til DK5. [Garside and Rayson, 2000] Garside, R. and Rayson, P. (2000). Comparing corpora using frequency profiling. In Proceedings of the workshop on Comparing Corpora, held in conjunction with the 38th annual meeting of the Association for Computational Linguistics (ACL 2000), pages 1 6, Hong Kong. [Kilgarriff, 2001] Kilgarriff, A. (2001). Comparing Corpora. IJCL, 6(1): [Lorentzen, 2004] Lorentzen, H. (2004). The Danish Dictionary at large: presentation, problems and perspectives. In Proceedings of the 11th EURALEX International Congress, volume 1, pages , Lorient. Euralex. [Manning and Schütze, 1999] Manning, C. D. and Schütze, H. (1999). Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 2003 edition. [Norling-Christensen and Asmussen, 1998] Norling-Christensen, O. and Asmussen, J. (1998). The Corpus of The Danish Dictionary. Lexikos. Afrilex Series, 8: [Widdows, 2003] Widdows, D. (2003). Geometry and Meaning. Center for the Study of Language and Information Lecture Notes (CSLI-LN). The University of Chicago Press, Chicago. 18

Korpusbaseret lemmaselektion og opdatering

Korpusbaseret lemmaselektion og opdatering Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk Program 1. Introduktion til DSL 2. Introduktion

Læs mere

Intro til design og brug af korpora

Intro til design og brug af korpora Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-

Læs mere

Kvantitative metoder inden for korpuslingvistiske projekter

Kvantitative metoder inden for korpuslingvistiske projekter Kvantitative metoder inden for korpuslingvistiske projekter Illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90 Jørg Asmussen Det Danske Sprog- og Litteraturselskab, DSL ja@dsl.dk

Læs mere

Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90.

Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90. Kvantitative metoder inden for korpuslingvistiske projekter illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90. Jørg Asmussen Det Danske Sprog- og Litteraturselskab www.dsl.dk

Læs mere

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side Rita Lenstrup 109 Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side 127-136. 1. Indledning I Hermes nr. 5 præsenteredes en sammenlignende vurdering

Læs mere

Informationssøgning metoder og scenarier

Informationssøgning metoder og scenarier Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean

Læs mere

Appendiks 6: Universet som en matematisk struktur

Appendiks 6: Universet som en matematisk struktur Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes

Læs mere

Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser

Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser Korpus 2000 til hvilken nytte? Muligheder og grænser for empiriske sprogundersøgelser JØRG ASMUSSEN Korpus 2000 er et korpus over dansk skriftsprog omkring år 2000 udarbejdet med henblik på at give alle

Læs mere

Metoder og struktur ved skriftligt arbejde i idræt.

Metoder og struktur ved skriftligt arbejde i idræt. Metoder og struktur ved skriftligt arbejde i idræt. Kort gennemgang omkring opgaver: Som udgangspunkt skal du når du skriver opgaver i idræt bygge den op med udgangspunkt i de taksonomiske niveauer. Dvs.

Læs mere

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag? En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL OVERSÆTTELSE AF SELSKABSRETLIG DOKUMENTATION. I den foreliggende

Læs mere

Et oplæg til dokumentation og evaluering

Et oplæg til dokumentation og evaluering Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Statistik og beregningsudredning

Statistik og beregningsudredning Bilag 7 Statistik og beregningsudredning ved Overlæge Søren Paaske Johnsen, medlem af Ekspertgruppen Marts 2008 Bilag til Ekspertgruppens anbefalinger til videreudvikling af Sundhedskvalitet www.sundhedskvalitet.dk

Læs mere

Solidaritet, risikovillighed og partnerskønhed

Solidaritet, risikovillighed og partnerskønhed Rockwool Fondens Forskningsenhed Arbejdspapir 36 Solidaritet, risikovillighed og partnerskønhed Jens Bonke København 1 Solidaritet, risikovillighed og partnerskønhed Arbejdspapir 36 Udgivet af: Rockwool

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Fremstillingsformer Fremstillingsformer Vurdere Konkludere Fortolke/tolke Diskutere Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Udtrykke eller Vurder: bestemme På baggrund af biologisk

Læs mere

3. klasse 6. klasse 9. klasse

3. klasse 6. klasse 9. klasse Børne- og Undervisningsudvalget 2012-13 BUU Alm.del Bilag 326 Offentligt Elevplan 3. klasse 6. klasse 9. klasse Matematiske kompetencer Status tal og algebra sikker i, er usikker i de naturlige tals opbygning

Læs mere

It-støttet excerpering og registrering af nye ord og ordforbindelser

It-støttet excerpering og registrering af nye ord og ordforbindelser It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition

Læs mere

En statistikstuderendes bekendelser Søren Wengel Mogensen

En statistikstuderendes bekendelser Søren Wengel Mogensen Oplysning 23 En statistikstuderendes bekendelser Søren Wengel Mogensen Om at skrive BSc-opgave i anvendt statistik. Der findes matematikere (i hvert fald matematikstuderende), der mener, at den rene matematik

Læs mere

LUP læsevejledning til regionsrapporter

LUP læsevejledning til regionsrapporter Indhold Overblik... 2 Sammenligninger... 2 Hvad viser figuren?... 3 Hvad viser tabellerne?... 5 Eksempler på typiske spørgsmål til tabellerne... 6 Øvrigt materiale Baggrund og metode for LUP Fødende: Analysemetoderne,

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Undersøgelse af den nordiske befolknings kendskab og holdning til Nordisk Råd og Nordisk Ministerråd og et særligt forstærket nordisk samarbejde

Undersøgelse af den nordiske befolknings kendskab og holdning til Nordisk Råd og Nordisk Ministerråd og et særligt forstærket nordisk samarbejde Undersøgelse af den nordiske befolknings kendskab og holdning til Nordisk Råd og Nordisk Ministerråd og et særligt forstærket nordisk samarbejde Oxford Research, oktober 2010 Opsummering Undersøgelsen

Læs mere

Hvad er formel logik?

Hvad er formel logik? Kapitel 1 Hvad er formel logik? Hvad er logik? I daglig tale betyder logisk tænkning den rationelt overbevisende tænkning. Og logik kan tilsvarende defineres som den rationelle tænknings videnskab. Betragt

Læs mere

MATEMATIK. Formål for faget

MATEMATIK. Formål for faget MATEMATIK Formål for faget Formålet med undervisningen er, at eleverne udvikler matematiske kompetencer og opnår viden og kunnen således, at de bliver i stand til at begå sig hensigtsmæssigt i matematikrelaterede

Læs mere

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008 Interviewereffekter på spørgsmål om sort arbejde Rockwool Fondens Forskningsenhed Oktober 2008 Tak til Rockwool Fondens Forskningsenhed Danmarks Statistiks Interviewservice, specielt til Isak Isaksen,

Læs mere

Sproglig udvikling i Fælles Mål i alle fag Kl

Sproglig udvikling i Fælles Mål i alle fag Kl Sproglig udvikling i Fælles Mål i alle fag Kl. 14.40-15.20 Dansk som andetsprog som dimension i fagene samt faglig læsning og skrivning er under overskriften Sproglig udvikling skrevet ind som tværgående

Læs mere

Vurdering af kvalitet en note af Tove Zöga Larsen

Vurdering af kvalitet en note af Tove Zöga Larsen Vurdering af kvalitet en note af Tove Zöga Larsen Kvalitet... 2 Test... 2 Hvordan finder man testdata?... 2 Dokumentation af test... 3 Review... 3 Vurderingskriterier... 3 Gennemførelsen af et review...

Læs mere

6 Medicinrådets kategorisering af den kliniske merværdi (Forslag til ny formulering af afsnit 6)

6 Medicinrådets kategorisering af den kliniske merværdi (Forslag til ny formulering af afsnit 6) Høringsmateriale 2/2: Høring over forslag til ændring afsnit 6 vedrørende kategorisering af klinisk merværdi i Metodehåndbog for Medicinrådets arbejde med at udarbejde fælles regionale vurderinger af nye

Læs mere

Karrierekvinder og -mænd

Karrierekvinder og -mænd Rockwool Fondens Forskningsenhed Arbejdspapir 35 Karrierekvinder og -mænd Hvem er de? Og hvor travlt har de? Jens Bonke København 2015 Karrierekvinder og -mænd Hvem er de? Og hvor travlt har de? Arbejdspapir

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Digitalt børne- og ungdomsliv anno 2009

Digitalt børne- og ungdomsliv anno 2009 Digitalt børne- og ungdomsliv anno 2009 MEDIERÅDET For Børn og Unge Februar 2009 Zapera A/S Robert Clausen, rc@zapera.com, 3022 4253. Side 1 af 53 Ideen og baggrunden for undersøgelsen. Medierådet for

Læs mere

Læseundersøgelse blandt unge i målgruppe for forberedende grunduddannelse (FGU)

Læseundersøgelse blandt unge i målgruppe for forberedende grunduddannelse (FGU) Læseundersøgelse blandt unge i målgruppe for forberedende grunduddannelse (FGU) Anna Steenberg Gellert og Carsten Elbro, Center for Læseforskning, Københavns Universitet Baggrund På den nyligt oprettede

Læs mere

Analyseinstitut for Forskning

Analyseinstitut for Forskning Analyseinstitut for Forskning Folk og forskning Forskningsformidling - Danskernes kilder til viden om forskning Notat 2001/2 ISSN: 1399-8897 Analyseinstitut for Forskning/ The Danish Institute for Studies

Læs mere

Guide til lektielæsning

Guide til lektielæsning Guide til lektielæsning Gefions lærere har udarbejdet denne guide om lektielæsning. Den henvender sig til alle Gefions elever og er relevant for alle fag. Faglig læsning (=lektielæsning) 5- trinsmodellen

Læs mere

Læsevejledning til resultater på regions- og sygehusplan

Læsevejledning til resultater på regions- og sygehusplan Læsevejledning til resultater på regions- og sygehusplan Indhold 1. Overblik...2 2. Sammenligninger...2 3. Hvad viser figuren?...3 4. Hvad viser tabellerne?...6 6. Eksempler på typiske spørgsmål til tabellerne...9

Læs mere

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1 Ingeniør- og naturvidenskabelig metodelære Dette kursusmateriale er udviklet af: Jesper H. Larsen Institut for Produktion Aalborg Universitet Kursusholder: Lars Peter Jensen Formål & Mål Formål: At støtte

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Databrud i Arbejdskraftundersøgelsen mellem 2016 og 2017

Databrud i Arbejdskraftundersøgelsen mellem 2016 og 2017 21. februar 2018 TCO, SWE Arbejdsmarked Databrud i Arbejdskraftundersøgelsen mellem 2016 og 2017 Resumé Der er brud i dataserien for Arbejdskraftundersøgelsen (AKU) mellem fjerde kvartal 2016 og første

Læs mere

En ny vej - Statusrapport juli 2013

En ny vej - Statusrapport juli 2013 En ny vej - Statusrapport juli 2013 Af Konsulent, cand.mag. Hanne Niemann Jensen HR-afdelingen, Fredericia Kommune I det følgende sammenfattes resultaterne af en undersøgelse af borgernes oplevelse af

Læs mere

Evaluering af matematik undervisning

Evaluering af matematik undervisning Evaluering af matematik undervisning Udarbejdet af Khaled Zaher, matematiklærer 6-9 klasse og Boushra Chami, matematiklærer 2-5 klasse Matematiske kompetencer. Fællesmål efter 3.klasse indgå i dialog om

Læs mere

Læseplan for faget matematik. 1. 9. klassetrin

Læseplan for faget matematik. 1. 9. klassetrin Læseplan for faget matematik 1. 9. klassetrin Matematikundervisningen bygger på elevernes mange forudsætninger, som de har med når de starter i skolen. Der bygges videre på elevernes forskellige faglige

Læs mere

Fremstillingsformer i historie

Fremstillingsformer i historie Fremstillingsformer i historie DET BESKRIVENDE NIVEAU Et referat er en kortfattet, neutral og loyal gengivelse af tekstens væsentligste indhold. Du skal vise, at du kan skelne væsentligt fra uvæsentligt

Læs mere

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Humanistisk metode Vejledning på Kalundborg Gymnasium & HF Samfundsfaglig metode Indenfor det samfundsvidenskabelige område arbejdes der med mange

Læs mere

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Kort sagt: succes med netdating.

Kort sagt: succes med netdating. Indledning I denne e- bog får du en guide til, hvordan du knækker netdating koden! Du finder alt hvad du skal bruge, for at komme igang med at møde søde piger på nettet. Få f.eks. besvaret følgende spørgsmål:

Læs mere

Matematik. Matematiske kompetencer

Matematik. Matematiske kompetencer Matematiske kompetencer skelne mellem definitioner og sætninger, mellem enkelttilfælde og generaliseringer og anvende denne indsigt til at udforske og indgå i dialog om forskellige matematiske begrebers

Læs mere

Prosodi i ledsætninger

Prosodi i ledsætninger Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger

Læs mere

Effektmåling 1. Mere attraktive almene boliger?

Effektmåling 1. Mere attraktive almene boliger? Effektmåling 1 Mere attraktive almene boliger? Effektevaluering af Omprioriteringsloven 2000 Effektmålinger Formål med pjecerne Der er i dag et stigende fokus på effekterne af de offentlige indsatser,

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Matematik samlet evaluering for Ahi Internationale Skole

Matematik samlet evaluering for Ahi Internationale Skole efter 3.klasse. e efter 6.klasse. e Skole efter 9.klasse. e indgå i dialog om spørgsmål og svar, som er karakteristiske i arbejdet med matematik (tankegangskompetence formulere sig skriftligt og mundtligt

Læs mere

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne 3. ARBEJDSMILJØET OG ARBEJDSMILJØARBEJDET I dette afsnit beskrives arbejdsmiljøet og arbejdsmiljøarbejdet på de fem FTF-områder. Desuden beskrives resultaterne af arbejdsmiljøarbejdet, og det undersøges

Læs mere

Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog

Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december 2016 Dansk som andetsprog Information om prøven i skriftlig fremstilling D Prøven i skriftlig fremstilling D består af et teksthæfte,

Læs mere

Nye metoder til bestemmelse af KCl i halm

Nye metoder til bestemmelse af KCl i halm RESUME for Eltra PSO-F&U projekt nr. 3136 Juli 2002 Nye metoder til bestemmelse af KCl i halm Indhold af vandopløselige salte som kaliumchlorid (KCl) i halm kan give anledning til en række forskellige

Læs mere

Årsplan for 7. klasse, matematik

Årsplan for 7. klasse, matematik Årsplan for 7. klasse, matematik I matematik bruger vi bogsystemet Sigma som grundmateriale. I systemet er der, ud over grundbogen, også kopiark og tests tilknyttet de enkelte kapitler. Systemet er udarbejdet

Læs mere

Fuldstændig fantastisk?

Fuldstændig fantastisk? Fuldstændig fantastisk? Holger Juul, lektor, ph.d., Center for Læseforskning, Københavns Universitet Enten-eller vs. både-og I marts-nummeret af Nyt om Ordblindhed tager Erik Arendal afstand fra det han

Læs mere

Auto Illustrator Digital æstetik: Analyse Skriveøvelse 1

Auto Illustrator Digital æstetik: Analyse Skriveøvelse 1 Auto Illustrator Digital æstetik: Analyse Skriveøvelse 1 Marie Louise Juul Søndergaard, DD2010 Studienr. 20104622 Anslag: 11.917 Indholdsfortegnelse INDLEDNING 2 AUTO ILLUSTRATOR 2 METAFORER OG METONYMIER

Læs mere

Monitoreringen og effektvurderingen omfatter kun strukturfondsprojekter og medtager ikke andre projekter igangsat af Vækstforum Midtjylland.

Monitoreringen og effektvurderingen omfatter kun strukturfondsprojekter og medtager ikke andre projekter igangsat af Vækstforum Midtjylland. Danmarks Statistik, regionerne, Bornholms regionskommune og Erhvervsstyrelsen har udviklet et værktøj, som gør det muligt at følge (monitorere) den faktiske udvikling i de virksomheder, der deltager i

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

Der er elementer i de nyateistiske aktiviteter, som man kan være taknemmelig for. Det gælder dog ikke retorikken. Må-

Der er elementer i de nyateistiske aktiviteter, som man kan være taknemmelig for. Det gælder dog ikke retorikken. Må- Introduktion Fra 2004 og nogle år frem udkom der flere bøger på engelsk, skrevet af ateister, som omhandlede Gud, religion og kristendom. Tilgangen var usædvanlig kritisk over for gudstro og kristendom.

Læs mere

1. Hvad er det for en problemstilling eller et fænomen, du vil undersøge? 2. Undersøg, hvad der allerede findes af teori og andre undersøgelser.

1. Hvad er det for en problemstilling eller et fænomen, du vil undersøge? 2. Undersøg, hvad der allerede findes af teori og andre undersøgelser. Psykologiske feltundersøgelser kap. 28 (Kilde: Psykologiens veje ibog, Systime Ole Schultz Larsen) Når du skal i gang med at lave en undersøgelse, er der mange ting at tage stilling til. Det er indlysende,

Læs mere

Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen

Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen 30. juni 2011 Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen 1. Indledning I perioden fra 7. juni til 21. juni 2011 fik de personer der har modtaget sygedagpenge hos Silkeborg Kommune

Læs mere

Analyseinstitut for Forskning

Analyseinstitut for Forskning Analyseinstitut for Forskning Bioteknologi Opfattelser og holdninger blandt danskere, 1989-2000 Notat 2001/3 ISSN: 1399-8897 Analyseinstitut for Forskning/ The Danish Institute for Studies in Research

Læs mere

Individer er ikke selv ansvarlige for deres livsstilssygdomme

Individer er ikke selv ansvarlige for deres livsstilssygdomme Individer er ikke selv ansvarlige for deres livsstilssygdomme Baggrunden Både i akademisk litteratur og i offentligheden bliver spørgsmål om eget ansvar for sundhed stadig mere diskuteret. I takt med,

Læs mere

Eleverne skal lære at:

Eleverne skal lære at: PK: Årsplan 8.Ga. M, matematik Tid og fagligt område Aktivitet Læringsmål Uge 32 uge 50 Tal og algebra Eleverne skal arbejde med at: kende de reelle tal og anvende dem i praktiske og teoretiske sammenhænge

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere DET ØKONOMISKE RÅD S E K R E T A R I A T E T d. 20. maj 2005 SG Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere Baggrundsnotat vedr. Dansk Økonomi, forår 2005, kapitel

Læs mere

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,

Læs mere

MATEMATIK. GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål

MATEMATIK. GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål MATEMATIK GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål KOMMENTAR Vi har i det følgende foretaget en analyse og en sammenstilling af vore materialer til skriftlig

Læs mere

Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3

Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3 Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3 Indholdsfortegnelse Indledning Prisudvikling 2.1 Prisudviklingen fra 2014 til

Læs mere

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund.

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund. Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund. Alle rettigheder forbeholdes. Mekanisk, fotografisk eller elektronisk gengivelse af denne bog eller dele heraf er uden forfatternes skriftlige

Læs mere

JUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2017

JUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2017 JUSTITSMINISTERIETS FORSKNINGSKONTOR NOVEMBER 2017 UDVIKLINGEN I ANTAL ANMELDELSER OG I STRAFFENES ART OG LÆNGDE FOR VOLD, 2007-2016 På baggrund af Danmarks Statistiks tal vedrørende anmeldelser og strafferetlige

Læs mere

VisiRegn: En e-bro mellem regning og algebra

VisiRegn: En e-bro mellem regning og algebra Artikel i Matematik nr. 2 marts 2001 VisiRegn: En e-bro mellem regning og algebra Inge B. Larsen Siden midten af 80 erne har vi i INFA-projektet arbejdet med at udvikle regne(arks)programmer til skolens

Læs mere

Naturstyrelsens Referencelaboratorium for Kemiske Miljømålinger NOTAT

Naturstyrelsens Referencelaboratorium for Kemiske Miljømålinger NOTAT Naturstyrelsens Referencelaboratorium for Kemiske Miljømålinger NOTAT Til: Brugere af Bekendtgørelse om kvalitetskrav til miljømålinger udført af akkrediterede laboratorier, certificerede personer mv.

Læs mere

Faglige delmål og slutmål i faget Dansk. Trin 1

Faglige delmål og slutmål i faget Dansk. Trin 1 Faglige delmål og slutmål i faget Dansk. Trin 1 Undervisningen skal lede frem mod, at eleverne i 1. klasse har tilegnet sig kundskaber og Det talte sprog Undervisningen tager udgangspunkt i elevernes sproglige

Læs mere

Bilag 1a. Cpr.nr. Ikke. Samlet indstilling uddannelsesparat. uddannelsesparat

Bilag 1a. Cpr.nr. Ikke. Samlet indstilling uddannelsesparat. uddannelsesparat 1 Bilag 1a Dansk: den obligatoriske optagelsesprøve Prøvegrundlag: en tekst af max 1 normalsides omfang. Teksttyperne kan være prosa, lyrik eller sagprosa. Læse sikkert og hurtigt med forståelse og indlevelse

Læs mere

Fraktaler Mandelbrots Mængde

Fraktaler Mandelbrots Mængde Fraktaler Mandelbrots Mængde Foredragsnoter Af Jonas Lindstrøm Jensen Institut For Matematiske Fag Århus Universitet Indhold Indhold 1 1 Indledning 3 2 Komplekse tal 5 2.1 Definition.......................................

Læs mere

Sikre Beregninger. Kryptologi ved Datalogisk Institut, Aarhus Universitet

Sikre Beregninger. Kryptologi ved Datalogisk Institut, Aarhus Universitet Sikre Beregninger Kryptologi ved Datalogisk Institut, Aarhus Universitet 1 Introduktion I denne note skal vi kigge på hvordan man kan regne på data med maksimal sikkerhed, dvs. uden at kigge på de tal

Læs mere

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold.

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold. Social arv 163 8. Social arv nes sociale forhold nedarves til deres børn Seks områder undersøges Der er en klar tendens til, at forældrenes sociale forhold "nedarves" til deres børn. Det betyder bl.a.,

Læs mere

LUP Fødende læsevejledning til afdelingsrapporter

LUP Fødende læsevejledning til afdelingsrapporter Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Uddybende forklaring af elementer i figurer og tabeller...

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

LUP læsevejledning til afdelingsrapporter

LUP læsevejledning til afdelingsrapporter Indhold Hvordan du bruger læsevejledningen... 1 Oversigtsfigur... 2 Temafigur... 3 Spørgsmålstabel... 4 Respondenter og repræsentativitet... 6 Oversigtsfigur for afsnit/underopdelinger... 8 Uddybende forklaring

Læs mere

- erkendelsens begrænsning og en forenet kvanteteori for erkendelsen

- erkendelsens begrænsning og en forenet kvanteteori for erkendelsen Erkendelsesteori - erkendelsens begrænsning og en forenet kvanteteori for erkendelsen Carsten Ploug Olsen Indledning Gennem tiden har forskellige tænkere formuleret teorier om erkendelsen; Hvad er dens

Læs mere

Få optimeret dit firmas website til mobilen og styrk dit image ud af til.

Få optimeret dit firmas website til mobilen og styrk dit image ud af til. Få optimeret dit firmas website til mobilen og styrk dit image ud af til. Hvorfor? Vi danskere vil være på nettet overalt. Og det kan ses på mængden af datatrafik, vi henter og sender til og fra vores

Læs mere

DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island

DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island Jakob Halskov (jh.id@cbs.dk) Dept. of Computational Linguistics Copenhagen Business School

Læs mere

24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S 24-03-2009 Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S Problemstilling ved DBK integration i BIM Software Domæner og aspekter Det domæne, der primært

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

AT og elementær videnskabsteori

AT og elementær videnskabsteori AT og elementær videnskabsteori Hvilke metoder og teorier bruger du, når du søger ny viden? 7 begrebspar til at karakterisere viden og måden, du søger viden på! Indholdsoversigt s. 1: Faglige mål for AT

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Databrud i Arbejdskraftundersøgelsen i 1. kvt. 2017

Databrud i Arbejdskraftundersøgelsen i 1. kvt. 2017 24. maj 2017 TCO, SWE Arbejdsmarked Databrud i Arbejdskraftundersøgelsen i 1. kvt. 2017 Resumé Der er brud i dataserien for Arbejdskraftundersøgelsen (AKU) mellem fjerde kvartal 2016 og første kvartal

Læs mere

Nina Nielsen STANDARD RAPPORT. Adaptive General Reasoning Test

Nina Nielsen STANDARD RAPPORT. Adaptive General Reasoning Test Adaptive General Reasoning Test STANDARD RAPPORT Dette er en fortrolig rapport, som udelukkende må anvendes af personer med en gyldig certificering i anvendelse af værktøjet AdaptGRT fra DISCnordic. VIGTIGT

Læs mere

Årsplan for 2.kl i Matematik

Årsplan for 2.kl i Matematik Årsplan for 2.kl i Matematik Vi følger matematiksystemet "Matematrix". Her skal vi i år arbejde med bøgerne 2A og 2B. Eleverne i 2. klasse skal i 2. klasse gennemgå de fire regningsarter. Specielt skal

Læs mere

At konstruere et socialt rum. Annick Prieur og Lennart Rosenlund

At konstruere et socialt rum. Annick Prieur og Lennart Rosenlund At konstruere et socialt rum Annick Prieur og Lennart Rosenlund Vort sigte Vise hvorledes vi er gået frem, når vi har konstrueret et socialt rum ud fra surveydata fra en dansk by Aalborg efter de samme

Læs mere

Syv veje til kærligheden

Syv veje til kærligheden Syv veje til kærligheden Pouline Middleton 1. udgave, 1. oplag 2014 Fiction Works Aps Omslagsfoto: Fotograf Steen Larsen ISBN 9788799662999 Alle rettigheder forbeholdes. Enhver form for kommerciel gengivelse

Læs mere

Belønnes studieophold i udlandet på arbejdsmarkedet?

Belønnes studieophold i udlandet på arbejdsmarkedet? Belønnes studieophold i udlandet på arbejdsmarkedet? Emil Regin Brodersen 1. oktober 2017 Indledning Formålet med dette notat er, at undersøge om nyuddannede akademikere belønnes på arbejdsmarkedet for,

Læs mere

Lidt historisk om chancelære i grundskolen

Lidt historisk om chancelære i grundskolen Lidt historisk om chancelære i grundskolen 1976 1.-2.klassetrin Vejledende forslag til læseplan:.det tilstræbes endvidere at eleverne i et passende talmaterialer kan bestemme for eksempel det største tal,

Læs mere

Referencelaboratoriet for måling af emissioner til luften

Referencelaboratoriet for måling af emissioner til luften Referencelaboratoriet for måling af emissioner til luften Rapport nr.: 77 Titel Hvordan skal forekomsten af outliers på lugtmålinger vurderes? Undertitel - Forfatter(e) Arne Oxbøl Arbejdet udført, år 2015

Læs mere